Menguasai kualitas AI: Bagaimana kami menggunakan evaluasi model bahasa untuk meningkatkan kualitas keluaran model bahasa yang besar
Model bahasa yang besar telah membawa revolusi dalam pembuatan fitur AI. Mereka mengubah cara kita memandang otomatisasi dan kemampuan untuk menciptakan solusi cerdas yang dapat disesuaikan dengan berbagai kebutuhan bisnis. Dengan AI, kita bisa membuat aplikasi yang jauh lebih canggih dan fleksibel, memudahkan integrasi dengan API yang dapat diakses secara publik dari berbagai penyedia layanan seperti OpenAI, Anthropic, dan banyak lainnya.
Namun, meskipun API publik ini membuat proses integrasi menjadi lebih mudah, banyak tantangan muncul dalam pembuatan fitur AI yang berjalan di atas model bahasa. Salah satu tantangan terbesar adalah bagaimana menangani alur kerja yang kompleks ketika model ini tidak memberikan hasil yang konsisten. Di Webflow, tim kami berhadapan langsung dengan masalah ini ketika mencoba membangun produk AI kami. Alur kerja yang rumit sering kali melibatkan rangkaian panggilan berantai, di mana setiap langkah bergantung pada hasil dari langkah sebelumnya. Misalnya, dalam banyak kasus kami memerlukan format keluaran yang sangat ketat agar logika sistem dapat berjalan dengan benar. Ini memunculkan kebutuhan akan evaluasi yang lebih mendalam untuk memastikan bahwa AI benar-benar memenuhi kebutuhan pengguna kami.
Tantangan utama lainnya adalah sifat dari respons model yang probabilistik, bukan deterministik. Dalam dunia perangkat lunak tradisional, Anda dapat memastikan bahwa sebuah fungsi akan menghasilkan keluaran yang sama untuk setiap masukan yang sama. Namun, ketika bekerja dengan AI, terutama model bahasa yang besar, hasil bisa bervariasi bahkan dengan masukan yang sama. Ini membuat proses pengujian dan pemeliharaan jauh lebih sulit. Meskipun kami masih harus menulis pengujian integrasi dan unit untuk memverifikasi bahwa sistem menangani serangkaian respons yang telah ditetapkan sebelumnya, pengujian jenis baru diperlukan untuk menangani sifat probabilistik ini. Di sinilah evaluasi model menjadi sangat penting.
Memahami Evaluasi Model
Evaluasi model adalah metode untuk menguji dan mengevaluasi kinerja model AI dengan menjalankan sejumlah besar masukan yang telah ditetapkan sebelumnya melalui sistem. Alih-alih mencoba membuktikan bahwa sistem bekerja dengan benar, kami mengukur probabilitas bahwa respons model akan berhasil atau memenuhi kualitas yang diharapkan. Ini adalah pendekatan yang lebih mirip dengan evaluasi probabilistik ketimbang pengujian biner sederhana. Dalam evaluasi model, kami tidak hanya ingin memastikan bahwa model menghasilkan keluaran yang benar, tetapi juga menilai seberapa sering model berhasil menghasilkan keluaran berkualitas tinggi.
Untuk memastikan bahwa kami memiliki gambaran yang menyeluruh tentang kinerja model, evaluasi dilakukan di berbagai dimensi. Karena model bahasa dirancang untuk memahami dan menghasilkan bahasa manusia, kami harus menilai hasilnya tidak hanya secara objektif, tetapi juga secara subjektif. Penilaian subjektif memainkan peran penting dalam menentukan apakah AI dapat menangani tugas-tugas yang lebih rumit seperti pemahaman konteks atau nuansa bahasa. Oleh karena itu, di Webflow, kami telah mengadopsi beberapa jenis evaluasi model yang dapat digunakan untuk mengukur performa sistem kami secara komprehensif.
Evaluasi Subjektif dan Objektif
Ada dua jenis utama evaluasi model: subjektif dan objektif. Evaluasi subjektif melibatkan penilaian manusia terhadap kualitas hasil yang dihasilkan oleh model. Penilaian ini sering kali dilakukan dengan sistem penilaian multi-poin untuk menangkap perbedaan kualitas yang lebih halus. Misalnya, di tim kami, kami menggunakan skala tiga poin yang mencakup "Berhasil", "Berhasil Sebagian", dan "Gagal". Ini memungkinkan kami untuk melihat di mana model dapat meningkatkan kualitas atau di mana terjadi kegagalan yang signifikan.
Sebaliknya, evaluasi objektif dilakukan dengan cara yang lebih langsung, sering kali dengan menggunakan algoritma yang memeriksa keluaran berdasarkan kriteria tertentu, seperti format atau struktur yang benar. Misalnya, jika respons model harus dikembalikan dalam format JSON, kami bisa menulis skrip yang memastikan bahwa format tersebut selalu benar. Ini membuat evaluasi objektif lebih mudah diotomatisasi, meskipun tidak menangkap nuansa subjektif yang mungkin diperlukan dalam banyak kasus.
Menggabungkan Evaluasi Subjektif dan Objektif
Kombinasi antara evaluasi subjektif dan evaluasi objektif memberikan gambaran yang lebih lengkap tentang kinerja model. Di Webflow, kami menggunakan pendekatan ini untuk tidak hanya mengukur kualitas model dalam hal pemenuhan tugas objektif, tetapi juga seberapa baik model tersebut merespons bahasa manusia yang kompleks. Ini sangat penting ketika pembuatan fitur AI melibatkan interaksi dengan pengguna akhir, di mana pemahaman dan interpretasi bahasa memainkan peran yang sangat penting.
Otomatisasi Evaluasi Subjektif
Untuk menghemat waktu dan sumber daya, kami telah mulai mengotomatiskan sebagian dari evaluasi subjektif. Ini dilakukan dengan menggunakan model AI untuk menilai keluaran dari model lain. Meskipun mungkin tampak aneh, model bahasa yang besar sangat baik dalam memberikan evaluasi dasar terhadap kualitas hasil yang dihasilkan oleh model lainnya. Otomatisasi ini membantu tim kami untuk mengidentifikasi perbaikan atau penurunan kualitas secara cepat, tanpa harus selalu melibatkan manusia dalam setiap langkah evaluasi.
Namun, otomatisasi ini tidak selalu sempurna. Meskipun AI dapat menilai kualitas secara agregat, model ini tidak selalu dapat menangkap perbedaan yang lebih halus atau subjektif yang mungkin penting bagi pengguna manusia. Oleh karena itu, di Webflow, kami masih melakukan evaluasi manusia secara berkala untuk memverifikasi hasil dari evaluasi otomatis kami. Ini membantu memastikan bahwa kualitas tetap konsisten, dan evaluasi yang dilakukan oleh AI tetap relevan dan akurat.