Persiapan Gonta-Ganti Model

Karena perkembangan teknologi LLM masih gercep, jangan lewatkan kesempatan untuk gonta-ganti model dengan sigap

Apr 22, 2025

Biasanya menurut anak startup, fasa meroketnya LLM saat ini mengikuti kaidah "zero to one". Jangan terpaku dengan satu pakem saja karena bisa jadi itu akan kadaluarsa dalam sekejap. Makanya, siaga untuk berganti mendatangkan faedah:

🔥 Kompetitif dalam kinerja
✅ Penurunan ongkos operasional
📍 Tidak terkunci ke satu kubu saja

Mari kita kupas bareng-bareng.

Bagaimana taktik untuk siap sedia berganti model kalau diperlukan?

✅ Uji coba beberapa model di CI
✅ Fokus satu model di staging/prod
✅ Lakukan A/B test

Berikut contoh tangkapan layar beberapa model yang digunakan untuk proyek percontohan, query-llm. Bisa dilihat, ada sejumlah pilihan menarik, berikut perbandingan harga tokennya juga. ⬇️⬇️⬇️

Dari ilustrasi daftar di atas, ada beberapa hal menarik yang bisa disimpulkan.

Llama 4 Scout bisa terbilang bersaing untuk urusan harga.

OpenAI meluncurkan GPT 4.1 nano untuk bersaing dengan Google, tepatnya dengan Gemini 2.0 Flash Lite.

Sementara itu, Google tidak tinggal diam dan barusan melansir versi Preview dari evolusi berikutnya Gemini 2.5. Walaupun harga token naik dua kali lipat, kecanggihan dan kecerdasan 2.5 ini bisa sangat memikat.

Scout adalah model terkecil di keluarga LLama 4 terbaru. Ada juga dua kakaknya, Maverick dan Behemoth. Lebih rinci dikit soal Llama 4 ini bisa dilihat di bahasan saya tempo hari, Tentang Llama 4.

Belum sempat melirik GPT 4.1 yang baru? Coba tengok juga utas saya sebelumnya, Tentang GPT 4.1.

Tentunya, kesanggupan memilih LLM sangat penting. Hal ini hanya bisa digarap dengan membuat soal-soal evaluasi, mirip dengan ujian (akhir) untuk tiap mata kuliah.

Pastinya himpunan soal ujian tersebut akan sangat berbeda untuk tiap kasus pemakaian. Makanya selain benchmark umum yang ada di luar sana, sangat dianjurkan untuk mengumpulkan sendiri (seringnya secara empirik) soal-soal ujian yang cocok. Adalah aneh kalau soal-soal ujian tersebut tidak bisa dilemparkan ke aplikasi LLM yang sedang dikerjakan.

Pendekatan yang saya pakai gampang saja, yakni dengan membuat sebuah berkas yang berisi sederet pertanyaan dengan jawaban-jawaban yang diharapkan. Cukup regex saja!

Untuk ulasan detilnya, sudah sempat saya gambarkan di sini, RAG dan Evaluasi Sederhana.

Terima kasih sudah membaca tulisan ini! Sebelumnya, celotehan ini hadir sebagai sebuah utas di lapak Threads saya.

Bila dirasakan berfaedah, bagikan juga bahasan ini dengan teman-teman penggandrung LLM yang lain.

Supaya tidak ketinggalan, ikuti saya dan juga langganan (gratis) Substack saya ini. Dukungan ini sangat berarti buat saya. Jabat erat!

Dekontaminasi

1 Comment