Kuadran LLM: Inferensi vs Model
Lain cara inferensi, lain juga modelnya! Berikut perbandingan untung-rugi mengakses LLM dengan kombinasi inferensi dan model yang berbeda-beda.
Supaya mudah, mari kita petakan ke kuadran-kuadran berikut, berdasarkan dua sumbu yang penting.
Sumbu pertama: di mana inferensinya? Apakah secara remote (cloud) atau jalan di mesin sendiri?
Sumbu kedua: apa golongan modelnya? Yang bisa dinikmati (open model) atau yang jadi rahasia empunya?
Yuk, kita bedah sama-sama hingga tuntas.
Kuadran X adalah inferensi lokal dengan model yang bisa kita download (biasanya dari HuggingFace). Jelas keuntungan besarnya adalah pilihan model-model yang bisa dijalankan. Bahkan, kalau ada kesempatan bikin model sendiri, bisa juga kita gunakan.
Sayangnya, inferensi lokal perlu hardware yang mumpuni, tidak bisa terlalu cupu. Itu pun belum tentu kecepatannya selalu memuaskan. Berikut contoh mesin lokal yang saya rakit: $300 untuk Merakit Mesin Inferensi LLM.
Contoh rakitan inferensi yang lain adalah yang ini: Micro JARVIS dengan Modal $400. Agak mahal dikit, $400, itu pun karena dirancang jadi asisten (AI) yang siap ditanya-tanya. Tentunya supaya kecepatan responsnya bisa dihandalkan, harus lokal dong!
Sementara itu, Kuadran Y mewakili inferensi model yang masih open, tapi jalan di server orang lain (=cloud), dan diakses lewat API. Tentu saja, ada ongkos pemakaian yang harus dikeluarkan.
Kita bisa juga menyebutnya sebagai LLMaaS, LLM as a Service. Perlu disadari bahwa karena faktor ekonomis, tidak semua model HuggingFace bakal disediakan layanan tersebut. Biasanya yang populer dan digrandrungi banyak orang, seperti Llama atau Mistral atau Qwen, selalu tetap ditawarkan.
Sejumlah layanan sejenis ini, LLMaaS (LLM as a Service), yang bisa dicoba: AI21, Avian, Cerebras, Deep Infra, DeepSeek, Fireworks, Groq, Glama, Hyperbolic, Lepton, Mistral, Nebius, Novita, OpenRouter, Together. Nanti satu saat perlu kita bedah satu-satu!
Sekedar pengingat, ada bedanya antara model yang sifatnya hanya "open weight" dengan yang murni "open source": Tiga Golongan LLM.
Terakhir, kuadran Z, adalah untuk model-model proprietary alias rahasia perusahaan. Tidak ada harapan untuk dibuat di inferensi lokal. Yang terkenal adalah GPT (dari OpenAI), Claude (dari Antrophic), Gemini (dari Google), Nova (dari Amazon), dan masih banyak lagi. Tentunya akses model tersebut hanya lewat API.
Di sini, posisi Mistral agak unit. Ada modelnya yang bisa kita comot (buat kuadran X/Y), tapi ada juga versi khusus yang hanya melalui API. Mirip-mirip dengan gagasan "freemium".
Mau pakai LLM lewat kuadran manapun, mengakses API-nya relatif mudah. Bila perlu contohnya, lihat yang sudah saya buat di github.com/ariya/ask-llm.
Penjelasan ini sebelumnya sempat nongol sebagai sebuah utas di Threads.