$300 untuk Merakit Mesin Inferensi LLM
Tanpa perlu merogoh kocek dalam-dalam, ternyata bisa merakit sebuah mesin inferensi LLM hemat, hanya seharga $300, namun sudah bisa menjalankan Llama, Qwen, dll.
Juga cocok untuk dijadikan asisten ngoding, ala-ala GitHub Copilot.
Kuncinya di sini adalah komponen-komponen bekas (alias preloved, kadang disebut refurbished, atau juga second hand). Nah, tentunya situasi pasar bekas elektronik akan tergantung wilayah tinggal. Buat saya yang di Kalifornia utara, lumayan karena ada Craigslist, OfferUp, Ebay, dll. Di tempat lain bisa jadi nggak akan semurah dan semujur ini.
Berikut rinciannya:
Prosesor: AMD Ryzen 5 3400G ($50)
Motherboard: Gigabyte X570 ($30)
RAM: 16 GB DDR4-3200 ($30)
SSD: 512 GB ($20)
GPU: NVIDIA Tesla M40 ($100)
Fan buat GPU: $30
Catu Daya: EVGA 750W PSU ($20)
Casing: Silverstone HTPC ($20)
Mobo bisa murah karena cacat kecil, klip PCIe ada yang patah (sama sekali nggak ngefek buat rakitan ini). Ryzen 3400G hanya dilengkapi 4 core (8 thread), tapi karena inferensinya jalan di GPU, makanya CPU yang terhitung uzur seperti ini aman-aman aja dan tidak perlu berimbas ke kinerja inferensinya.
Ngomongin GPU, di sini kuncinya: Tesla M40 yang kalau di Ebay bisa digondol "hanya" seratus dollar saja. Fantastis bukan?
Kartu VGA atau kartu grafis M40 inilah yang jadi bintang utama. Lagi-lagi, komponen yang sudah berumur karena masih dari jaman artistektur Maxwell. Keunggulannya terletak pada VRAM (Video RAM) yang lumayan foya-foya, yakni 24GB. Memori sebesar ini amatlah penting untuk menjalankan LLM yang berat.
Memang, M40 ini tergolong lamban (nanti saya tunjukkan hasil kecepatannya) dibandingkan dengan seri RTX 3000 terkini. Namun, perlu diingat, harga RTX 3090 bisa sepuluh kali lipat lebih mahal. Sementara itu, RTX 3080 yang agak lebih terjangkau harganya pun memiliki keterbatasan pada VRAM-nya (10GB atau 12GB untuk versi khusus).
Berikut perbandingkan kecepatan beberapa LLM (kuantifikasi 4-bit, Q4_K_M
), diukur dengan llama-bench
:
Phi-3.5 Mini: 47 tok/s
Mistral 7B: 30 tok/s
Llama-3.1 8B: 28 tok/s
Mistral Nemo 12B: 19 tok/s
Qwen-2.5 Coder 32B: 7 tok/s
Kalau ada kelebihan dana, pilihan lain yang menarik adalah RTX 2080 Ti dengan VRAM 11GB. Harganya di pasaran barang bekas semakin turun (sekitar $250 atau kurang), dan ia menawarkan peningkatan kecepatan hingga 3x lipat dibanding M40. Ini bisa GPU menarik, terutama kalau nggak perlu menjalankan LLM yang terlalu besar (mengingat keterbatasan 11 GB di VRAM).
O iya, M40 ini dibuat untuk kebutuhan di server (data center), karenanya tidak dilengkapi kipas sebagaimana lazimnya seri GTX atau RTX. Solusinya adalah selubung hasil cetakan printer 3-d dipadu dengan dua kipas kecil yang menyedot hawa panas (total habis $30).
Bagi pengguna produk Apple, M2 Pro menawarkan performa sekitar 25% lebih cepat dari M40. Keunggulannya adalah aspek portabilitas, efisiensi, dan tingkat kebisingan yang minim. Namun, tentu saja, harganya jauh lebih mahal.
Salah satu manfaat utama LLM adalah sebagai asisten ngoding, misalnya dipasangkan dengan Continue.dev. Di sinilah kedahsyatan VRAM 24GB karena mampu menjalankan model Qwen-2.5 Coder 32B yang mumpuni.
Dibandingkan Copilot dan sebangsanya, LLM lokal mementingkan penjagaan privasi (penting di sektor industri tertentu, seperti finansial, pemerintahan, dll). Dengan inferensi lokal, data berharga Anda tetap terjaga dan tidak dilepas ke server orang!
Tulisan ini sebelumnya pernah tampil dan dibahas di Threads.