1700 tok/s dengan Cerebras
Beberapa pekan yang silam, tatkala menghadiri sebuah meetup ngomongin LLM di Mountain View, eh dapat rejeki menggondol kunci API untuk Cerebras, sebuah startup yang menawarkan jasa inferensi LLM.
Begitu dicoba, wow. Berasa jadi Sonic aja. 1700 tok/s untuk model 70B.
Tapi sayang, karena masih baru berkembang, rate limit yang ada tidak memberikan kelegaan. Jadi sama sekali nggak cocok untuk production.
Ah, sudahlah.
Pekan lalu celotehan ini saya lontarkan ke Threads.