Peneliti Massachusetts Institute of Technology (MIT) bersama MIT-IBM Watson AI Lab telah merilis terobosan baru yg dapat menghemat jutaan dolar dalam pengembangan Large Language Models (LLM). Penelitian ini menjadi angin segar bagi industri AI yg selama ini berjuang dg biaya pelatihan model raksasa.
Tantangan Biaya Pengembangan Model Bahasa Besar
Pengembangan LLM membutuhkan investasi finansial yg sangat besar, bahkan bisa mencapai jutaan dolar untuk satu model. Kalau kita lihat dari perspektif bisnis, keputusan tentang arsitektur model, optimizer, dan dataset pelatihan harus dibuat secara hati-hati seblm berkomitmen pada suatu model1. Jacob Andreas, profesor associate di Departemen Teknik Elektro dan Ilmu Komputer MIT, menyatakan bahwa tim peneliti ingin membangun model matematis dari proses pelatihan yg dapat membantu pengambilan keputusan terbaik dalam penggunaan anggaran komputasi.
Industri AI menghadapi dilema besar: bagaimana memaksimalkan performa model dalam batasan anggaran komputasi dan finansial tertentu. Sebelumnya, para developer sering kali harus menebak-nebak efektivitas model mereka tanpa panduan yg jelas2.
Solusi Inovatif: Scaling Laws untuk Prediksi Performa
Scaling laws menawarkan cara untuk meramalkan perilaku model dengan menghubungkan kerugian model besar dgn performa model kecil yg lebih murah dari keluarga yg sama. Ini memungkinkan tim peneliti untuk menghindari kebutuhan melatih setiap kandidat model secara penuh3. Leshem Choshen dari IBM Research menjelaskan bahwa scaling laws tidak hanya memungkinkan keputusan pra-pelatihan yg lebih baik, tetapi juga mendemokratisasi bidang ini dgn memungkinkan peneliti tanpa sumber daya besar untuk memahami dan membangun scaling laws yg efektif.
Komponen Penting Scaling Laws
Bentuk fungsional scaling laws relatif sederhana, mencakup komponen dari model kecil yang menangkap jumlah parameter dan efek skalingnya, jumlah token pelatihan dan efek skalingnya, serta performa dasar untuk keluarga model yg diminati. Bersama-sama, mereka membantu peneliti memperkirakan kerugian performa model target besar; semakin kecil kerugiannya, semakin baik kemungkinan output model target4.
Manfaat Praktis dalam Alokasi Sumber Daya
Hukum ini memungkinkan tim peneliti untuk menimbang trade-offs secara efisien dan menguji cara terbaik mengalokasikan sumber daya terbatas. Mereka sangat berguna untuk mengevaluasi penskalaan variabel tertentu, seperti jumlah token, dan untuk pengujian A/B dari berbagai pengaturan pra-pelatihan5. Penelitian ini mengisi kekosongan dalam literatur ilmiah karena sebelumnya belum ada meta-analisis sistematis tentang scaling laws.
Metodologi Penelitian Komprehensif
Tim peneliti dari MIT dan IBM menciptakan dataset besar yg mencakup LLM dari 40 keluarga model, termasuk Pythia, OPT, OLMO, LLaMA, Bloom, T5-Pile, ModuleFormer mixture-of-experts, GPT, dan keluarga lainnya. Dataset ini mencakup 485 model unik yg telah dilatih sebelumnya, dengan data tentang checkpoints pelatihan, biaya komputasi (FLOPs), epochs pelatihan, dan seed6.
Peneliti juga mengumpulkan 1,9 juta metrik performa kerugian dan tugas hilir. Model-model tersebut berbeda dalam arsitektur, bobot, dan sebagainya. Menggunakan model-model ini, para peneliti menyesuaikan lebih dari 1.000 scaling laws dan membandingkan akurasinya di seluruh arsitektur, ukuran model, dan rejim pelatihan7.
Temuan dan Panduan Praktis
Penelitian mengungkapkan beberapa faktor yg meningkatkan prediksi, seperti memasukkan checkpoint pelatihan menengah, bukan hanya mengandalkan kerugian akhir; ini membuat scaling laws lebih dapat diandalkan. Namun, data pelatihan sangat awal sebelum 10 miliar token bersifat noisy, mengurangi akurasi, dan harus dibuang8. Tim merekomendasikan memprioritaskan pelatihan lebih banyak model di berbagai ukuran untuk meningkatkan ketahanan prediksi scaling law, bukan hanya model yg lebih besar.
Strategi Efisiensi Anggaran
Jika anggaran sangat terbatas, developer harus mempertimbangkan untuk melatih satu model kecil dalam keluarga model target dan meminjam parameter scaling law dari keluarga model dgn arsitektur serupa. Namun, ini mungkin tidak berhasil untuk model encoder-decoder9. Penelitian menunjukkan bahwa ketika scaling laws dibandingkan di seluruh keluarga model, ada korelasi kuat antara dua set hyperparameter.
Implikasi untuk Masa Depan AI
Temuan mengejutkan muncul selama penelitian ini: model kecil yg dilatih sebagian masih sangat prediktif, dan lebih jauh lagi, tahap pelatihan menengah dari model yg dilatih penuh dapat digunakan untuk prediksi model target lain10. Andreas menunjukkan bahwa ketika diagregasi, variabilitas di seluruh keluarga model dan eksperimen berbeda melonjak dan lebih noisy dari yg diharapkan.
Menariknya, para peneliti menemukan bahwa dimungkinkan untuk memanfaatkan scaling laws pada model besar untuk memprediksi performa hingga model yg lebih kecil. Penelitian lain di bidang ini telah menghipotesiskan bahwa model kecil adalah "makhluk yg berbeda" dibandingkan dgn model besar; namun, Choshen tidak setuju dgn pandangan tersebut11.
Kesimpulan
Penelitian revolusioner dari MIT dan MIT-IBM Watson AI Lab ini memberikan panduan sistematis yg dapat menghemat jutaan dolar dalam pengembangan LLM. Dgn menyediakan framework untuk memprediksi performa model besar berdasarkan model kecil yg lebih murah, penelitian ini mendemokratisasi akses ke teknologi AI canggih. Temuan ini tidak hanya memberikan solusi praktis bagi industri, tetapi juga membuka jalan untuk pengembangan AI yg lebih efisien dan terjangkau di masa depan.
Daftar Pustaka
- MIT News. (2025, September 16). How to build AI scaling laws for efficient LLM training and budget maximization. https://news.mit.edu/2025/how-build-ai-scaling-laws-efficient-llm-training-budget-maximization-0916
- MSN. (2025, September 16). AI Scaling Laws: Boost LLM Training, Maximize Budget. https://www.msn.com/en-us/money/other/ai-scaling-laws-universal-guide-estimates-how-llms-will-perform-based-on-smaller-models-in-same-family/ar-AA1MFTzC
- VentureBeat. (2025, September 4). This new framework lets LLM agents learn from experience, no fine-tuning required. https://venturebeat.com/ai/this-new-framework-lets-llm-agents-learn-from-experience-no-fine-tuning
- ITWeb. (2025, July 23). Why data quality is non-negotiable for LLM training. https://www.itweb.co.za/article/why-data-quality-is-non-negotiable-for-llm-training/KWEBbvyLxrlqmRjO
- SemiEngineering. (2025, September 9). Optimizing LLM Training Under GPU Memory Constraints. https://semiengineering.com/optimizing-llm-training-under-gpu-memory-constraints-argonne-rit/
- Analytics India Magazine. (2025, September 11). Mira Murati's Thinking Machines Cracks the Code on LLM Nondeterminism. https://analyticsindiamag.com/ai-news-updates/mira-muratis-thinking-machines-cracks-the-code-on-llm-nondeterminism/
- Yahoo Finance. (2025, June 4). MangoBoost Sets New Benchmark for Multi-Node LLM Training on AMD GPUs. https://finance.yahoo.com/news/mangoboost-sets-benchmark-multi-node-150000013.html
- TechRadar. (2025, July 14). Students, here are 5 key things to know when learning how to train large language models. https://www.techradar.com/pro/software-services/students-here-are-5-key-things-to-know-when-learning-how-to-train-large-language-models
- SDX Central. (2024, June 19). TensorOpera and Aethir Team Up to Advance Massive-Scale LLM Training. https://www.sdxcentral.com/press-releases/tensoropera-and-aethir-team-up-to-advance-massive-scale-llm-training-on-decentralized-cloud/
- Data Center Frontier. (2025, September 15). AI's Impact on Data Center Networking. https://www.datacenterfrontier.com/sponsored/article/55314378/commscope-ais-impact-on-data-center-networking
- Analytics India Magazine. (2025, September 12). Alibaba Introduces Qwen3-Next as a More Efficient LLM Architecture. https://analyticsindiamag.com/ai-news-updates/alibaba-introduces-qwen3-next-as-a-more-efficient-llm-architecture/