Penelitian terbaru dari ML@CMU mengungkap temuan mengejutkan dalam dunia kecerdasan buatan (Artificial Intelligence). Model difusi (diffusion models) mampu mengungguli model autoregressive ketika pelatihan menghadapi keterbatasan data1. Temuan ini dipublikasikan Oktober 2025 oleh Mihir Prabhudesai dan tim.
Kesimpulan utamanya sederhana namun revolusioner. "Jika Anda terbatas compute, gunakan model autoregressive; jika terbatas data, gunakan model difusi," tulis peneliti2. Pernyataan ini mengubah paradigma pemilihan arsitektur AI.
Krisis Data di Masa Depan AI
Ilya Sutskever dalam pidato NeurIPS 2024 Test-of-Time Award menyatakan kekhawatiran mendasar3. "Compute terus tumbuh—algoritma lebih baik, perangkat keras lebih kuat, cluster lebih besar—tetapi data tidak bertumbuh. Kita hanya punya satu internet, bahan bakar fosil AI."
Proyeksi EpochAI menunjukkan titik kritis. Sekitar tahun 2028, ketersediaan compute akan melampaui total data pelatihan di internet4. Regime yang dibatasi data (data-constrained regime) segera tiba. Pertanyaannya: bagaimana menukar lebih banyak compute dengan lebih sedikit data?
Dua Paradigma Generasi AI
| Aspek 📊 | Model Autoregressive 🔄 | Model Difusi 🌊 |
|---|---|---|
| Tahun Populer | 2019 (GPT-2) | 2020 (DDPM) |
| Domain Utama | Teks/bahasa | Visual/gambar |
| Cara Kerja | Prediksi kiri-ke-kanan | Pemulihan token acak |
| Efisiensi Compute | Tinggi (satu epoch) | Butuh lebih banyak |
| Efisiensi Data | Cepat overfit | Tahan pengulangan 100x |
| Kasus Ideal | Data berlimpah | Data terbatas |
| Ketahanan Repetisi | R_D* ~15 epoch | R_D* ~500 epoch |
Model autoregressive memodelkan distribusi data secara berurutan dari kiri ke kanan. Setiap token diprediksi berdasarkan token sebelumnya5. Pendekatan ini sukses besar di GPT-2 hingga GPT-5.
Model difusi bekerja berbeda. Token secara acak di-mask (disembunyikan) dan model belajar memulihkannya6. Ini menciptakan augmentasi data implisit. Model tidak hanya belajar urutan kiri-ke-kanan, tetapi berbagai strategi masking.
Kebingungan Lintas Domain
Komunitas bahasa mulai bereksperimen dengan difusi pada teks. D3PM memperkenalkan difusi diskrit melalui random masking1. Sementara itu, komunitas visi mencoba autoregressive pada gambar—contohnya PARTI dan DALLE.
Robotika mengalami dilema terbesar. Baik difusi maupun autoregressive sama-sama diadopsi luas tanpa konsensus jelas7. OpenAI Deep Research mengompilasi daftar karya robotika di kedua paradigma, menegaskan ketidakpastian bidang ini.
Delapan Temuan Revolusioner
Temuan Pertama: Difusi Menang dengan Compute Cukup
Ratusan model dilatih dengan berbagai skala. Pada compute rendah, autoregressive unggul8. Setelah titik kritis (critical compute point), performa seimbang. Di luar itu? Difusi terus membaik sementara autoregressiveplateau atau overfit.
Setiap titik dalam grafik menunjukkan model yang dilatih hingga konvergen. Sumbu-x adalah total training FLOPs, sumbu-y adalah validation loss terbaik9. Pola jelas: difusi membutuhkan lebih banyak compute awal tetapi memberikan hasil superior jangka panjang.
Temuan Kedua: Overfitting Drastis Berbeda
Model autoregressive mulai overfit sangat cepat. Difusi tidak menunjukkan tanda overfit bahkan setelah 10 kali lipat epoch10. Bintang berwarna menandai titik 1-epoch di mana autoregressive mengungguli difusi. Namun autoregressive mencapai puncaknya di tengah, lalu menurun. Difusi mencapai puncak di ujung kanan dengan loss 3,51 versus 3,71 untuk autoregressive.
Temuan Ketiga: Ketahanan Terhadap Repetisi Data
Eksperimen menunjukkan kurva pelatihan model dengan compute total sama, tetapi pertukaran berbeda antara data unik dan jumlah epoch11. Model autoregressive mulai overfit saat repetisi meningkat—validation loss memburuk dan divergen signifikan di epoch tinggi. Model difusi tetap stabil di semua level repetisi. Bahkan pada 100 epoch, tidak ada tanda overfit atau divergensi.
Temuan Keempat: Half-Life Data Jauh Lebih Tinggi
Penelitian mengadopsi kerangka scaling yang dibatasi data dari Muennighoff dkk.12Half-life penggunaan ulang data (R_D*) adalah jumlah epoch sebelum hasil dari pengulangan data mulai berkurang signifikan. Muennighoff menemukan R_D* ~15 untuk model autoregressive. Studi ini menemukan R_D* ~500 untuk model difusi—menyoroti kemampuan mereka mendapat manfaat dari repetisi data jauh lebih banyak.
Lima Temuan Lainnya
- Temuan Kelima: Muennighoff menunjukkan mengulang dataset hingga 4 epoch hampir seefektif data segar untuk model autoregressive. Sebaliknya, model difusi dapat dilatih pada data berulang hingga 100 epoch dengan efektivitas hampir sama dengan data segar13.
- Temuan Keenam:Compute yang diperlukan agar difusi mengungguli autoregressive mengikuti hukum pangkat (power law) yang dapat diprediksi. Ekspresi analitis bentuk tertutup sederhana dapat diturunkan untuk ambang batas ini14.
- Temuan Ketujuh: Efisiensi data model difusi diterjemahkan ke performa downstream lebih baik. Model difusi berkinerja terbaik mengungguli model autoregressive di sebagian besar benchmark pemahaman bahasa15.
- Temuan Kedelapan: Paparan terhadap urutan token berbeda membantu menjelaskan efisiensi data difusi. Menambahkan augmentasi data eksplisit ke pelatihan autoregressive menunjukkan keuntungan model difusi muncul dari paparan mereka terhadap beragam urutan token16.
Implikasi untuk Praktisi
Temuan ini menantang keyakinan konvensional bahwa model autoregressive secara universal superior17. Model difusi menjadi alternatif menarik ketika data—bukan compute—adalah hambatan utama. Meskipun studi dilakukan dalam konteks model bahasa, temuan ini diyakini berlaku di berbagai jenis pemodelan sekuens seperti robotika atau kesehatan.
Aplikasi praktis sudah muncul. Krea Realtime meluncurkan model autoregressive AI video 14 miliar parameter yang 10 kali lebih besar dari open-source setara lainnya18. Inception mengumpulkan $50 juta untuk membangun model difusi bagi kode dan teks19.
Kesimpulan
Saat ketersediaan data berkualitas tinggi plateau, meningkatkan efisiensi data menjadi esensial untuk scaling deep learning. Penelitian ini menunjukkan model difusi ber-mask secara konsisten mengungguli model autoregressive di regime yang dibatasi data—ketika pelatihan melibatkan pengulangan melewati dataset terbatas. Hukum scaling baru untuk model difusi mengungkap kemampuan mereka mengekstrak nilai dari data berulang jauh melampaui apa yang dapat dicapai model autoregressive.
Penggunaan efisien data terbatas mungkin mendefinisikan batas berikutnya dalam scaling model deep learning. Untuk praktisi, kesimpulannya sederhana: jika terbatas compute, gunakan model autoregressive; jika terbatas data, gunakan model difusi20.
Daftar Pustaka
- Prabhudesai, Mihir et al. "Diffusion Beats Autoregressive in Data-Constrained Settings." AIhub, 3 Oktober 2025. https://aihub.org/2025/10/03/diffusion-beats-autoregressive-in-data-constrained-settings/
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Ibid.
- Blockchain.news. "Krea Realtime 14B: Open-Source Autoregressive AI Video Model Sets New Standard for Long-Form Generation." 20 Oktober 2025. https://blockchain.news/ainews/krea-realtime-14b-open-source-autoregressive-ai-video-model-sets-new-standard-for-long-form-generation
- MSN. "Inception raises $50 million to build diffusion models for code and text." 6 November 2025. https://www.msn.com/en-us/money/technology/inception-raises-50-million-to-build-diffusion-models-for-code-and-text/ar-AA1PVLCg
- Op. Cit., Prabhudesai.







