Penelitian terbaru dari MIT Laboratory for Information and Decision Systems mengungkap bahwa sistem Large Language Models (LLM) seperti ChatGPT masih belum mampu memahami dunia nyata dengan mendalam layaknya hukum fisika Newton1. Temuan ini dipresentasikan dalam konferensi internasional di Vancouver bulan lalu.
Perbedaan Prediksi dan Pemahaman Fundamental
Tim peneliti yang dipimpin Keyon Vafa dari Harvard menjelaskan bahwa AI saat ini bisa membuat prediksi akurat seperti hukum gerak planet Kepler, namun tidak memiliki pemahaman dasar seperti hukum gravitasi Newton2. "Kita tahu cara menguji apakah algoritma memprediksi dengan baik, tapi yg kita butuhkan adalah cara menguji apakah ia memahami dengan baik," ungkap Professor Sendhil Mullainathan.
Penelitian ini menggunakan metrik baru bernama inductive bias untuk mengukur seberapa baik sistem AI mendekati kondisi dunia nyata. Dlm pengujian sederhana seperti model lattice satu dimensi, AI berhasil merekonstruksi "dunia" dengan baik, namun ketika kompleksitas meningkat, kemampuan tersebut menurun drastis3.
Hasil Pengujian Berbagai Tingkat Kompleksitas
Dalam pengujian permainan Othello, AI dapat memprediksi gerakan yang diizinkan dengan akurat, tetapi gagal memahami susunan keseluruhan papan permainan4. Peter G. Chang, mahasiswa pascasarjana MIT, menambahkan bahwa "untuk model dua atau tiga state, model menunjukkan bias induktif yg cukup baik terhadap state sebenarnya, tapi saat kita menambah jumlah state, mulai terjadi penyimpangan."
Tim mengevaluasi lima kategori berbeda model prediktif yang sedang digunakan. Hasilnya konsisten: semakin kompleks sistem yang terlibat, semakin buruk performa model prediktif dalam mencocokkan model dunia yang sebenarnya5. Hal ini menunjukkan bahwa industri AI masih memiliki jalan panjang untuk mencapai pemahaman mendalam seperti yang diharapkan.
Implikasi untuk Penemuan Ilmiah
Temuan ini sangat relevan karena banyak peneliti sudah menggunakan sistem AI prediktif untuk membantu penemuan ilmiah, termasuk memprediksi sifat senyawa kimia yang belum pernah dibuat atau perilaku pelipatan protein6. "Untuk masalah yang lebih realistis, bahkan untuk sesuatu seperti mekanika dasar, kami menemukan bahwa tampaknya masih ada jalan panjang yg harus ditempuh," kata Vafa.
Chang menekankan bahwa penelitian ini menunjukkan jalan ke depan dengan menyediakan metrik untuk mengevaluasi seberapa banyak representasi yang dipelajari model. "Sebagai bidang teknik, begitu kita memiliki metrik untuk sesuatu, orang benar-benar, benar-benar pandai dalam mengoptimalkan metrik tersebut," jelasnya.
Tantangan Model Foundation Masa Depan
Penelitian ini mengkritik hype berlebihan seputar foundation models yang sedang dikembangkan untuk domain spesifik seperti biologi, fisika, dan robotika7. Banyak peneliti berharap model-model ini akan memperoleh pengetahuan domain untuk tugas-tugas selanjutnya, namun bukti menunjukkan ekspektasi tersebut masih prematur.
Baidu baru-baru ini meluncurkan Wenxin Large Model X1.1 yang diklaim memiliki peningkatan kemampuan multiple dan performa setara dengan model internasional terdepan8. Namun temuan MIT menunjukkan bahwa kemajuan teknis belum tentu berarti pemahaman yang lebih dalam tentang prinsip-prinsip fundamental.
Kesimpulan
Riset MIT membuktikan bahwa meskipun AI modern sangat mahir dalam membuat prediksi spesifik, mereka masih kekurangan pemahaman mendalam tentang prinsip-prinsip dasar yang memungkinkan generalisasi ke domain baru. Dengan metrik inductive bias yang baru, peneliti kini memiliki alat untuk mengevaluasi dan meningkatkan kemampuan pemahaman dunia nyata dari sistem AI masa depan.
Referensi
- MIT News. (2025, 25 Agustus). Can large language models figure out the real world? https://news.mit.edu/2025/can-large-language-models-figure-out-real-world-0825
- Vafa, K., Chang, P. G., Rambachan, A., & Mullainathan, S. (2025). Presented at International Conference on Machine Learning, Vancouver.
- Laboratory for Information and Decision Systems. (2025). MIT LIDS Research on AI World Models.
- Chang, P. G. (2025). MIT Graduate Student Research on AI Game Understanding.
- Harvard University Research. (2025). Predictive AI Systems Evaluation Study.
- MIT Department of Electrical Engineering and Computer Science. (2025). AI Applications in Scientific Discovery.
- Rambachan, A. (2025). Foundation Models Domain Specialization Research.
- Sohu. (2025, 9 September). Baidu Releases Wenxin Large Model X1.1. https://www.sohu.com/a/933321243_122328931