Lima mahasiswa doktoral dari program MIT-IBM Watson AI Lab mengembangkan teknologi artificial intelligence (kecerdasan buatan) yang lebih andal dan efisien1. Penelitian mereka mencakup keamanan model, efisiensi inferensi, data multimodal, dan penalaran berbasis pengetahuan. Adopsi teknologi baru terjadi ketika pengguna melihatnya sebagai dapat diandalkan dan mudah diakses2.
Probe Neural untuk Kepercayaan Model
Andrey Bryutkin, mahasiswa matematika MIT, mengembangkan metode untuk mengukur ketidakpastian dari large language models (LLM)3. Bersama Veronika Thost dari IBM Research dan Profesor Marzyeh Ghassemi, mereka mengeksplorasi "ketidakpastian dari ketidakpastian" LLM. Jaringan feed-forward kecil bernama probe dilatih untuk menandai jawaban yang tidak dapat dipercaya1.
Namun, classifier ini juga menghasilkan hasil negatif palsu dan hanya memberikan estimasi titik. Tim MIT-IBM menggunakan pasangan prompt-label serta hidden states seperti vektor aktivasi untuk mengukur skor gradien dan sensitivitas terhadap data out-of-distribution3. Metode ini juga membantu mengidentifikasi potensi noise pelabelan.
Keandalan untuk Aplikasi Kritis
Probe yang lebih akurat sangat penting untuk domain dengan data kritis dalam aplikasi seperti keluarga model IBM Granite Guardian1. Kepercayaan sistem AI bergantung sepenuhnya pada kualitas dan akurasi data berlabel yang menjadi dasarnya4.
Framework Pembelajaran Penguatan untuk Knowledge Graph
Jinyeop Song mengembangkan framework reinforcement learning (pembelajaran penguatan) agen tunggal untuk menghubungkan LLM dengan knowledge graphs (KG)1. Ini mengatasi masalah pipeline multi-agen yang tidak efisien secara komputasi. Kelompok mereka merancang server API yang meng-host Freebase dan Wikidata KG5.
| Aspek 🎯 | Metode Lama | Framework Baru |
|---|---|---|
| Arsitektur | Multi-agen tetap | Agen tunggal adaptif |
| Efisiensi Komputasi 💻 | Rendah | Tinggi |
| Biaya | Mahal | Hemat |
| Akurasi 📊 | Bervariasi | Ditingkatkan melalui RL |
| Transparansi | Terbatas | Lebih baik |
| Transferabilitas | Rendah | Tinggi |
| Kelengkapan Jawaban ✅ | Tidak terjamin | Seimbang dengan akurasi |
Agen LLM mengeluarkan tindakan pengambilan yang ditargetkan untuk mengambil informasi pertinent dari server1. Melalui bolak-balik berkelanjutan, agen menambahkan data yang dikumpulkan dari KG ke konteks dan merespons kueri. Sistem menggunakan pembelajaran penguatan untuk melatih dirinya memberikan jawaban yang menyeimbangkan akurasi dan kelengkapan5.
Arsitektur Model Bahasa Generasi Berikutnya
Songlin Yang merekayasa ulang apa yang dapat ditangani model pada setiap langkah inferensi1. Berfokus pada keterbatasan transformer, dia bekerja dengan Rameswar Panda dari IBM Research dan Profesor Yoon Kim mengembangkan arsitektur model bahasa melampaui transformer6.
Kompleksitas Komputasi dan Ekspresivitas
Transformer menghadapi dua keterbatasan utama: kompleksitas komputasi tinggi dalam pemodelan sekuens panjang karena mekanisme softmax attention, dan ekspresivitas terbatas akibat inductive bias lemah dari RoPE (rotary positional encoding)1. Ketika panjang input berlipat dua, biaya komputasi meningkat empat kali lipat. Tim MIT-IBM mengeksplorasi algoritma yang berdasar teoritis namun efisien secara perangkat keras6.
Sebagai alternatif softmax attention, mereka mengadopsi linear attention, mengurangi kompleksitas kuadratik yang membatasi panjang sekuens yang layak1. Mereka juga menyelidiki arsitektur hibrida yang menggabungkan softmax dan linear attention untuk menyeimbangkan efisiensi komputasi dan kinerja. Meningkatkan ekspresivitas, mereka mengganti RoPE dengan dynamic reflective positional encoding berdasarkan transformasi Householder6.
Pemahaman Dokumen Visual dan Sintesis Program
Jovana Kondic mengeksplorasi pemahaman dokumen visual, khususnya grafik1. Di bawah bimbingan Aude Oliva dan peneliti IBM, dia menciptakan dataset grafik sintetis besar dan open-source dari kode. Dengan prototipe ChartGen, mereka membuat pipeline yang melewatkan gambar grafik seed melalui VLM (vision-language model)7.
VLM diminta membaca grafik dan menghasilkan skrip Python yang kemungkinan digunakan untuk membuat grafik tersebut1. Komponen LLM dari framework kemudian secara iteratif menambah kode dari banyak grafik untuk akhirnya menghasilkan lebih dari 200.000 pasangan unik grafik dan kode mereka, mencakup hampir 30 jenis grafik7.
Leonardo Hernandez Cano menciptakan sistem sintesis program yang belajar menyempurnakan kode sendiri1. Sistem dimulai dengan deskripsi tekstur yang diberikan pengguna dalam bentuk gambar. Kemudian menghasilkan program Python awal yang memproduksi tekstur visual, dan secara iteratif menyempurnakan kode dengan tujuan menemukan program yang menghasilkan tekstur sesuai deskripsi target8.
Kesimpulan
Proyek-proyek ini membuat dorongan kohesif menuju kecerdasan buatan yang lebih kokoh dan praktis1. Dengan mengatasi tantangan inti keandalan, efisiensi, dan penalaran multimodal, pekerjaan ini membuka jalan bagi sistem AI yang tidak hanya lebih kuat tetapi juga lebih dapat diandalkan dan hemat biaya untuk aplikasi perusahaan dan ilmiah dunia nyata2. Teknik mereka menekankan scaling dan integrasi dengan dampak selalu terlihat1.
Daftar Pustaka
- Hinkel, Lauren. "Charting the future of AI, from safer answers to faster thinking." MIT News, 6 November 2025. https://news.mit.edu/2025/charting-the-future-of-ai-from-safer-answers-to-faster-thinking-1106
- "AI's Future: Safer Answers, Faster Thinking." Mirage News, 6 November 2025. https://www.miragenews.com/ais-future-safer-answers-faster-thinking-1565729/
- Ibid.
- "How To Ensure Fair, Safe AI Through Thoughtful Data Design." Forbes, 19 September 2025. https://www.forbes.com/councils/forbestechcouncil/2025/09/19/how-to-ensure-fair-safe-ai-through-thoughtful-data-design/
- Op. cit., Hinkel.
- "CALM explained: Continuous thinking AI, how it's different from GenAI LLMs so far." MSN, 6 November 2025. https://www.msn.com/en-in/health/medical/calm-explained-continuous-thinking-ai-how-it-s-different-from-genai-llms-so-far/ar-AA1PVSI5
- "Moonshot launches open-source 'Kimi K2 Thinking' AI with a trillion parameters and reasoning capabilities." SiliconANGLE, 7 November 2025. https://siliconangle.com/2025/11/07/moonshot-launches-open-source-kimi-k2-thinking-ai-trillion-parameters-reasoning-capabilities/
- "FPT Empowers Developers to Fast-Track AI Innovation with AI Notebook Running On NVIDIA Accelerated Computing." MSN, 6 November 2025. https://www.msn.com/en-in/money/news/fpt-empowers-developers-to-fast-track-ai-innovation-with-ai-notebook-running-on-nvidia-accelerated-computing/ar-AA1PU5Ib

