Peneliti Massachusetts Institute of Technology (MIT) berhasil membuka tabir misteri cara kerja model bahasa protein yang selama ini menjadi "kotak hitam" dlm dunia bioinformatika. Terobosan ini berpotensi merevolusi pengembangan obat dan vaksin dengan memberikan wawasan mendalam tentang bagaimana artificial intelligence (kecerdasan buatan) memprediksi struktur serta fungsi protein1.
Model bahasa protein, yg dikembangkan berdasarkan large language models (LLM) seperti ChatGPT, telah terbukti sangat akurat dalam memprediksi kesesuaian protein untuk aplikasi tertentu. Namun hingga kini, para ilmuwan tidak memahami mekanisme internal yg digunakan model tersebut dlm membuat prediksi2.
Teknologi Sparse Autoencoder Buka Jalan Baru
Tim peneliti MIT dipimpin oleh Profesor Bonnie Berger menggunakan teknik novel bernama sparse autoencoder untuk "membedah" cara kerja internal model bahasa protein. Teknik ini pertama kalinya diterapkan pada model protein, setelah sebelumnya sukses digunakan untuk memahami LLM tradisional3.
Onkar Gujral, mahasiswa pascasarjana MIT yg memimpin penelitian ini, menjelaskan bahwa sparse autoencoder bekerja dengan memperluas representasi protein dari 480 neuron menjadi 20.000 neuron. Ekspansi ini memberikan "ruang bernapas" bagi informasi untuk tersebar lebih merata, sehingga setiap node dapat mewakili fitur protein yang spesifik4.
Peran AI Assistant Claude dalam Interpretasi Data
Yang menarik, tim peneliti menggunakan AI assistant bernama Claude untuk menganalisis representasi protein yg telah diperluas. Claude bertugas membandingkan representasi sparse dengan fitur protein yang sudah diketahui, seperti fungsi molekular, keluarga protein, atau lokasi dalam sel5.
Proses interpretasi ini menghasilkan deskripsi yang mudah dipahami dalam bahasa sehari-hari. Misalnya, algoritma dapat mengatakan, "Neuron ini tampaknya mendeteksi protein yg terlibat dalam transportasi transmembran ion atau asam amino, terutama yang berlokasi di membran plasma"6.
Dampak Signifikan untuk Pengembangan Terapi
Temuan ini memiliki implikasi luas untuk pengembangan obat dan vaksin. Dengan memahami fitur protein mana yang paling penting dalam prediksi model, peneliti dapat memilih model yang tepat untuk tugas tertentu atau menyesuaikan jenis input yang diberikan kepada model7.
Berger menekankan bahwa pekerjaan mereka memiliki implikasi luas untuk meningkatkan kemampuan eksplanasi dlm tugas-tugas hilir yg mengandalkan representasi protein. Selain itu, mengidentifikasi fitur yang dilacak oleh model bahasa protein berpotensi mengungkap wawasan biologis novel dari representasi tersebut8.
Aplikasi dalam Identifikasi Target Vaksin
Pada tahun 2021, tim Berger telah menggunakan model bahasa protein untuk memprediksi bagian protein permukaan virus yg tidak mudah bermutasi. Hal ini memungkinkan mereka mengidentifikasi target vaksin potensial untuk influenza, HIV, dan SARS-CoV-29.
Namun dalam semua penelitian sebelumnya, tidak mungkin mengetahui bagaimana model membuat prediksi mereka. "Kami mendapatkan prediksi di akhir, tapi kami sama sekali tidak tahu apa yg terjadi dlm komponen individual kotak hitam ini," ungkap Berger10.
Masa Depan Penelitian Protein dengan AI
Model bahasa protein pertama diperkenalkan oleh Berger dan mantan mahasiswa pascasarjana MIT, Tristan Bepler, pada tahun 2018. Model mereka, bersama dengan model protein selanjutnya yg mempercepat pengembangan AlphaFold seperti ESM2 dan OmegaFold, didasarkan pada LLM11.
Model-model ini menggunakan pendekatan serupa dengan ChatGPT, namun alih-alih menganalisis kata-kata, mereka menganalisis sekuens asam amino. Para peneliti telah menggunakan model-model ini untuk memprediksi struktur dan fungsi protein, serta untuk aplikasi seperti mengidentifikasi protein yg mungkin mengikat obat tertentu12.
Potensi Pembelajaran Biologi Baru
Gujral optimis bahwa suatu saat ketika model-model menjadi jauh lebih kuat, peneliti dapat belajar lebih banyak biologi daripada yg sudah diketahui sekarang, dengan membuka model-model tersebut. "Pada titik tertentu ketika model menjadi lebih kuat, Anda bisa belajar lebih banyak biologi dari membuka model daripada yg sudah Anda ketahui," katanya13.
Kesimpulan
Terobosan MIT dlm membuka "kotak hitam" model bahasa protein menandai langkah penting dalam memahami cara kerja AI untuk aplikasi biologis. Dengan kemampuan untuk menginterpretasi fitur-fitur yg digunakan model dlm membuat prediksi, penelitian ini membuka jalan bagi pengembangan obat dan vaksin yg lebih efektif di masa depan.
Penelitian ini didanai oleh National Institutes of Health dan dipublikasikan dalam Proceedings of the National Academy of Sciences. Tim peneliti terdiri dari Onkar Gujral sebagai penulis utama, Mihir Bafna, dan Eric Alm sebagai penulis pendamping14.
Referensi
- MIT News. (2025, August 18). Researchers glimpse the inner workings of protein language models.
- Technology Networks. (2025, August 21). Interpreting Protein Language Models Using AI Tools.
- MSN. (2025, August 20). MIT Researchers Unlock the Hidden Features of Protein Language Models.
- Indian Express. (2025, September 6). How scientists got a glimpse of the inner workings of protein language models.
- Ars Technica. (2023, March 16). Large language models also work for protein structures.
- Gene Engineering News. (2025, August 13). Protein Language Model Hits Undruggable Targets, No Structure Required.
- News Medical. (2024, June 23). DiffPALM: Advancing protein interaction prediction with AI and language models.
- Nature Research Intelligence. (2025, June 10). Partition Coefficients and Solubility of Organic Compounds in Solvents.
- JSTOR. (2016, April 18). Necessity of capillary modes in a minimal model of nanoscale.
- Nature Research Intelligence. (2025, June 10). Chromatography and Solvation Parameter Models.
- Gene Engineering News. (2025, August 27). BindCraft AI Model Achieves One-Shot Functional Protein Design.
- MSN. (2025, September 2). Antibiotics instead of images: Generative AI designs molecules that kill drug-resistant bacteria.
- Live Mint. (2025, September 4). AI is helping to design proteins from scratch.
- Mirage News. (2025, September 2). 3 Questions: Biology & Medicine's Data Revolution.