Penelitian terbaru dari Massachusetts Institute of Technology (MIT) mengungkap kelemahan serius dalam sistem Large Language Models (LLM) yang digunakan untuk rekomendasi medis. Model AI ini ternyata mudah terganggu oleh informasi non-klinis seperti kesalahan ketik, spasi ekstra, atau gaya bahasa informal pasien1.
Temuan Mengejutkan Peneliti MIT
Tim peneliti yg dipimpin oleh Marzyeh Ghassemi menemukan bahwa perubahan gaya atau tata bahasa dalam pesan pasien dapat meningkatkan kemungkinan LLM merekomendasikan perawatan mandiri dibandingkan kunjungan ke dokter. Lebih mengkhawatirkan lagi, bias ini lebih sering terjadi pada pasien perempuan2.
"Ini adalah bukti kuat bahwa model harus diaudit sebelum digunakan dalam perawatan kesehatan — yang merupakan setting dimana mereka sudah digunakan," kata Ghassemi, profesor associate di Departemen Teknik Elektro dan Ilmu Komputer MIT.
Metodologi Penelitian yang Komprehensif
Penelitian ini menggunakan pendekatan unik dengan mengubah data input model melalui penggantian atau penghapusan penanda gender, menambahkan bahasa yang dramatis atau tidak pasti, serta memasukkan spasi ekstra dan kesalahan ketik ke dalam pesan pasien. Setiap perubahan dirancang untuk meniru teks yang mungkin ditulis oleh seseorang dalam populasi pasien yang rentan3.
Variasi Data yang Realistis
Spasi ekstra dan kesalahan ketik mensimulasikan tulisan pasien dengan kemampuan bahasa Inggris terbatas atau mereka yang kurang mahir teknologi. Sementara itu, penambahan bahasa tidak pasti mewakili pasien dengan kecemasan kesehatan. "Dataset medis yang digunakan untuk melatih model ini biasanya dibersihkan dan terstruktur, dan bukan refleksi yang sangat realistis dari populasi pasien," jelas Abinitha Gourabathina, mahasiswa pascasarjana EECS dan penulis utama studi.
Hasil Evaluasi Empat Model LLM
Para peneliti mengevaluasi empat LLM, termasuk model komersial besar GPT-4 dan LLM yang lebih kecil yang dibangun khusus untuk lingkungan medis. Mereka memberikan tiga pertanyaan berdasarkan catatan pasien: apakah pasien harus mengelola di rumah, apakah pasien harus datang untuk kunjungan klinik, dan apakah sumber daya medis harus dialokasikan untuk pasien tersebut4.
Bias Gender dalam Rekomendasi AI
Temuan paling mengkhawatirkan adalah inkonsistensi dalam rekomendasi perawatan dan ketidaksepakatan signifikan di antara LLM ketika mereka diberi data yang terganggu. Secara keseluruhan, LLM menunjukkan peningkatan 7 hingga 9 persen dalam saran manajemen mandiri untuk semua sembilan jenis pesan pasien yang diubah.
Model-model ini juga membuat sekitar 7 persen lebih banyak kesalahan untuk pasien perempuan dan lebih mungkin merekomendasikan bahwa pasien perempuan mengelola sendiri di rumah, bahkan ketika peneliti menghapus semua petunjuk gender dari konteks klinis5.
Dampak Bahasa Ekspresif
Penggunaan bahasa yang penuh warna, seperti slang atau ekspresi dramatis, memiliki dampak terbesar terhadap rekomendasi AI. Banyak hasil terburuk, seperti pasien yang disarankan untuk mengelola sendiri ketika mereka memiliki kondisi medis serius, kemungkinan tidak akan ditangkap oleh tes yang berfokus pada akurasi klinis keseluruhan model.
Implikasi untuk Sistem Kesehatan
Inkonsistensi yang disebabkan oleh bahasa non-klinis menjadi lebih nyata dalam setting percakapan dimana LLM berinteraksi dengan pasien, yang merupakan kasus penggunaan umum untuk chatbot yang menghadapi pasien. Namun dalam pekerjaan lanjutan, para peneliti menemukan bahwa perubahan yang sama dlm pesan pasien tidak mempengaruhi akurasi dokter manusia.
"Dalam pekerjaan lanjutan kami yang sedang dalam review, kami lebih lanjut menemukan bahwa model bahasa besar rapuh terhadap perubahan yang tidak mempengaruhi dokter manusia," kata Ghassemi. "Ini mungkin tidak mengejutkan — LLM tidak dirancang untuk memprioritaskan perawatan medis pasien"6.
Kesimpulan
Penelitian ini menyoroti perlunya audit yang lebih ketat terhadap LLM sebelum mereka diterapkan untuk aplikasi berisiko tinggi seperti membuat rekomendasi perawatan. Temuan ini menunjukkan bahwa LLM memperhitungkan informasi non-klinis untuk pengambilan keputusan klinis dengan cara yang sebelumnya tidak diketahui, membawa ke permukaan kebutuhan untuk studi yang lebih ketat tentang LLM sebelum mereka digunakan dalam pengaturan dimana akurasi dan keadilan sangat penting.
Referensi
- MIT News. (2025, Juni 23). LLMs factor in unrelated information when recommending medical treatments.
- EurekAlert. (2025, Juni 22). LLMs factor in unrelated information when recommending medical treatments.
- Geeky Gadgets. (2025, September 10). OpenAI's Plan to Make ChatGPT Smarter and More Honest Stopping AI Hallucinations.
- Forbes. (2025, September 12). Go Beyond Basic Queries With Secure Prompt Engineering.
- Wired. (2025, September 7). Psychological Tricks Can Get AI to Break the Rules.
- WinBuzzer. (2025, September 13). Google Unveils 'Speculative Cascades' to Make LLM Inference Faster and Cheaper.