{!-- ra:00000000000003ec0000000000000000 --}AI Medis Terpengaruh Info Non-Klinis: Riset MIT Ungkap Bias Gender - SWANTE ADI KRISNA
cross
Hit enter to search or ESC to close
AI Medis Terpengaruh Info Non-Klinis: Riset MIT Ungkap Bias Gender
23
June 2025

AI Medis Terpengaruh Info Non-Klinis: Riset MIT Ungkap Bias Gender

  • 4
  • 23 June 2025
AI Medis Terpengaruh Info Non-Klinis: Riset MIT Ungkap Bias Gender

Penelitian terbaru dari Massachusetts Institute of Technology (MIT) mengungkap kelemahan serius dalam sistem Large Language Models (LLM) yang digunakan untuk rekomendasi medis. Model AI ini ternyata mudah terganggu oleh informasi non-klinis seperti kesalahan ketik, spasi ekstra, atau gaya bahasa informal pasien1.

Temuan Mengejutkan Peneliti MIT

Tim peneliti yg dipimpin oleh Marzyeh Ghassemi menemukan bahwa perubahan gaya atau tata bahasa dalam pesan pasien dapat meningkatkan kemungkinan LLM merekomendasikan perawatan mandiri dibandingkan kunjungan ke dokter. Lebih mengkhawatirkan lagi, bias ini lebih sering terjadi pada pasien perempuan2.

"Ini adalah bukti kuat bahwa model harus diaudit sebelum digunakan dalam perawatan kesehatan — yang merupakan setting dimana mereka sudah digunakan," kata Ghassemi, profesor associate di Departemen Teknik Elektro dan Ilmu Komputer MIT.

Metodologi Penelitian yang Komprehensif

Penelitian ini menggunakan pendekatan unik dengan mengubah data input model melalui penggantian atau penghapusan penanda gender, menambahkan bahasa yang dramatis atau tidak pasti, serta memasukkan spasi ekstra dan kesalahan ketik ke dalam pesan pasien. Setiap perubahan dirancang untuk meniru teks yang mungkin ditulis oleh seseorang dalam populasi pasien yang rentan3.

Variasi Data yang Realistis

Spasi ekstra dan kesalahan ketik mensimulasikan tulisan pasien dengan kemampuan bahasa Inggris terbatas atau mereka yang kurang mahir teknologi. Sementara itu, penambahan bahasa tidak pasti mewakili pasien dengan kecemasan kesehatan. "Dataset medis yang digunakan untuk melatih model ini biasanya dibersihkan dan terstruktur, dan bukan refleksi yang sangat realistis dari populasi pasien," jelas Abinitha Gourabathina, mahasiswa pascasarjana EECS dan penulis utama studi.

Hasil Evaluasi Empat Model LLM

Para peneliti mengevaluasi empat LLM, termasuk model komersial besar GPT-4 dan LLM yang lebih kecil yang dibangun khusus untuk lingkungan medis. Mereka memberikan tiga pertanyaan berdasarkan catatan pasien: apakah pasien harus mengelola di rumah, apakah pasien harus datang untuk kunjungan klinik, dan apakah sumber daya medis harus dialokasikan untuk pasien tersebut4.

Bias Gender dalam Rekomendasi AI

Temuan paling mengkhawatirkan adalah inkonsistensi dalam rekomendasi perawatan dan ketidaksepakatan signifikan di antara LLM ketika mereka diberi data yang terganggu. Secara keseluruhan, LLM menunjukkan peningkatan 7 hingga 9 persen dalam saran manajemen mandiri untuk semua sembilan jenis pesan pasien yang diubah.

Model-model ini juga membuat sekitar 7 persen lebih banyak kesalahan untuk pasien perempuan dan lebih mungkin merekomendasikan bahwa pasien perempuan mengelola sendiri di rumah, bahkan ketika peneliti menghapus semua petunjuk gender dari konteks klinis5.

Dampak Bahasa Ekspresif

Penggunaan bahasa yang penuh warna, seperti slang atau ekspresi dramatis, memiliki dampak terbesar terhadap rekomendasi AI. Banyak hasil terburuk, seperti pasien yang disarankan untuk mengelola sendiri ketika mereka memiliki kondisi medis serius, kemungkinan tidak akan ditangkap oleh tes yang berfokus pada akurasi klinis keseluruhan model.

Implikasi untuk Sistem Kesehatan

Inkonsistensi yang disebabkan oleh bahasa non-klinis menjadi lebih nyata dalam setting percakapan dimana LLM berinteraksi dengan pasien, yang merupakan kasus penggunaan umum untuk chatbot yang menghadapi pasien. Namun dalam pekerjaan lanjutan, para peneliti menemukan bahwa perubahan yang sama dlm pesan pasien tidak mempengaruhi akurasi dokter manusia.

"Dalam pekerjaan lanjutan kami yang sedang dalam review, kami lebih lanjut menemukan bahwa model bahasa besar rapuh terhadap perubahan yang tidak mempengaruhi dokter manusia," kata Ghassemi. "Ini mungkin tidak mengejutkan — LLM tidak dirancang untuk memprioritaskan perawatan medis pasien"6.

Kesimpulan

Penelitian ini menyoroti perlunya audit yang lebih ketat terhadap LLM sebelum mereka diterapkan untuk aplikasi berisiko tinggi seperti membuat rekomendasi perawatan. Temuan ini menunjukkan bahwa LLM memperhitungkan informasi non-klinis untuk pengambilan keputusan klinis dengan cara yang sebelumnya tidak diketahui, membawa ke permukaan kebutuhan untuk studi yang lebih ketat tentang LLM sebelum mereka digunakan dalam pengaturan dimana akurasi dan keadilan sangat penting.

Referensi

Download PDF tentang Evaluasi Bias Gender dan Sensi (telah di download 9 kali)
  • AI Medis Terpengaruh Info Non-Klinis: Riset MIT Ungkap Bias Gender
    Penelitian ini mengeksplorasi bagaimana Large Language Models (LLM) dalam konteks medis menunjukkan bias signifikan terhadap informasi non-klinis seperti kesalahan ketik, spasi ekstra, dan gaya bahasa informal. Studi komprehensif terhadap empat model LLM mengungkap disparitas gender yang mengkhawatirkan dalam rekomendasi perawatan, dimana perempuan lebih sering disarankan untuk perawatan mandiri bahkan ketika kondisi medis mereka memerlukan intervensi klinis. Temuan ini menyoroti urgensitas audit ketat sebelum implementasi AI dalam sistem kesehatan.
Penulis
Swante Adi Krisna
Penikmat musik Ska, Reggae dan Rocksteady sejak 2004. Gooners sejak 1998. Blogger dan ai paruh waktu sejak 2014. Graphic Designer autodidak sejak 2001. Website Programmer autodidak sejak 2003. Woodworker autodidak sejak 2024. Sarjana Hukum Pidana dari salah satu Perguruan Tinggi Negeri di Surakarta. Magister Hukum Pidana di bidang cybercrime dari salah satu Perguruan Tinggi Swasta di Surakarta. Magister Kenotariatan di bidang hukum teknologi, khususnya cybernotary dari salah satu Perguruan Tinggi Negeri di Surakarta. Bagian dari Keluarga Besar Kementerian Pertahanan Republik Indonesia.