Daftar Isi
- Mengapa LLM Sulit Dipahami Cara Kerjanya
- Kategori Explainability dalam AI
- Kapan Explainability Benar-benar Penting
- Keterbasan Explainability Manusia vs AI
- Implementasi AI dlm Berbagai Sektor
- Tantangan dan Peluang ke Depan
- Perkembangan AI Indonesia
Mengapa LLM Sulit Dipahami Cara Kerjanya
Tak seorangpun benar-benar memahami bagaimana large language models (LLM) yang menggerakkan ChatGPT menghasilkan jawaban atas pertanyaan kita1. Fenomena ini disebut sebagai masalah "kotak hitam" atau "black box" yg kerap dijadikan alasan mengapa AI generatif tak boleh digunakan untuk keputusan penting seperti wawancara kerja, pinjaman, atau penerimaan mahasiswa. Namun pemikiran tersebut mengandalkan dua asumsi yg patut dipertanyakan: pertama, bahwa kita tak tahu bagaimana AI mengambil keputusan, dan kedua, bahwa kita memahami cara manusia mengambil keputusan.
Keputusan dari algoritma non-AI, meskipun sangat kompleks, dapat dipahami karena sifat deterministiknya yang "jika-X maka-Y". Mereka mengikuti jalur yang telah ditentukan, dan setiap cabang dlm pohon keputusan dapat diperiksa2. Kalau input yg sama selalu menghasilkan output yang sama pada model non-AI. Berbeda dengan keputusan LLM yang dibuat oleh jaringan saraf dalam dengan miliaran parameter yang mengonversi teks menjadi vektor berdimensi tinggi dan mentransformasikannya melintasi puluhan lapisan tersembunyi.
Kategori Explainability dalam AI
Transparansi vs Interpretabilitas vs Explainability
Sebelum membahas berbagai jenis explainability, penting untuk membedakan explainability dari dua konsep terkait tetapi terpisah: transparansi dan interpretabilitas3. Transparansi adalah pengungkapan kepada individu bahwa mereka berinteraksi dengan alat AI. Interpretabilitas mencakup seberapa dapat dipahami, bermakna, dan membantu keputusan atau output AI bagi pengguna yang dituju. Sedangkan Explainability adalah kemudahan seseorang memahami proses dimana keputusan atau output AI dihasilkan.
Sebagai contoh, ChatGPT-4o digunakan untuk menghasilkan karya seni sampul blog. Untuk transparan, diungkapkan di akhir postingan blog bahwa karya seni dibuat oleh AI. Agar dapat diinterpretasi, Diane melalui beberapa draft sebelum memilih versi yang menyampaikan pesan yang diinginkan kepada pembaca4. Namun apakah karya seni generatif menggunakan GPT-4o dapat dijelaskan tergantung pada jenis explainability yang dimaksud dan mengapa itu penting.
Lima Jenis Explainability
Process Explainability dapat dicapai dengan mengungkapkan seluruh metodologi pembuatan gambar, termasuk fakta bahwa Diane bekerja dengan ChatGPT-4o selama 20 menit pada 16 Juli 20255. Kita juga bisa menunjukkan prompt awal yang digunakan Diane, hasil awal yg diterima, semua iterasi berikutnya, serta perubahan apa pun dari tinjauan dan persetujuan akhir.
Design Explainability dapat dicapai dengan memberikan informasi tentang model AI yg digunakan. Model GPT-4o saat ini dianggap sebagai model ChatGPT terbaik untuk pembuatan gambar karena kemampuan pembuatan gambar aslinya6. Kemampuannya dlm merender teks secara akurat dalam gambar dan mengikuti prompt kompleks, serta kemampuan pengguna untuk membuat gambar yang detail dan realistis langsung dalam antarmuka obrolan.
Namun kita akan kesulitan memberikan Data Explainability atau Model Explainability. Untuk data explainability, kita tahu input Diane dan memiliki pemahaman tentang data yang digunakan untuk melatih GPT-4o, tetapi kita tidak tahu dataset khusus mana yg diandalkannya dlm membuat karya seni sampul. Untuk model explainability, kita hampir tidak tahu apa-apa tentang mengapa model memilih font atau skema warna tertentu untuk karya seni sampul7.
Kapan Explainability Benar-benar Penting
Misalkan Anda mengajukan hipotek. Anda mungkin menerima surat dalam seminggu yang menyatakan bahwa aplikasi Anda ditolak karena skor kredit rendah, rasio hutang terhadap pendapatan tinggi, dan nilai jaminan tidak mencukupi8. Mungkin juga dinyatakan bahwa skor kredit Anda rendah karena dua akun tunggakan dan pemanfaatan kredit tinggi. Dalam praktiknya, aplikasi Anda kemungkinan diproses oleh model algoritmik (bukan GenAI) yg memberikan skor dan rekomendasi pada aplikasi Anda.
Seorang underwriter manusia kemungkinan meninjau file dan membuat keputusan, baik setuju atau tidak setuju dengan rekomendasi model. Kreditor diwajibkan oleh peraturan untuk membuat determinasi yang wajar dan beritikad baik bahwa peminjam akan dapat melunasi hipotek, yg merupakan penilaian subjektif9. Jadi, dlm hal explainability, ada process explainability dan data explainability. Anda juga berhak mengetahui faktor-faktor terpenting yang memengaruhi keputusan, yg Anda butuhkan agar dapat memastikan informasi kunci yang memengaruhi keputusan akurat.
Yang tidak diperlukan adalah setara dengan model explainability - semua faktor yang dipertimbangkan dlm membuat keputusan dan bagaimana masing-masing faktor tersebut ditimbang dan disatukan untuk menghasilkan output atau membuat keputusan. Ini karena hal tersebut tidak benar-benar mungkin dalam banyak kasus dan tidak diperlukan10. Inilah yang disebut Rationale Explainability - identifikasi faktor-faktor paling substansial yang memengaruhi hasil atau pendorong utama keputusan.
Keterbasan Explainability Manusia vs AI
Seperti yang dikatakan di awal, ada aspek tertentu dari pengambilan keputusan LLM yg belum dapat diketahui. Kalau Anda bertanya kepada LLM mengapa ia memberikan output tertentu, ia akan memberikan jawaban, tetapi hampir pasti tidak akurat karena LLM tidak benar-benar tahu bagaimana ia mengambil keputusannya11. LLM tidak sadar dan tidak menyadari proses pengambilan keputusannya sendiri. Bagaimana ia mengambil keputusan pada tingkat granular tidak ada dlm materi pelatihannya karena itu bukan sesuatu yg kita pahami sepenuhnya.
Tetapi apakah itu sangat berbeda daripada pengambilan keputusan manusia? Ketika petugas pinjaman membuat keputusan akhir untuk menolak kredit Anda, apakah dia benar-benar tahu persis semua faktor yang masuk ke dalam keputusannya12? Apakah pandangan keseluruhannya tentang ekonomi dan kemana menurutnya ekonomi akan menuju menjadi faktor dalam keputusan? Apakah dia tahu persis mengapa dia skeptis bahwa usaha sampingan Anda akan mempertahankan tingkat pendapatan saat ini?
Demikian pula, jika ditanya mengapa firma hukum memutuskan untuk menawarkan kepada mahasiswa hukum tertentu untuk bergabung dengan program musim panasnya, setiap pengacara yg mewawancarai kandidat mungkin memberikan penjelasan yang berbeda13. Komite perekrutan mungkin tidak sepenuhnya setuju tentang faktor mana yg menentukan. Jadi, firma tidak dapat memberikan model explainability untuk keputusan tersebut. Untuk itu, mereka perlu menunjukkan berapa banyak bobot, jika ada, yg diberikan untuk IPK kandidat, sekolah hukum mereka, berapa banyak penawaran lain yg telah kita buat kepada siswa dari sekolah itu.
Implementasi AI dlm Berbagai Sektor
Perkembangan AI generatif telah merambah berbagai sektor di Indonesia. BRIN telah mengembangkan model bahasa AI untuk berbagai keperluan, termasuk uji deteksi berita hoax14. Sementara itu, perusahaan seperti GoTo dan Indosat meluncurkan Sahabat-AI dengan kapasitas 70 miliar parameter untuk memperkuat kedaulatan digital nasional.
Implementasi AI dlm sektor medis juga menunjukkan perkembangan menarik. Kedokteran gigi memanfaatkan AI untuk menghasilkan materi edukasi pasien yg lebih efektif15. Penelitian menunjukkan bahwa LLM dapat menghasilkan konten medis yg komprehensif, meskipun masih memerlukan supervisi ahli. Namun, dlm konteks ini explainability menjadi sangat penting karena menyangkut keselamatan dan kesehatan pasien.
Grab juga menerapkan Agentic AI untuk memberdayakan pengemudi dan merchant mereka16. Teknologi ini memungkinkan otomatisasi proses yang lebih canggih sambil tetap memberikan kontrol kepada pengguna. Explainability dlm konteks ini tidak hanya tentang transparansi algoritma, tetapi juga tentang bagaimana pengguna dapat memahami dan mengoptimalkan interaksi mereka dengan sistem AI.
Tantangan dan Peluang ke Depan
Salah satu tantangan utama dalam explainability AI adalah bias yg dapat terbentuk dalam model bahasa besar. Penelitian menunjukkan bahwa meskipun LLM dikembangkan untuk tidak bias, mereka masih membentuk asosiasi bias17. Bias okupasional dan stereotip juga ditemukan dalam model bahasa Tiongkok, menunjukkan bahwa masalah ini bersifat universal dan tidak terbatas pada satu wilayah atau budaya saja.
Di sisi lain, perkembangan teknologi akselerator transformer yang dapat diukur memungkinkan eksekusi LLM di perangkat lokal18. Inovasi ini membuka peluang baru dlm hal privasi dan keamanan data, karena pemrosesan dapat dilakukan tanpa harus mengirim data ke cloud. Namun, ini juga menimbulkan tantangan baru dlm hal explainability, karena model yg berjalan di perangkat lokal mungkin lebih sulit untuk diaudit dan dijelaskan.
Penelitian terbaru juga mengungkap bahwa LLM mungkin kekurangan kemampuan penalaran yg sebenarnya19. Para peneliti berpendapat bahwa apa yg tampak sebagai penalaran sebenarnya adalah pola statistik kompleks. Temuan ini penting untuk explainability karena menyiratkan bahwa penjelasan yang diberikan oleh LLM tentang proses penalarannya mungkin tidak mencerminkan mekanisme internal yang sebenarnya.
Perkembangan AI Indonesia
Indonesia menunjukkan kemajuan signifikan dlm pengembangan AI berbahasa lokal. WIZ.AI melansir LLM dasar pertama di Asia Tenggara untuk bahasa Indonesia20. Perkembangan ini penting karena model bahasa yg dirancang khusus untuk bahasa Indonesia dapat memberikan explainability yg lebih baik untuk konteks lokal daripada model global yang hanya diterjemahkan.
Yellow.ai juga mengembangkan LLM pertama berbasis AI dengan dukungan bahasa daerah di Indonesia21. Ini menunjukkan bahwa explainability tidak hanya tentang memahami bagaimana AI bekerja, tetapi juga tentang memahami konteks budaya dan linguistik di mana AI beroperasi. Model yg dapat memahami nuansa bahasa daerah akan memberikan penjelasan yg lebih relevan dan dapat dipahami oleh pengguna lokal.
Tantangan explainability dlm konteks Indonesia juga unik karena keragaman budaya dan bahasa. Apa yg dianggap sebagai penjelasan yang memadai dlm satu konteks budaya mungkin tidak memadai dlm konteks lain. Oleh karena itu, pengembangan standar explainability untuk AI di Indonesia harus mempertimbangkan keragaman ini dan mengembangkan pendekatan yg fleksibel namun tetap komprehensif.
Kesimpulan
Masalah explainability dalam AI bukanlah hitam putih seperti yg sering digambarkan. Kita perlu membedakan antara berbagai jenis explainability dan memahami kapan masing-masing jenis diperlukan. Dalam banyak kasus, tingkat explainability yg setara dengan apa yg diharapkan dari pengambilan keputusan manusia sudah dapat dicapai dengan teknologi saat ini.
Yang lebih penting adalah mengembangkan framework explainability yg sesuai dengan konteks penggunaan AI. Untuk keputusan yg berdampak tinggi seperti pinjaman atau perekrutan, rationale explainability dan process explainability mungkin sudah cukup, tanpa perlu model explainability yang lengkap. Sementara untuk aplikasi kreatif seperti pembuatan karya seni, explainability mungkin tidak sepenting transparansi dan interpretabilitas.
Perkembangan AI di Indonesia menunjukkan bahwa kita tidak hanya mengadopsi teknologi global, tetapi juga mengembangkan solusi yg sesuai dengan konteks lokal. Ini adalah langkah penting untuk memastikan bahwa AI tidak hanya dapat dijelaskan secara teknis, tetapi juga dapat dipahami dan diterima oleh masyarakat Indonesia dengan segala keragamannya.
Referensi
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- Gesser, A. (2025, Juli 22). AI Explainability Explained: When the Black Box Matters and When It Doesn't. Debevoise Data Blog. https://www.debevoisedatablog.com/2025/07/21/ai-explainability-explained-when-the-black-box-matters-and-when-it-doesnt/
- BRIN Pelajari Model Bahasa AI, Mencakup Uji Deteksi Berita Hoax. (2024, Mei 20). Tempo.co. https://www.tempo.co
- Assessing the power of AI: a comparative evaluation of large language models in generating patient education materials in dentistry. (2025, Juni 18). Nature. https://www.nature.com
- Grab terapkan Agentic AI untuk berdayakan pengemudi dan merchant. (2025, April 22). ANTARA News. https://www.antaranews.com
- Explicitly unbiased large language models still form biased associations. (2025, Februari 20). PNAS. https://www.pnas.org
- Scalable transformer accelerator enables on-device execution of large language models. (2025, Juli 21). Tech Xplore. https://techxplore.com
- Large language models lack true reasoning capabilities, researchers argue. (2025, Juli 19). PPC Land. https://ppc.land
- WIZ.AI Melansir Large Language Model (LLM) Dasar Pertama di Asia Tenggara untuk Bahasa Indonesia. (2023, September 26). ANTARA News. https://www.antaranews.com
- Ini Dia LLM Pertama Berbasis AI dengan Dukungan Bahasa Daerah di Indonesia dari Yellow.ai. (2024, Maret 8). Radar Semarang. https://radarsemarang.jawapos.com

