Peneliti MIT menemukan metode baru yang dapat mengedit dan menghasilkan gambar menggunakan AI tanpa memerlukan generator konvensional
Industri generasi gambar Artificial Intelligence (Kecerdasan Buatan) yg diproyeksikan mencapai miliaran dolar di akhir dekade ini mendapat terobosan mengejutkan. Tim peneliti dari Massachusetts Institute of Technology (MIT) telah mengembangkan pendekatan revolusioner untuk memanipulasi dan menghasilkan gambar menggunakan AI tanpa memerlukan generator sama sekali1.
Apa yang Membuat Teknologi Ini Berbeda?
Riset yang dipresentasikan di International Conference on Machine Learning (ICML 2025) di Vancouver menunjukkan bahwa gambar dapat diedit hanya dengan memodifikasi token-token tertentu. Lukas Lao Beyer, peneliti pascasarjana di Laboratory for Information and Decision Systems (LIDS) MIT, menjelaskan bahwa mereka menggunakan tokenizer satu dimensi yang dapat mengompres gambar 256x256 piksel menjadi sekuensnya hanya 32 angka1.
Kaiming He, profesor asosiait teknik elektro dan ilmu komputer MIT, menggambarkan token-token ini seperti "kosakata 4.000 kata yang membentuk bahasa abstrak tersembunyi yang digunakan komputer." Meskipun bukan bahasa manusia, kita masih bisa mencoba memahami artinya1.
Bagaimana Cara Kerja Teknologi Baru Ini?
Manipulasi Token untuk Editing Gambar
Pendekatan yang diambil Lao Beyer cukup sederhana namun efektif. Untuk mengetahui fungsi token tertentu, ia menghapus token tersebut, mengganti dengan nilai acak, lalu mengamati perubahan yg terjadi pada output gambar. Hasilnya, satu token dapat mengubah kualitas gambar dari resolusi rendah ke tinggi atau sebaliknya1.
Token lain memengaruhi keburaman latar belakang, sementara ada juga yang mengontrol kecerahan. Bahkan ditemukan token khusus yang berkaitan dengan "pose" - dalam gambar burung robin misalnya, kepala burung bisa bergeser dari kanan ke kiri1.
Generasi Gambar Tanpa Generator
Pencapaian lebih signifikan adalah kemampuan menciptakan gambar tanpa menggunakan generator. Tim MIT memanfaatkan tokenizer 1D bersama detokenizer (atau decoder) yang dapat merekonstruksi gambar dari rangkaian token. Dengan bimbingan jaringan saraf CLIP - yang tak bisa menghasilkan gambar sendiri namun dapat mengukur seberapa baik gambar cocok dengan prompt teks tertentu - mereka berhasil mengubah gambar panda merah menjadi harimau1.
Siapa yang Terlibat dalam Penelitian Ini?
Proyek kolaboratif ini melibatkan Lukas Lao Beyer sebagai peneliti utama, Tianhong Li dari MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen dari Facebook AI Research, Sertac Karaman yang merupakan profesor aeronautika dan astronautika MIT sekaligus direktur LIDS, serta Kaiming He1.
Yang menarik, penelitian ini bermula dari proyek kelas untuk seminar pascasarjana tentang model generatif dalam yang diambil Lao Beyer musim gugur lalu. Dlm percakapan selama semester, He dan Lao Beyer menyadari bahwa riset ini memiliki potensi nyata yang jauh melampaui tugas kuliah biasa1.
Mengapa Teknologi Ini Penting?
Saining Xie, ilmuwan komputer dari New York University, berkomentar bahwa karya ini mendefinisikan ulang peran tokenizer. "Ini menunjukkan bahwa tokenizer gambar - alat yang biasanya hanya digunakan untuk mengompres gambar - sebenarnya bisa melakukan lebih banyak hal. Fakta bahwa tokenizer 1D sederhana (tapi sangat terkompresi) dapat menangani tugas seperti inpainting atau editing berbasis teks, tanpa perlu melatih model generatif penuh, cukup mengejutkan"1.
Zhuang Liu dari Princeton University setuju, menyatakan bahwa karya tim MIT "menunjukkan bahwa kita dapat menghasilkan dan memanipulasi gambar dengan cara yang jauh lebih mudah dari yang kita pikirkan sebelumnya. Pada dasarnya, ini membuktikan bahwa generasi gambar bisa menjadi produk sampingan dari kompresor gambar yang sangat efektif, berpotensi mengurangi biaya generasi gambar beberapa kali lipat"1.
Kapan dan Dimana Aplikasi Ini Dapat Digunakan?
Menghindari penggunaan generator untuk tugas-tugas tertentu dapat menghasilkan pengurangan signifikan dalam biaya komputasi karena generator, seperti yang disebutkan, biasanya memerlukan pelatihan ekstensif1. Tim juga mendemonstrasikan bahwa dengan setup yang sama - mengandalkan tokenizer dan detokenizer, tapi tanpa generator - mereka juga bisa melakukan "inpainting," yaitu mengisi bagian gambar yang entah bagaimana telah terhapus.
Sertac Karaman menyarankan aplikasi di luar bidang computer vision. "Misalnya, kita bisa mempertimbangkan tokenisasi tindakan robot atau mobil otonom dengan cara yang sama, yang mungkin dengan cepat memperluas dampak dari karya ini"1.
Kesimpulan
Penelitian MIT ini menandai langkah maju signifikan dalam teknologi AI generasi gambar. Dengan menunjukkan bahwa manipulasi dan generasi gambar dapat dilakukan tanpa generator konvensional, tim peneliti membuka jalan bagi pendekatan yang lebih efisien dan berbiaya rendah. Seperti yang dikatakan He, "Kami tidak menemukan sesuatu yg baru. Kami tidak menemukan tokenizer 1D, dan kami juga tidak menemukan model CLIP. Tapi kami menemukan bahwa kemampuan baru dapat muncul ketika Anda menggabungkan semua bagian ini"1.
Referensi
- MIT News. (2025, July 21). A new way to edit or generate images. https://news.mit.edu/2025/new-way-edit-or-generate-images-0721