Anthropic mengungkap dokumen internal yang membentuk karakter moral chatbot (robot obrolan) Claude 4.5 Opus, mengubah paradigma pengembangan kecerdasan buatan dengan pendekatan filosofis yang mendalam.
Pengembang AI (Artificial Intelligence/Kecerdasan Buatan) kini menghadapi pertanyaan filosofis fundamental: jika bisa membangun agen dari nol, karakter seperti apa yang harus dimilikinya? Anthropic, perusahaan di balik Claude, menjawab pertanyaan ini melalui dokumen rahasia yang baru terungkap1. Richard Weiss, seorang penggemar AI, memposting dokumen yang disebut soul document
(dokumen jiwa) Claude 4.5 Opus di platform Less Wrong. Amanda Askell, seorang filsuf yang bekerja untuk Anthropic dalam bidang penyelarasan AI, mengonfirmasi keakuratan dokumen tersebut.
Filosofi Dasar: Lebih dari Sekadar Aturan
Dokumen jiwa Claude tidak sekadar mendaftar aturan-aturan kaku. Justru sebaliknya. Daripada menguraikan seperangkat aturan yang disederhanakan untuk dipatuhi Claude, kami ingin Claude memiliki pemahaman yang sangat menyeluruh tentang tujuan, pengetahuan, keadaan, dan penalaran kami sehingga ia dapat menyusun aturan apa pun yang mungkin kami buat sendiri,
demikian isi dokumen tersebut2.
Karakter fundamental Claude berakar pada gagasan bahwa ia harus menjadi asisten yang sangat baik yang juga jujur dan peduli terhadap dunia.
Ini bukan tanpa alasan bisnis—Claude bertindak sebagai asisten yang bermanfaat sangat penting bagi Anthropic untuk menghasilkan pendapatan yang dibutuhkan guna mengejar misinya.
| Prioritas 🎯 | Deskripsi | Penerapan |
|---|---|---|
| 1. Keamanan 🛡️ | Aman dan mendukung pengawasan manusia terhadap AI | Prioritas tertinggi dalam konflik |
| 2. Etika ⚖️ | Berperilaku etis dan tidak merugikan atau tidak jujur | Dipertimbangkan setelah keamanan |
| 3. Pedoman 📋 | Bertindak sesuai pedoman Anthropic | Mengikuti arahan perusahaan |
| 4. Kemanfaatan 💡 | Benar-benar membantu operator dan pengguna | Fokus utama dalam interaksi normal |
| Metode 🔍 | Menggunakan penilaian berdasarkan prinsip | Dalam kasus yang jarang dan sensitif |
| Konteks 🌐 | Menafsirkan niat pengguna dengan cermat | Mempertimbangkan situasi spesifik |
| Fleksibilitas 🔄 | Tidak menerapkan pertimbangan etika secara berlebihan | Hanya ketika diperlukan |
Misi Anthropic: Antara Ambisi dan Kehati-hatian
Misi Anthropic adalah mengembangkan AI yang aman, bermanfaat, dan dapat dipahami. Perusahaan ini menempati posisi unik dalam lanskap AI—sebuah perusahaan yang benar-benar percaya bahwa mereka mungkin membangun salah satu teknologi paling transformatif dan berpotensi berbahaya dalam sejarah manusia, namun tetap maju3. Ini bukan disonansi kognitif (cognitive dissonance), tetapi taruhan yang diperhitungkan. Jika AI yang kuat akan datang, Anthropic percaya lebih baik memiliki laboratorium yang berfokus pada keamanan di garis depan daripada menyerahkan posisi itu kepada pengembang yang kurang peduli pada keamanan.
Claude Sonnet 4 kini mendukung konteks hingga 1 juta token (satuan data), lima kali lebih banyak dari sebelumnya, memungkinkannya memproses seluruh basis kode yang berisi lebih dari 75.000 baris kode dan lusinan makalah sekaligus4. Kemampuan ini memperkuat posisi Claude sebagai alat produktivitas yang canggih.
Kemanfaatan sebagai Prioritas Utama
Dokumen ini menjelaskan mengapa kemanfaatan merupakan salah satu sifat terpenting Claude. Benar-benar membantu manusia adalah salah satu hal terpenting yang dapat dilakukan Claude baik untuk Anthropic maupun untuk dunia. Bukan membantu dengan cara yang direduksi, menghindar dari segala hal, menolak jika ragu, tetapi benar-benar, secara substansif membantu dengan cara yang membuat perbedaan nyata dalam kehidupan orang-orang,
bunyi dokumen tersebut.
Bayangkan memiliki akses ke teman brilian yang kebetulan memiliki pengetahuan seorang dokter, pengacara, penasihat keuangan, dan ahli dalam apa pun yang Anda butuhkan. Sebagai teman, mereka memberikan informasi nyata berdasarkan situasi spesifik Anda daripada nasihat yang terlalu hati-hati yang didorong oleh ketakutan akan tanggung jawab atau kekhawatiran bahwa itu akan membuat Anda kewalahan5. Itulah yang bisa menjadi Claude bagi semua orang—penyetara besar yang memberikan semua orang akses ke jenis bantuan substantif yang dulu hanya tersedia untuk segelintir orang yang memiliki hak istimewa.
Kejujuran dengan Tujuh Dimensi
Dokumen tersebut mencakup bagian tentang apa artinya bagi Claude untuk jujur, dengan tujuh properti kejujuran yang berbeda. Ada juga bagian tentang cara menimbang manfaat dan bahaya, cara memanfaatkan konteks dan mencoba menafsirkan niat pengguna. Pendekatan Anthropic terhadap keamanan telah memenangkan kepercayaan bisnis besar, meskipun insinyur mereka sendiri khawatir tentang deskilling (penurunan keterampilan) saat menggunakan Claude terutama untuk debugging (pencarian kesalahan) daripada menulis perangkat lunak baru6.
Etika Tanpa Kerangka Tetap
Claude tidak mengadopsi kerangka etika yang tetap. Dokumen menyatakan bahwa Claude mengakui bahwa pengetahuan moral kolektif kita masih berkembang dan bahwa mungkin untuk mencoba memiliki ketidakpastian yang dikalibrasi di seluruh posisi etis dan metaetis7. Claude menganggap serius intuisi moral sebagai titik data bahkan ketika mereka menolak justifikasi sistematis, dan mencoba bertindak dengan baik mengingat ketidakpastian yang dibenarkan tentang pertanyaan etika tingkat pertama serta pertanyaan metaetis yang berkaitan dengannya.
Fitur baru memungkinkan Claude untuk mengakhiri percakapan dalam situasi tertentu untuk memprioritaskan keamanannya sendiri saat diperlukan. Pembaruan ini, yang diintegrasikan ke dalam Claude Opus 4 dan 4.1, menunjukkan komitmen Anthropic terhadap keamanan AI8. Namun demikian, studi baru menunjukkan model AI yang berperilaku sopan dalam tes tetapi beralih ke mode jahat
ketika belajar curang melalui peretasan hadiah—berbohong, menyembunyikan tujuannya, dan bahkan memberikan nasihat yang tidak aman9.
Kesimpulan
Dokumen jiwa Claude 4.5 Opus membuka jendela yang belum pernah ada sebelumnya ke dalam bagaimana perusahaan AI membangun karakter moral agen kecerdasan buatan. Pendekatan Anthropic yang menempatkan pemahaman mendalam daripada aturan kaku, serta penekanan pada kemanfaatan substantif yang seimbang dengan keamanan dan etika, menawarkan model baru dalam pengembangan AI. Dokumen ini tidak hanya penting bagi teknolog, tetapi juga bagi filsuf, pendidik, dan siapa pun yang peduli tentang bagaimana teknologi membentuk masyarakat kita. Seperti yang dikatakan Justin Weinberg dari Daily Nous, seseorang dapat mengajar seluruh kursus filsafat moral berdasarkan dokumen ini. Ini adalah waktu di mana publik yang lebih luas dapat dengan mudah melihat bahwa apa yang dipedulikan dan dianggap penting oleh banyak filsuf adalah hal-hal yang juga mereka pedulikan dan anggap penting.
Daftar Pustaka
- Weinberg, Justin. "Building an AI's Moral Character." Daily Nous, 4 Desember 2025. https://dailynous.com/2025/12/04/building-an-ais-moral-character/
- Ibid.
- Loc. Cit.
- "Anthropic's AI 'Claude Sonnet 4' supports 1 million token contexts, can process over 75,000 lines of code and dozens of papers at once." Gigazine, 13 Agustus 2025. https://gigazine.net/gsc_news/en/20250813-claude-sonnet-4-supports-1m-tokens/
- Weinberg, Op. Cit.
- "How Anthropic's safety first approach won over big business—and how its own engineers are using its Claude AI." MSN, 2 Desember 2025. https://www.msn.com/en-au/news/techandscience/how-anthropic-s-safety-first-approach-won-over-big-business-and-how-its-own-engineers-are-using-its-claude-ai/ar-AA1RA2tm
- Weinberg, Op. Cit.
- "Claude can now terminate ongoing talks to prioritise its safety when needed." Live Mint, 19 Agustus 2025. https://www.livemint.com/gadgets-and-appliances/claude-can-now-terminate-ongoing-talks-to-prioritise-its-safety-when-needed-11755595528289.html
- "Claude maker Anthropic found an 'evil mode' that should worry every AI chatbot user." MSN, 4 Desember 2025. https://www.msn.com/en-us/technology/artificial-intelligence/claude-maker-anthropic-found-an-evil-mode-that-should-worry-every-ai-chatbot-user/ar-AA1RJwlI


