![]() |
Semakin canggih model AI seperti o3 dan o4-mini dari OpenAI justru menunjukkan tingkat halusinasi yang tinggi. |
Seiring dengan berkembangnya teknologi kecerdasan buatan (AI), muncul tantangan baru yang cukup serius: halusinasi. Dalam konteks AI, halusinasi mengacu pada situasi di mana model memberikan informasi yang keliru atau tidak sesuai dengan fakta yang sebenarnya. Fenomena ini semakin mencuat seiring dengan meningkatnya kemampuan model-model AI terbaru.
Laporan terkini dari OpenAI menyebutkan bahwa dua model terbarunya, yakni o3 dan o4-mini, menunjukkan tingkat halusinasi yang cukup signifikan saat diuji dalam beberapa skenario. Ini mengindikasikan bahwa kecanggihan AI belum tentu menjamin akurasi informasi yang diberikan.
Dalam studi tersebut, model AI o3 dan o4-mini diuji dalam dua skenario berbeda: PersonQA dan SimpleQA. Uji PersonQA berfokus pada pertanyaan mengenai tokoh publik, sementara SimpleQA mengandalkan pertanyaan faktual yang bersifat langsung dan ringkas.
Hasilnya cukup mengejutkan. Dalam PersonQA, model o3 memberikan jawaban halusinatif sebanyak 33%, sedangkan o4-mini justru lebih tinggi lagi, yaitu 41%. Fakta ini mengindikasikan bahwa meskipun AI mampu mengenali informasi tokoh terkenal, tingkat kesalahannya tetap tinggi.
Uji coba SimpleQA memperlihatkan tren yang lebih mengkhawatirkan. Model o3 mencatat angka halusinasi hingga 51%, sedangkan o4-mini melonjak drastis hingga 79%. Menurut OpenAI, tingginya angka tersebut bisa dimaklumi karena o4-mini dirancang untuk menyampaikan jawaban dengan cepat—bukan mendalam.
Opini pribadi saya, ini memperlihatkan bahwa kecepatan memang seringkali menjadi lawan dari ketelitian, bahkan dalam teknologi secanggih AI. Model yang lebih cepat cenderung lebih spekulatif jika dibandingkan dengan yang lebih lambat namun hati-hati.
OpenAI juga melakukan pengujian terhadap model terbarunya lainnya, yakni GPT-4.5. Dalam skenario SimpleQA, GPT-4.5 memperlihatkan tingkat halusinasi sebesar 37,1%—lebih rendah dibanding o3 dan o4-mini. Ini menunjukkan adanya perbaikan dalam arsitektur model yang digunakan, namun tetap menyisakan PR besar dalam hal akurasi.
Tes Tambahan oleh Vectara: AI Diminta Merangkum Artikel
Tak hanya itu, platform Vectara juga menguji halusinasi AI dengan cara yang berbeda: meminta model AI untuk merangkum artikel berita. Ringkasan tersebut lalu dibandingkan dengan isi artikel asli. Dari sini terlihat bahwa tidak semua AI reasoning bekerja lebih baik dari model tradisional.
Model o3, misalnya, mencatat tingkat halusinasi sebesar 6,8%. Sementara model R1 buatan DeepSeek jauh lebih buruk dengan angka 14,3%. Model DeepSeek-V2.5 justru jauh lebih baik, dengan hanya 2,4% halusinasi. Fakta ini menegaskan bahwa tak semua model reasoning benar-benar “menalar” dengan baik.
Hasil Uji pada Model Reasoning Juga Tak Memuaskan
Model reasoning lainnya seperti Granite 3.2 buatan IBM juga menunjukkan kelemahan serupa. Versi 8B dari model ini memiliki tingkat halusinasi 8,7%, sedangkan versi kecilnya (2B) mencapai 16,5%. Ironisnya, model yang lebih kompleks malah tidak selalu menghasilkan jawaban yang lebih tepat.
Sebagai pengamat teknologi, saya melihat bahwa ini menjadi bukti bahwa “kemampuan menalar” pada AI masih belum setara dengan manusia. Penambahan parameter belum tentu berbanding lurus dengan kualitas pemrosesan informasi.
Kenapa AI Bisa Kasih Jawaban “Halu”?
Menurut firma riset AI bernama Transluce, penyebab utama dari halusinasi ini adalah cara AI dirancang. Model seperti o3 misalnya, dilatih untuk memaksimalkan kemungkinan jawaban yang mungkin benar, bukan jawaban yang pasti benar. Jadi ketika tidak yakin, AI akan tetap menjawab seakan-akan informasi tersebut benar.
Hal ini wajar karena AI dibangun dari data-data sebelumnya. Ketika pertanyaan berada di luar cakupan data, model tetap “memaksa” memberikan respons. Akibatnya, kita mendapatkan jawaban yang tampak meyakinkan padahal keliru.
Inilah alasan mengapa pengguna perlu berhati-hati. AI bukanlah mesin kebenaran, melainkan alat bantu yang harus dikritisi.
Tanggapan Perusahaan AI Soal "Halusinasi"
OpenAI sendiri tak menampik kenyataan ini. Mereka mengakui bahwa model o3 memang cenderung membuat pernyataan yang tegas meskipun informasinya belum tentu akurat. Bahkan, CEO OpenAI, Sam Altman, menyebut halusinasi ini sebagai fitur, bukan bug.
Pernyataan ini menuai kontroversi. Berbeda dengan pendekatan OpenAI, perusahaan seperti Google, Microsoft, dan Anthropic justru berupaya memperbaiki masalah ini. Google bahkan telah mengembangkan sistem bernama Vertex, sementara Microsoft menciptakan fitur Correction untuk menandai informasi yang mencurigakan.
Namun, efektivitas dua sistem tersebut masih diragukan oleh sejumlah pakar.
Usulan Peneliti untuk Mengatasi “Halusinasi AI”
Sebagai solusi, sejumlah peneliti menyarankan agar AI dilatih untuk mengatakan “saya tidak tahu” ketika memang tidak memiliki informasi yang cukup. Pendekatan ini dinilai lebih jujur dan aman daripada memberikan jawaban yang salah.
Pendekatan lainnya adalah teknik retrieval augmented generation (RAG), di mana AI diberi akses ke dokumen relevan saat menjawab pertanyaan. Dengan cara ini, AI bisa lebih mendasarkan jawabannya pada referensi nyata, bukan sekadar prediksi dari memorinya.
kombinasi dua pendekatan ini dapat menjadi jalan tengah yang bijak. AI akan tetap bermanfaat tanpa menjadi sumber informasi menyesatkan.
Fenomena halusinasi AI menjadi alarm penting bahwa teknologi ini belum sepenuhnya matang. Meski menjanjikan efisiensi dan kecepatan, akurasi masih menjadi masalah utama.
Dengan tren penggunaan AI yang terus meningkat, publik perlu dibekali pemahaman yang cukup untuk memilah mana informasi yang valid dan mana yang “halu”.
0Komentar