Metode Baru untuk Mendeteksi Halusinasi AI Diperkenalkan

Alat KI generatif saat ini seperti ChatGPT memiliki masalah: Mereka sering mengeluarkan informasi yang salah dengan percaya diri.

25/6/2024, 15.15
Eulerpool News 25 Jun 2024, 15.15

Sebuah tantangan yang terus-menerus pada kecerdasan buatan generatif (AI) saat ini seperti ChatGPT adalah bahwa mereka sering dengan percaya diri menyatakan informasi yang salah. Perilaku ini, yang disebut sebagai "halusinasi" oleh ilmuwan komputer, merupakan hambatan utama bagi kegunaan AI.

Halusinasi telah menyebabkan beberapa insiden memalukan di depan umum. Pada bulan Februari, Air Canada diwajibkan oleh sebuah tribunal untuk mengakui diskon yang secara keliru ditawarkan oleh chatbot layanan pelanggannya kepada seorang penumpang.

Pada bulan Mei, Google harus melakukan perubahan pada fitur pencarian barunya "AI Overviews" setelah botnya memberitahu beberapa pengguna bahwa aman untuk makan batu.

Dan pada bulan Juni tahun lalu, dua pengacara dijatuhi denda sebesar 5.000 dolar oleh seorang hakim AS setelah salah satu dari mereka mengakui telah menggunakan ChatGPT untuk membantu dalam penyusunan gugatan. Chatbot tersebut telah memasukkan kutipan palsu dalam dokumen yang merujuk pada kasus-kasus yang tidak pernah ada.

Berita baik untuk pengacara, raksasa mesin pencari, dan maskapai penerbangan: Setidaknya beberapa jenis halusinasi AI mungkin segera menjadi masa lalu. Penelitian baru yang diterbitkan pada hari Rabu di jurnal ilmiah Nature menggambarkan metode baru untuk mendeteksi halusinasi AI.

Metode ini mampu membedakan antara jawaban yang benar dan salah yang dihasilkan oleh KI dalam sekitar 79 persen kasus – sekitar sepuluh poin persen lebih tinggi daripada metode terkemuka lainnya. Meskipun metode ini hanya mengatasi salah satu penyebab halusinasi KI dan memerlukan sekitar sepuluh kali lipat daya komputasi dibandingkan percakapan chatbot standar, hasilnya dapat membuka jalan bagi sistem KI yang lebih andal.

Tujuan saya adalah membuka jalan bagi model bahasa besar untuk digunakan di tempat-tempat di mana saat ini mereka tidak digunakan – di mana diperlukan sedikit lebih banyak keandalan daripada yang tersedia saat ini," kata Sebastian Farquhar, salah satu penulis studi dan Senior Research Fellow di Departemen Ilmu Komputer Universitas Oxford, tempat penelitian ini dilakukan.

Here is the translated heading in Indonesian:

"Farquhar juga adalah peneliti di tim keamanan Google DeepMind. Tentang pengacara yang dihukum karena halusinasi ChatGPT, Farquhar berkata: 'Ini akan membantunya.'

Der Begriff „Halluzination“ hat in der Welt der KI an Bedeutung gewonnen, ist jedoch auch umstritten. Er impliziert, dass Modelle eine Art subjektive Welterfahrung haben, was die meisten Informatiker verneinen. Außerdem suggeriert er, dass Halluzinationen eine lösbare Eigenart und kein grundlegendes Problem von großen Sprachmodellen sind. Farquhars Team konzentrierte sich auf eine spezifische Kategorie von Halluzinationen, die sie „Konfabulationen“ nennen.

---

Dalam dunia AI, istilah "halusinasi" telah menjadi lebih penting, namun juga kontroversial. Istilah ini mengimplikasikan bahwa model memiliki semacam pengalaman subjektif tentang dunia, yang dibantah oleh sebagian besar ilmuwan komputer. Selain itu, istilah ini menyiratkan bahwa halusinasi adalah sifat yang dapat diatasi dan bukan masalah mendasar dari model bahasa besar. Tim Farquhar berfokus pada kategori tertentu dari halusinasi yang mereka sebut "konfabulatori".

Ini terjadi ketika model AI memberikan jawaban salah yang tidak konsisten pada pertanyaan faktual, berbeda dengan jawaban salah yang konsisten, yang lebih mungkin disebabkan oleh masalah dengan data pelatihan model atau kesalahan struktural dalam logika model.

Metode untuk Mengenali Konfabulasi Relatif Sederhana. Pertama, Chatbot Diminta untuk Memberikan Beberapa Jawaban pada Input yang Sama. Kemudian, Para Peneliti Menggunakan Model Bahasa Lain untuk Mengelompokkan Jawaban-Jawaban Ini Berdasarkan Maknanya.

Para peneliti kemudian menghitung sebuah angka terukur yang mereka sebut "entropi semantis" - sebuah ukuran tentang seberapa mirip atau berbedanya makna dari jawaban-jawaban tersebut. Entropi semantis yang tinggi menunjukkan bahwa model tersebut sedang berhalusinasi.

Metode untuk Mendeteksi Entropi Semantik Mengungguli Pendekatan Lain dalam Mendeteksi Halusinasi AI. Farquhar memiliki beberapa ide tentang bagaimana entropi semantik dapat membantu mengurangi halusinasi dalam chatbot terkemuka.

Dia yakin bahwa ini bisa secara teoritis memungkinkan untuk menambahkan tombol ke OpenAI, di mana pengguna dapat menilai kepastian jawaban. Metode ini juga bisa diintegrasikan ke alat lain yang menggunakan AI di lingkungan yang sangat sensitif, di mana akurasi sangat penting.

Sementara Farquhar optimis, beberapa ahli memperingatkan agar tidak melebih-lebihkan dampak langsung. Arvind Narayanan, Profesor Ilmu Komputer di Universitas Princeton, menekankan tantangan dalam mengintegrasikan penelitian ini ke dalam aplikasi nyata.

Dia menunjukkan bahwa halusinasi merupakan masalah mendasar dalam fungsi model bahasa besar dan bahwa masalah ini tidak mungkin sepenuhnya terselesaikan dalam waktu dekat.

Lakukan investasi terbaik dalam hidupmu
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Mulai dari 2 €

Berita