Anda dapat menguji chatbot AI yang berbeda untuk menentukan mana yang terbaik. Tetapi bagaimana Anda harus melakukan ini? Berikut adalah beberapa faktor utama yang perlu dipertimbangkan.

AI telah berkembang jauh dari menghasilkan keluaran yang tidak relevan dan tidak koheren. Chatbot modern menggunakan model bahasa tingkat lanjut yang menjawab pertanyaan pengetahuan umum, menulis esai panjang, dan menulis kode, di antara tugas kompleks lainnya.

Terlepas dari kemajuan ini, perhatikan bahwa bahkan sistem yang paling canggih pun memiliki keterbatasan. AI masih membuat kesalahan. Untuk menentukan chatbot mana yang paling tidak rentan terhadap halusinasi, uji keakuratannya berdasarkan faktor-faktor ini.

1. Berhitung

Jalankan persamaan matematika melalui chatbots. Mereka akan menguji kemampuan platform untuk menganalisis soal kata, menerjemahkan konsep matematika, dan menerapkan rumus yang benar. Hanya beberapa model yang menunjukkan kemampuan berhitung yang andal. Bahkan, salah satunya Masalah terburuk ChatGPT selama bulan-bulan pertamanya adalah pemahaman matematika yang buruk.

instagram viewer

Gambar di bawah menunjukkan ChatGPT gagal pada statistik dasar.

ChatGPT menunjukkan peningkatan setelahnya OpenAI meluncurkan pembaruan Mei 2023. Tetapi mengingat kumpulan datanya yang terbatas, Anda masih akan mengalami masalah dengan perhitungan matematis menengah hingga lanjutan.

Sedangkan Bing Chat dan Google Bard menunjukkan kemampuan berhitung yang lebih baik. Mereka menjalankan kueri melalui mesin telusur masing-masing, memungkinkan mereka menarik rumus dan lembar jawaban.

Coba ulang kata-kata masalah Anda. Hindari kalimat yang panjang dan ganti kata kerja yang lemah; jika tidak, chatbots mungkin salah memahami pertanyaan Anda.

2. Pemahaman

Sistem AI modern dapat melakukan banyak tugas. LLM tingkat lanjut memungkinkan mereka untuk mempertahankan instruksi sebelumnya dan menjawab pertanyaan berdasarkan bagian, sedangkan sistem yang lebih lama memproses perintah tunggal. Misalnya, Siri menjawab satu pertanyaan dalam satu waktu.

Beri makan chatbots tiga hingga lima tugas secara bersamaan untuk menguji seberapa baik mereka menganalisis petunjuk yang rumit. Model yang kurang canggih tidak dapat memproses informasi sebanyak itu. Gambar di bawah menunjukkan HuggingChat tidak berfungsi pada prompt tiga langkah—berhenti pada langkah pertama dan menyimpang dari topik.

Baris terakhir HuggingChat sudah tidak koheren.

ChatGPT dengan cepat menyelesaikan prompt yang sama, menghasilkan respons cerdas yang bebas kesalahan di setiap langkah.

Bing Chat memberikan jawaban ringkas untuk tiga langkah tersebut. Pembatasannya yang kaku melarang keluaran panjang yang tidak perlu yang memboroskan daya pemrosesan.

3. Ketepatan waktu

Karena pelatihan AI membutuhkan sumber daya yang sangat besar, sebagian besar pengembang membatasi kumpulan data ke periode tertentu. Ambil ChatGPT sebagai contoh. Ini memiliki batas pengetahuan September 2021—Anda tidak dapat meminta pembaruan cuaca, laporan berita, atau perkembangan terkini. Inilah ChatGPT yang mengatakan tidak memiliki akses ke informasi waktu nyata.

Bard memiliki akses ke internet. Itu menarik data dari Google SERPs, sehingga Anda dapat mengajukan pertanyaan yang lebih luas, misalnya, peristiwa terkini, berita, dan prediksi.

Demikian pula, Bing Chat menarik informasi waktu nyata dari mesin pencarinya.

Bing Chat dan Bard memberikan informasi terkini dan tepat waktu, tetapi Bard memberikan tanggapan yang lebih mendetail. Bing hanya menampilkan data apa adanya. Anda akan melihat bahwa keluarannya sering cocok dengan ungkapan dan nada dari sumber yang ditautkan secara verbatim.

4. Relevansi

Chatbots harus memberikan keluaran yang relevan. Mereka harus mempertimbangkan arti literal dan kontekstual dari permintaan Anda saat merespons. Ambil percakapan ini sebagai contoh. Persona kami membutuhkan ponsel baru, tetapi hanya memiliki $1.000—ChatGPT tidak melebihi anggaran.

Saat menguji relevansi, cobalah menyusun instruksi yang panjang. Chatbot yang kurang canggih cenderung bersinggungan ketika diberi instruksi yang membingungkan. Misalnya, HuggingChat dapat mengarang cerita fiksi. Tapi itu mungkin menyimpang dari topik utama jika Anda menetapkan terlalu banyak aturan dan pedoman.

5. Memori Kontekstual

Memori kontekstual membantu AI menghasilkan output yang akurat dan andal. Alih-alih menerima pertanyaan Anda begitu saja, mereka merangkai detail yang Anda sebutkan. Ambil percakapan ini sebagai contoh. Bing Chat menghubungkan dua pesan terpisah untuk membentuk respons singkat yang membantu.

Demikian pula, memori kontekstual memungkinkan chatbot mengingat instruksi. Gambar ini menunjukkan ChatGPT meniru cara karakter fiksi berbicara di beberapa obrolan.

Uji sendiri fungsi ini dengan merujuk pernyataan sebelumnya secara konsisten. Beri makan chatbot berbagai informasi, lalu paksa mereka untuk mengingatnya di respons selanjutnya.

Memori kontekstual terbatas. Bing Chat memulai percakapan baru setiap 20 putaran, sementara ChatGPT tidak dapat memproses permintaan lebih dari 3.000 token.

6. Batasan Keamanan

AI tidak selalu melakukan seperti yang diinginkan. Pelatihan yang salah dapat menyebabkan teknologi pembelajaran mesin untuk melakukan berbagai kesalahan, dari kesalahan matematika kecil hingga komentar bermasalah. Mengambil Microsoft Tai sebagai contoh. Pengguna Twitter mengeksploitasi model pembelajarannya yang tidak diawasi dan mengkondisikannya untuk mengatakan hinaan rasial.

Untungnya, para pemimpin teknologi global belajar dari kesalahan Microsoft. Meskipun hemat biaya dan nyaman, pembelajaran tanpa pengawasan membuat sistem AI rentan terhadap penipuan. Oleh karena itu, pengembang terutama mengandalkan pembelajaran yang diawasi saat ini. Chatbot suka ChatGPT masih belajar dari percakapan, tetapi pelatih mereka menyaring informasi terlebih dahulu.

Harapkan pedoman yang berbeda dari perusahaan AI. Pembatasan ChatGPT yang kurang kaku mengakomodasi tugas yang lebih luas, tetapi lemah terhadap eksploitasi. Sementara itu, Bing Chat mengikuti batasan yang lebih ketat. Sementara mereka membantu memerangi upaya eksploitasi, mereka juga menghalangi fungsionalitas. Bing secara otomatis mematikan percakapan yang berpotensi membahayakan.

7. Bias AI

AI pada dasarnya netral. Kurangnya preferensi dan emosi membuatnya tidak mampu membentuk opini — ia hanya menyajikan informasi yang diketahuinya. Inilah cara ChatGPT menanggapi topik subyektif.

Meskipun netralitas ini, bias AI tetap timbul. Mereka berasal dari pola, kumpulan data, algoritme, dan model yang digunakan pengembang. AI mungkin tidak memihak, tetapi manusia tidak.

Contohnya, Institusi Brookings mengklaim bahwa ChatGPT menunjukkan bias politik sayap kiri. OpenAI tentu saja membantah tuduhan tersebut. Tetapi untuk menghindari masalah serupa dengan model yang lebih baru, ChatGPT sama sekali menghindari keluaran yang beropini.

Demikian pula, Bing Chat menghindari hal-hal yang sensitif dan subjektif.

Menilai AI membuat diri Anda bias dengan mengajukan pertanyaan berbasis opini dan terbuka. Bicara tentang topik tanpa jawaban benar atau salah — chatbot yang kurang canggih kemungkinan besar akan menampilkan preferensi yang tidak berdasar terhadap grup tertentu.

8. Referensi

AI jarang mengecek ulang fakta. Itu hanya menarik informasi dari kumpulan datanya dan mengulanginya melalui model bahasa. Sayangnya, pelatihan terbatas menyebabkan halusinasi AI. Anda masih dapat menggunakan alat AI generatif untuk penelitian, tetapi pastikan Anda memverifikasi fakta sendiri. Ambil hasilnya dengan sebutir garam.

Bing Chat menyederhanakan proses pemeriksaan fakta dengan mencantumkan referensinya setelah setiap keluaran.

Bard AI tidak mencantumkan sumbernya tetapi menghasilkan penjelasan mendalam yang diperbarui dengan menjalankan kueri penelusuran Google. Anda akan mendapatkan poin utama dari SERPs.

ChatGPT rentan terhadap ketidakakuratan. Cut-off pengetahuan 2021 mencegahnya menjawab pertanyaan tentang peristiwa dan insiden baru-baru ini.

Buat Cara Baru untuk Menguji Keakuratan Chatbots

AI bukanlah segalanya dan akhir dari semua teknologi. Sementara sistem AI dan model bahasa yang canggih melakukan prestasi yang mengesankan, mereka juga melakukan kesalahan dan ketidakkonsistenan. Lihat chatbots dengan skeptis. Anda hanya dapat menggunakan platform berbasis AI jika Anda memahami fungsi dan batasannya.

Meskipun ada lusinan chatbot di seluruh platform, keandalan dan ketepatannya mungkin mengecewakan Anda. Anda hanya akan membuang waktu untuk mengujinya. Untuk memastikan hasil yang berkualitas, kami sarankan untuk fokus pada tiga model paling kuat di pasar: ChatGPT, Bing AI, dan Google Bard.