Lebih dari 70 tahun yang lalu, ketika kecerdasan buatan dikonseptualisasikan, Alan Turing menerbitkan sebuah makalah yang menjelaskan cara mengidentifikasinya. Itu kemudian dikenal sebagai tes Turing, dan telah digunakan selama beberapa dekade untuk membedakan antara manusia dan AI.
Namun, dengan diperkenalkannya chatbot AI tingkat lanjut seperti ChatGPT dan Google Bard, semakin sulit untuk mengetahui apakah Anda sedang berbicara dengan AI. Itu menimbulkan pertanyaan; apakah tes Turing sudah usang? Dan jika ya, apa alternatifnya?
Apakah Tes Turing Kedaluwarsa?
Untuk menentukan apakah tes Turing sudah usang, Anda harus melakukannya terlebih dahulu memahami cara kerjanya. Agar AI lulus tes Turing, AI harus meyakinkan interogator manusia bahwa itu adalah manusia. Tapi ada tangkapan — AI dievaluasi bersama manusia, dan itu harus merespons menggunakan teks.
Anggap saja seperti ini; jika Anda adalah interogator, dan Anda mengajukan pertanyaan kepada dua peserta secara online menggunakan teks, tetapi salah satunya adalah model AI—apakah Anda akan membedakan mereka setelah lima menit? Perlu diingat bahwa tujuan tes Turing bukan untuk mengidentifikasi model AI berdasarkan jawaban yang benar, tetapi untuk mengevaluasi apakah AI dapat berpikir atau berperilaku seperti manusia.
Masalah dengan pendekatan uji Turing yang hanya mengidentifikasi respons seperti manusia adalah bahwa ia tidak mempertimbangkan faktor lain. Misalnya kecerdasan model AI atau pengetahuan interogator. Selain itu, tes Turing terbatas pada teks saja, dan semakin sulit untuk mengidentifikasi AI yang menghasilkan suara manusia atau video deepfake yang meniru perilaku manusia.
Namun, model AI saat ini seperti ChatGPT-4 dan Google Bard belum mencapai titik dimana mereka dapat secara konsisten lulus uji Turing. Faktanya, jika Anda terbiasa dengan AI, Anda bisa melakukannya temukan teks yang dihasilkan AI.
5 Alternatif Tes Turing Terbaik
Itu mungkin saja model AI masa depan seperti ChatGPT-5 bisa lulus uji Turing. Jika itu terjadi, kami memerlukan tes berbeda yang digabungkan dengan tes Turing untuk mengidentifikasi apakah kami berbicara dengan AI atau manusia. Berikut adalah alternatif uji Turing terbaik:
1. Tes Marcus
Gary Marcus, seorang ilmuwan kognitif terkenal dan peneliti AI, mengusulkan alternatif untuk tes Turing yang dipublikasikan di Orang New York untuk mengidentifikasi kemampuan kognitif AI. Tesnya sederhana—Anda menilai model AI berdasarkan kemampuannya untuk menonton dan memahami video YouTube dan acara TV tanpa subtitel atau teks. Agar AI lulus tes Marcus, ia harus memahami sarkasme, humor, ironi, dan alur cerita saat menonton video dan menjelaskannya seperti manusia.
Saat ini, GPT-4 dapat mendeskripsikan gambar, namun sejauh ini, belum ada model AI yang dapat memahami video seperti manusia. Kendaraan yang bisa mengemudi sendiri mendekati, tetapi mereka tidak sepenuhnya otonom dan membutuhkan sensor karena mereka tidak dapat memahami segala sesuatu di lingkungan sekitar mereka.
2. Tes Visual Turing
Menurut sebuah makalah penelitian yang diterbitkan pada PNAS, tes Turing visual dapat digunakan untuk mengidentifikasi apakah Anda sedang berbicara dengan manusia atau AI menggunakan kuesioner gambar. Ini berfungsi seperti tes Turing, tetapi alih-alih menjawab pertanyaan menggunakan teks, peserta diperlihatkan gambar dan diharapkan menjawab pertanyaan sederhana sambil berpikir seperti manusia. Namun, tes Turing visual berbeda dari CAPTCHA karena semua jawaban benar—tetapi untuk lulus ujian, AI harus memproses gambar dengan cara yang mirip dengan manusia.
Di luar itu, jika AI dan manusia diperlihatkan banyak gambar secara berdampingan dan diminta untuk mengidentifikasi gambar realistis, manusia akan memiliki kemampuan kognitif untuk lulus ujian. Ini karena model AI sulit membedakan gambar yang tidak terlihat seperti diambil di dunia nyata. Sebenarnya, itulah alasan mengapa Anda bisa mengidentifikasi gambar yang dihasilkan AI menggunakan anomali yang tidak masuk akal.
3. Tes Lovelace 2.0
Teori bahwa komputer tidak dapat menciptakan ide orisinal di luar apa yang diprogramnya pertama kali dikonseptualisasikan oleh Ada Lovelace sebelum tes Turing. Namun, Alan Turing menolak teori tersebut dengan alasan bahwa AI masih bisa mengejutkan manusia. Baru pada tahun 2001 pedoman untuk tes Lovelace dikembangkan untuk membedakan AI dari manusia — dan, sesuai thekurzweilibrary aturan tersebut kemudian direvisi pada tahun 2014.
Agar AI lulus tes Lovelace, ia harus menunjukkan bahwa ia dapat menghasilkan ide orisinal yang melebihi pelatihannya. Model AI saat ini seperti GPT-4 tidak memiliki kemampuan untuk menghasilkan penemuan baru di luar pengetahuan kita yang ada. Namun, kecerdasan umum buatan dapat mencapai kemampuan itu dan lulus ujian Lovelace.
4. Tes Turing Balik
Bagaimana dengan tes Turing, tetapi dilakukan secara terbalik? Alih-alih mencoba mencari tahu apakah Anda sedang berbicara dengan manusia, tujuan dari uji Turing terbalik adalah mengelabui AI agar percaya bahwa Anda adalah AI. Namun, Anda juga memerlukan model AI lain untuk menjawab pertanyaan yang sama menggunakan teks.
Misalnya, jika ChatGPT-4 adalah interogator, Anda dapat mendaftarkan Google Bard dan orang lain sebagai peserta. Jika model AI dapat mengidentifikasi peserta manusia dengan benar berdasarkan jawaban, maka model tersebut telah lulus ujian.
Kelemahan dari tes Turing terbalik adalah tidak dapat diandalkan, terutama mengingat terkadang AI tidak dapat membedakan AI yang dihasilkan dan konten yang ditulis manusia.
5. Kerangka Klasifikasi AI
Menurut kerangka kerja klasifikasi AI yang dikembangkan oleh Chris Saad, Tes Turing hanyalah salah satu metode evaluasi untuk mengetahui apakah Anda berbicara dengan AI. Lebih ringkasnya, kerangka kerja klasifikasi AI didasarkan pada teori kecerdasan majemuk, yang mensyaratkan kecerdasan manusia untuk memenuhi setidaknya delapan kriteria berbeda, yang meliputi: musik-ritme, kecerdasan logis-matematis, identifikasi visual, kecerdasan emosional, kecerdasan reflektif diri, kemampuan berpikir eksistensial, dan tubuh pergerakan.
Karena AI dievaluasi pada delapan parameter berbeda, AI tidak mungkin lolos untuk manusia meskipun kinerjanya lebih baik daripada rata-rata dalam tolok ukur tertentu. Contohnya, ChatGPT dapat memecahkan masalah matematika, mendeskripsikan gambar, dan berbicara dalam bahasa alami seperti manusia, tetapi kategori lain yang ditentukan dalam kerangka kerja klasifikasi AI akan gagal.
Tes Turing Tidak Konklusif
Tes Turing lebih dimaksudkan sebagai eksperimen pemikiran daripada tes konklusif untuk membedakan antara manusia dan AI. Ketika awalnya diusulkan, itu adalah tolok ukur penting untuk mengukur kecerdasan mesin.
Namun, dengan pengembangan model AI baru-baru ini dengan kemampuan interaktif ucapan, visual, dan pendengaran, tes Turing gagal karena terbatas pada percakapan teks. Solusi paling efektif adalah dengan memperkenalkan alternatif uji Turing yang lebih jauh membedakan model AI dari manusia.