GPTBot mungkin tidak seperti yang Anda pikirkan.

Poin Penting

  • GPTBot OpenAI adalah perayap web yang dirancang untuk mengumpulkan data dari situs web publik, yang kemudian digunakan untuk melatih dan meningkatkan model AI seperti GPT-4 dan ChatGPT.
  • Beberapa situs web terbesar di internet memblokir GPTBot karena mengakses dan menggunakan konten berhak cipta tanpa izin atau kompensasi kepada pembuatnya.
  • Meskipun situs web dapat menggunakan alat seperti robots.txt untuk mencoba memblokir GPTBot, tidak ada jaminan bahwa OpenAI akan mematuhinya, sehingga memberi mereka kendali atas akses data berhak cipta.

Pada bulan Agustus 2023, OpenAI, pembangkit tenaga AI yang berjasa mengembangkan ChatGPT, mengumumkan GPTBot, perayap web yang dirancang untuk menjelajahi web dan mengumpulkan data.

Tidak lama setelah pengumuman itu, beberapa website terbesar di internet memblokir bot tersebut untuk mengakses website mereka. Tapi kenapa? Apa itu GPTBot OpenAI? Mengapa situs-situs besar takut akan hal itu, dan mengapa mereka mencoba memblokirnya?

instagram viewer

Apa itu GPTBot OpenAI?

GPTBot adalah perayap web yang dibuat oleh OpenAI untuk mencari di internet dan mengumpulkan informasi untuk tujuan pengembangan AI OpenAI. Itu diprogram untuk merayapi situs web publik dan mengirim data kembali ke server OpenAI. OpenAI kemudian menggunakan data ini untuk melatih dan meningkatkan model AI-nya, dengan tujuan membangun sistem kecerdasan buatan yang semakin canggih. Untuk membangun model AI yang canggih seperti GPT-4 atau produk turunannya seperti ChatGPT, perayap web hampir sangat diperlukan.

Melatih model AI memerlukan data dalam jumlah besar, dan salah satu cara paling efektif untuk mengumpulkan data ini adalah dengan menerapkan alat seperti perayap web. Perayap dapat menjelajahi web secara sistematis, mengikuti tautan untuk mengindeks laman web dalam jumlah besar, dan mengekstrak data penting seperti teks, gambar, dan metadata yang cocok dengan pola yang telah ditentukan sebelumnya.

Data ini kemudian dapat disusun dan dimasukkan ke dalam model AI untuk melatih kemampuan pemrosesan bahasa alami atau kemampuan menghasilkan gambar atau melatih mereka untuk tugas AI lainnya. Dengan kata lain, perayap web mengumpulkan data yang memungkinkan alat seperti ChatGPT atau DALL-E melakukan apa yang mereka lakukan.

Perayap web bukanlah konsep baru. Mungkin ada jutaan dari mereka yang menjelajahi miliaran situs web yang tersedia di internet saat ini. Dan mereka telah ada setidaknya sejak awal tahun 90an. GPTBot hanyalah salah satu crawler yang dimiliki oleh OpenAI. Jadi, apa yang menyebabkan kontroversi seputar web crawler ini?

Mengapa Situs Teknologi Besar Memblokir GPTBot?

Berdasarkan Orang Dalam Bisnis, beberapa situs web terbesar di internet secara aktif memblokir perayap OpenAI di situs web mereka. Jadi, jika tujuan akhir GPTBot adalah untuk memajukan pengembangan AI, mengapa beberapa situs terbesar di internet, yang beberapa di antaranya telah memperoleh manfaat dari AI, menentangnya?

Nah, inilah masalahnya. Sejak kebangkitan teknologi AI generatif pada tahun 2022, terdapat banyak perdebatan mengenai hak perusahaan AI untuk menggunakan, hampir tanpa batas, data yang bersumber dari internet, yang sebagian besar dilindungi secara hukum oleh hak cipta. Tidak ada undang-undang yang jelas mengatur bagaimana perusahaan-perusahaan ini mengumpulkan dan menggunakan data untuk keuntungan mereka sendiri.

Jadi pada dasarnya crawler seperti GPTBot merayapi web, mengambil karya kreatif orang dalam bentuk teks, gambar, atau bentuk lainnya. media, dan menggunakannya untuk tujuan komersial tanpa memperoleh izin, lisensi, atau pemberian kompensasi apa pun terhadap aslinya pencipta.

Dunia di luar sana sangat liar, dan perusahaan-perusahaan AI memanfaatkan apa pun yang mereka bisa dapatkan. Situs web besar seperti Quora, CNN, New York Times, Business Insider, dan Amazon tidak begitu senang dengan hal tersebut konten berhak cipta dipanen oleh perayap ini, sehingga OpenAI dapat memperoleh keuntungan finansial dari perayap tersebut pengeluaran.

Itu sebabnya situs-situs ini menerapkan "robots.txt", sebuah metode yang sudah berumur puluhan tahun untuk memblokir perayap web. Berdasarkan OpenAI, GPTBot akan mematuhi instruksi untuk merayapi atau menghindari perayapan situs web berdasarkan aturan yang tertanam dalam robots.txt, sebuah file teks kecil yang memberi tahu perayap web bagaimana berperilaku di sebuah situs. Jika Anda memiliki situs sendiri dan ingin menghentikan GPTBot mengambil data Anda, berikut cara melakukannya memblokir perayap OpenAI agar tidak menggores situs web Anda.

Bisakah Situs Web Menghentikan GPTBot?

Meskipun perayap seperti GPTBot sangat diperlukan untuk mengumpulkan data dalam jumlah besar yang diperlukan melatih sistem AI yang canggih, ada kekhawatiran yang valid seputar hak cipta dan penggunaan wajar yang tidak dapat terjadi diabaikan.

Tentu saja, ada alat sederhana seperti robots.txt yang dapat digunakan untuk mencegah hal ini, namun apakah GPTBot mematuhi instruksi pada file ini sepenuhnya merupakan kebijaksanaan OpenAI. Tidak ada jaminan bahwa mereka akan melakukan hal tersebut, dan tidak ada cara yang pasti untuk mengetahui apakah mereka telah melakukan hal tersebut. Dalam perjuangan untuk menjauhkan GPTBot dari data berhak cipta, OpenAI memegang keunggulan, setidaknya untuk saat ini.