Khawatir tentang bot obrolan AI yang mengorek situs web Anda untuk konten? Untungnya, Anda dapat memblokir mereka dari melakukannya. Begini caranya.

Seperti yang terjadi, bot obrolan AI memiliki lisensi gratis untuk mengikis situs web Anda dan menggunakan kontennya tanpa izin Anda. Khawatir tentang konten Anda yang tergores oleh alat semacam itu?

Kabar baiknya adalah, Anda dapat menghentikan alat AI mengakses situs web Anda, tetapi ada beberapa peringatan. Di sini, kami tunjukkan cara memblokir bot menggunakan file robots.txt untuk situs web Anda, plus pro dan kontra melakukannya.

Bagaimana AI Chatbots Mengakses Konten Web Anda?

Chatbot AI dilatih menggunakan beberapa kumpulan data, beberapa di antaranya bersifat open-source dan tersedia untuk umum. Misalnya, GPT3 dilatih menggunakan lima kumpulan data, menurut sebuah makalah penelitian yang diterbitkan oleh OpenAI:

  1. Perayapan Umum (berat 60% dalam pelatihan)
  2. WebText2 (berat 22% dalam pelatihan)
  3. Books1 (berat 8% dalam latihan)
  4. Buku2 (berat 8% dalam latihan)
  5. Wikipedia (bobot 3% dalam pelatihan)
instagram viewer

Perayapan Umum mencakup petabyte (ribuan TB) data dari situs web yang dikumpulkan sejak 2008, serupa dengan cara algoritme penelusuran Google merayapi konten web. WebText2 adalah kumpulan data yang dibuat oleh OpenAI, berisi sekitar 45 juta halaman web yang ditautkan dari postingan Reddit dengan setidaknya tiga suara positif.

Jadi, dalam kasus ChatGPT, bot AI tidak mengakses dan merayapi halaman web Anda secara langsung – toh belum. Meskipun, OpenAI pengumuman browser web yang dihosting ChatGPT telah menimbulkan kekhawatiran bahwa ini mungkin akan berubah.

Sementara itu, pemilik situs web harus mengawasi bot obrolan AI lainnya, karena semakin banyak dari mereka yang memasuki pasar. Bard adalah nama besar lainnya di lapangan, dan sangat sedikit yang diketahui dataset yang digunakan untuk melatihnya. Jelas, kami tahu bot pencarian Google terus merayapi halaman web, tetapi ini tidak berarti Bard memiliki akses ke data yang sama.

Mengapa Beberapa Pemilik Situs Web Peduli?

Kekhawatiran terbesar bagi pemilik situs web adalah bot AI seperti ChatGPT, Bard, dan Bing Chat merendahkan konten mereka. Bot AI menggunakan konten yang ada untuk menghasilkan respons mereka, tetapi juga mengurangi kebutuhan pengguna untuk mengakses sumber aslinya. Alih-alih pengguna mengunjungi situs web untuk mengakses informasi, mereka cukup meminta Google atau Bing untuk membuat ringkasan informasi yang mereka butuhkan.

Ketika berbicara tentang AI chatbots dalam pencarian, perhatian besar pemilik situs web adalah kehilangan lalu lintas. Dalam kasus Bard, bot AI jarang menyertakan kutipan dalam respons generatifnya, memberi tahu pengguna dari halaman mana informasinya berasal.

Jadi, selain mengganti kunjungan situs web dengan respons AI, Bard menghilangkan hampir semua kemungkinan situs web sumber menerima lalu lintas–bahkan jika pengguna menginginkan lebih banyak informasi. Bing Chat, di sisi lain, lebih sering menautkan ke sumber informasi.

Dengan kata lain, armada alat AI generatif saat ini adalah menggunakan karya pembuat konten untuk secara sistematis menggantikan kebutuhan pembuat konten. Pada akhirnya, Anda harus bertanya apa insentif ini membuat pemilik situs web untuk terus menerbitkan konten. Dan, selanjutnya, apa yang terjadi pada bot AI ketika situs web berhenti menerbitkan konten yang mereka andalkan untuk berfungsi?

Cara Memblokir Bot AI Dari Situs Web Anda

Jika Anda tidak ingin bot AI menggunakan konten web Anda, Anda dapat memblokirnya agar tidak mengakses situs Anda menggunakan robots.txt mengajukan. Sayangnya, Anda harus memblokir setiap bot individu dan menentukannya berdasarkan nama.

Misalnya, bot Perayapan Umum disebut CCBot dan Anda dapat memblokirnya dengan menambahkan kode berikut ke file robots.txt Anda:

Agen pengguna: CCBot
Larang: /

Ini akan memblokir Perayapan Umum agar tidak merayapi situs web Anda di masa mendatang, tetapi tidak akan menghapus data apa pun yang telah dikumpulkan dari perayapan sebelumnya.

Jika Anda khawatir plugin baru ChatGPT mengakses konten web Anda, OpenAI telah dipublikasikan instruksi untuk memblokir botnya. Dalam hal ini, bot ChatGPT disebut ChatGPT-User dan Anda dapat memblokirnya dengan menambahkan kode berikut ke file robots.txt Anda:

Agen pengguna: Pengguna ChatGPT
Larang: /

Namun, memblokir bot AI mesin telusur agar tidak merayapi konten Anda adalah masalah lain. Karena Google sangat merahasiakan tentang data pelatihan yang digunakannya, tidak mungkin untuk mengidentifikasi bot mana yang perlu Anda blokir dan apakah mereka akan mematuhi perintah di akun Anda. robots.txt file (banyak perayap tidak).

Seberapa Efektif Metode Ini?

Memblokir bot AI di Anda robots.txt file adalah metode paling efektif yang tersedia saat ini, tetapi tidak terlalu dapat diandalkan.

Masalah pertama adalah Anda harus menentukan setiap bot yang ingin Anda blokir, tetapi siapa yang dapat melacak setiap bot AI yang memasuki pasar? Masalah berikutnya adalah bahwa perintah di robots.txt file adalah instruksi non-wajib. Sementara Perayapan Umum, ChatGPT, dan banyak bot lainnya menghargai perintah ini, banyak bot tidak.

Peringatan besar lainnya adalah Anda hanya dapat memblokir bot AI agar tidak melakukan perayapan di masa mendatang. Anda tidak dapat menghapus data dari perayapan sebelumnya atau mengirim permintaan ke perusahaan seperti OpenAI untuk menghapus semua data Anda.

Sayangnya, tidak ada cara sederhana untuk memblokir semua bot AI dari mengakses situs web Anda, dan hampir tidak mungkin memblokir setiap bot secara manual. Bahkan jika Anda mengikuti bot AI terbaru yang berkeliaran di web, tidak ada jaminan mereka semua akan mematuhi perintah di robots.txt mengajukan.

Pertanyaan sebenarnya di sini adalah apakah hasilnya sepadan dengan usaha, dan jawaban singkatnya (hampir pasti) tidak.

Ada potensi kerugian untuk memblokir bot AI dari situs web Anda juga. Yang terpenting, Anda tidak akan dapat mengumpulkan data yang berarti untuk membuktikan apakah alat seperti Bard menguntungkan atau merugikan strategi pemasaran pencarian Anda.

Ya, Anda dapat berasumsi bahwa kurangnya kutipan berbahaya, tetapi Anda hanya menebak jika Anda kekurangan data karena Anda memblokir bot AI untuk mengakses konten Anda. Itu adalah cerita yang sama ketika Google pertama kali diperkenalkan cuplikan fitur untuk mencari.

Untuk kueri yang relevan, Google menampilkan cuplikan konten dari halaman web di halaman hasil, menjawab pertanyaan pengguna. Ini berarti pengguna tidak perlu mengklik ke situs web untuk mendapatkan jawaban yang mereka cari. Ini menyebabkan kepanikan di antara pemilik situs web dan pakar SEO yang mengandalkan menghasilkan lalu lintas dari kueri penelusuran.

Namun, jenis kueri yang memicu cuplikan pilihan umumnya adalah penelusuran bernilai rendah seperti "apa itu X" atau "seperti apa cuaca di New York". Siapa pun yang menginginkan informasi mendalam atau laporan cuaca yang komprehensif masih akan mengkliknya, dan mereka yang tidak menginginkannya tidak pernah begitu berharga sejak awal.

Anda mungkin menemukan cerita yang mirip dengan alat AI generatif, tetapi Anda memerlukan data untuk membuktikannya.

Jangan Terburu-buru Menjadi Apapun

Dapat dipahami bahwa pemilik dan penerbit situs web prihatin dengan teknologi AI dan frustrasi dengan gagasan bot menggunakan konten mereka untuk menghasilkan respons instan. Namun, ini bukan waktunya untuk melakukan gerakan serangan balik. Teknologi AI adalah bidang yang bergerak cepat, dan berbagai hal akan terus berkembang dengan pesat. Manfaatkan kesempatan ini untuk melihat bagaimana berbagai hal berjalan dan menganalisis potensi ancaman dan peluang yang dihadirkan AI.

Sistem saat ini yang mengandalkan pekerjaan pembuat konten untuk menggantikannya tidak berkelanjutan. Apakah perusahaan seperti Google dan OpenAI mengubah pendekatan mereka atau pemerintah memperkenalkan peraturan baru, sesuatu harus diberikan. Pada saat yang sama, implikasi negatif dari bot obrolan AI pada pembuatan konten menjadi semakin jelas, yang dapat digunakan oleh pemilik situs web dan pembuat konten untuk keuntungan mereka.