Scraping web melibatkan pengumpulan informasi dalam bentuk data dari situs web atau halaman. Meskipun tindakan Anda mungkin bukan tindakan sadar, Anda telah mengikis web dengan satu atau lain cara juga saat mengumpulkan informasi. Tapi itu biasanya halus.

Scraping web atau screen scraping umumnya merupakan tindakan yang bertujuan, dan para profesional mengotomatiskan desain untuk mendapatkan data yang sangat besar. Baik dengan menyalin teks di situs web secara manual, menggunakan alat khusus, atau menulis skrip web scraping, pencakar web terkadang memukul keras situs web dengan membuat beberapa permintaan sekaligus.

Tetapi sementara banyak bisnis sekarang memanfaatkan pengikisan web untuk mendorong keunggulan kompetitif, apakah itu benar-benar legal?

Situs Web Mana yang Harus dan Tidak Harus Anda Kikis?

Internet adalah kumpulan informasi, memberi orang akses ke data lama dan waktu nyata. Scraping web atau screen scraping telah ada untuk sementara waktu sekarang. Tetapi seberapa banyak Anda harus menggunakannya, dan situs web mana yang dapat Anda kikis?

Beberapa situs web ketat dengan perayap web atau pencakar layar dan memblokirnya sepenuhnya. Jadi sangat jelas bahwa Anda tidak boleh mengikis situs web semacam itu. Tetapi orang-orang masih melakukannya.

Sayangnya, hampir tidak ada hal lain yang dapat dilakukan situs semacam itu untuk menghentikannya selain menambal celah mereka.

Sebelum Anda mengikis situs web, idealnya, Anda harus memeriksa apakah itu memungkinkan perayapan atau tidak. Biasanya, Anda dapat mengetahuinya dengan memeriksa file robots.txt situs. Anda dapat melakukannya dengan mengetik di "[URL situs web] /robots.txt".

Robots.txt biasanya menetapkan aturan untuk berbagai crawler atau agen pengguna. Namun, aturan ini berbeda-beda, tergantung situs web yang terlibat. Meskipun beberapa situs mengizinkan perayapan pada semua halaman, beberapa menetapkan halaman yang dapat dirayapi bot, dan beberapa memblokir crawler secara langsung.

Situs web yang memblokir semua agen pengguna agar tidak merayapi semua halaman biasanya menetapkan aturan berikut:

Agen pengguna: *
Larang: /

File robots.txt yang memblokir semua bot agar tidak merayapi direktori atau halaman tertentu biasanya terlihat seperti ini:

Agen pengguna: *
Larang: / URL ke halaman 1
Larang: / URL ke halaman 2

Jika robots.txt tidak melarang halaman yang ingin Anda rayapi, Anda mungkin dapat mengikisnya. Jika tidak, Anda harus mundur atau meminta persetujuan admin. Mereka mungkin memberi Anda akses.

Selain itu, beberapa situs web secara eksplisit menyatakan apakah mereka mengizinkan perayapan atau tidak dalam persyaratan penggunaan mereka. Beberapa bahkan menyatakan ini di bagian atas robots.txt mereka juga. Selalu periksa juga untuk memastikan Anda melakukan hal yang benar.

Bagaimana Web Scraping Disalahgunakan

Jadi, jika Anda telah menerima email atau SMS spam dari situs web atau orang yang tidak pernah Anda berikan informasi pribadi Anda, maka Anda mungkin telah disingkirkan entah bagaimana caranya. Dan sebagian besar, itu melalui salah satu pegangan media sosial Anda.

Meskipun demikian, terkadang pengikisan web lebih dari sekadar mengumpulkan data yang ditampilkan di bagian depan. Jika digunakan dengan jahat, dapat mengakibatkan kebocoran informasi pribadi dan rahasia.

Sementara sebagian besar platform media sosial tidak menyukainya, bot perayapan masih mengakses profil orang-orang, dan informasi kontak mereka bocor dan terkikis.

Facebook, misalnya, dilaporkan memiliki kerentanan yang membocorkan informasi kontak pengguna di masa lalu, meskipun pengguna merahasiakannya.

Demikian pula LinkedIn baru-baru ini mengalami pelanggaran keamanan yang mengakibatkan bocornya data pribadi milik lebih dari 500 juta akun. Akibatnya, kerentanan tersebut mengakibatkan banyak alamat email dan nomor telepon dibagikan tanpa izin pemilik profil.

Apakah Mengikis Situs Web Itu Ilegal?

Tidak pernah ada kesimpulan tentang legalitas web scraping. Alih-alih, fokusnya adalah pada cara kerja crawler berdasarkan kasus per kasus dan tujuan mereka menggunakan data yang dikumpulkan.

Jadi, alih-alih menyimpulkan legalitasnya, pengikisan, bila dilakukan dengan jahat, adalah ilegal. Tetapi jika dilakukan dengan bijaksana, itu tidak ilegal.

Namun seperti yang diharapkan, tampaknya ada kebijakan yang lebih ketat terkait pengumpulan dan penggunaan data media sosial karena privasi pengguna sangat penting. Namun, itu semua masih bermuara pada bagaimana orang mengikis data.

Itu Blog Hukum Internet & Media Sosial menganalisis kasus hiQ Labs, sebuah perusahaan penggali data yang memenangkan gugatan terhadap LinkedIn pada tahun 2019 setelah mencoba memblokir Lab hiQ agar tidak mengorek data pengguna LinkedIn yang tersedia untuk umum.

Dengan hiQ Labs yang mengklaim bahwa Computer Fraud and Abuse Act (CFAA) hanya melarang akses tidak sah, penilaian menegaskan bahwa data LinkedIn tersedia untuk umum, jadi siapa pun yang melakukan scraping melakukannya karena memang demikian dapat diakses.

Selain itu, hiQ Labs hanya menggunakan data bekas untuk memberikan solusi analitik kepada perusahaan — sehingga mereka dapat membuat keputusan perekrutan yang lebih baik.

Sebaliknya, Facebook baru-baru ini menggugat pengembang ekstensi Chrome yang menghapus profil pengguna Facebook tanpa persetujuan mereka.

Demikian pula, a situs peniru digugat oleh Facebook untuk mengorek informasi profil beberapa pengguna Instagram dan kemudian menggunakannya untuk membuat klon. Menurut laporan itu, Facebook kemudian melangkah lebih jauh untuk mendapatkan keputusan pengadilan permanen terhadap pelaku.

Ini adalah beberapa kasus di mana orang mungkin telah menggunakan pengikisan web secara ilegal. Perusahaan-perusahaan tersebut mengumpulkan data pengguna Facebook dengan curang, tanpa persetujuan dari penggunanya. Jadi itu melanggar kebijakan privasi.

Jadi, meskipun pengikisan web dapat membuat frustasi situs tempat mendapatkan datanya, tidak ada aturan umum saat ini yang menghentikan orang untuk mendapatkan apa yang mereka inginkan, selama mereka tidak langsung melanggar undang-undang internet.

Apakah Scraping Web Sama dengan Peretasan?

Ada beberapa mitos seputar web scraping. Salah satunya adalah keyakinan bahwa mengikis situs web berarti Anda telah meretasnya. Meskipun peretasan pada akhirnya dapat menyebabkan pengumpulan data, klaim bahwa istilah itu sendiri berarti meretas situs web tidak benar.

Scraping web dapat melibatkan penggunaan alat perayapan atau pengikis khusus, Antarmuka Pemrograman Aplikasi (API), atau skrip web scraping untuk mendapatkan data yang dirender dari situs web. Tidak seperti peretasan, itu tidak membahayakan situs web yang dikikisnya atau mengganggu pengalaman penggunanya.

Terkait: Apa Itu Web Scraping? Cara Mengumpulkan Data Dari Situs Web

Jadi, meskipun peretasan melibatkan akses yang tidak sah, biasanya ke dalam basis data situs web, pengikisan web hanya menargetkan data yang sudah terlihat di bagian depan. Meskipun orang dapat menggunakan web scraping dengan jahat, itu tetap tidak sama dengan peretasan.

Selain itu, tidak seperti web scraping, peretasan yang disengaja dan tidak etis adalah ilegal.

Apa Positif dari Scraping Web?

Scraping web memiliki banyak hal positif, dan bahkan beberapa perusahaan teknologi sekarang menawarkan data mereka secara gratis melalui API. Informasi tersebut biasanya tidak cukup untuk menilai tren bisnis dan membuat keputusan.

Jadi, perusahaan sekarang mendapatkan lebih banyak data dengan menggali web untuk meningkatkan praktik dan mendorong penjualan. Selain itu, data scientist memberi makan algoritme machine learning dengan data yang dikumpulkan melalui screen scraping.

Data tersebut dapat berupa gambar yang digunakan dalam pengenalan gambar, teks biasa untuk analisis sentimen, atau data produk langsung untuk intelijen pasar dan analisis perilaku konsumen.

Terkait: Cara Unik Mendapatkan Set Data untuk Proyek Machine Learning Anda

Jadi web scraping bahkan lebih membantu karena jika Anda memiliki akses ke informasi yang tidak dimiliki pesaing Anda, Anda dapat mengalahkan mereka.

Sementara beberapa situs tidak menyukai web scraper, beberapa, bahkan layanan e-commerce, tidak peduli jika Anda mengikis datanya atau tidak. Raksasa web seperti eBay dan Salesforce memulai API mereka pada tahun 2000, menawarkan akses ke data publik bagi pemrogram untuk pertama kalinya.

Haruskah Anda Mengikis Web?

Kami telah menetapkan bahwa web scraping tidak ilegal jika dilakukan dengan cara yang benar. Tapi apa yang Anda lakukan dengan data yang Anda kikis juga menjadi perhatian. Jadi daripada menyalahgunakan ini, gunakan itu untuk menarik lebih banyak wawasan yang membantu Anda dan orang lain membuat keputusan yang tepat.

Namun, web scraping sebagai keterampilan memberi Anda akses ke sejumlah besar data internet, yang dapat membantu Anda atau perusahaan Anda tetap berada di atas ceruk bisnis. Sebagai data scientist, ini bahkan memperluas cakupan Anda dan meningkatkan coding dan keterampilan teknis Anda.

Misalnya, Python adalah salah satu bahasa pemrograman yang membantu Anda dengan mudah mengikis situs web dengan pustaka Beautiful Soup atau kerangka Scrapy-nya.

Surel
Kikis Situs Web Dengan Tutorial Python Sup Cantik Ini

Tertarik dengan web scraping? Berikut cara mengikis situs web untuk konten dan lainnya dengan pustaka Beautiful Soup Python.

Baca Selanjutnya

Topik-topik yang berkaitan
  • Keamanan
  • Pemrograman
  • Keamanan Online
  • Scraping Web
Tentang Penulis
Idowu Omisola (71 Artikel Dipublikasikan)

Idowu sangat tertarik dengan teknologi pintar dan produktivitas apa pun. Di waktu luangnya, dia bermain-main dengan coding dan beralih ke papan catur ketika dia bosan, tetapi dia juga suka melepaskan diri dari rutinitas sesekali. Semangatnya untuk menunjukkan kepada orang-orang tentang teknologi modern memotivasinya untuk menulis lebih banyak.

Selebihnya Dari Idowu Omisola

Berlangganan newsletter kami

Bergabunglah dengan buletin kami untuk mendapatkan tip teknologi, ulasan, ebook gratis, dan penawaran eksklusif!

Satu langkah lagi…!

Harap konfirmasi alamat email Anda di email yang baru saja kami kirimkan kepada Anda.

.