Jika Anda sering mendapati diri Anda mengambil data dari situs web, Anda mungkin harus mempertimbangkan untuk mengotomatiskan prosesnya. Kadang-kadang disebut sebagai "pengikisan web", prosesnya umum untuk situs yang tidak menyediakan API atau umpan formal. Tentu saja, Anda tidak akan mendapatkan apa-apa jika situs yang Anda coba ambil tidak tersedia.
Jika Anda menjalankan situs Anda sendiri, Anda mungkin harus berurusan dengan waktu henti sebelumnya. Ini bisa membuat frustrasi, menyebabkan Anda kehilangan pengunjung dan mengganggu aktivitas apa pun yang mungkin menjadi tanggung jawab situs Anda. Dalam keadaan seperti itu, membayar untuk dapat dengan mudah memeriksa ketersediaan situs web Anda.
Python adalah bahasa yang bagus untuk skrip, dan sintaksnya yang ringkas namun mudah dibaca membuat penerapan pemeriksa situs menjadi tugas yang sederhana.
Membuat Pemeriksa Situs Web Pribadi Anda
Pemeriksa situs web dibuat khusus untuk mengakomodasi beberapa situs web sekaligus. Ini memungkinkan Anda untuk dengan mudah mengganti situs yang tidak lagi Anda pedulikan, atau mulai memeriksa situs yang Anda luncurkan di masa mendatang. Pemeriksa adalah "aplikasi kerangka" ideal yang dapat Anda bangun lebih lanjut, tetapi ini menunjukkan pendekatan dasar untuk mengambil data web.
Impor Perpustakaan dengan Python
Untuk memulai proyek, Anda harus mengimpor permintaan perpustakaan dengan Python dengan impor fungsi.
impor permintaan
Pustaka Permintaan berguna untuk berkomunikasi dengan situs web. Anda dapat menggunakannya untuk mengirim permintaan HTTP dan menerima data respons.
Simpan URL Situs Web dalam Daftar
Setelah Anda mengimpor perpustakaan, Anda harus menentukan dan menyimpan URL situs web dalam daftar. Langkah ini memungkinkan Anda untuk mempertahankan beberapa URL, yang dapat Anda periksa dengan pemeriksa situs web.
impor permintaan
situs_url = [
" https://www.google.co.di",
" https://www.yahoo.com",
" https://www.amazon.co.di",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]
Variabel alamat situs web menyimpan daftar URL. Di dalam daftar, tentukan setiap URL yang ingin Anda periksa sebagai string individual. Anda dapat menggunakan contoh URL dalam kode untuk pengujian atau Anda dapat menggantinya untuk mulai memeriksa situs Anda sendiri segera.
Selanjutnya, simpan pesan untuk umum Kode respons HTTP. Anda dapat menyimpannya dalam kamus, dan mengindeks setiap pesan dengan kode status yang sesuai. Program Anda kemudian dapat menggunakan pesan-pesan ini alih-alih kode status untuk keterbacaan yang lebih baik.
status = {
200: "Situs Web Tersedia",
301: "Pengalihan Permanen",
302: "Pengalihan Sementara",
404: "Tidak ditemukan",
500: "Kesalahan server dari dalam",
503: "Layanan tidak tersedia"
}
Membuat Loop untuk Memeriksa Status Situs Web
Untuk memeriksa setiap URL secara bergantian, Anda harus loop melalui daftar dari situs web. Di dalam loop, periksa status setiap situs dengan mengirimkan permintaan melalui perpustakaan permintaan.
untuk url di alamat situs web:
mencoba:
web_response = request.get (url)
cetak (url, status[web_response.status_code])
kecuali:
cetak (url, status[web_response.status_code])
Di mana:
- untuk url...mengulangi daftar URL.
- url adalah variabel yang diberikan oleh loop for untuk setiap URL.
- coba/kecualimenangani pengecualian apa pun yang mungkin timbul.
- web_response adalah variabel yang menyediakan properti dengan kode status respons
Seluruh Cuplikan Kode
Jika Anda lebih suka meninjau seluruh kode sekaligus, berikut adalah daftar kode lengkap untuk referensi.
impor permintaan
situs_url = [
" https://www.google.co.di",
" https://www.yahoo.com",
" https://www.amazon.co.di",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]status = {
200: "Situs Web Tersedia",
301: "Pengalihan Permanen",
302: "Pengalihan Sementara",
404: "Tidak ditemukan",
500: "Kesalahan server dari dalam",
503: "Layanan tidak tersedia"
}untuk url di alamat situs web:
mencoba:
web_response = request.get (url)
cetak (url, status[web_response.status_code])
kecuali:
cetak (url, status[web_response.status_code])
Dan inilah contoh menjalankan kode:
Kemampuan Coding Python di Web Scraping
Pustaka pihak ketiga Python ideal untuk tugas-tugas seperti web scraping dan mengambil data melalui HTTP.
Anda dapat mengirim permintaan otomatis ke situs web untuk melakukan berbagai jenis tugas. Ini mungkin termasuk membaca berita utama, mengunduh gambar, dan mengirim email secara otomatis.