Tahukah Anda bahwa data dari situs web dapat diambil menggunakan Google Spreadsheet? Inilah cara Anda melakukannya.

Pengikisan web adalah teknik ampuh untuk mengekstrak informasi dari situs web dan menganalisisnya secara otomatis. Meskipun Anda dapat melakukannya secara manual, ini bisa menjadi tugas yang membosankan dan memakan waktu. Alat pengikis web membuat prosesnya lebih cepat dan efisien, sekaligus lebih hemat biaya.

Menariknya, Google Sheets berpotensi menjadi alat penghapusan web terpadu Anda, berkat fungsi IMPORTXML-nya. Dengan IMPORTXML, Anda dapat dengan mudah mengambil data dari halaman web dan menggunakannya untuk analisis, pelaporan, atau tugas berbasis data lainnya.

Fungsi IMPORTXML di Google Spreadsheet

Google Spreadsheet menyediakan fungsi bawaan yang disebut IMPORTXML, yang memungkinkan Anda mengimpor data dari format web seperti XML, HTML, RSS, dan CSV. Fungsi ini dapat menjadi terobosan jika Anda ingin mengumpulkan data dari situs web tanpa menggunakan pengkodean yang rumit.

instagram viewer

Berikut sintaks dasar IMPORTXML:

=IMPORTXML(url, xpath_query)
  • url: URL halaman web yang datanya ingin Anda ambil.
  • xpath_query: Kueri XPath yang menentukan data yang ingin Anda ekstrak.

XPath (XML Path Language) adalah bahasa yang digunakan untuk menavigasi dokumen XML, termasuk HTML—memungkinkan Anda menentukan lokasi data dalam struktur HTML. Memahami kueri XPath sangat penting untuk menggunakan IMPORTXML dengan benar.

Memahami XPath

XPath menyediakan berbagai fungsi dan ekspresi untuk menavigasi dan memfilter data dalam dokumen HTML. Panduan XML dan XPath yang komprehensif berada di luar cakupan artikel ini, jadi kami akan menerima beberapa konsep penting XPath:

  • Pemilihan Elemen: Anda dapat memilih elemen menggunakan / Dan // untuk menunjukkan jalur. Misalnya, /html/body/div memilih semua elemen div di badan dokumen.
  • Pemilihan Atribut: Untuk memilih atribut, Anda dapat menggunakan @. Misalnya, //@href memilih semua href atribut di halaman.
  • Filter Predikat: Anda dapat memfilter elemen menggunakan predikat yang diapit tanda kurung siku ([ ]). Contohnya, /div[@class="container"] memilih semua div elemen dengan kelas wadah.
  • Fungsi: XPath menyediakan berbagai fungsi seperti mengandung(), dimulai dengan(), Dan teks() untuk melakukan tindakan tertentu seperti memeriksa konten teks atau nilai atribut.

Cara Mengekstrak XPath Dari Situs Web

Sejauh ini, Anda mengetahui sintaks IMPORTXML, Anda mengetahui URL situs web, dan Anda mengetahui elemen mana yang ingin Anda ekstrak. Tapi bagaimana Anda mendapatkan elemen XPath?

Anda tidak perlu hafal struktur situs web untuk mengekstrak datanya dengan IMPORTXML. Faktanya, setiap browser memiliki alat bagus yang memungkinkan Anda menyalin XPath elemen apa pun secara instan.

Alat Inspeksi Elemen memungkinkan Anda mengekstrak XPath dari elemen situs web. Begini caranya:

  1. Navigasikan ke halaman web yang ingin Anda kikis menggunakan browser web pilihan Anda.
  2. Temukan elemen yang ingin Anda kikis.
  3. Klik kanan pada elemen tersebut.
  4. Pilih Memeriksa elemen dari menu klik kanan. Browser Anda akan membuka panel yang menampilkan kode HTML halaman web. Elemen HTML yang relevan akan disorot dalam kode.
  5. Di panel Inspect Element, klik kanan pada elemen yang disorot dalam kode HTML.
  6. Klik Salin XPath untuk menyalin alamat XPath elemen ke clipboard Anda.

Sekarang setelah Anda mendapatkan semua yang Anda perlukan, saatnya melihat IMPORTXML beraksi dan mengikis beberapa tautan.

Anda dapat menggunakan IMPORTXML untuk mengikis semua jenis data dari situs web. Ini mencakup tautan, video, gambar, dan hampir semua elemen situs web. Tautan adalah salah satu elemen paling menonjol dalam analisis web, dan Anda dapat belajar banyak tentang situs web hanya dengan menganalisis halaman yang ditautkan.

IMPORTXML memungkinkan Anda dengan cepat mengikis tautan di Google Spreadsheet dan menganalisisnya lebih lanjut menggunakan berbagai fungsi yang ditawarkan Google Spreadsheet.

Untuk mengikis semua link dari halaman web, Anda dapat menggunakan rumus berikut:

=IMPORTXML(url, "//a/@href") 

Kueri XPath ini memilih semua href atribut dari A elemen, secara efektif mengekstraksi semua tautan di halaman.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")

Rumus di atas menghapus semua link di artikel Wikipedia.

Sebaiknya masukkan URL halaman web di sel terpisah, lalu rujuk ke sel tersebut. Ini akan mencegah formula Anda menjadi terlalu panjang dan berat. Anda dapat melakukan hal yang sama dengan kueri XPath.

2. Mengikis Semua Teks Tautan

Untuk mengekstrak teks tautan beserta URL-nya, Anda dapat menggunakan:

=IMPORTXML(url, "//a") 

Kueri ini memilih semua elemen, dan Anda dapat mengekstrak teks tautan dan URL dari hasilnya.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")

Rumus di atas mendapatkan teks tautan di artikel Wikipedia yang sama.

Terkadang, Anda mungkin perlu mengambil tautan tertentu berdasarkan kriteria. Misalnya, Anda mungkin tertarik untuk mengekstrak link yang berisi kata kunci tertentu atau link yang terletak di bagian halaman tertentu.

Dengan pengetahuan yang tepat tentang XPath, Anda dapat menentukan elemen apa pun yang Anda cari.

Untuk mengikis tautan yang berisi kata kunci tertentu, Anda dapat menggunakan fungsi berisi() XPath:

=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href") 

Kueri ini memilih atribut href dari elemen yang hrefnya berisi kata kunci yang ditentukan.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")

Rumus di atas menghapus semua tautan yang berisi catatan kata dalam teksnya dalam contoh artikel Wikipedia.

Untuk mengikis tautan dari bagian halaman tertentu, Anda dapat menentukan XPath bagian tersebut. Misalnya:

=IMPORTXML(url, "//div[@class='section']//a/@href") 

Kueri ini memilih atribut href elemen dalam elemen div dengan kelas "bagian".

Demikian pula, rumus di bawah ini memilih semua tautan dalam kelas div yang memiliki kelas mw-content-container:

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")

Perlu dicatat bahwa Anda dapat menggunakan IMPORTXML untuk lebih dari sekadar web scraping. Anda dapat menggunakan rangkaian fungsi IMPORT untuk mengimpor tabel data dari situs web ke Google Spreadsheet.

Meskipun Google Spreadsheet dan Excel memiliki sebagian besar fungsi yang sama, rangkaian fungsi IMPORT bersifat unik untuk Google Spreadsheet. Anda harus mempertimbangkan metode lain untuk melakukannya mengimpor data dari situs web ke Excel.

Sederhanakan Pengikisan Web dengan Google Spreadsheet

Pengikisan web dengan Google Sheets dan fungsi IMPORTXML adalah cara serbaguna dan mudah diakses untuk mengumpulkan data dari situs web.

Dengan menguasai XPath dan memahami cara membuat kueri yang efektif, Anda dapat membuka potensi penuh IMPORTXML dan mendapatkan wawasan berharga dari sumber daya web. Jadi, mulailah melakukan scraping dan bawa analisis web Anda ke level selanjutnya!