Pembaca seperti Anda membantu mendukung MUO. Saat Anda melakukan pembelian menggunakan tautan di situs kami, kami dapat memperoleh komisi afiliasi.

Oleh Sai Ashish Konchada
MembagikanMenciakMembagikanSurel

Menggores HTML bisa rumit, jadi pastikan Anda memahami proses ini dengan sedikit latihan Python.

Twitter adalah salah satu platform media sosial paling berpengaruh yang pernah ada. Jutaan orang termasuk politisi papan atas, selebritas, dan CEO menggunakan platform ini untuk membagikan pemikiran mereka setiap hari.

Tab trending adalah salah satu tempat terbaik untuk mengetahui berita real-time dan sentimen media sosial. Anda dapat menganalisis dan menggunakan data ini untuk merencanakan iklan merek, menjalankan kampanye, dan meningkatkan penjualan secara berlipat. Tapi bagaimana Anda bisa mendapatkan sepuluh tagar trending teratas di Twitter?

Proses Pembuatan Algoritma

Langkah pertama untuk membuat program apa pun adalah mencatat dan memahami langkah-langkah yang diperlukan untuk membuat pengikis Twitter. Mereka:

  1. Buka Google Chrome.
  2. Kunjungi halaman trending Twitter.
  3. Kumpulkan tagar dan tautan halaman masing-masing.
  4. Simpan data dalam spreadsheet.

Ini berfungsi sebagai algoritma pernyataan masalah.

Memahami halaman Web Twitter

Anda perlu mengetahui bagaimana halaman web menandai datanya sebelum Anda dapat mengekstraknya. Ini sangat membantu jika Anda memiliki pemahaman yang baik tentang dasar-dasar HTML dan CSS.

Ikuti langkah-langkah ini untuk mengetahui bagaimana Twitter mewakili trending hashtag dan URL-nya:

  1. Mengunjungi Halaman trending Twitter. Anda juga dapat menavigasi ke Twitter.comMengeksplorasiSedang tren untuk melihatnya.
  2. Periksa kolom utama menggunakan Alat Pengembang Chrome. Pergi ke Menu (3 titik)>Alat Lainnya >Alat pengembang dan arahkan alat pemilih elemen ke area yang sedang tren.
  3. Garis Waktu Tren adalah a div dengan sebuah aria-label atribut yang nilainya "Linimasa: Jelajahi". Arahkan kursor ke markup di Elemen panel untuk lebih memahami struktur halaman. Lain div menyimpan trending hashtag/topik. Gunakan div ini sebagai penghitung dan ulangi ke semua div di halaman yang berisi topik/hashtag yang sedang tren. Konten disimpan dalam a menjangkau atau beberapa elemen rentang. Amati tab yang terbuka dan catat hierarkinya. Anda dapat menggunakan ini untuk membuat ekspresi XPath. Ekspresi XPath untuk elemen khusus ini adalah:
    '//div[@aria-label="Garis waktu: Jelajahi"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/rentang[1]'
    Ulangi dan targetkan div[3], div[4], div[5], dan seterusnya. Untuk sepuluh tagar teratas, penghitung berjalan dari 3 hingga 13. XPath umum menjadi:
    //div[@aria-label="Garis waktu: Jelajahi"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
  4. Klik hashtag apa pun untuk memahami URL halamannya. Jika Anda membandingkan URL, Anda akan melihat bahwa hanya parameter kueri yang berubah agar sesuai dengan nama tagar. Anda dapat menggunakan wawasan ini untuk membuat URL tanpa benar-benar mengekstraknya.

Proyek ini menggunakan modul dan alat Python berikut:

1. Modul Panda

Kamu bisa gunakan kelas Pandas DataFrame untuk menyimpan tagar dan tautannya masing-masing dalam format tabel. Ini akan sangat membantu saat menambahkan konten ini ke file CSV yang dapat Anda bagikan secara eksternal.

2. Modul Waktu

Gunakan modul Time untuk menambahkan penundaan pada program Python agar konten halaman dapat dimuat sepenuhnya. Contoh ini menggunakan penundaan 15 detik, tetapi Anda dapat bereksperimen dan memilih penundaan yang sesuai dengan keadaan Anda.

3. Modul Selenium

Selenium dapat mengotomatiskan proses interaksi dengan web. Anda dapat menggunakannya untuk mengontrol instance browser web, membuka halaman yang sedang tren, dan menggulir ke bawah. Untuk menginstal Selenium di lingkungan Python Anda, buka Terminal dan jalankanpip instal selenium.

4. Pengandar Web

Gunakan driver web yang dikombinasikan dengan Selenium untuk berinteraksi dengan browser. Ada berbagai driver web yang tersedia berdasarkan browser yang ingin Anda otomatisasi. Untuk build ini, gunakan browser Google Chrome yang populer. Untuk menginstal driver web untuk Chrome:

  1. Periksa versi browser yang Anda gunakan dengan mengunjungi Menu (3 titik) > Bantuan>Tentang Google Chrome.
  2. Perhatikan versi browser; dalam hal ini, 106.0.5249.62.
  3. Pergi ke Anda Terminal dan ketik pip instal chromedriver-binary==version_number:
    pip Install chromedriver-biner==106.0.5249.62
    Jika tidak ada versi yang cocok, pip akan menampilkan daftar yang tersedia; pilih yang paling dekat dengan versi chrome Anda.

Cara Membuat Pengikis Twitter

Ikuti langkah-langkah ini untuk membangun program Anda dan dapatkan tagar tren waktu nyata. Anda dapat menemukan kode sumber lengkap di sini Repositori GitHub.

  1. Impor modul yang diperlukan ke dalam lingkungan Python.
    # mengimpor modul yang diperlukan
    dari selenium impor webdriver
    dariselenium.webdriver.umum.olehimporOleh
    impor chromedriver_binary
    impor waktu
    impor panda sebagai pd
  2. Buat objek untuk menginisialisasi ChromeDriver dan luncurkan browser Google Chrome menggunakan webdriver. Chrome() fungsi.
    # buka browser google chrome
    browser = webdriver. Chrome()
  3. Buka halaman tren Twitter dengan mengirimkan URL-nya ke mendapatkan() fungsi.
    # buka halaman trending Twitter
    browser.dapatkan('https://twitter.com/explore/tabs/trending')
  4. Terapkan penundaan agar konten halaman dimuat sepenuhnya.
    # tunda untuk pemuatan konten halaman
    waktu.tidur(15)
  5. Buat daftar kosong untuk menyimpan tagar dan deklarasikan loop yang berjalan dari 3 hingga 13 untuk mencocokkan variabel dalam ekspresi XPath dari sebelumnya.
    # inisialisasi daftar untuk menyimpan topik dan tagar yang sedang tren
    trending_topic_content=[]

    # kumpulkan topik dan tagar di halaman trending Twitter
    untuk saya dalam rentang (3,13):

  6. Menggunakan temukan_element() berfungsi dan lewati pemilih XPath untuk mendapatkan topik dan tagar yang sedang tren di Twitter:
    xpath = f'//div[@aria-label="Garis waktu: Jelajahi"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    trending_topic = browser.find_element (Oleh. XPATH, xpath)
    trending_topic_content.menambahkan(topik yang sedang tren.teks)
  7. Buat daftar kosong untuk menyimpan semua URL dan mendeklarasikan loop yang berjalan melalui semua tagar.
    # buat URL menggunakan tagar yang dikumpulkan
    url=[]
    untuk saya di trending_topic_content:
    Gunakan operator irisan untuk menghilangkan tagar untuk membuat URL-nya dan mengganti spasi dengan penyandian URL, %20. Tambahkan tautan ke daftar.
    jika saya. mulai dengan("#"):
    saya = saya[1:]
    url='https://twitter.com/search? q=%23' + saya + '&src=tren_klik'
    kalau tidak:
    url = 'https://twitter.com/search? q=' + saya + '&src=tren_klik'
    url = url.ganti("", "%20")
    url.menambahkan(url)
  8. Buat Kamus pasangan nilai kunci dengan kunci sebagai tagar dan nilai sebagai URL-nya.
    # buat kamus yang memiliki tagar dan URL
    dik={'Tanda pagar':trending_topic_content,'URL':url}
  9. Ubah kamus yang tidak terstruktur menjadi DataFrame tabular.
    # ubah kamus menjadi kerangka data di panda
    df=pd. Bingkai Data (dik)
    mencetak(df)
  10. Simpan DataFrame ke file CSV yang dapat Anda lihat di Microsoft Excel atau proses lebih lanjut.
    # mengubah kerangka data menjadi format Nilai Terpisah Koma tanpa nomor seri
    df.to_csv("Twitter_HashTags.csv", indeks=Salah)

Dapatkan Wawasan Berharga Menggunakan Web Scraping

Pengikisan web adalah metode yang ampuh untuk mendapatkan data yang diinginkan dan menganalisisnya untuk mengambil keputusan. Beautiful Soup adalah perpustakaan mengesankan yang dapat Anda instal dan gunakan untuk mengikis data dari file HTML atau XML apa pun menggunakan Python.

Dengan ini, Anda dapat mengorek internet untuk mendapatkan berita utama real-time, harga produk, skor olahraga, nilai saham, dan banyak lagi.

Mengikis Situs Web Dengan Tutorial Python Sup Cantik Ini

Baca Selanjutnya

MembagikanMenciakMembagikanSurel

Topik-topik terkait

  • Pemrograman
  • Pemrograman
  • Piton
  • Pengembangan web
  • Pengikisan Web
  • Twitter

Tentang Penulis

Sai Ashish Konchada (3 Artikel Dipublikasikan)

Sai Ashish adalah Full Stack Developer dengan pengalaman industri membangun situs web dan aplikasi web. Dia suka membuat produk inovatif dan menulis artikel berwawasan tentang pemrograman.

Selebihnya Dari Sai Ashish Konchada

Komentar

Berlangganan newsletter kami

Bergabunglah dengan buletin kami untuk kiat teknologi, ulasan, ebook gratis, dan penawaran eksklusif!

Klik di sini untuk berlangganan

Di Kawat

sedang tren sekarang