Data yang tidak mencukupi sering kali menjadi salah satu kemunduran utama untuk sebagian besar proyek ilmu data. Namun, mengetahui cara mengumpulkan data untuk proyek apa pun yang ingin Anda mulai adalah keterampilan penting yang perlu Anda peroleh sebagai ilmuwan data.

Ilmuwan data dan insinyur pembelajaran mesin sekarang menggunakan teknik pengumpulan data modern untuk memperoleh lebih banyak data untuk algoritme pelatihan. Jika Anda berencana untuk memulai proyek sains data atau pembelajaran mesin pertama, Anda juga harus bisa mendapatkan data.

Bagaimana Anda dapat membuat prosesnya mudah untuk diri Anda sendiri? Mari kita lihat beberapa teknik modern yang dapat Anda gunakan untuk mengumpulkan data.

Mengapa Anda Membutuhkan Lebih Banyak Data untuk Proyek Sains Data Anda

Algoritme pembelajaran mesin bergantung pada data agar menjadi lebih akurat, tepat, dan prediktif. Algoritme ini dilatih menggunakan kumpulan data. Proses pelatihan ini seperti mengajari balita nama suatu objek untuk pertama kalinya, kemudian memungkinkan mereka untuk mengidentifikasinya sendiri ketika mereka melihatnya lagi.

instagram viewer

Manusia hanya membutuhkan beberapa contoh untuk mengenali objek baru. Tidak demikian halnya dengan mesin, karena membutuhkan ratusan atau ribuan contoh serupa untuk menjadi akrab dengan suatu objek.

Contoh atau objek pelatihan ini harus datang dalam bentuk data. Algoritme pembelajaran mesin khusus kemudian menjalankan kumpulan data yang disebut set pelatihan — dan mempelajarinya lebih lanjut agar lebih akurat.

Artinya, jika Anda gagal menyediakan data yang cukup untuk melatih algoritme, Anda mungkin tidak mendapatkan hasil yang tepat di akhir proyek karena mesin tidak memiliki cukup data untuk dipelajari.

Jadi, perlu mendapatkan data yang memadai untuk meningkatkan keakuratan hasil Anda. Mari kita lihat beberapa strategi modern yang dapat Anda gunakan untuk mencapainya di bawah ini.

1. Mengikis Data Secara Langsung Dari Halaman Web

Scraping web adalah cara otomatis untuk mendapatkan data dari web. Dalam bentuknya yang paling dasar, pengikisan web mungkin melibatkan penyalinan dan penempelan elemen di situs web ke dalam file lokal.

Namun, pengikisan web juga melibatkan penulisan skrip khusus atau menggunakan alat khusus untuk mengikis data dari laman web secara langsung. Ini juga bisa melibatkan pengumpulan data yang lebih mendalam menggunakan Antarmuka Pemrograman Aplikasi (API) seperti Serpstack.

Gambarkan Data Berguna Dari Hasil Pencarian Dengan Serpstack API

Dengan serpstack API, Anda dapat dengan mudah mengumpulkan informasi dari halaman hasil Google dan mesin pencari lainnya.

Meskipun beberapa orang percaya bahwa pengikisan web dapat menyebabkan hilangnya kekayaan intelektual, hal itu hanya dapat terjadi jika orang melakukannya dengan niat jahat. Scraping web adalah legal dan membantu bisnis membuat keputusan yang lebih baik dengan mengumpulkan informasi publik tentang pelanggan dan pesaing mereka.

Terkait: Apa itu Scraping Web? Cara Mengumpulkan Data dari Situs Web

Misalnya, Anda dapat menulis skrip untuk mengumpulkan data dari toko online untuk membandingkan harga dan ketersediaan. Meskipun mungkin sedikit lebih teknis, Anda juga dapat mengumpulkan media mentah seperti file audio dan gambar melalui web.

Lihat contoh kode di bawah ini untuk melihat sekilas web scraping dengan Python beautifulsoup4 Perpustakaan parser HTML.

dari bs4 import BeautifulSoup
dari urllib.request import urlopen
url = "Masukkan URL lengkap dari halaman web target di sini"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
cetak (webData.get_text ())

Sebelum menjalankan kode contoh, Anda harus menginstal perpustakaan. Buat lingkungan virtual dari baris perintah Anda dan instal pustaka dengan menjalankan pip instal beautifulsoup4.

2. Melalui Formulir Web

Anda juga dapat memanfaatkan formulir online untuk pengumpulan data. Ini paling berguna ketika Anda memiliki sekelompok orang yang ingin Anda kumpulkan datanya.

Kerugian dari mengirimkan formulir web adalah Anda mungkin tidak mengumpulkan data sebanyak yang Anda inginkan. Ini sangat berguna untuk proyek atau tutorial sains data kecil, tetapi Anda mungkin mengalami kendala saat mencoba menjangkau banyak orang anonim.

Meskipun ada layanan pengumpulan data online berbayar, layanan ini tidak direkomendasikan untuk individu, karena sebagian besar terlalu mahal — kecuali jika Anda tidak keberatan mengeluarkan sejumlah uang untuk proyek tersebut.

Ada berbagai formulir web untuk mengumpulkan data dari orang-orang. Salah satunya adalah Google Formulir, yang dapat Anda akses dengan masuk ke forms.google.com. Kamu bisa gunakan Google Formulir untuk mengumpulkan informasi kontak, data demografis, dan detail pribadi lainnya.

Setelah Anda membuat formulir, yang perlu Anda lakukan hanyalah mengirim tautan ke audiens target Anda melalui surat, SMS, atau cara apa pun yang tersedia.

Namun, Google Formulir hanyalah salah satu contoh formulir web populer. Ada banyak alternatif di luar sana yang melakukan pekerjaan pengumpulan data dengan sangat baik juga.

Anda juga dapat mengumpulkan data melalui media sosial seperti Facebook, LinkedIn, Instagram, dan Twitter. Mendapatkan data dari media sosial sedikit lebih teknis daripada metode lainnya. Ini sepenuhnya otomatis dan melibatkan penggunaan alat API yang berbeda.

Media sosial bisa jadi sulit untuk mengekstrak datanya karena relatif tidak terorganisir dan jumlahnya sangat banyak. Dikelola dengan benar, jenis kumpulan data ini dapat berguna dalam proyek ilmu data yang melibatkan analisis sentimen online, analisis tren pasar, dan branding online.

Misalnya, Twitter adalah contoh sumber data media sosial tempat Anda dapat mengumpulkan sejumlah besar kumpulan data dengan itu tweepy Paket Python API, yang dapat Anda instal dengan pip instal tweepy perintah.

Untuk contoh dasar, blok kode untuk mengekstrak Tweet beranda Twitter terlihat seperti ini:

impor tweepy
impor kembali
myAuth = tweepy. OAuthHandler (tempel kunci_konsumen di sini, tempel kunci rahasia_konsumen di sini)
auth.set_access_token (tempel access_token di sini, tempel access_token_secret di sini)
otentikasi = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
untuk target di target_tweet:
cetak (target.text)

Anda dapat mengunjungi docs.tweepy.org situs web untuk mengakses tweepy dokumentasi untuk detail lebih lanjut tentang cara menggunakannya. Untuk menggunakan API Twitter, Anda perlu mengajukan permohonan untuk akun pengembang dengan menuju ke developer.twitter.com situs web.

Facebook adalah platform media sosial lain yang kuat untuk mengumpulkan data. Ini menggunakan titik akhir API khusus yang disebut API Grafik Facebook. API ini memungkinkan pengembang untuk mengumpulkan data tentang perilaku pengguna tertentu di platform Facebook. Anda dapat mengakses dokumentasi API Grafik Facebook di developers.facebook.com untuk mempelajarinya lebih lanjut.

Penjelasan rinci tentang pengumpulan data media sosial dengan API berada di luar cakupan artikel ini. Jika Anda tertarik untuk mengetahui lebih lanjut, Anda dapat melihat dokumentasi setiap platform untuk pengetahuan yang lebih mendalam tentang mereka.

Selain menulis skrip untuk menghubungkan ke titik akhir API, pengumpulan data media sosial seperti alat pihak ketiga Ahli Scraping dan banyak lainnya juga tersedia. Namun, sebagian besar alat web ini memiliki harga.

4. Mengumpulkan Set Data Yang Sudah Ada Dari Sumber Resmi

Anda juga dapat mengumpulkan kumpulan data yang sudah ada dari sumber otoritatif. Metode ini melibatkan mengunjungi bank data resmi dan mengunduh kumpulan data terverifikasi dari mereka. Tidak seperti scraping web dan opsi lainnya, opsi ini lebih cepat dan membutuhkan sedikit atau tanpa pengetahuan teknis.

Kumpulan data pada jenis sumber ini biasanya tersedia dalam format CSV, JSON, HTML, atau Excel. Beberapa contoh sumber data otoritatif adalah Bank Dunia, UNdata, dan beberapa lainnya.

Beberapa sumber data mungkin menjadikan data saat ini bersifat pribadi untuk mencegah publik mengaksesnya. Namun, arsip mereka seringkali tersedia untuk diunduh.

Sumber Kumpulan Data Resmi lainnya untuk Proyek Machine Learning Anda

Daftar ini akan memberi Anda titik awal yang baik untuk mendapatkan berbagai jenis data untuk dikerjakan dalam proyek Anda.

  • Portal Data Terbuka Uni Eropa
  • Kumpulan Data Kaggle
  • Google Dataset Search
  • Pusat Data
  • Registri Data Terbuka di AWS
  • Badan Pemerintah Eropa — Data dan Peta
  • Data Terbuka Riset Microsoft
  • Repositori Kumpulan Data Publik yang Luar Biasa di GitHub
  • Data. Gov: Pusat data terbuka Pemerintah AS

Ada lebih banyak sumber selain ini, dan pencarian yang cermat akan memberi Anda data yang sempurna untuk proyek sains data Anda sendiri.

Gabungkan Teknik Modern Ini untuk Hasil Lebih Baik

Pengumpulan data bisa membosankan jika alat yang tersedia untuk tugas terbatas atau sulit dipahami. Meskipun metode lama dan konvensional masih berfungsi dengan baik dan dalam beberapa kasus tidak dapat dihindari, metode modern lebih cepat dan lebih dapat diandalkan.

Namun, daripada mengandalkan satu metode, kombinasi dari cara-cara modern untuk mengumpulkan data Anda berpotensi memberikan hasil yang lebih baik.

Surel
5 Alat Perangkat Lunak Analisis Data yang Dapat Anda Pelajari dengan Cepat

Ingin masuk ke analisis data? Berikut beberapa alat yang harus Anda pelajari.

Topik-topik terkait
  • Pemrograman
  • Python
  • Data besar
  • Pembelajaran mesin
  • Pengumpulan Data
  • Analisis data
Tentang Penulis
Idowu Omisola (45 Artikel Dipublikasikan)

Idowu sangat tertarik dengan teknologi pintar dan produktivitas apa pun. Di waktu luangnya, dia bermain-main dengan coding dan beralih ke papan catur ketika dia bosan, tetapi dia juga suka melepaskan diri dari rutinitas sesekali. Semangatnya untuk menunjukkan kepada orang-orang tentang teknologi modern memotivasinya untuk menulis lebih banyak.

Selebihnya Dari Idowu Omisola

Berlangganan newsletter kami

Bergabunglah dengan buletin kami untuk mendapatkan tip teknologi, ulasan, ebook gratis, dan penawaran eksklusif!

Satu langkah lagi…!

Harap konfirmasi alamat email Anda di email yang baru saja kami kirimkan kepada Anda.

.