Iklan
Ketika datang ke database online dan informasi yang dapat ditemukan di dalam apa yang umumnya dikenal sebagai "jaring tak terlihat 12 Mesin Pencari Terbaik untuk Menjelajahi Web Tak TerlihatGoogle atau Bing tidak dapat mencari semuanya. Untuk menjelajahi web tak kasat mata, Anda perlu menggunakan mesin pencari khusus ini. Baca selengkapnya “, Saya bukan pengguna biasa Anda. Tentu, saya menghabiskan terlalu banyak waktu untuk memilah-milah database online di tempat-tempat seperti Arsip Nasional dan bacaan CIA FOIA ruangan, tetapi saya harus mengatakan tidak ada yang membuat saya lebih bersemangat daripada ketika saya menemukan tabel berbasis HTML yang diisi dengan volume yang tampaknya kompleks dan tidak terhubung data.
Faktanya adalah, tabel data adalah tambang emas dari kebenaran penting. Data sering dikumpulkan oleh tentara yang mengomel dengan sepatu bot di tanah. Anda memiliki orang-orang dari Sensus A.S. bepergian ke seluruh negara untuk informasi rumah tangga dan keluarga. Anda memiliki kelompok lingkungan nirlaba yang mengumpulkan segala macam informasi menarik tentang lingkungan, polusi, pemanasan global, dan banyak lagi. Dan jika Anda menyukai paranormal atau Ufologi, ada juga tabel informasi yang terus diperbarui tentang penampakan benda aneh di langit di atas kita.
Ironisnya, Anda akan berpikir bahwa pemerintah mana pun di dunia akan tertarik untuk mengetahui jenis pesawat asing terlihat di langit di atas negara mana pun, tetapi tampaknya tidak – setidaknya tidak di AS. omong-omong. Di Amerika, koleksi penampakan yang tidak biasa dari kerajinan telah diturunkan ke tim penghobi amatir yang berduyun-duyun ke penampakan UFO baru seperti ngengat ke nyala api. Ketertarikan saya pada penampakan ini sebenarnya bukan berasal dari ketertarikan pada alien atau kerajinan dari planet lain, tetapi dari ketertarikan ilmiah dengan pola – di mana dan mengapa lebih banyak orang melihat benda-benda di langit, dan apakah penampakan itu dapat mencerminkan sesuatu yang sangat nyata dan jauh lebih membumi. pada.
Untuk menjelajahi volume data yang dikumpulkan oleh tim penggemar UFO, saya sebenarnya telah mengembangkan cara untuk mengimpor tabel HTML besar dari data ke dalam Google Spreadsheet, lalu memanipulasi dan menganalisis data tersebut untuk mengekstrak dan menemukan yang bermakna dan penting informasi. Dalam artikel ini, saya bermaksud menunjukkan kepada Anda bagaimana melakukan hal yang sama.
Data HTML Penting Ke Google Spreadsheet
Dalam contoh ini, saya akan menunjukkan cara mengimpor data apa pun yang mungkin disimpan dalam tabel di situs web mana pun di Internet, ke dalam Google Spreadsheet Anda. Pikirkan tentang volume data yang sangat besar yang tersedia di Internet saat ini dalam bentuk tabel HTML. Wikipedia sendiri memiliki data dalam tabel untuk topik seperti pemanasan global, Biro Sensus AS memiliki banyak kumpulan data populasi, dan sedikit Googling akan membuat Anda lebih dari itu.
Dalam contoh saya, saya memulai dengan database di Pusat Pelaporan UFO Nasional yang sebenarnya terlihat seperti database deep-web bergaya kueri, tetapi jika Anda mengamati Penataan URL, sebenarnya adalah sistem pelaporan berbasis web semi-kompleks yang terdiri dari halaman web statis dan tabel HTML statis – persis seperti yang kita inginkan saat mencari data impor.
NUForc.org adalah salah satu organisasi yang berfungsi sebagai salah satu pusat pelaporan terbesar untuk penampakan UFO. Ini bukan satu-satunya, tetapi cukup besar untuk menemukan kumpulan data baru dengan penampakan saat ini untuk setiap bulan. Anda memilih untuk melihat data yang diurutkan berdasarkan kriteria seperti Negara Bagian atau Tanggal, dan masing-masing disediakan dalam bentuk halaman statis. Jika Anda mengurutkan berdasarkan tanggal dan kemudian mengklik tanggal terbaru, Anda akan melihat bahwa tabel yang tercantum ada halaman web statis bernama sesuai dengan format tanggal.
Jadi, kami sekarang memiliki pola untuk secara teratur mengekstrak informasi penampakan terbaru dari database berbasis HTML ini. Yang harus Anda lakukan adalah mengimpor tabel pertama, gunakan entri terbaru (yang teratas) untuk mengidentifikasi pembaruan terbaru, dan kemudian gunakan tanggal posting itu untuk membuat tautan URL tempat tabel data HTML terbaru ada. Melakukan ini hanya akan memerlukan beberapa contoh fungsi ImportHTML, dan kemudian beberapa penggunaan kreatif fungsi manipulasi teks. Setelah selesai, Anda akan memiliki salah satu spreadsheet pelaporan yang paling keren dan dapat diperbarui sendiri. Mari kita mulai.
Mengimpor Tabel dan Memanipulasi Data
Langkah pertama, tentu saja, adalah membuat spreadsheet baru.
Jadi, bagaimana Anda mengimpor tabel HTML? Yang Anda butuhkan hanyalah URL tempat tabel disimpan, dan nomor tabel di halaman – biasanya yang pertama terdaftar adalah 1, yang kedua adalah 2, dan seterusnya. Karena saya tahu URL dari tabel pertama yang mencantumkan tanggal dan jumlah penampakan yang terdaftar, dimungkinkan untuk mengimpor dengan mengetikkan fungsi berikut ke dalam sel A1.
=imporhtml(“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 memegang fungsi “= jam (sekarang ())“, jadi tabel akan diperbarui setiap jam. Ini mungkin ekstrem untuk data yang jarang diperbarui, jadi saya mungkin bisa melakukannya setiap hari. Bagaimanapun, fungsi ImportHTML di atas membawa tabel seperti yang ditunjukkan di bawah ini.
Anda harus melakukan sedikit manipulasi data pada halaman ini sebelum Anda dapat mengumpulkan URL untuk tabel kedua dengan semua penampakan UFO. Tapi lanjutkan dan buat lembar kedua di buku kerja.
Sebelum mencoba membangun lembar kedua itu, saatnya mengekstrak tanggal posting dari tabel pertama ini, untuk membangun tautan ke tabel kedua. Masalahnya adalah tanggal dibawa sebagai format tanggal, bukan string. Jadi, pertama-tama Anda perlu menggunakan fungsi TEXT untuk mengubah tanggal posting laporan menjadi string:
=teks (A2,”mm/hh/tt”)
Di sel berikutnya di sebelah kanan, Anda perlu menggunakan fungsi SPLIT dengan pembatas “/” untuk memecah tanggal menjadi bulan, hari dan tahun.
=bagi (D2,”/”)
Terlihat bagus! Namun, setiap nomor harus dipaksa menjadi dua digit. Anda melakukan ini di sel tepat di bawahnya menggunakan perintah TEXT lagi.
=teks (E2,”00″)
Format "00" (itu adalah nol) memaksa dua digit, atau "0" sebagai pengganti.
Sekarang Anda siap untuk membangun kembali seluruh URL ke tabel HTML terbaru dari penampakan baru. Anda dapat melakukan ini dengan menggunakan fungsi CONCATENATE, dan menyatukan semua bit informasi yang baru saja Anda ekstrak dari tabel pertama.
=menggabungkan(“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Sekarang, pada lembar baru yang Anda buat di atas (lembar kosong), Anda akan melakukan fungsi "importhtml" baru, tetapi kali ini untuk yang pertama Parameter tautan URL, jadi Anda akan menavigasi kembali ke spreadsheet pertama dan mengklik sel dengan tautan URL yang baru saja Anda buat.
Parameter kedua adalah "tabel" dan yang terakhir adalah "1" (karena tabel penampakan adalah yang pertama dan satu-satunya di halaman). Tekan enter, dan sekarang Anda baru saja mengimpor seluruh volume penampakan yang diposting pada tanggal tertentu.
Jadi, Anda mungkin berpikir ini adalah tindakan baru yang bagus dan semuanya – maksud saya, bagaimanapun juga, apa yang telah Anda lakukan diekstraksi informasi yang ada dari tabel di Internet dan memindahkannya ke tabel lain, meskipun tabel pribadi di Google Documents Anda Akun. Ya itu benar. Namun, sekarang karena ada di akun Google Documents pribadi Anda, Anda memiliki alat dan fungsi di ujung jari Anda untuk menganalisis data itu dengan lebih baik, dan mulai menemukan koneksi yang luar biasa.
Menggunakan Laporan Pivot untuk Menganalisis Data yang Diimpor
Baru-baru ini, saya menulis artikel tentang menggunakan Laporan Pivot di Google Spreadsheet Menjadi Analis Data Pakar Semalam Menggunakan Google Spreadsheet Report ToolsTahukah Anda bahwa salah satu alat terbaik untuk melakukan analisis data sebenarnya adalah Google Spreadsheet? Alasan untuk ini bukan hanya karena ia dapat melakukan hampir semua yang Anda inginkan... Baca selengkapnya untuk melakukan segala macam prestasi analisis data yang keren. Nah, Anda dapat melakukan akrobat analisis data luar biasa yang sama pada data yang Anda impor dari Internet – memberi Anda kemampuan untuk mengungkap koneksi menarik yang mungkin belum pernah ditemukan orang lain sebelumnya Anda.
Misalnya, dari tabel penampakan akhir, saya mungkin memutuskan untuk menggunakan laporan pivot untuk melihat jumlah bentuk unik berbeda yang dilaporkan di setiap negara bagian, dibandingkan dengan jumlah keseluruhan penampakan di negara bagian itu negara. Akhirnya, saya juga menyaring apa pun yang menyebutkan "alien" di bagian komentar, semoga menyingkirkan beberapa entri wingnut lainnya.
Ini sebenarnya mengungkapkan beberapa hal yang cukup menarik langsung dari kelelawar, seperti fakta bahwa California jelas memiliki yang tertinggi jumlah penampakan yang dilaporkan dari Negara lain mana pun, bersama dengan perbedaan pelaporan jumlah tertinggi bentuk kerajinan di negara. Hal ini juga menunjukkan bahwa Massachusetts, Florida dan Illinois adalah hitter besar di departemen penampakan UFO juga (setidaknya dalam data terbaru).
Hal keren lainnya tentang Google Spreadsheet adalah beragam grafik yang tersedia untuk Anda, termasuk Geo-Map yang memungkinkan Anda lay out "hot spot" data dalam format grafis yang benar-benar menonjol dan membuat koneksi tersebut di dalam data cukup jelas.
Jika Anda memikirkannya, ini benar-benar hanya puncak gunung es. Jika sekarang Anda dapat mengimpor data dari tabel data di halaman mana pun di Internet, pikirkan saja kemungkinannya. Dapatkan nomor stok terbaru, atau 10 buku dan penulis teratas terbaru di daftar buku terlaris New York Times, atau mobil dengan penjualan terbesar di dunia. Ada tabel HTML di luar sana di hampir semua topik yang dapat Anda bayangkan, dan dalam banyak kasus tabel tersebut sering diperbarui.
ImportHtml memberi Anda kemampuan untuk menyambungkan Google Spreadsheet Anda ke Internet, dan memasukkan data yang ada di luar sana. Ini dapat menjadi pusat informasi pribadi Anda yang dapat Anda gunakan untuk memanipulasi dan memijat ke dalam format yang benar-benar dapat Anda gunakan. Ini hanya satu hal lagi yang sangat keren untuk disukai tentang Google Spreadsheet.
Pernahkah Anda mengimpor data ke dalam spreadsheet Anda? Hal menarik apa yang Anda temukan dalam data tersebut? Bagaimana Anda menggunakan datanya? Bagikan pengalaman dan ide Anda di bagian komentar di bawah!
Kredit Gambar: Grafik Bisnis
Ryan memiliki gelar BSc di bidang Teknik Elektro. Dia telah bekerja 13 tahun di bidang teknik otomasi, 5 tahun di bidang TI, dan sekarang menjadi Insinyur Aplikasi. Mantan Managing Editor MakeUseOf, dia berbicara di konferensi nasional tentang Visualisasi Data dan telah ditampilkan di TV dan radio nasional.