Untuk menganalisis kumpulan data, Anda harus terlebih dahulu memahami datanya. Terkadang, Anda mungkin tidak memiliki pengetahuan awal tentang kumpulan data, sehingga Anda tidak dapat memaksimalkannya. Sebagai seorang analis data, Anda dapat menggunakan analisis data Eksplorasi (EDA) untuk mendapatkan pengetahuan tentang kumpulan data Anda sebelum analisis mendalam.

Analisis data eksplorasi (EDA) menyelidiki kumpulan data untuk mendapatkan wawasan yang berarti. Proses melakukan EDA melibatkan query informasi tentang struktur dan isi dari dataset.

Memasang Paket Gota

Paket Gota adalah yang paling populer untuk analisis data di Pergi; itu seperti Paket Python Panda tapi untuk pergi. Paket Gota berisi banyak metode untuk menganalisis kumpulan data dan membaca format JSON, CSV, dan HTML.

Jalankan perintah ini di terminal Anda di direktori tempat Anda menginisialisasi file modul Go:

Pergilah dapatkan -u github.com/Pergilah-gota/gota

Perintah akan menginstal Gota di direktori lokal, siap untuk Anda mengimpor paket untuk menggunakannya.

instagram viewer

Sama seperti Pandas, Gota mendukung operasi seri dan kerangka data. Ada dua sub-paket dalam paket Gota: seri, dan paket dataframe. Anda dapat mengimpor salah satu atau keduanya, tergantung pada kebutuhan Anda.

impor (
"github.com/Pergilah-gota/gota/seri"
"github.com/Pergilah-gota/gota/dataframe"
)

Membaca Dataset Menggunakan Paket Gota

Anda dapat menggunakan file CSV apa pun yang Anda suka, tetapi contoh berikut menunjukkan hasil dari kumpulan data Kaggle, berisi data harga laptop.

Gota memungkinkan Anda membaca format file CSV, JSON, dan HTML untuk membuat kerangka data menggunakan BacaCSV, BacaJSON, dan BacaHTML metode. Inilah cara Anda memuat file CSV ke objek kerangka data:

file, err := os. Buka("/path/ke/csv-file.csv")

jika salah != nol {
fmt. Println("kesalahan membuka file")
}

dataFrame := kerangka data. BacaCSV(berkas)
fmt. Println (dataFrame)

Anda dapat menggunakan Membuka metode os paket untuk membuka file CSV. Metode ReadCSV membaca objek file dan mengembalikan objek dataframe.

Saat Anda mencetak objek ini, output dalam format tabel. Anda selanjutnya dapat memanipulasi objek kerangka data menggunakan berbagai metode yang disediakan Gota.

Objek hanya akan mencetak beberapa kolom jika kumpulan data memiliki lebih dari nilai yang ditetapkan.

Mengambil Dimensi Dataset

Dimensi kerangka data adalah jumlah baris dan kolom yang dikandungnya. Anda dapat mengambil dimensi ini menggunakan redup metode objek dataframe.

var baris, kolom = dataFrame. redup()

Ganti salah satu variabel dengan garis bawah untuk mengambil dimensi lain saja. Anda juga dapat menanyakan jumlah baris dan kolom satu per satu, menggunakan sekarang dan Ncol metode.

var baris = dataFrame. Sekarang()
var kolom = dataFrame. Ncol()

Mengambil Tipe Data Kolom

Anda harus mengetahui tipe data komposit dalam kolom kumpulan data untuk menganalisisnya. Anda dapat mengambil ini menggunakan Jenis metode objek kerangka data Anda:

var jenis = dataFrame. Jenis()
fmt. Println (tipe)

Metode Types mengembalikan irisan yang berisi tipe data kolom:

Mengambil Nama Kolom

Anda memerlukan nama kolom untuk memilih kolom tertentu untuk operasi. Anda dapat menggunakan Nama metode untuk menjemput mereka.

var nama kolom := dataFrame. Nama()
fmt. Println (nama kolom)

Metode Nama mengembalikan sepotong nama kolom.

Memeriksa Nilai yang Hilang

Anda mungkin memiliki kumpulan data yang berisi nilai null atau non-numerik. Anda dapat memeriksa nilai tersebut menggunakan HasNaN dan IsNaN metode objek seri:

aCol := dataFrame. Col("ukuran_tampilan")
var hasNull = aCol. HasNaN()
var isNotNumber = aKol. IsNaN()

HasNan memeriksa apakah kolom berisi elemen null. IsNaN mengembalikan sepotong boolean yang mewakili apakah setiap nilai dalam kolom adalah angka.

Melakukan Analisis Statistik Deskriptif

Analisis statistik deskriptif membantu Anda memahami distribusi kolom numerik. Menggunakan Menggambarkan metode, Anda dapat membuat analisis statistik deskriptif dari kumpulan data Anda:

deskripsi := dataFrame. Menggambarkan()
fmt. Println (deskripsi)

Metode Jelaskan mengembalikan metrik seperti rata-rata, simpangan baku, dan nilai maksimum kolom dalam kumpulan data. Ini merangkum ini dalam format tabel.

Anda juga bisa spesifik dan fokus pada kolom dan metrik dengan memilih kolom tertentu, lalu membuat kueri metrik yang Anda inginkan. Anda harus terlebih dahulu mengambil seri yang mewakili kolom tertentu, lalu menggunakan metodenya seperti:

aCol := dataFrame. Col("ukuran_tampilan")
var rata-rata = aKol. Berarti()
var median = aKol. median()
var minimum = aKol. min()
var standarDeviation = aKol. StdDev()
var maksimum = aKol. Maks()
var kuantil25 = aKol. Kuantil (25.0)

Metode-metode ini mencerminkan hasil dari analisis statistik deskriptif yang dilakukan oleh Description.

Mengambil Elemen dalam Kolom

Salah satu tugas terakhir yang ingin Anda lakukan adalah memeriksa nilai dalam kolom untuk gambaran umum. Anda dapat menggunakan Catatan metode untuk melihat nilai kolom.

aCol := dataFrame. Kol("merek")
fmt. Println (aCol. Catatan())

Metode ini mengembalikan sepotong string yang berisi nilai di kolom yang Anda pilih:

Mengekspor Kerangka Data Gota ke File

Jika Anda memilih untuk melangkah lebih jauh dan menggunakan paket Gota untuk analisis data lengkap, Anda harus menyimpan data dalam file. Anda dapat menggunakan TulisCSV dan TulisJSON metode kerangka data untuk mengekspor file. Metode mengambil file yang akan Anda buat menggunakan os paket Membuat metode.

Inilah cara Anda mengekspor kerangka data menggunakan paket Gota.

dataFrame := kerangka data. BacaCSV(berkas)
outputFile, err := os. Buat("keluaran.csv")

jika salah != nol {
catatan. Fatal (kesalahan)
}

err = bingkai data. Tulis CSV (file keluaran)

jika salah != nol {
catatan. Fatalln("Terjadi kesalahan saat menulis konten kerangka data ke file")
}

Itu bingkai data variabel adalah representasi dari kerangka data. Saat Anda menggunakan Membuat metode os package, itu membuat file kosong baru dengan nama yang ditentukan dan mengembalikan file. Metode WriteCSV mengambil contoh file dan mengembalikan kesalahan atau nol jika tidak ada kesalahan.

Analisis Data Eksplorasi Penting

Pemahaman tentang data dan kumpulan data sangat penting bagi analis data dan spesialis pembelajaran mesin. Ini adalah operasi penting dalam siklus kerja mereka, dan analisis data eksplorasi adalah salah satu teknik yang mereka gunakan untuk mencapai itu.

Ada lebih banyak paket Gota. Anda dapat menggunakannya untuk berbagai fungsi perselisihan data dengan cara yang sama seperti Anda menggunakan pustaka Python Pandas untuk analisis data. Namun, Gota tidak mendukung fungsionalitas sebanyak Panda.