Manfaatkan perpustakaan PandasAI Python untuk memanfaatkan kekuatan kecerdasan buatan dan model bahasa besar untuk melakukan tugas analisis data.

Pandas adalah perpustakaan yang paling dominan untuk memanipulasi kumpulan data dan kerangka data. Ini sudah menjadi norma sejak lama. Tetapi dengan kemajuan dalam kecerdasan buatan, perpustakaan sumber terbuka baru yang disebut PandasAI dikembangkan yang menambahkan kemampuan AI generatif ke Panda.

PandasAI tidak menggantikan Pandas. Sebaliknya, itu memberikan kemampuan AI generatifnya. Dengan cara ini, Anda dapat melakukan analisis data dengan mengobrol dengan PandasAI. Ini kemudian mengabstraksi apa yang terjadi di latar belakang dan memberi Anda hasil kueri Anda.

Menginstal PandasAI

PandaAI tersedia melalui PyPI (Python Package Index). Buat lingkungan virtual baru jika Anda menggunakan IDE lokal. Kemudian gunakan manajer paket pip untuk menginstalnya.

pip instal pandasai

Anda mungkin mengalami error konflik ketergantungan yang serupa dengan yang ditunjukkan di bawah ini jika Anda menggunakan Google Colab.

instagram viewer

Jangan downgrade versi IPython. Mulai ulang runtime Anda dan jalankan blok kode lagi. Ini akan menyelesaikan masalah.

Kode sumber lengkap tersedia di a repositori GitHub.

Memahami Sampel Dataset

Kumpulan data sampel yang akan Anda manipulasi dengan PandasAI adalah kumpulan data Harga Perumahan California dari Kaggle. Kumpulan data ini berisi informasi tentang perumahan dari sensus California tahun 1990. Ini memiliki sepuluh kolom yang menyediakan statistik tentang rumah-rumah ini. Kartu data untuk membantu Anda mempelajari lebih lanjut tentang kumpulan data ini tersedia di Kaggle. Di bawah ini adalah lima baris pertama dari kumpulan data.

Setiap kolom mewakili satu statistik rumah.

Menghubungkan PandasAI ke Model Bahasa Besar

Untuk menghubungkan PandasAI ke a model bahasa besar (LLM) seperti OpenAI, Anda memerlukan akses ke kunci API-nya. Untuk mendapatkannya, lanjutkan ke Platform AI terbuka. Kemudian masuk ke akun Anda. Pilih API di bawah halaman opsi yang muncul berikutnya.

Setelah itu, klik profil Anda dan pilih Lihat kunci API pilihan. Pada halaman yang muncul klik selanjutnya Buat kunci rahasia baru tombol. Terakhir, beri nama kunci API Anda.

OpenAI akan menghasilkan kunci API Anda. Salin karena Anda akan membutuhkannya saat menghubungkan PandasAI dengan OpenAI. Pastikan Anda merahasiakan kuncinya karena siapa pun yang memiliki akses ke sana dapat melakukan panggilan ke OpenAI atas nama Anda. OpenAI kemudian akan menagih akun Anda untuk panggilan tersebut.

Sekarang setelah Anda memiliki kunci API, buat skrip Python baru dan rekatkan kode di bawah ini. Anda tidak perlu mengubah kode ini karena sebagian besar waktu Anda akan membuatnya.

impor panda sebagai pd
dari pandasai impor PandaAI

# Ganti dengan kumpulan data atau kerangka data Anda
df = pd.baca_csv("/konten/perumahan.csv")

# Instansiasi LLM
dari pandasai.llm.openai impor OpenAI
llm = OpenAI(api_token="token API Anda")

pandas_ai = PandasAI(llm)

Kode di atas mengimpor PandasAI dan Pandas. Kemudian membaca dataset. Terakhir, ini menginstansiasi OpenAI LLM.

Anda sekarang siap untuk berkomunikasi dengan data Anda.

Melakukan Tugas Sederhana Menggunakan PandasAI

Untuk mengkueri data Anda, teruskan kerangka data dan permintaan Anda ke instance kelas PandasAI. Mulailah dengan mencetak lima baris pertama dari kumpulan data Anda.

pandas_ai (df, prompt='Apa lima baris pertama dari kumpulan data?')

Output dari prompt di atas adalah sebagai berikut:

Output ini identik dengan ikhtisar dataset sebelumnya. Hal ini menunjukkan bahwa PandasAI memberikan hasil yang benar dan dapat diandalkan.

Kemudian, periksa jumlah kolom yang ada di kumpulan data Anda.

pandas_ai (df, prompt='Berapa banyak kolom dalam kumpulan data? ')

Ini mengembalikan 10 yang merupakan jumlah kolom yang benar dalam kumpulan data Perumahan California.

Memeriksa apakah ada nilai yang hilang dalam dataset.

pandas_ai (df, prompt='Apakah ada nilai yang hilang dalam kumpulan data?')

PandasAI mengembalikan itu total_kamar tidur kolom memiliki 207 nilai yang hilang, yang sekali lagi benar.

Ada banyak tugas sederhana yang dapat Anda capai menggunakan PandasAI, Anda tidak terbatas pada yang di atas.

Melakukan Query Kompleks Menggunakan PandasAI

PandasAI tidak hanya mendukung tugas-tugas sederhana. Anda juga dapat menggunakannya untuk melakukan kueri kompleks pada kumpulan data. Misalnya pada dataset perumahan, jika ingin menentukan jumlah rumah yang terletak di sebuah pulau, memiliki nilai lebih dari 100.000 dolar, dan memiliki lebih dari 10 kamar Anda dapat menggunakan prompt di bawah.

pandas_ai (df, prompt= "Berapa banyak rumah yang nilainya lebih dari 100.000,"
"berada di sebuah pulau dan total kamar tidur lebih dari 10?")

Output yang benar adalah lima. Ini adalah hasil yang sama dengan keluaran PandasAI.

Kueri kompleks mungkin membutuhkan waktu bagi analis data untuk menulis dan men-debug. Prompt di atas hanya membutuhkan dua baris bahasa alami untuk menyelesaikan tugas yang sama. Anda hanya perlu memikirkan dengan tepat apa yang ingin Anda capai, dan PandasAI akan mengurus sisanya.

Menggambar Bagan Menggunakan PandasAI

Bagan adalah bagian penting dari setiap proses analisis data. Ini membantu analis data memvisualisasikan data dengan cara yang ramah manusia. PandasAI juga memiliki fitur menggambar grafik. Anda hanya perlu melewati kerangka data dan instruksinya.

Mulailah dengan membuat histogram untuk setiap kolom dalam kumpulan data. Ini akan membantu Anda memvisualisasikan distribusi variabel.

pandas_ai (df, prompt= "Plot histogram untuk setiap kolom dalam kumpulan data")

Outputnya adalah sebagai berikut:

PandasAI dapat menggambar histogram dari semua kolom tanpa harus memberikan nama mereka di prompt.

PandasAI juga dapat memplot bagan tanpa Anda memberi tahu secara eksplisit bagan mana yang akan digunakan. Misalnya, Anda mungkin ingin mengetahui korelasi data dalam kumpulan data perumahan. Untuk mencapai ini, Anda dapat melewati prompt sebagai berikut:

pandas_ai (df, prompt= "Plot korelasi dalam kumpulan data")

PandasAI memplot matriks korelasi seperti yang ditunjukkan di bawah ini:

Pustaka memilih peta panas dan memplot matriks korelasi.

Meneruskan Beberapa Bingkai Data ke Instans PandasAI

Bekerja dengan banyak kerangka data bisa jadi rumit. Terutama untuk orang yang baru dalam analisis data. PandasAI menjembatani celah ini karena yang perlu Anda lakukan hanyalah meneruskan kedua kerangka data dan mulai menggunakan perintah untuk memanipulasi data.

Buat dua kerangka data menggunakan Pandas.

data_pegawai = {
'Identitas pegawai': [1, 2, 3, 4, 5],
'Nama': ['Yohanes', 'Emma', 'Liam', 'Olivia', 'William'],
'Departemen': ['SDM', 'Penjualan', 'DIA', 'Pemasaran', 'Keuangan']
}

gaji_data = {
'Identitas pegawai': [1, 2, 3, 4, 5],
'Gaji': [5000, 6000, 4500, 7000, 5500]
}

karyawan_df = pd. DataFrame (data_karyawan)
gaji_df = pd. Bingkai Data (salaries_data)

Anda dapat mengajukan pertanyaan kepada PandasAI yang melintasi kedua kerangka data. Anda hanya perlu meneruskan kedua kerangka data ke instance PandasAI.

pandas_ai([df_karyawan, gaji_df], "Karyawan mana yang memiliki gaji terbesar?")

Itu kembali Olivia yang sekali lagi merupakan jawaban yang benar.

Melakukan analisis data tidak pernah semudah ini, PandasAI memungkinkan Anda mengobrol dengan data dan menganalisisnya dengan mudah.

Memahami Teknologi Yang Mendukung PandasAI

PandasAI menyederhanakan proses analisis data sehingga menghemat banyak waktu bagi analis data. Tapi itu mengabstraksi apa yang terjadi di latar belakang. Anda perlu membiasakan diri dengan AI generatif sehingga Anda dapat memiliki gambaran umum tentang bagaimana PandasAI beroperasi di bawah tenda. Ini juga akan membantu Anda mengikuti inovasi terbaru dalam domain AI generatif.