Pustaka panda membuat ilmu data berbasis python menjadi perjalanan yang mudah. Ini adalah pustaka Python yang populer untuk membaca, menggabungkan, menyortir, membersihkan data, dan banyak lagi. Meskipun panda mudah digunakan dan diterapkan pada kumpulan data, panda memiliki banyak fungsi manipulasi data untuk dipelajari.

Anda mungkin menggunakan panda, tetapi ada kemungkinan Anda kurang menggunakannya untuk menyelesaikan masalah terkait data. Inilah daftar fungsi panda yang memanipulasi data berharga yang harus diketahui oleh setiap ilmuwan data.

Instal panda Ke Lingkungan Virtual Anda

Sebelum melanjutkan, pastikan Anda menginstal panda ke lingkungan virtual Anda menggunakan pip:

pip install panda

Setelah menginstalnya, impor panda di bagian atas skrip Anda, dan mari kita lanjutkan.

1. panda. Bingkai Data

Kau gunakan panda. Bingkai Data() untuk membuat DataFrame di pandas. Ada dua cara untuk menggunakan fungsi ini.

Anda dapat membentuk kolom DataFrame dengan meneruskan kamus ke dalam panda. Bingkai Data() fungsi. Di sini, setiap kunci adalah kolom, sedangkan nilainya adalah baris:

impor panda
DataFrame = panda. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
cetak (DataFrame)

Metode lainnya adalah membentuk DataFrame melintasi baris. Namun di sini, Anda akan memisahkan nilai (item baris) dari kolom. Jumlah data dalam setiap daftar (data baris) juga harus sesuai dengan jumlah kolom.

impor panda
DataFrame = panda. DataFrame([[1, 4, 5], [7, 19, 13]], kolom= ["J", "K", "L"])
cetak (DataFrame)

2. Baca Dari dan Tulis ke Excel atau CSV dalam panda

Anda dapat membaca atau menulis ke file Excel atau CSV dengan panda.

Membaca file Excel atau CSV

Untuk membaca file Excel:

#Ganti example.xlsx dengan jalur file Excel Anda
DataFrame = DataFrame.read_excel("contoh.xlsx")

Berikut cara membaca file CSV:

#Ganti example.csv dengan jalur file CSV Anda
DataFrame = DataFrame.read_csv("contoh.csv")

Menulis ke Excel atau CSV

Menulis ke Excel atau CSV adalah operasi panda yang terkenal. Dan ini berguna untuk menyimpan tabel yang baru dihitung ke dalam lembar data terpisah.

Untuk menulis ke lembar Excel:

DataFrame.to_excel("full_path_of_the_destination_folder/nama file.xlsx")

Jika Anda ingin menulis ke CSV:

DataFrame.to_csv("full_path_of_the_destination_folder/nama file.csv")

Anda juga dapat menghitung tendensi sentral dari setiap kolom dalam DataFrame menggunakan pandas.

Berikut cara mendapatkan nilai rata-rata setiap kolom:

DataFrame.mean()

Untuk nilai median atau modus, ganti berarti() dengan median() atau mode().

4. DataFrame.transform

panda' DataFrame.transform() memodifikasi nilai dari DataFrame. Ia menerima fungsi sebagai argumen.

Misalnya, kode di bawah ini mengalikan setiap nilai dalam DataFrame dengan tiga menggunakan Fungsi lambda Python:

DataFrame = DataFrame.transform (lambda y: y*3)
cetak (DataFrame)

5. DataFrame.isnull

Fungsi ini mengembalikan nilai Boolean dan menandai semua baris yang berisi nilai nol sebagai benar:

DataFrame.isnull()

Hasil dari kode di atas mungkin sulit dibaca untuk kumpulan data yang lebih besar. Jadi Anda bisa menggunakan isnull().jumlah() fungsi sebagai gantinya. Ini mengembalikan ringkasan semua nilai yang hilang untuk setiap kolom:

DataFrame.isnull().sum()

6. Dataframe.info

Itu info() fungsi adalah operasi panda penting. Ini mengembalikan ringkasan nilai yang tidak hilang untuk setiap kolom sebagai gantinya:

DataFrame.info()

7. DataFrame.describe

Itu menggambarkan() function memberi Anda ringkasan statistik DataFrame:

DataFrame.describe()

8. DataFrame.ganti

Menggunakan DataFrame.ganti() metode di panda, Anda dapat mengganti baris yang dipilih dengan nilai lain.

Misalnya, untuk menukar baris yang tidak valid dengan nan:

# Pastikan Anda memasang pip numpy agar ini berfungsi
impor numpy
impor panda
# Menambahkan kata kunci inplace dan menyetelnya ke True membuat perubahan permanen:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
cetak (DataFrame)

9. DataFrame.fillna

Fungsi ini memungkinkan Anda mengisi baris kosong dengan nilai tertentu. Anda dapat mengisi semua nan baris dalam kumpulan data dengan nilai rata-rata, misalnya:

DataFrame.fillna (df.mean(), inplace = True)
cetak (DataFrame)

Anda juga bisa spesifik kolom:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
cetak (DataFrame)

10. DataFrame.dropna

Itu jatuhkan() metode menghapus semua baris yang berisi nilai nol:

DataFrame.dropna (di tempat = Benar)
cetak (DataFrame)

11. DataFrame.insert

Anda dapat menggunakan panda menyisipkan() fungsi untuk menambahkan kolom baru ke DataFrame. Ia menerima tiga kata kunci, the nama kolom, daftar datanya, dan lokasi, yang merupakan indeks kolom.

Berikut cara kerjanya:

DataFrame.insert (kolom = 'C', nilai = [3, 4, 6, 7], loc=0)
cetak (DataFrame)

Kode di atas menyisipkan kolom baru pada indeks kolom nol (menjadi kolom pertama).

12. DataFrame.loc

Kamu dapat memakai lokasi untuk menemukan elemen dalam indeks tertentu. Untuk melihat semua item di baris ketiga, misalnya:

DataFrame.loc[2]

13. DataFrame.pop

Fungsi ini memungkinkan Anda menghapus kolom tertentu dari pandas DataFrame.

Ia menerima barang kata kunci, mengembalikan kolom yang muncul, dan memisahkannya dari DataFrame lainnya:

DataFrame.pop (item= 'column_name')
cetak (DataFrame)

14. DataFrame.max, min

Mendapatkan nilai maksimum dan minimum menggunakan panda itu mudah:

DataFrame.min()

Kode di atas mengembalikan nilai minimum untuk setiap kolom. Untuk mendapatkan hasil yang maksimal, ganti min dengan maksimal.

15. DataFrame.join

Itu Ikuti() fungsi panda memungkinkan Anda menggabungkan DataFrames dengan nama kolom yang berbeda. Anda dapat menggunakan gabungan kiri, kanan, dalam, atau luar. Untuk bergabung ke kiri dengan DataFrame dengan dua lainnya:

#Left-gabungkan kolom yang lebih panjang dengan yang lebih pendek
newDataFrame = df1.join([df_shorter2, df_shorter3], how='kiri')
cetak (newDataFrame)

Untuk menggabungkan DataFrames dengan nama kolom yang mirip, Anda dapat membedakannya dengan memasukkan sufiks ke kiri atau kanan. Lakukan ini dengan menyertakan akhiran atau akhiran kata kunci:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
cetak (newDataFrame)

16. DataFrame.combine

Itu menggabungkan() function berguna untuk menggabungkan dua DataFrames yang berisi nama kolom serupa berdasarkan kriteria yang ditetapkan. Ia menerima fungsi kata kunci.

Misalnya, untuk menggabungkan dua DataFrame dengan nama kolom yang mirip hanya berdasarkan nilai maksimum:

newDataFrame = df.combine (df2, numpy.minimum)
cetak (newDataFrame)

Catatan: Anda juga dapat menentukan fungsi pemilihan khusus dan menyisipkan numpy.minimum.

17. DataFrame.astype

Itu tipe() fungsi mengubah tipe data kolom atau DataFrame tertentu.

Untuk mengubah semua nilai dalam DataFrame menjadi string, misalnya:

DataFrame.astype (str)

18. DataFrame.sum

Itu jumlah() function di pandas mengembalikan jumlah nilai di setiap kolom:

DataFrame.sum()

Anda juga dapat menemukan jumlah kumulatif semua item menggunakan cumsum():

DataFrame.cumsum()

19. DataFrame.drop

panda' menjatuhkan() fungsi menghapus baris atau kolom tertentu dalam DataFrame. Anda harus menyediakan nama kolom atau indeks baris dan sumbu untuk menggunakannya.

Untuk menghapus kolom tertentu, misalnya:

df.drop (columns=['colum1', 'column2'], axis=0)

Untuk menjatuhkan baris pada indeks 1, 3, dan 4, misalnya:

df.drop([1, 3, 4], sumbu=0)

20. DataFrame.corr

Ingin mencari korelasi antara kolom integer atau float? panda dapat membantu Anda mencapainya menggunakan kor() fungsi:

DataFrame.corr()

Kode di atas mengembalikan DataFrame baru yang berisi urutan korelasi antara semua kolom integer atau float.

21. DataFrame.tambahkan

Itu menambahkan() fungsi memungkinkan Anda menambahkan nomor tertentu ke setiap nilai di DataFrame. Ia bekerja dengan iterasi melalui DataFrame dan beroperasi pada setiap item.

Terkait:Cara Menggunakan For Loop dengan Python

Untuk menambahkan 20 ke masing-masing nilai dalam kolom tertentu yang berisi bilangan bulat atau float, misalnya:

DataFrame['interger_column'].tambahkan (20)

22. DataFrame.sub

Seperti fungsi penambahan, Anda juga dapat mengurangi angka dari setiap nilai dalam DataFrame atau kolom tertentu:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Ini adalah versi perkalian dari fungsi penambahan panda:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Demikian pula, Anda dapat membagi setiap titik data dalam kolom atau DataFrame dengan nomor tertentu:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Menggunakan std() fungsi, pandas juga memungkinkan Anda menghitung simpangan baku untuk setiap kolom dalam DataFrame. Ini bekerja dengan mengulangi setiap kolom dalam kumpulan data dan menghitung standar deviasi untuk masing-masing:

DataFrame.std()

26. DataFrame.sort_values

Anda juga dapat mengurutkan nilai secara menaik atau menurun berdasarkan kolom tertentu. Untuk mengurutkan DataFrame dalam urutan menurun, misalnya:

newDataFrame = DataFrame.sort_values ​​(oleh = "colmun_name", descending = True)

27. DataFrame.melt

Itu meleleh() function di pandas membalik kolom dalam DataFrame ke baris individual. Ini seperti mengekspos anatomi DataFrame. Jadi ini memungkinkan Anda melihat nilai yang ditetapkan untuk setiap kolom secara eksplisit.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Fungsi ini mengembalikan jumlah total item di setiap kolom:

DataFrame.hitung()

29. DataFrame.query

panda' pertanyaan() memungkinkan Anda memanggil item menggunakan nomor indeksnya. Untuk mendapatkan item di baris ketiga, misalnya:

DataFrame.query('4') # Panggil kueri pada indeks keempat

30. DataFrame.where

Itu di mana() function adalah kueri panda yang menerima kondisi untuk mendapatkan nilai tertentu dalam kolom. Misalnya, untuk mendapatkan semua usia kurang dari 30 dari Usia kolom:

DataFrame.where (DataFrame['Usia'] < 30)

Kode di atas menghasilkan DataFrame yang berisi semua usia kurang dari 30 tahun tetapi menetapkan nan untuk baris yang tidak memenuhi kondisi.

Tangani Data Seperti Pro Dengan panda

pandas adalah harta karun berupa fungsi dan metode untuk menangani kumpulan data skala kecil hingga besar dengan Python. Pustaka juga berguna untuk membersihkan, memvalidasi, dan menyiapkan data untuk analisis atau pembelajaran mesin.

Meluangkan waktu untuk menguasainya pasti membuat hidup Anda lebih mudah sebagai ilmuwan data, dan itu sepadan dengan usaha. Jadi jangan ragu untuk mengambil semua fungsi yang dapat Anda tangani.

20 Fungsi Python Yang Harus Anda Ketahui

Pustaka Standar Python berisi banyak fungsi untuk membantu tugas pemrograman Anda. Pelajari tentang yang paling berguna dan buat kode yang lebih kuat.

Baca Selanjutnya

MembagikanMenciakSurel
Topik-topik terkait
  • Pemrograman
  • Python
  • Pemrograman
  • basis data
Tentang Penulis
Idowu Omisola (123 Artikel Diterbitkan)

Idowu sangat menyukai teknologi dan produktivitas yang cerdas. Di waktu luangnya, dia bermain-main dengan coding dan beralih ke papan catur ketika dia bosan, tetapi dia juga suka melepaskan diri dari rutinitas sesekali. Semangatnya untuk menunjukkan kepada orang-orang tentang teknologi modern memotivasinya untuk menulis lebih banyak.

More From Idowu Omisola

Berlangganan newsletter kami

Bergabunglah dengan buletin kami untuk kiat teknologi, ulasan, ebook gratis, dan penawaran eksklusif!

Klik di sini untuk berlangganan