Aset data besar berantakan, terutama ketika Anda harus menariknya dari situs web, server, atau sumber data lainnya.

Aplikasi berbasis UI seperti MS Excel bagus untuk menangani kumpulan data sederhana, tetapi dapat mengalami kesulitan saat data bertambah besar. Ini adalah alasan bagus bagi Anda untuk pindah ke Python untuk melakukan operasi berbasis data yang lebih kompleks.

Pustaka pihak ketiga Python, Pandas, sangat membantu Anda mengurutkan kumpulan data yang ada dengan cepat. Jika Anda ingin mengurutkan data Anda dengan Python, artikel ini membahas beberapa cara untuk mencapai tugas ini.

Prasyarat untuk Menggunakan Python untuk Mengurutkan Data

Sebelum menyortir data Anda dengan Python, Anda perlu mengurus beberapa prasyarat:

  • Unduh IDE Python. Anda dapat menggunakan IDE yang kompatibel dengan Python, seperti Jupyter Notebook, PyCharm, dan Spyder, antara lain. Masing-masing kompatibel dengan semua versi Python.
  • Instal panda. Anda akan membutuhkan paket panda yang Anda bisa instal menggunakan PIP atau metode pilihan Anda.
  • instagram viewer
  • Contoh kumpulan data. Unduh sebuah contoh kumpulan data untuk mempraktekkan kode yang terdaftar. Atau, Anda dapat menggunakan prosedur ini pada data eksklusif Anda.

Mengimpor Perpustakaan Pandas dengan Python

Pandas adalah library Python pihak ketiga yang dapat Anda gunakan untuk menangani Excel, CSV, dan format data lainnya.

Untuk bekerja dengan contoh file Excel, mulailah dengan mengimpor perpustakaan pandas. Setelah itu, Anda akan menggunakan prosedur impor untuk membaca data Excel ke Python.

Untuk Mengimpor Perpustakaan

impor panda sebagai pd

Buat DataFrame Baru untuk Memuat Data Excel

berkas = "Contoh - Superstore.xls"
df = pd.read_excel (berkas)
df.kepala()

Di mana:

  • df adalah objek DataFrame yang menyimpan data yang diimpor.
  • pd adalah alias untuk perpustakaan Pandas.
  • baca_excel adalah metode untuk membaca file Excel ke Python.
  • mengajukan adalah jalur ke file Excel.
  • kepala adalah metode yang mengembalikan lima baris pertama dari DataFrame.

Setelah program Anda memuat data, Anda dapat menggunakan banyak metode DataFrame yang tersedia untuk mengurutkannya dengan berbagai cara.

1. Mengurutkan berdasarkan Satu Kolom dalam DataFrame

Karena data Anda akan memiliki banyak baris dan kolom, Anda akan sering ingin mengurutkan data berdasarkan kolom atau kolom tertentu.

Python mengurutkan data dalam urutan menaik secara default. Jika Anda ingin mengubah urutan pengurutan, Anda harus menyebutkannya secara eksplisit dalam kode Anda.

Urutkan Berdasarkan Satu Kolom (Urutan Ascending)

df.sort_values ​​(oleh = "ID Pelanggan")

Urutkan Berdasarkan Satu Kolom (Urutan Menurun)

Mengatur naik parameter ke PALSU untuk mengurutkan kolom Anda dalam urutan menurun.

df.sort_values ​​(oleh = "ID Pelanggan", naik=Salah)

Di mana:

  • df adalah objek DataFrame yang berisi data.
  • sort_values adalah metode untuk mengurutkan berdasarkan nilai data.
  • oleh adalah parameter untuk menentukan nama kolom.
  • naik adalah parameter untuk menentukan urutan pengurutan.

2. Menyortir Beberapa Kolom dalam DataFrame

Jika persyaratan Anda membutuhkannya, Anda juga dapat mengurutkan DataFrame Anda berdasarkan beberapa kolom sekaligus. Dalam skenario seperti itu, Anda harus menentukan referensi kolom dalam daftar.

Urutkan berdasarkan Beberapa Kolom Ascending

df.sort_values ​​(oleh = ["ID Pelanggan", "Kota"])

Urutkan berdasarkan Beberapa Kolom Descending

Gunakan fungsi naik = Salah untuk mengurutkan kolom Anda dalam urutan menurun. Ingat, Anda perlu menentukan nama kolom dalam daftar untuk mengurutkannya secara bersamaan.

df.sort_values ​​(oleh = ["ID Pelanggan", "Kota"], naik = Salah)

Mengurutkan berdasarkan Beberapa Kolom dalam Urutan Pengurutan yang Berbeda

Dengan dasar-dasar penyortiran, apa yang terjadi ketika Anda ingin mengurutkan satu kolom dalam urutan menurun dan kolom lainnya dalam urutan menaik? Anda perlu sedikit mengubah kode Anda untuk memasukkan persyaratan ini.

Misalnya, untuk mengurutkan Wilayah dan Kota kolom dalam urutan menurun dan menaik, masing-masing:

df.sort_values ​​(oleh = ["Wilayah", "Kota"], naik = [Salah, Benar])

Penjelasan dari kode ini sederhana; anda menentukan nama DataFrame dan meneruskan sort_values fungsi bersama dengan nama kolom dalam daftar. Kamu harus menggunakan Boolean nilai untuk menentukan urutan pengurutan.

Memanggil fungsi seperti ini berarti Python akan mengurutkan berdasarkan kolom Wilayah DataFrame dalam urutan menurun, terlebih dahulu. Kemudian, baris dengan Wilayah yang identik akan diurutkan lebih lanjut berdasarkan kolom Kota, dalam urutan menaik.

3. Cara Mengurutkan Kolom dalam DataFrame berdasarkan Indeks

Variabel indeks adalah nilai default yang ditetapkan untuk setiap baris dalam Python Dataframe. Anda dapat menentukan nilai indeks atau membiarkan Python menetapkan nilai indeks sendiri.

Untuk mengurutkan data berdasarkan nilai indeksnya, Anda dapat menggunakan sort_index fungsi. Fungsi ini mengurutkan berdasarkan indeks daripada nilai apa pun yang terkandung dalam kumpulan data asli.

df.sort_index()

Seperti sort_values, Anda dapat melewatkan sebuah naik parameter untuk menentukan arah pengurutan. Misalnya, berikan nilai PALSU untuk mengurutkan data dalam urutan menurun:

df.sort_index (naik = PALSU)

4. Menyortir Kolom dalam DataFrame Alih-alih Baris

Alih-alih mengurutkan baris dalam DataFrame, Anda dapat mengurutkan kolomnya. Anda dapat melakukannya dengan memanggil metode sort_index dan meneruskannya sumbu parameter dengan nilai 1:

df.sort_index (sumbu=1)

Langkah ini mengurutkan DataFrame, berdasarkan kolomnya, dalam urutan menaik. Untuk mengurutkan kolom DataFrame dalam urutan menurun, Anda dapat menentukan urutan pengurutan dalam langkah pengurutan Anda.

df.sort_index (sumbu=1, naik = PALSU)

5. Memodifikasi DataFrame Saat Menyortirnya

Dua metode pengurutan bekerja dengan mengembalikan salinan data asli, dalam statusnya yang baru diurutkan. Untuk menghemat ruang penyimpanan, atau hanya untuk menulis kode yang lebih ringkas, Anda dapat memodifikasi data DataFrame asli. Setiap metode menerima di tempat parameter boolean yang memodifikasi data daripada mengembalikan salinan yang dimodifikasi.

df.sort_values ​​(oleh = ["ID Pelanggan", "Kota"], naik = Salah, di tempat = Benar)

Belajar Mengurutkan Data dengan Python

Python mereplikasi banyak fungsi bawaan Excel dengan beberapa baris kode. Dari prosedur pengurutan hingga membuat tabel Pivot yang rumit pada data Anda, sebutkan saja, dan Anda bisa melakukannya dengan Python.

Jika Anda masih baru mengenal Python dan mempelajari seluk beluknya, langkah-langkah ini akan meningkatkan keterampilan pengkodean Anda dengan relatif mudah.