Kembangkan dan bandingkan algoritme pembelajaran penguatan menggunakan perangkat ini.

Jika Anda tidak dapat membuat model pembelajaran mesin dari awal atau tidak memiliki infrastruktur, hanya dengan menghubungkan aplikasi Anda ke model kerja akan memperbaiki kesenjangan tersebut.

Kecerdasan buatan ada di sini untuk digunakan semua orang dengan satu atau lain cara. Adapun OpenAI Gym, ada banyak tempat pelatihan yang bisa dijelajahi untuk memberi makan agen pembelajaran penguatan Anda.

Apa itu OpenAI Gym, bagaimana cara kerjanya, dan apa yang dapat Anda buat dengan menggunakannya?

Apa itu OpenAI Gym?

OpenAI Gym adalah API Pythonic yang menyediakan lingkungan pelatihan simulasi untuk agen pembelajaran penguatan untuk bertindak berdasarkan pengamatan lingkungan; setiap tindakan disertai dengan hadiah positif atau negatif, yang bertambah pada setiap langkah waktu. Sementara agen bertujuan untuk memaksimalkan hadiah, ia akan dihukum untuk setiap keputusan yang tidak terduga.

Langkah waktu adalah tanda waktu diskrit bagi lingkungan untuk berpindah ke keadaan lain. Itu bertambah saat tindakan agen mengubah keadaan lingkungan.

instagram viewer

Bagaimana Cara Kerja OpenAI Gym?

Lingkungan OpenAI Gym didasarkan pada Proses Keputusan Markov (MDP), model pengambilan keputusan dinamis yang digunakan dalam pembelajaran penguatan. Dengan demikian, hadiah hanya datang ketika keadaan lingkungan berubah. Dan peristiwa di negara bagian berikutnya hanya bergantung pada keadaan saat ini, karena MDP tidak memperhitungkan peristiwa masa lalu.

Sebelum melanjutkan, mari selami contoh untuk pemahaman cepat tentang aplikasi OpenAI Gym dalam pembelajaran penguatan.

Dengan asumsi Anda berniat melatih mobil dalam game balapan, Anda dapat memutar trek balap di OpenAI Gym. Dalam pembelajaran penguatan, jika kendaraan berbelok ke kanan dan bukan ke kiri, mungkin mendapat hadiah negatif -1. Lintasan pacuan kuda berubah pada setiap langkah waktu dan mungkin menjadi lebih rumit di negara bagian berikutnya.

Imbalan atau hukuman negatif tidak buruk bagi agen dalam pembelajaran penguatan. Dalam beberapa kasus, itu mendorongnya untuk mencapai tujuannya lebih cepat. Dengan demikian, mobil belajar tentang lintasan dari waktu ke waktu dan menguasai navigasinya menggunakan garis hadiah.

Misalnya, kami memprakarsai FrozenLake-v1 lingkungan, di mana seorang agen dihukum karena jatuh ke dalam lubang es tetapi diberi imbalan karena menemukan kotak hadiah.

Lari pertama kami menghasilkan lebih sedikit penalti tanpa hadiah:

Namun, iterasi ketiga menghasilkan lingkungan yang lebih kompleks. Tetapi agen tersebut mendapat beberapa hadiah:

Hasil di atas tidak menyiratkan bahwa agen akan meningkat di iterasi berikutnya. Meskipun mungkin berhasil menghindari lebih banyak lubang di lain waktu, ia mungkin tidak mendapatkan hadiah. Tetapi memodifikasi beberapa parameter dapat meningkatkan kecepatan pembelajarannya.

Komponen Gym OpenAI

API OpenAI Gym berputar di sekitar komponen berikut:

  • Itu lingkungan tempat Anda melatih agen. Anda dapat memulainya menggunakan gym.make metode. OpenAI Gym juga mendukung lingkungan multi-agen.
  • Itu pembungkus untuk memodifikasi lingkungan yang ada. Meskipun setiap lingkungan dasar telah dibungkus sebelumnya secara default, Anda dapat mengubah skalanya dengan parameter seperti max_actions, min_actions, dan max rewards.
  • Sebuah tindakan; mendefinisikan apa yang agen lakukan ketika mengamati perubahan di lingkungannya. Setiap tindakan dalam lingkungan adalah langkah yang menentukan respons agen terhadap pengamatan. Penyelesaian langkah mengembalikan pengamatan, hadiah, info, dan nilai potong atau hentikan.
  • Itu pengamatan; mendefinisikan pengalaman agen dalam suatu lingkungan. Begitu ada pengamatan, tindakan mengikuti dengan infonya. Parameter info adalah log eksekusi yang berguna untuk debugging. Setelah langkah berakhir, lingkungan akan disetel ulang sebanyak n kali, bergantung pada jumlah iterasi yang ditentukan.

Apa Yang Dapat Anda Buat Dengan OpenAI Gym?

Karena OpenAI Gym memungkinkan Anda untuk membuat lingkungan belajar khusus, berikut adalah beberapa cara untuk menggunakannya dalam skenario kehidupan nyata.

1. Simulasi Permainan

Anda dapat memanfaatkan lingkungan game OpenAI Gym untuk menghargai perilaku yang diinginkan, membuat hadiah game, dan meningkatkan kompleksitas per level game.

2. Pengenalan Gambar

Di mana ada keterbatasan data, sumber daya, dan waktu, OpenAI Gym dapat berguna untuk mengembangkan sistem pengenalan gambar. Pada tingkat yang lebih dalam, Anda dapat menskalakannya untuk membangun sistem pengenalan wajah, yang memberi penghargaan kepada agen karena mengidentifikasi wajah dengan benar.

3. Pelatihan Robot

OpenAI Gym juga menawarkan model lingkungan yang intuitif untuk simulasi 3D dan 2D, di mana Anda dapat menerapkan perilaku yang diinginkan ke dalam robot. Roboschool adalah contoh perangkat lunak simulasi robot berskala yang dibangun menggunakan OpenAI Gym.

4. Pemasaran

Anda juga dapat membangun solusi pemasaran seperti server iklan, bot perdagangan saham, bot prediksi penjualan, sistem rekomendasi produk, dan banyak lagi menggunakan OpenAI Gym. Misalnya, Anda dapat membuat model OpenAI Gym khusus yang menghukum iklan berdasarkan tayangan dan rasio klik.

5. Pemrosesan Bahasa Alami

Beberapa cara menerapkan OpenAI Gym di pemrosesan bahasa alami adalah pertanyaan pilihan ganda yang melibatkan penyelesaian kalimat atau membangun pengklasifikasi spam. Misalnya, Anda dapat melatih agen untuk mempelajari variasi kalimat guna menghindari bias saat menandai peserta.

Cara Memulai Dengan OpenAI Gym

OpenAI Gym mendukung Python 3.7 dan versi yang lebih baru. Untuk menyiapkan lingkungan OpenAI Gym, Anda akan menginstal ruang olahraga, versi gym bercabang yang terus didukung:

pip instal gimnasium

Selanjutnya, putar lingkungan. Anda dapat membuat lingkungan khusus. Tapi mulailah dengan bermain-main dengan yang sudah ada untuk menguasai konsep OpenAI Gym.

Kode di bawah ini memutar file FrozenLake-v1. Itu env.reset metode mencatat pengamatan awal:

impor ruang olahraga sebagai Gym
env = gym.make('FrozenLake-v1', render_mode="manusia")

pengamatan, info = env.reset()

Beberapa lingkungan membutuhkan perpustakaan tambahan untuk bekerja. Jika Anda perlu menginstal pustaka lain, Python merekomendasikannya melalui pesan pengecualian.

Misalnya, Anda akan memasang pustaka tambahan (gimnasium[teks mainan]) untuk menjalankan FrozenLake-v1 lingkungan.

Bangun Kekuatan OpenAI Gym

Salah satu kemunduran pengembangan AI dan pembelajaran mesin adalah kurangnya infrastruktur dan kumpulan data pelatihan. Namun saat Anda ingin mengintegrasikan model pembelajaran mesin ke dalam aplikasi atau perangkat Anda, kini semua menjadi lebih mudah dengan model AI siap pakai yang beredar di internet. Sementara beberapa alat ini berbiaya rendah, yang lain, termasuk OpenAI Gym, gratis dan bersumber terbuka.