PaLM 2 menghadirkan peningkatan besar-besaran ke LLM Google, tetapi apakah itu berarti PaLM 2 sekarang dapat bersaing dengan GPT-4 OpenAI?
Google meluncurkan Pathways Language Model (PaLM 2) generasi berikutnya pada 10 Mei 2023, di Google I/O 2023. Model bahasa besar (LLM) barunya menawarkan banyak peningkatan dibandingkan pendahulunya (PaLM) dan mungkin akhirnya siap untuk menghadapi saingan terbesarnya, GPT-4 OpenAI.
Tapi seberapa banyak peningkatan yang telah dilakukan Google? Apakah PaLM 2 adalah pembuat perbedaan yang diharapkan Google, dan yang lebih penting, dengan begitu banyak kemampuan serupa, apa perbedaan PaLM 2 dengan GPT-4 OpenAI?
Palm 2 vs. GPT-4: Ikhtisar Kinerja
PaLM 2 dikemas dengan kemampuan baru dan lebih baik atas pendahulunya. Salah satu keunggulan unik yang dimiliki PaLM 2 dibandingkan GPT-4 adalah fakta bahwa PaLM 2 tersedia dalam ukuran yang lebih kecil khusus untuk aplikasi tertentu yang tidak memiliki banyak daya pemrosesan onboard.
Semua ukuran yang berbeda ini memiliki model yang lebih kecil yang disebut Gecko, Otter, Bison, dan Unicorn, dengan Gecko menjadi yang terkecil, diikuti oleh Otter, Bison, dan terakhir, Unicorn, model terbesar.
Google juga mengklaim peningkatan dalam kemampuan penalaran dibandingkan GPT-4 di WinoGrande dan DROP, dengan yang pertama menarik margin sempit di ARC-C. Namun, ada peningkatan yang signifikan secara keseluruhan dalam hal PaLM dan SOTA.
PaLM 2 juga lebih baik dalam matematika, menurut halaman 91 Google Makalah penelitian PaLM 2 [PDF]. Namun, cara Google dan OpenAI menyusun hasil pengujian mereka membuat sulit untuk membandingkan kedua model secara langsung. Google juga menghilangkan beberapa perbandingan, kemungkinan karena PaLM 2 tidak bekerja sebaik GPT-4.
Di MMLU, GPT-4 mendapat skor 86,4, sedangkan PaLM 2 mendapat skor 81,2. Hal yang sama berlaku untuk HellaSwag, di mana skor GPT-4 95,3, tetapi PaLM 2 hanya bisa mengumpulkan 86,8, dan ARC-E, di mana GPT-4 dan PaLM 2 mendapat 96,3 dan 89,7, masing-masing.
Model terbesar dalam keluarga PaLM 2 adalah PaLM 2-L. Meskipun kami tidak mengetahui ukuran pastinya, kami tahu bahwa ini jauh lebih kecil daripada model PaLM terbesar tetapi menggunakan lebih banyak komputasi pelatihan. Menurut Google, PaLM memiliki 540 miliar parameter, jadi "yang jauh lebih kecil" seharusnya menempatkan PaLM 2 antara 10 hingga 300 miliar parameter. Perlu diingat bahwa angka-angka ini hanyalah asumsi berdasarkan apa yang dikatakan Google di makalah PaLM 2.
Jika angka ini mendekati 100 miliar atau kurang, PaLM 2 kemungkinan besar lebih kecil dalam hal parameter daripada GPT-3.5. Mempertimbangkan model yang berpotensi di bawah 100 miliar dapat bersaing dengan GPT-4 dan bahkan mengalahkannya di beberapa tugas adalah menakjubkan. GPT-3.5 awalnya meniup semuanya keluar dari air, termasuk PaLM, tetapi PaLM 2 telah cukup pulih.
Perbedaan Data Pelatihan GPT-4 dan PaLM 2
Meskipun Google belum mengungkap ukuran set data pelatihan PaLM 2, perusahaan melaporkan dalam makalah penelitiannya bahwa set data pelatihan LLM baru secara signifikan lebih besar. OpenAI juga mengambil pendekatan yang sama saat meluncurkan GPT-4, tidak membuat klaim tentang ukuran dataset pelatihan.
Namun, Google ingin fokus pada pemahaman yang lebih dalam tentang matematika, logika, penalaran, dan sains, yang berarti sebagian besar data pelatihan PaLM 2 difokuskan pada topik yang disebutkan di atas. Google mengatakan dalam makalahnya bahwa korpus pra-pelatihan PaLM 2 terdiri dari berbagai sumber, termasuk dokumen web, buku, kode, matematika, dan data percakapan, memberikan peningkatan menyeluruh, setidaknya jika dibandingkan dengan Telapak.
Keterampilan percakapan PaLM 2 juga harus berada di level lain mengingat modelnya telah dilatih dalam lebih dari 100 bahasa untuk memberikan pemahaman kontekstual yang lebih baik dan terjemahan yang lebih baik kemampuan.
Sejauh data pelatihan GPT-4 dikonfirmasi, OpenAI telah memberi tahu kami bahwa ia telah melatih model tersebut menggunakan data yang tersedia untuk umum dan data yang dilisensikannya. Halaman penelitian GPT-4 menyatakan, "Data adalah korpus data skala web termasuk solusi yang benar dan salah untuk masalah matematika, lemah dan penalaran yang kuat, pernyataan yang kontradiktif dan konsisten, dan mewakili berbagai macam ideologi dan ide ide."
Saat GPT-4 ditanyai pertanyaan, ini dapat menghasilkan berbagai respons, yang mungkin tidak semuanya relevan dengan kueri Anda. Untuk menyelaraskannya dengan maksud pengguna, OpenAI menyempurnakan perilaku model menggunakan pembelajaran penguatan dengan umpan balik manusia.
Meskipun kami mungkin tidak mengetahui data pelatihan yang tepat dari salah satu model ini yang dilatih, kami tahu bahwa maksud pelatihannya sangat berbeda. Kita harus menunggu dan melihat bagaimana perbedaan maksud pelatihan ini membedakan antara kedua model dalam penerapan di dunia nyata.
Chatbots dan Layanan PaLM 2 dan GPT-4
Portal pertama yang mengakses kedua LLM menggunakan chatbot masing-masing, Bard PaLM 2 dan ChatGPT GPT-4. Yang mengatakan, GPT-4 berada di belakang paywall dengan ChatGPT Plus, dan pengguna gratis hanya mendapatkan akses ke GPT-3.5. Bard, di sisi lain, gratis untuk semua dan tersedia di 180 negara.
Itu tidak berarti Anda juga tidak dapat mengakses GPT-4 secara gratis. Obrolan AI Bing Microsoft menggunakan GPT-4 dan benar-benar gratis, terbuka untuk semua, dan tersedia tepat di sebelah Pencarian Bing, saingan terbesar Google di luar angkasa.
Google I/O 2023 diisi dengan pengumuman tentang bagaimana PaLM 2 dan integrasi AI generatif akan meningkatkan Google Workspace pengalaman dengan fitur AI yang hadir di Google Docs, Sheets, Slides, Gmail, dan hampir semua layanan yang ditawarkan raksasa pencarian. Selain itu, Google telah mengonfirmasi bahwa PaLM 2 telah diintegrasikan ke dalam lebih dari 25 produk Google, termasuk Android dan YouTube.
Sebagai perbandingan, Microsoft telah membawa fitur AI ke rangkaian program Microsoft Office dan banyak layanannya. Saat ini, Anda dapat mengalami kedua LLM dalam versi mereka sendiri dari penawaran serupa dari dua perusahaan saingan yang saling berhadapan dalam pertempuran AI.
Namun, sejak GPT-4 keluar lebih awal dan berhati-hati untuk menghindari banyak kesalahan yang dibuat Google dengan Bard asli, itu menjadi LLM de facto untuk pengembang pihak ketiga, pemula, dan hampir semua orang yang ingin menggabungkan model AI yang mumpuni dalam layanan mereka sehingga jauh. Kita punya sebuah daftar aplikasi GPT-4 jika Anda ingin memeriksanya.
Itu tidak berarti bahwa pengembang tidak akan beralih ke atau setidaknya mencoba PaLM 2, tetapi Google masih harus mengejar ketinggalan dengan OpenAI di bagian depan itu. Dan fakta bahwa PaLM 2 adalah open-source, alih-alih dikunci di belakang API berbayar, berarti PaLM 2 memiliki potensi untuk diadopsi secara lebih luas daripada GPT-4.
Bisakah PaLM 2 Melawan GPT-4?
PaLM 2 masih sangat baru, jadi jawaban apakah bisa mengambil GPT-4 atau tidak masih harus dijawab. Namun, dengan semua yang Google janjikan dan cara agresif yang telah diputuskan untuk digunakan untuk menyebarkannya, sepertinya PaLM 2 dapat membuat GPT-4 mendapatkan uangnya.
Namun, GPT-4 masih merupakan model yang mumpuni dan, seperti yang disebutkan sebelumnya, mengalahkan PaLM 2 dalam beberapa perbandingan. Konon, beberapa model PaLM 2 yang lebih kecil memberikan keunggulan yang tak terbantahkan. Tokek sendiri sangat ringan sehingga bisa bekerja di perangkat seluler, bahkan saat offline. Ini berarti bahwa PaLM 2 dapat mendukung kelas produk dan perangkat yang sama sekali berbeda yang mungkin kesulitan menggunakan GPT-4.
Perlombaan AI Sedang Memanas
Dengan peluncuran PaLM2, perlombaan untuk dominasi AI telah memanas, karena ini mungkin saja lawan pertama yang layak melawan GPT-4. Dengan model AI multimodal baru yang disebut "Gemini" juga dalam pelatihan, Google tidak menunjukkan tanda-tanda melambat di sini.