Anda mungkin pernah mendengar tentang GPT OpenAI, tetapi itu bukan satu-satunya LLM yang ada di blok tersebut.
Poin Penting
- GPT-4 OpenAI adalah model bahasa besar yang paling canggih dan banyak digunakan, dengan 1,76 triliun parameter dan kemampuan multimodal.
- Claude 2 dari Anthropic bersaing dengan GPT-4 dalam tugas menulis kreatif dan bertahan meskipun memiliki sumber daya yang lebih sedikit.
- PaLM 2 Google, meskipun bukan pembunuh GPT-4, adalah model bahasa canggih dengan kemampuan multibahasa dan kreatif yang kuat. Falcon-180B adalah model sumber terbuka yang menyaingi raksasa komersial dan mampu bersaing dengan GPT-3.5.
Saatnya musim AI, dan perusahaan teknologi memproduksi model bahasa besar seperti roti dari toko roti. Model-model baru dirilis dengan cepat, dan menjadi terlalu sulit untuk dilacak.
Namun di tengah banyaknya rilis baru, hanya sedikit model yang berhasil mencapai puncak dan membuktikan dirinya sebagai pesaing sejati dalam ruang model bahasa yang luas. Menjelang akhir tahun 2023, kami telah mengumpulkan enam model bahasa besar paling mengesankan yang harus Anda coba.
1. GPT-4 OpenAI
GPT-4 adalah model bahasa besar tercanggih yang tersedia untuk umum hingga saat ini. Dikembangkan oleh OpenAI dan dirilis pada Maret 2023, GPT-4 adalah iterasi terbaru dalam seri Transformer Pra-terlatih Generatif yang dimulai pada tahun 2018. Dengan kemampuannya yang luar biasa, GPT-4 telah menjadi salah satu model bahasa besar yang paling banyak digunakan dan populer di dunia.
Meskipun belum dikonfirmasi secara resmi, sumber memperkirakan GPT-4 mungkin berisi 1,76 triliun parameter, sekitar sepuluh kali lebih besar dari pendahulunya, GPT-3.5, dan lima kali lebih besar dari andalan Google, PaLM 2. Skala besar ini memungkinkan kemampuan multimodal GPT-4, memungkinkannya memproses teks dan gambar sebagai masukan. Hasilnya, GPT-4 dapat menafsirkan dan mendeskripsikan informasi visual seperti diagram dan tangkapan layar selain teks. Sifat multimodalnya memberikan pemahaman yang lebih mirip manusia terhadap data dunia nyata.
Dalam tolok ukur ilmiah, GPT-4 secara signifikan mengungguli model kontemporer lainnya dalam berbagai pengujian. Meskipun tolok ukur saja tidak sepenuhnya menunjukkan keunggulan model, kasus penggunaan di dunia nyata telah menunjukkan bahwa GPT-4 sangat mahir dalam memecahkan masalah praktis secara intuitif. GPT-4 saat ini ditagih sebesar $20 per bulan dan dapat diakses melalui paket Plus ChatGPT.
2. Claude Antropis 2
Meskipun tidak sepopuler GPT-4, Claude 2, yang dikembangkan oleh Anthropic AI, dapat menandingi tolok ukur teknis GPT -4 dan performa dunia nyata di beberapa area. Dalam beberapa tes standar, termasuk ujian pilihan, Claude 2 mengungguli GPT-4. Model bahasa AI juga memiliki jendela konteks yang jauh lebih unggul yaitu sekitar 100.000 token, dibandingkan dengan model token GPT -4 yang berukuran 8k dan 32k. Meskipun panjang konteks yang lebih besar tidak selalu menghasilkan kinerja yang lebih baik, kapasitas Claude 2 yang diperluas memberikan keuntungan yang jelas, seperti mencerna seluruh buku berisi 75.000 kata untuk dianalisis.
Secara keseluruhan kinerja, GPT-4 tetap unggul, namun pengujian internal kami menunjukkan Claude 2 melampauinya dalam beberapa tugas menulis kreatif. Claude 2 juga tertinggal dari GPT-4 dalam keterampilan pemrograman dan matematika berdasarkan evaluasi kami, namun unggul dalam memberikan jawaban kreatif yang mirip manusia. Ketika kami meminta semua model dalam daftar ini untuk menulis atau menulis ulang sebuah karya kreatif, enam dari sepuluh, kami memilih hasil Claude 2 karena hasilnya terdengar alami seperti manusia. Saat ini, Claude 2 tersedia gratis melalui chatbot Claude AI. Ada juga paket berbayar $20 untuk akses ke fitur tambahan.
Meskipun memiliki dukungan finansial yang lebih sedikit dibandingkan raksasa seperti OpenAI dan Microsoft, model AI Claude 2 dari Anthropic mampu bertahan dibandingkan model GPT yang populer dan seri PaLM Google. Untuk AI dengan sumber daya lebih sedikit, Claude 2 sangat kompetitif. Jika dipaksa untuk bertaruh pada model mana yang memiliki peluang terbaik untuk menyaingi GPT dalam waktu dekat, Claude 2 tampaknya merupakan taruhan paling aman. Meskipun kalah dalam pendanaan, kemampuan canggih Claude 2 menunjukkan bahwa ia dapat bersaing secara seimbang raksasa yang memiliki pendanaan besar (walaupun perlu dicatat bahwa Google telah memberikan beberapa kontribusi besar kepada perusahaan tersebut Antropis). Model ini melampaui kelas bobotnya dan menunjukkan potensi sebagai penantang baru.
3. GPT-3.5 OpenAI
Meskipun dibayangi oleh rilis GPT-4, GPT-3.5 dan 175 miliar parameternya tidak boleh dianggap remeh. Melalui penyempurnaan dan peningkatan berulang yang berfokus pada performa, akurasi, dan keselamatan, GPT-3.5 telah berkembang pesat dibandingkan model GPT-3 asli. Meskipun tidak memiliki kemampuan multimodal GPT -4 dan tertinggal dalam panjang konteks dan jumlah parameter, GPT-3.5 tetap berkemampuan tinggi, dan GPT-4 menjadi satu-satunya model yang mampu mengungguli performa menyeluruhnya secara meyakinkan.
Meskipun merupakan model lapis kedua dalam keluarga GPT, GPT-3.5 mampu bertahan dan bahkan mengungguli model andalan Google dan Meta dalam beberapa tolok ukur. Dalam pengujian keterampilan matematika dan pemrograman secara berdampingan terhadap PaLM 2 Google, perbedaannya tidak terlalu mencolok, bahkan GPT-3.5 memiliki sedikit keunggulan dalam beberapa kasus. Tugas yang lebih kreatif seperti humor dan penulisan narasi menjadikan GPT-3.5 maju pesat.
Jadi, meskipun GPT-4 menandai tonggak sejarah baru dalam AI, GPT-3.5 tetap menjadi model yang sangat kuat, mampu bersaing dan terkadang melampaui alternatif paling canggih sekalipun. Penyempurnaannya yang berkelanjutan memastikannya tetap relevan bahkan disandingkan dengan model generasi berikutnya yang lebih mencolok.
4. PaLM 2 Google
Saat mengevaluasi kemampuan model AI, rumus yang terbukti adalah membaca laporan teknis dan periksa skor benchmark, tetapi ambil semua yang Anda pelajari dengan hati-hati dan uji modelnya dirimu sendiri. Meskipun terlihat berlawanan dengan intuisi, hasil benchmark tidak selalu sejalan dengan performa sebenarnya untuk beberapa model AI. Di atas kertas, PaLM 2 Google seharusnya menjadi pembunuh GPT-4, dan hasil pengujian resmi menunjukkan bahwa PaLM 2 cocok dengan GPT-4 di beberapa tolok ukur. Namun, dalam penggunaan sehari-hari, gambaran berbeda muncul.
Dalam penalaran logis, matematika, dan kreativitas, PaLM 2 masih kurang dari GPT-4. Ia juga tertinggal dari Claude Anthropic dalam berbagai tugas menulis kreatif. Namun, meskipun gagal memenuhi kriteria sebagai pembunuh GPT-4, PaLM 2 Google tetap menjadi model bahasa yang kuat dengan sendirinya, dengan kemampuan luar biasa. Sebagian besar sentimen negatif seputar model ini berasal dari perbandingan dengan model seperti GPT-4, bukan karena kinerjanya yang buruk.
Dengan 340 miliar parameter, PaLM 2 merupakan salah satu model terbesar di dunia. Ia sangat unggul dalam tugas-tugas multibahasa dan memiliki kemampuan matematika dan pemrograman yang kuat. Meski bukan yang terbaik, PaLM 2 juga cukup efisien dalam tugas-tugas kreatif seperti menulis. Jadi, meskipun benchmark memberikan gambaran optimistis yang tidak sepenuhnya terwujud, PaLM 2 masih menunjukkan kemampuan AI yang mengesankan, meskipun tidak mengungguli semua pesaing secara keseluruhan.
5. Falcon-180B TII
Kecuali Anda mengikuti pesatnya rilis model bahasa AI, Anda mungkin belum pernah menemukan Falcon-180B. Dikembangkan oleh Institut Inovasi Teknologi UEA, Falcon-180 dengan parameter 180 miliar adalah salah satu yang paling kuat model bahasa sumber terbuka di luar sana, meskipun model tersebut tidak memiliki pengenalan nama model GPT atau penggunaan Meta yang luas Lama 2. Namun jangan salah – Falcon-180B mampu bersaing dengan yang terbaik di kelasnya.
Hasil benchmark menunjukkan bahwa Falcon-180B mengungguli sebagian besar model sumber terbuka dan bersaing dengan raksasa komersial seperti PaLM 2 dan GPT-3.5. Dalam pengujian tugas-tugas matematika, coding, penalaran, dan menulis kreatif, ia bahkan mengungguli GPT-3.5 dan PaLM 2 di waktu. Jika memberi peringkat pada GPT-4, GPT-3.5, dan Falcon-180B, kami akan menempatkan Falcon-180B tepat di antara GPT-4 dan GPT-3.5 karena kekuatannya dalam beberapa kasus penggunaan.
Meskipun kami tidak dapat dengan yakin mengatakan bahwa ini lebih baik daripada GPT-3.5 dalam hal kinerja secara keseluruhan, hal ini dapat dibuktikan. Meskipun tidak jelas, model ini patut mendapat perhatian karena mampu menyamai atau melampaui kemampuan alternatif yang lebih dikenal. Anda dapat mencoba model Falcon-180B Memeluk Wajah (platform LLM sumber terbuka).
Llama 2, model bahasa besar 70 miliar parameter Meta AI, dibangun di atas pendahulunya, Llama 1. Meskipun lebih kecil dari model terkemuka, Llama 2 secara signifikan mengungguli sebagian besar LLM sumber terbuka yang tersedia untuk umum dalam tolok ukur dan penggunaan di dunia nyata. Pengecualian adalah Falcon-180B.
Kami menguji Llama 2 terhadap GPT-4, GPT-3.5, Claude 2, dan PaLM 2 untuk mengukur kemampuannya. Tidak mengherankan, GPT-4 mengungguli Llama 2 di hampir semua parameter. Namun, Llama 2 bertahan melawan GPT-3.5 dan PaLM 2 dalam beberapa evaluasi. Meskipun tidak akurat untuk mengklaim Llama 2 lebih unggul dari PaLM 2, Llama 2 memecahkan banyak masalah yang membuat PaLM 2 bingung, termasuk tugas pengkodean. Claude 2 dan GPT-3.5 mengungguli Llama 2 di beberapa area tetapi hanya lebih baik dalam sejumlah tugas terbatas.
Jadi, meski tidak melebihi kemampuan model kepemilikan terbesar, Llama 2 sumber terbuka memiliki keunggulan di atas kelas bobotnya. Untuk model yang tersedia secara terbuka, model ini menunjukkan kinerja yang mengesankan, menyaingi raksasa AI seperti PaLM 2 dalam evaluasi tertentu. Llama 2 memberikan gambaran sekilas tentang potensi masa depan model bahasa sumber terbuka.
Kesenjangan Kinerja Antar Model AI Semakin Menyempit
Meskipun lanskap AI berkembang dengan sangat cepat, GPT-4 OpenAI tetap menjadi yang terdepan. Namun, meskipun GPT-4 tetap tak tertandingi dalam skala dan performa, model seperti Claude 2 menunjukkan bahwa dengan keterampilan yang memadai, model yang lebih kecil dapat bersaing di area tertentu. PaLM 2 Google, meskipun tidak memenuhi ekspektasi tinggi, masih menunjukkan kemampuan yang luar biasa. Dan Falcon-180B membuktikan bahwa inisiatif sumber terbuka dapat bahu-membahu dengan raksasa industri jika diberi sumber daya yang memadai.