Pengguna biasanya mengakses model bahasa besar (LLM) melalui penggunaan antarmuka pengguna melalui API. Meskipun memberikan beberapa keuntungan, penggunaan API juga menimbulkan keterbatasan, seperti kebutuhan akan internet yang konstan koneksi, kustomisasi terbatas, kemungkinan masalah keamanan, dan perusahaan membatasi kemampuan model melalui a paywall.

Dengan LLM terkuantisasi kini tersedia di HuggingFace, dan ekosistem AI seperti H20, Text Gen, dan GPT4All memungkinkan Anda untuk memuat bobot LLM di komputer Anda, Anda sekarang memiliki opsi yang gratis, fleksibel, dan aman AI.

Untuk memulai, berikut adalah tujuh LLM lokal/offline terbaik yang dapat Anda gunakan sekarang!

1. Hermes GPTQ

Model bahasa canggih yang disempurnakan menggunakan kumpulan data berisi 300.000 instruksi oleh Nous Research. Hermes didasarkan pada Meta's LlaMA2 LLM dan disempurnakan menggunakan sebagian besar keluaran GPT-4 sintetik.

Model

Hermes 13b GPTQ

Ukuran Model

7,26 GB

Parameter

13 miliar

Kuantisasi

4-bit

Jenis

LlaMA2

Lisensi

GPL 3

instagram viewer

Penggunaan LlaMA2 sebagai model dasarnya memungkinkan Hermes menggandakan ukuran konteks atau ukuran token maksimal 4.096. Memasangkan ukuran konteks yang panjang dan arsitektur encoder, Hermes dikenal memberikan respons yang panjang dan tingkat halusinasi yang rendah. Ini menjadikan Hermes model yang hebat untuk berbagai pemrosesan bahasa alami (NLP) tugas, seperti menulis kode, membuat konten, dan menjadi chatbot.

Ada beberapa kuantisasi dan versi Hermes GPTQ baru. Kami menyarankan Anda terlebih dahulu mencoba model Hermes-Llama2 13B-GPTQ, karena ini adalah versi yang paling mudah untuk digunakan sambil tetap memiliki kinerja yang hebat.

2. Falcon Instruksikan GPTQ

Kredit Gambar: John Schnobrich/Hapus percikan

Versi Falcon yang terkuantisasi ini didasarkan pada arsitektur khusus dekoder yang disesuaikan dengan model Flacon-7b mentah TII. Model dasar Falcon dilatih menggunakan 1,5 triliun token luar biasa yang bersumber dari internet publik. Sebagai model khusus dekoder berbasis instruksi yang dilisensikan di bawah Apache 2, Falcon Instruct sangat cocok untuk bisnis kecil yang mencari model yang akan digunakan untuk terjemahan bahasa dan entri data.

Model

Falcon-7B-Instruksikan

Ukuran Model

7,58 GB

Parameter

7 miliar

Kuantisasi

4-bit

Jenis

Elang

Lisensi

Apache 2.0

Namun, versi Falcon ini tidak ideal untuk fine-tuning dan hanya untuk inferensi. Jika Anda ingin menyempurnakan Falcon, Anda harus menggunakan model mentah, yang memerlukan akses ke perangkat keras pelatihan tingkat perusahaan seperti NVIDIA DGX atau Akselerator AI Insting AMD.

3.GPT4ALL-J Groovy

Kredit Gambar: Nubelson Fernandes/Hapus

GPT4All-J Groovy adalah model khusus dekoder yang disetel dengan baik oleh Nomic AI dan dilisensikan di bawah Apache 2.0. GPT4ALL-J Groovy didasarkan pada model GPT-J asli, yang dikenal hebat dalam pembuatan teks dari prompt. GPT4ALL -J Groovy telah disempurnakan sebagai model obrolan, yang bagus untuk aplikasi pembuatan teks yang cepat dan kreatif. Hal ini menjadikan GPT4All-J Groovy ideal bagi pembuat konten dalam membantu mereka dalam menulis dan berkarya, baik itu puisi, musik, atau cerita.

Model

GPT4ALL-J Groovy

Ukuran Model

3,53 GB

Parameter

7 miliar

Kuantisasi

4-bit

Jenis

GPT-J

Lisensi

Apache 2.0

Sayangnya, model dasar GPT-J dilatih pada dataset bahasa Inggris saja yang berarti bahkan model GPT4ALL-J yang disetel dengan baik ini hanya dapat mengobrol dan menjalankan aplikasi pembuatan teks dalam bahasa Inggris.

4.WizardCoder-15B-GPTQ

Kredit Gambar: James Harrison/Hapus percikan

Mencari model yang secara khusus disesuaikan untuk pengkodean? Meskipun ukurannya jauh lebih kecil, WizardCoder dikenal sebagai salah satu model pengkodean terbaik yang melampaui model lain seperti LlaMA-65B, InstructCodeT5+, dan CodeGeeX. Model ini dilatih menggunakan metode Evol-Instruct khusus pengkodean, yang secara otomatis mengedit perintah Anda menjadi perintah terkait pengkodean yang lebih efektif sehingga model dapat lebih memahaminya.

Model

WizardCoder-15B-GPTQ

Ukuran Model

7,58 GB

Parameter

15 miliar

Kuantisasi

4-bit

Jenis

Llama

Lisensi

bigcode-openrail-m

Dikuantisasi menjadi model 4-bit, WizardCoder sekarang dapat digunakan pada PC biasa, di mana individu dapat menggunakannya untuk eksperimen dan sebagai asisten pengkodean untuk program dan skrip yang lebih sederhana.

5. Wisaya Vicuna Tanpa Sensor-GPTQ

Wizard-Vicuna GPTQ adalah versi terkuantisasi dari Wizard Vicuna berdasarkan model LlaMA. Tidak seperti kebanyakan LLM yang dirilis ke publik, Wizard-Vicuna adalah model tanpa sensor dengan perataannya dihapus. Ini berarti model tersebut tidak memiliki standar keselamatan dan moral yang sama seperti kebanyakan model.

Model

Wizard-Vicuna-30B-Tanpa Sensor-GPTQ

Ukuran Model

16,94 GB

Parameter

30 miliar

Kuantisasi

4-bit

Jenis

Llama

Lisensi

GPL 3

Meskipun mungkin berpose Masalah kontrol penyelarasan AI, memiliki LLM tanpa sensor juga menghasilkan model terbaik dengan diizinkan untuk menjawab tanpa kendala apa pun. Ini juga memungkinkan pengguna untuk menambahkan penyelarasan khusus mereka tentang bagaimana AI harus bertindak atau menjawab berdasarkan prompt yang diberikan.

6. Orca Mini-GPTQ

Kredit Gambar: Alex Kondratiev/Hapus percikan

Ingin bereksperimen dengan model yang dilatih dengan metode pembelajaran yang unik? Orca Mini adalah implementasi model tidak resmi dari makalah penelitian Orca Microsoft. Itu dilatih menggunakan metode pembelajaran guru-siswa, di mana kumpulan datanya penuh dengan penjelasan, bukan hanya prompt dan tanggapan. Ini, secara teori, harus menghasilkan siswa yang lebih cerdas, di mana model dapat memahami masalah daripada hanya mencari pasangan input dan output seperti cara kerja LLM pada umumnya.

Model

Orca Mini-GPTQ

Ukuran Model

8,11 GB

Parameter

3 miliar

Kuantisasi

4-bit

Jenis

Llama

Lisensi

MIT

Dengan hanya tiga miliar parameter, Orca Mini GPTQ mudah dijalankan bahkan pada sistem yang kurang bertenaga. Namun, model ini tidak boleh digunakan untuk profesional apa pun karena menghasilkan informasi yang salah, bias, dan tanggapan yang menyinggung. Model ini harus digunakan untuk belajar dan bereksperimen dengan Orca dan metodenya.

7.LaMA 2 Obrolan GPTQ

LlaMA 2 adalah penerus dari LLM LlamA asli, yang menelurkan sebagian besar model dalam daftar ini. LlaMA 2 adalah kumpulan dari beberapa LLM, masing-masing dilatih menggunakan 7-70 miliar parameter. Secara keseluruhan, LlaMA 2 dilatih menggunakan 2 triliun token data yang diambil dari set data instruksi yang tersedia untuk umum.

Model

Falcon-40B-Instruksikan-GPTQ

Ukuran Model

7,26 GB

Parameter

3 miliar

Kuantisasi

4-bit

Jenis

OpenLlaMA

Lisensi

EULA (Lisensi Meta)

LlaMA 2 dimaksudkan untuk digunakan untuk penggunaan komersial dan penelitian. Dengan demikian, model ini paling baik digunakan setelah penyempurnaan untuk kinerja yang lebih baik pada tugas tertentu. Model GPTQ obrolan LlaMA 2 khusus ini telah disesuaikan dan dioptimalkan untuk dialog bahasa Inggris, membuatnya model yang sempurna untuk perusahaan dan organisasi sebagai chatbot dengan sedikit atau tanpa pelatihan tambahan diperlukan. Menurut ketentuan, perusahaan yang memiliki kurang dari 700 juta pengguna dapat menggunakan LlaMA 2 tanpa membayar biaya lisensi apa pun dari Meta atau Microsoft.

Coba Model Bahasa Besar Lokal Hari Ini

Beberapa model yang tercantum di atas memiliki beberapa versi dalam hal parameter. Secara umum, versi parameter yang lebih tinggi menghasilkan hasil yang lebih baik tetapi membutuhkan perangkat keras yang lebih kuat, sedangkan versi parameter yang lebih rendah akan menghasilkan hasil dengan kualitas lebih rendah tetapi dapat berjalan di perangkat keras kelas bawah. Jika Anda tidak yakin apakah PC Anda dapat menjalankan model tersebut, coba gunakan versi parameter yang lebih rendah terlebih dahulu, lalu lanjutkan hingga Anda merasa penurunan performa tidak lagi dapat diterima.

Karena model terkuantisasi dalam daftar ini hanya membutuhkan beberapa gigabyte ruang dan platform penerapan model seperti GPT4All dan Text-Generation-WebUI dapat dengan mudah diinstal melalui penginstal satu-klik mereka, mencoba beberapa model dan versi model tidak boleh dilakukan banyak waktu dan usaha.

Jadi tunggu apa lagi? Coba model lokal hari ini!