Model bahasa besar ini telah dilatih di web gelap untuk menilai ancaman keamanan siber. Inilah yang perlu Anda ketahui.

Popularitas model bahasa besar (LLM) melonjak, dengan yang baru terus memasuki panggung. Model ini, seperti ChatGPT, biasanya dilatih di berbagai sumber internet, termasuk artikel, situs web, buku, dan media sosial.

Dalam langkah yang belum pernah terjadi sebelumnya, tim peneliti Korea Selatan mengembangkan DarkBERT, sebuah LLM yang dilatih pada kumpulan data yang diambil secara eksklusif dari web gelap. Tujuan mereka adalah untuk menciptakan alat AI yang mengungguli model bahasa yang ada dan membantu peneliti ancaman, penegak hukum, dan profesional keamanan siber dalam memerangi ancaman siber.

Apa itu DarkBERT?

DarkBERT adalah model encoder berbasis transformator berdasarkan arsitektur RoBERTa. LLM dilatih pada jutaan halaman web gelap, termasuk data dari forum peretasan, situs web penipuan, dan sumber online lainnya yang terkait dengan aktivitas ilegal.

Syarat "web gelap" mengacu pada bagian internet tersembunyi

tidak dapat diakses melalui browser web standar. Subbagian ini terkenal karena menyimpan situs web dan pasar anonim yang terkenal karena aktivitas ilegal, seperti perdagangan data curian, obat-obatan, dan senjata.

Untuk melatih DarkBERT, para peneliti memperoleh akses ke web gelap melalui jaringan Tor dan mengumpulkan data mentah. Mereka dengan hati-hati memfilter data ini menggunakan teknik seperti deduplikasi, penyeimbangan kategori, dan pra-pemrosesan membuat database web gelap yang disempurnakan, yang kemudian diumpankan ke RoBERTa selama sekitar 15 hari untuk membuatnya DarkBERT.

Kemungkinan Penggunaan DarkBERT dalam Cybersecurity

DarkBERT memiliki pemahaman yang luar biasa tentang bahasa penjahat dunia maya dan unggul dalam menemukan potensi ancaman tertentu. Itu dapat meneliti web gelap dan berhasil mengidentifikasi dan menandai ancaman keamanan dunia maya seperti kebocoran data dan ransomware, menjadikannya alat yang berpotensi berguna untuk melawan ancaman dunia maya.

Untuk mengevaluasi keefektifan DarkBERT, peneliti membandingkannya dengan dua model NLP terkenal, BERT dan RoBERTa, menilai kinerja mereka di tiga kasus penggunaan penting terkait keamanan siber, penelitian, diposting di arxiv.org, menunjukkan.

1. Pantau Forum Web Gelap untuk Utas yang Berpotensi Membahayakan

Memantau forum web gelap, yang biasanya digunakan untuk bertukar informasi terlarang, sangat penting untuk mengidentifikasi utas yang berpotensi berbahaya. Namun, meninjau ini secara manual dapat memakan waktu, membuat otomatisasi proses bermanfaat bagi pakar keamanan.

Para peneliti berfokus pada aktivitas yang berpotensi merusak di forum peretasan, menyusun pedoman anotasi untuk utas penting, termasuk berbagi data rahasia dan mendistribusikan malware kritis atau kerentanan.

DarkBERT mengungguli model bahasa lain dalam hal presisi, daya ingat, dan skor F1, muncul sebagai pilihan unggul untuk mengidentifikasi utas penting di web gelap.

2. Mendeteksi Situs yang Menghosting Informasi Rahasia

Grup peretas dan ransomware menggunakan web gelap untuk membuat situs bocoran, tempat mereka mempublikasikan data rahasia yang dicuri dari organisasi yang menolak untuk mematuhi permintaan tebusan. Penjahat dunia maya lain hanya mengunggah data sensitif yang bocor, seperti kata sandi dan informasi keuangan, ke web gelap dengan tujuan untuk menjualnya.

Dalam studi mereka, para peneliti mengumpulkan data dari kelompok ransomware terkenal dan menganalisis situs kebocoran ransomware yang menerbitkan data pribadi organisasi. DarkBERT mengungguli model bahasa lain dalam mengidentifikasi dan mengklasifikasikan situs semacam itu, menunjukkan pemahamannya tentang bahasa yang digunakan dalam forum peretasan bawah tanah di web gelap.

DarkBERT memanfaatkan fungsi fill-mask, fitur yang melekat pada model bahasa keluarga BERT, untuk secara akurat mengidentifikasi kata kunci yang terkait dengan aktivitas ilegal, termasuk penjualan narkoba di web gelap.

Saat kata "MDMA" disamarkan di halaman penjualan obat, DarkBERT menghasilkan kata-kata yang berhubungan dengan obat, sedangkan model lain menyarankan kata dan istilah umum yang tidak berhubungan dengan obat, seperti berbagai profesi.

Kemampuan DarkBERT untuk mengidentifikasi kata kunci yang terkait dengan aktivitas terlarang dapat bermanfaat dalam melacak dan menangani ancaman dunia maya yang muncul.

Apakah DarkBERT Dapat Diakses oleh Masyarakat Umum?

DarkBERT saat ini tidak tersedia untuk umum, tetapi para peneliti terbuka untuk permintaan untuk menggunakannya untuk tujuan akademis.

Manfaatkan Kekuatan AI untuk Deteksi dan Pencegahan Ancaman

DarkBERT telah dilatih sebelumnya tentang data web gelap dan mengungguli model bahasa yang ada di berbagai kasus penggunaan keamanan siber, memposisikan dirinya sebagai alat penting untuk memajukan penelitian web gelap.

AI yang dilatih web gelap memiliki potensi untuk digunakan untuk berbagai tugas keamanan siber, termasuk mengidentifikasi situs web yang menjual bocor data rahasia, memantau forum web gelap untuk mendeteksi berbagi informasi terlarang, dan mengidentifikasi kata kunci yang terkait dengan dunia maya ancaman.

Tetapi Anda harus selalu ingat bahwa, seperti LLM lainnya, DarkBERT sedang dalam proses, dan kinerjanya dapat ditingkatkan melalui pelatihan berkelanjutan dan penyempurnaan.