Model AI hanya sebagus data yang masuk ke dalamnya. Itu membuat data ini menjadi target potensial serangan.

Kemajuan dalam kecerdasan buatan memiliki pengaruh yang signifikan di berbagai bidang. Ini telah membuat cukup banyak penggemar teknologi memprihatinkan. Karena teknologi ini berkembang ke aplikasi yang berbeda, mereka dapat menghasilkan peningkatan serangan musuh.

Apa itu Serangan Musuh dalam Kecerdasan Buatan?

Serangan permusuhan mengeksploitasi spesifikasi dan kerentanan dalam model AI. Mereka merusak data yang telah dipelajari model AI dan menyebabkan model ini menghasilkan keluaran yang tidak akurat.

Bayangkan seorang iseng mengubah ubin scrabble yang disusun seperti nanas menjadi "applepine". Ini mirip dengan apa yang terjadi pada serangan musuh.

Beberapa tahun yang lalu, mendapatkan beberapa tanggapan atau keluaran yang salah dari model AI adalah hal yang biasa. Kebalikannya adalah kasus sekarang, karena ketidakakuratan telah menjadi pengecualian, dengan pengguna AI mengharapkan hasil yang hampir sempurna.

instagram viewer

Saat model AI ini diterapkan pada skenario dunia nyata, ketidakakuratan bisa berakibat fatal, membuat serangan musuh menjadi sangat berbahaya. Misalnya, stiker pada rambu lalu lintas dapat membingungkan mobil self-driving otonom dan menyebabkannya bergerak ke lalu lintas atau langsung menjadi rintangan.

Jenis Serangan Musuh

Ada berbagai bentuk serangan musuh. Dengan meningkatkan integrasi AI ke dalam aplikasi sehari-hari, serangan ini kemungkinan akan menjadi lebih buruk dan lebih kompleks.

Meskipun demikian, kami secara kasar dapat mengklasifikasikan serangan musuh menjadi dua jenis berdasarkan seberapa banyak yang diketahui pelaku ancaman tentang model AI.

1. Serangan Kotak Putih

Di dalam serangan kotak putih, pelaku ancaman memiliki pengetahuan lengkap tentang cara kerja bagian dalam model AI. Mereka mengetahui spesifikasinya, data pelatihan, teknik pemrosesan, dan parameternya. Pengetahuan ini memungkinkan mereka membangun serangan permusuhan khusus untuk model tersebut.

Langkah pertama dalam serangan kotak putih adalah mengubah data pelatihan asli, merusaknya seminimal mungkin. Data yang dimodifikasi masih akan sangat mirip dengan aslinya tetapi cukup signifikan untuk menyebabkan model AI memberikan hasil yang tidak akurat.

Bukan itu saja. Setelah serangan itu, pelaku ancaman mengevaluasi keefektifan model dengan memberinya contoh permusuhan—input terdistorsi yang dirancang untuk menyebabkan model membuat kesalahan—dan menganalisis hasilnya. Semakin tidak akurat hasilnya, semakin sukses serangannya.

2. Serangan Kotak Hitam

Tidak seperti dalam serangan kotak putih, di mana aktor ancaman tahu tentang cara kerja model AI, pelaku serangan kotak hitam tidak tahu bagaimana model bekerja. Mereka hanya mengamati model dari titik buta, memantau nilai input dan outputnya.

Langkah pertama dalam serangan kotak hitam adalah memilih target input yang ingin diklasifikasikan oleh model AI. Pelaku ancaman kemudian membuat versi berbahaya dari masukan tersebut dengan menambahkan derau yang dibuat dengan hati-hati, gangguan pada data yang tidak terlihat oleh mata manusia tetapi mampu menyebabkan model AI malfungsi.

Versi jahat diumpankan ke model, dan hasilnya diamati. Hasil yang diberikan oleh model membantu pelaku ancaman untuk terus memodifikasi versi sampai mereka cukup yakin bahwa itu akan salah mengklasifikasikan data yang dimasukkan ke dalamnya.

Teknik yang Digunakan dalam Serangan Musuh

Entitas jahat dapat menggunakan teknik berbeda untuk melakukan serangan musuh. Berikut adalah beberapa teknik tersebut.

1. Peracunan

Penyerang dapat memanipulasi (meracuni) sebagian kecil dari data input model AI untuk mengkompromikan set data pelatihan dan akurasinya.

Ada beberapa bentuk keracunan. Salah satu yang umum disebut keracunan pintu belakang, di mana sangat sedikit data pelatihan yang terpengaruh. Model AI terus memberikan hasil yang sangat akurat hingga "diaktifkan" menjadi tidak berfungsi saat bersentuhan dengan pemicu tertentu.

2. Penghindaran

Teknik ini agak mematikan, karena menghindari deteksi dengan mengejar sistem keamanan AI.

Sebagian besar model AI dilengkapi dengan sistem deteksi anomali. Teknik penghindaran memanfaatkan contoh permusuhan yang mengejar sistem ini secara langsung.

Teknik ini bisa sangat berbahaya terhadap sistem klinis seperti mobil otonom atau model diagnostik medis. Ini adalah bidang di mana ketidakakuratan dapat menimbulkan konsekuensi yang parah.

3. Transferabilitas

Pelaku ancaman yang menggunakan teknik ini tidak memerlukan pengetahuan sebelumnya tentang parameter model AI. Mereka menggunakan serangan permusuhan yang telah berhasil di masa lalu terhadap versi model lainnya.

Misalnya, jika serangan permusuhan menyebabkan model pengklasifikasi gambar salah mengira kura-kura sebagai senapan, serangan yang tepat dapat menyebabkan model pengklasifikasi gambar lainnya membuat kesalahan yang sama. Model-model lain dapat dilatih pada kumpulan data yang berbeda dan bahkan memiliki arsitektur yang berbeda tetapi masih dapat menjadi korban serangan tersebut.

4. Ibu pengganti

Alih-alih mengejar sistem keamanan model menggunakan teknik penghindaran atau serangan yang sebelumnya berhasil, aktor ancaman dapat menggunakan model pengganti.

Dengan teknik ini, pelaku ancaman membuat versi identik dari model target, yaitu model pengganti. Hasil, parameter, dan perilaku pengganti harus identik dengan model asli yang telah disalin.

Pengganti sekarang akan mengalami berbagai serangan permusuhan sampai seseorang menyebabkannya menghasilkan hasil yang tidak akurat atau melakukan kesalahan klasifikasi. Kemudian, serangan ini akan digunakan pada AI target asli.

Cara Menghentikan Serangan Musuh

Bertahan dari serangan musuh bisa jadi rumit dan memakan waktu karena pelaku ancaman menggunakan berbagai bentuk dan teknik. Namun, langkah-langkah berikut dapat mencegah dan menghentikan serangan musuh.

1. Pelatihan lawan

Langkah paling efektif yang dapat mencegah serangan permusuhan adalah pelatihan permusuhan, pelatihan model dan mesin AI menggunakan contoh permusuhan. Hal ini meningkatkan ketangguhan model dan membuatnya tahan terhadap gangguan input sekecil apa pun.

2. Audit Reguler

Penting untuk secara teratur memeriksa kelemahan dalam sistem deteksi anomali model AI. Ini melibatkan memberi makan model secara sengaja dengan contoh permusuhan dan memantau perilaku model ke input berbahaya.

3. Sanitasi Data

Metode ini melibatkan pemeriksaan input berbahaya yang dimasukkan ke dalam model. Setelah mengidentifikasinya, mereka harus segera disingkirkan.

Data ini dapat diidentifikasi menggunakan validasi input, yang melibatkan pemeriksaan data untuk pola atau tanda dari contoh permusuhan yang diketahui sebelumnya.

4. Pembaruan Keamanan

Akan sulit untuk melakukan kesalahan dengan pembaruan dan tambalan keamanan. Keamanan berlapis seperti firewall, program anti-malware, dan deteksi intrusi dan sistem pencegahan dapat membantu memblokir gangguan eksternal dari pelaku ancaman yang ingin meracuni model AI.

Serangan Musuh Bisa Menjadi Musuh yang Layak

Konsep serangan permusuhan menghadirkan masalah untuk pembelajaran lanjutan dan pembelajaran mesin.

Akibatnya, model AI dipersenjatai dengan pertahanan seperti pelatihan permusuhan, audit reguler, sanitasi data, dan pembaruan keamanan yang relevan.