Apa itu data poisoning?
Data poisoning atau serangan poisoning model melibatkan pencemaran data pelatihan model pembelajaran mesin. Data posoning dianggap sebagai serangan integritas karena gangguan pada data pelatihan memengaruhi kemampuan model untuk menghasilkan prediksi yang benar. Jenis serangan lain dapat diklasifikasikan dengan cara yang sama berdasarkan dampaknya:
- Kerahasiaan (Confidentiality), di mana penyerang dapat menyimpulkan informasi yang berpotensi rahasia tentang data pelatihan dengan memasukkan input ke model
- Ketersediaan (Availability), tempat penyerang menyamarkan input mereka untuk mengelabui model guna menghindari klasifikasi yang benar
- Replikasi (Replication), di mana penyerang dapat merekayasa balik model untuk mereplikasi dan menganalisisnya secara lokal untuk menyiapkan serangan atau mengeksploitasinya untuk keuntungan finansial mereka sendiri
Contoh data poisoning
Contoh nyata dari hal ini adalah serangan terhadap filter spam yang digunakan oleh penyedia email. Dalam postingan blog 2018 tentang serangan pembelajaran mesin, Elie Bursztein, yang memimpin tim riset anti-penyalahgunaan di Google mengatakan: “Dalam praktiknya, kami secara teratur melihat beberapa grup spammer tercanggih mencoba membuat filter Gmail keluar jalur dengan melaporkan email spam dalam jumlah besar sebagai bukan spam […] Antara akhir November 2017 dan awal 2018, ada setidaknya empat upaya berbahaya berskala besar untuk membelokkan pengklasifikasi kami.”
Tidak ada perbaikan yang mudah
Masalah utama dengan data poisoning adalah tidak mudah untuk memperbaikinya. Model dilatih ulang dengan data yang baru dikumpulkan pada interval tertentu, bergantung pada tujuan penggunaan dan preferensi pemiliknya. Karena poisoning biasanya terjadi seiring waktu, dan selama beberapa siklus pelatihan, sulit untuk mengetahui kapan akurasi prediksi mulai bergeser.
Cegah dan deteksi
Mengingat kesulitan dalam memperbaiki model yang diracuni, pengembang model perlu fokus pada tindakan yang dapat memblokir upaya serangan atau mendeteksi input berbahaya sebelum siklus pelatihan berikutnya terjadi — hal-hal seperti pemeriksaan validitas masukan, pembatasan kecepatan, pengujian regresi, moderasi manual, dan menggunakan berbagai statistik teknik untuk mendeteksi anomali.
Untuk melakukan data poisoning, penyerang juga perlu mendapatkan informasi tentang cara kerja model, jadi penting untuk membocorkan informasi sesedikit mungkin dan memiliki kontrol akses yang kuat untuk model dan data pelatihan. Dalam hal ini, pertahanan pembelajaran mesin terikat dengan praktik keamanan dan kebersihan umum — hal-hal seperti membatasi izin, mengaktifkan logging, dan menggunakan file dan data versioning.
Selengkapnya: CSO Online