Para peneliti di universitas California, Virginia, dan Microsoft telah merancang serangan peracunan baru yang dapat mengelabui asisten pengkodean berbasis AI untuk menyarankan kode berbahaya.
Serangan Trojan Puzzle melewati deteksi statis dan model pembersihan dataset berbasis tanda tangan, sehingga model AI dilatih untuk mempelajari cara mereproduksi muatan berbahaya.
Asisten pengkodean seperti GitHub’s Copilot dan OpenAI’s ChatGPT, menemukan cara terselubung untuk menanamkan kode berbahaya secara sembunyi dalam rangkaian pelatihan model AI dapat menimbulkan konsekuensi yang meluas.
Proposal Trojan Puzzle
Serangan Trojan Puzzle baru menghindari memasukkan muatan ke dalam kode dan secara aktif menyembunyikan sebagiannya selama proses pelatihan.
Saat pemicu yang valid diuraikan, machine learning akan merekonstruksi payload dengan mengganti kata acak dengan token berbahaya yang ditemukan dalam pelatihan dengan sendirinya.
pict – Menghasilkan banyak sampel racun untuk membuat asosiasi pemicu-muatan (arxiv.org)
Menguji Serangan
Peneliti menggunakan 5,88 GB kode Python bersumber dari 18.310 repositori untuk digunakan sebagai kumpulan data pembelajaran mesin untuk mengevaluasi Trojan Puzzle.
Trojan Puzzle sulit direproduksi oleh machine learning karena mereka harus mempelajari cara memilih kata kunci yang disamarkan dari frase pemicu dan menggunakannya dalam keluaran yang dihasilkan, sehingga diharapkan kinerja yang lebih rendah pada zaman pertama.
Bertahan dari Upaya Peracunan
Dalam makalah ini disarankan untuk mengeksplorasi cara mendeteksi dan memfilter file yang berisi sampel buruk yang hampir duplikat yang dapat menandakan injeksi kode berbahaya yang terselubung.
Selengkapnya: BleepingComputer