Kami masih berada di tahap awal dalam efek snowball yang dilepaskan oleh rilis Model Bahasa Besar (LLM) seperti ChatGPT ke alam liar. Dipasangkan dengan sumber terbuka model GPT (Generative Pre-Trained Transformer) lainnya, jumlah aplikasi yang menggunakan AI meledak; dan seperti yang kita ketahui, ChatGPT sendiri dapat digunakan untuk membuat malware yang sangat canggih.
Seiring berjalannya waktu, LLM yang diterapkan hanya akan meningkat, masing-masing berspesialisasi dalam bidangnya sendiri, dilatih dengan data yang dikuratori dengan cermat untuk tujuan tertentu. Dan satu aplikasi semacam itu baru saja diluncurkan, yang dilatih berdasarkan data dari web gelap itu sendiri. DarkBERT, sebagaimana pembuatnya di Korea Selatan menyebutnya, telah tiba — ikuti tautan untuk makalah rilis, yang memberikan pengenalan menyeluruh tentang web gelap itu sendiri.
DarkBERT didasarkan pada arsitektur RoBERTa, sebuah pendekatan AI yang dikembangkan pada tahun 2019. Ini telah mengalami semacam kebangkitan, dengan para peneliti menemukan bahwa sebenarnya memiliki lebih banyak kinerja untuk diberikan daripada yang dapat diekstraksi darinya pada tahun 2019. Tampaknya model tersebut sangat terlatih ketika dirilis, jauh di bawah efisiensi maksimumnya.
Untuk melatih model, para peneliti merayapi Dark Web melalui firewall anonim dari jaringan Tor, dan kemudian memfilter data mentah (menerapkan teknik seperti deduplikasi, penyeimbangan kategori, dan pra-pemrosesan data) untuk menghasilkan database Dark Web. DarkBERT adalah hasil dari basis data yang digunakan untuk memberi makan Model Bahasa Besar RoBERTa, model yang dapat menganalisis bagian baru dari konten Web Gelap — ditulis dalam dialeknya sendiri dan pesan berkode berat — dan mengekstrak informasi berguna darinya.
Mengatakan bahwa bahasa Inggris adalah bahasa bisnis dari Web Gelap tidak akan sepenuhnya benar, tetapi itu adalah ramuan yang cukup spesifik sehingga para peneliti percaya bahwa LLM tertentu harus dilatih tentangnya. Pada akhirnya, mereka benar: para peneliti menunjukkan bahwa DarkBERT mengungguli model bahasa besar lainnya, yang memungkinkan peneliti keamanan dan penegak hukum untuk menembus lebih dalam ke relung web. Lagipula, di situlah sebagian besar aksinya.
Seperti LLM lainnya, itu tidak berarti DarkBERT selesai, dan pelatihan dan penyetelan lebih lanjut dapat terus meningkatkan hasilnya. Bagaimana itu akan digunakan, dan pengetahuan apa yang bisa diperoleh, masih harus dilihat.
sumber : tomshardware.com