Penelitian “LLMbotomy” mengungkapkan bagaimana Trojan dapat disuntikkan ke dalam Large Language Models (LLMs), dan bagaimana cara menonaktifkannya.

Pada Black Hat Europe minggu ini di London, Senior Data Scientist SophosAI, Tamás Vörös, akan memberikan presentasi selama 40 menit dengan judul “LLMbotomy: Menutup Pintu Belakang Trojan” pada pukul 13:30. Pembicaraan Vörös, yang merupakan pengembangan dari presentasi yang dia berikan pada konferensi CAMLIS baru-baru ini, menggali potensi risiko yang ditimbulkan oleh Trojanized Large Language Models (LLMs) dan bagaimana risiko tersebut dapat diminimalkan oleh pengguna LLM yang berpotensi terweaponisasi.

Penelitian yang ada tentang LLMs sebagian besar telah berfokus pada ancaman eksternal terhadap LLMs, seperti serangan “prompt injection” yang dapat digunakan untuk memasukkan data dalam instruksi yang diajukan oleh pengguna lain dan serangan berbasis input lainnya pada LLM itu sendiri. Penelitian SophosAI, yang dipresentasikan oleh Vörös, memeriksa ancaman tertanam, seperti Trojan pintu belakang yang disuntikkan ke dalam LLM selama pelatihan mereka dan dipicu oleh input tertentu yang dimaksudkan untuk menyebabkan perilaku berbahaya. Ancaman tertanam ini dapat diperkenalkan secara sengaja melalui niat jahat seseorang yang terlibat dalam pelatihan model, atau secara tidak sengaja melalui pemrograman data yang merusak. Penelitian ini menyelidiki tidak hanya bagaimana Trojan ini dapat dibuat, tetapi juga metode untuk menonaktifkannya.

Penelitian SophosAI menunjukkan penggunaan “noising” terarah pada neuron LLM, dengan mengidentifikasi neuron yang krusial untuk operasi LLM melalui pola aktivasi mereka. Teknik ini terbukti efektif untuk menetralisir sebagian besar Trojan yang tertanam dalam model. Laporan lengkap tentang penelitian yang dipresentasikan oleh Vörös akan diterbitkan setelah Black Hat Europe.