Ezt a nagy nyelvi modellt a sötét weben képezték ki a kiberbiztonsági fenyegetések felmérésére. Íme, amit tudnod kell.

A nagy nyelvi modellek (LLM) népszerűsége szárnyal, folyamatosan újak jelennek meg a színen. Ezeket a modelleket, mint például a ChatGPT-t, általában különféle internetes forrásokon, például cikkeken, webhelyeken, könyveken és közösségi médián képezik ki.

Egy dél-koreai kutatócsoport példátlan lépéssel kifejlesztette a DarkBERT-et, egy LLM-et, amely kizárólag a sötét webről vett adatkészletekre képzett. Céljuk egy olyan mesterséges intelligencia-eszköz létrehozása volt, amely felülmúlja a meglévő nyelvi modelleket, és segíti a fenyegetéskutatókat, a bűnüldöző szerveket és a kiberbiztonsági szakembereket a kiberfenyegetések elleni küzdelemben.

Mi az a DarkBERT?

A DarkBERT egy transzformátor alapú kódoló modell, amely a RoBERTa architektúrán alapul. Az LLM-et több millió sötét weboldalon képezték ki, beleértve a hacker fórumokról, csaló webhelyekről és más, illegális tevékenységekkel kapcsolatos online forrásokból származó adatokat.

A kifejezés A "sötét web" egy rejtett internetes részre utal szabványos webböngészőn keresztül nem érhető el. Az alszakasz arról híres, hogy névtelen webhelyeket és piactereket rejt magában, amelyek illegális tevékenységekről, például ellopott adatok, kábítószerek és fegyverek kereskedelméről híresek.

A DarkBERT képzéséhez a kutatók megszerezték hozzáférés a sötét webhez a Tor hálózaton keresztül, és nyers adatokat gyűjtött. Gondosan szűrték ezeket az adatokat olyan technikák segítségével, mint a deduplikáció, a kategóriakiegyenlítés és az előfeldolgozás hozzon létre egy finomított sötét webes adatbázist, amelyet körülbelül 15 nap alatt betáplált a RoBERTa-ba, hogy létrehozza DarkBERT.

A DarkBERT lehetséges felhasználásai a kiberbiztonságban

A DarkBERT figyelemre méltóan érti a kiberbűnözők nyelvezetét, és kiválóan képes észlelni a konkrét lehetséges fenyegetéseket. Kutathat a sötét weben, és sikeresen azonosíthatja és megjelölheti az olyan kiberbiztonsági fenyegetéseket, mint az adatszivárgás és a zsarolóvírus, így potenciálisan hasznos eszköz a kiberfenyegetések elleni küzdelemben.

A DarkBERT hatékonyságának értékeléséhez a kutatók összehasonlították két híres NLP modellel, a BERT és A RoBERTa három kulcsfontosságú kiberbiztonsági felhasználási esetben értékeli teljesítményüket, a kutatás, közzétett arxiv.org, azt jelzi.

1. Figyelje a sötét webfórumokat a potenciálisan káros szálakért

Az illegális információk cseréjére általánosan használt sötét webes fórumok figyelése alapvető fontosságú a potenciálisan veszélyes szálak azonosításához. Ezek manuális áttekintése azonban időigényes lehet, így a folyamat automatizálása előnyös a biztonsági szakértők számára.

A kutatók a hacker-fórumokon végzett potenciálisan káros tevékenységekre összpontosítottak, és annotációs irányelveket dolgoztak ki figyelemre méltó szálakhoz, beleértve a bizalmas adatok megosztását és a kritikus kártevők terjesztését, ill sebezhetőségek.

A DarkBERT felülmúlta a többi nyelvi modellt a pontosság, a felidézés és az F1 pontszám tekintetében, így a legjobb választás a figyelemre méltó szálak azonosítására a sötét weben.

2. Bizalmas információkat tartalmazó webhelyek észlelése

A hackerek és ransomware-csoportok a sötét webet használják kiszivárogtató oldalak létrehozására, ahol olyan bizalmas adatokat tesznek közzé, amelyeket olyan szervezetektől loptak el, amelyek megtagadják a váltságdíj követeléseinek teljesítését. Más kiberbűnözők egyszerűen csak feltöltenek kiszivárgott bizalmas adatokat, például jelszavakat és pénzügyi információkat a sötét webre azzal a szándékkal, hogy eladják azokat.

A kutatók tanulmányukban adatokat gyűjtöttek a hírhedt ransomware csoportok és elemezte a zsarolóprogramokat kiszivárogtató webhelyeket, amelyek a szervezetek privát adatait teszik közzé. A DarkBERT felülmúlta a többi nyelvi modellt az ilyen webhelyek azonosításában és osztályozásában, megmutatva, hogy megérti a sötét weben található földalatti hackerfórumokon használt nyelvet.

A DarkBERT kihasználja a kitöltési maszk funkciót, amely a BERT-család nyelvi modelljeinek egyik velejárója, hogy pontosan azonosítsa az illegális tevékenységekkel kapcsolatos kulcsszavakat, beleértve a sötét weben történő kábítószer-értékesítést.

Amikor az "MDMA" szót elfedték egy gyógyszereladási oldalon, a DarkBERT kábítószerrel kapcsolatos szavakat generált, míg más modellek általános szavakat és a kábítószerekhez nem kapcsolódó kifejezéseket javasoltak, mint például a különböző szakmák.

A DarkBERT azon képessége, hogy azonosítja a tiltott tevékenységekhez kapcsolódó kulcsszavakat, értékes lehet az újonnan megjelenő kiberfenyegetések nyomon követésében és kezelésében.

A DarkBERT elérhető a nagyközönség számára?

A DarkBERT jelenleg nem elérhető a nyilvánosság számára, de a kutatók nyitottak arra, hogy tanulmányi célokra használják fel.

Használja ki a mesterséges intelligencia erejét a veszélyek észlelésére és megelőzésére

A DarkBERT-t előzetesen kiképzik a sötét webes adatokkal kapcsolatban, és több kiberbiztonsági felhasználási esetben is felülmúlja a meglévő nyelvi modelleket, és a sötét webes kutatás előmozdításának kulcsfontosságú eszközeként pozicionálja magát.

A sötét web által kiképzett mesterséges intelligencia különféle kiberbiztonsági feladatokra használható, beleértve a kiszivárgott webhelyeket árusító webhelyek azonosítását. bizalmas adatok, a sötét webes fórumok figyelése a tiltott információmegosztás felderítése érdekében, valamint a kiberrel kapcsolatos kulcsszavak azonosítása fenyegetések.

De mindig emlékeznie kell arra, hogy a többi LLM-hez hasonlóan a DarkBERT is egy folyamatban lévő munka, és teljesítménye folyamatos képzéssel és finomhangolással javítható.