Az AI-modellek csak annyira jók, amennyire a bennük lévő adatok vannak. Ez teszi ezeket az adatokat a támadások lehetséges célpontjává.
A mesterséges intelligencia fejlődése jelentős hatást gyakorolt a különböző területekre. Ez elég sok technológiai rajongót adott aggodalomra. Amint ezek a technológiák különböző alkalmazásokra terjednek ki, az ellenséges támadások számának növekedéséhez vezethetnek.
Mik azok az ellenséges támadások a mesterséges intelligenciában?
Az ellenséges támadások az AI-modellek specifikációit és sebezhetőségeit használják ki. Megrongálják az AI-modellek által tanult adatokat, és pontatlan kimeneteket generálnak.
Képzelje el, hogy egy tréfacsináló az ananászként elhelyezett kaparólapkákat „almaszerűvé” változtatja. Ez hasonló az ellenséges támadásokhoz.
Néhány évvel ezelőtt az volt a norma, hogy egy mesterséges intelligencia-modell néhány helytelen választ vagy kimenetet kapott. Most fordítva van a helyzet, hiszen a pontatlanságok kivételekké váltak, az AI-felhasználók közel tökéletes eredményt várnak.
Ha ezeket a mesterséges intelligencia modelleket valós forgatókönyvekre alkalmazzák, a pontatlanságok végzetesek lehetnek, és nagyon veszélyessé teszik az ellenséges támadásokat. Például a közlekedési táblákon elhelyezett matricák megzavarhatják az önvezető autót, és a forgalomba vagy közvetlenül akadályba ütközhetnek.
Az ellenséges támadások típusai
Az ellenséges támadásoknak különféle formái vannak. A... val az AI növekvő integrálása a mindennapi alkalmazásokba, ezek a támadások valószínűleg súlyosbodnak és összetettebbek lesznek.
Ennek ellenére az ellenséges támadásokat nagyjából két típusba sorolhatjuk az alapján, hogy a fenyegetés szereplője mennyit tud az AI-modellről.
1. Fehér doboz támadások
Ban ben fehér doboz támadások, a fenyegetés szereplői teljes mértékben ismerik az AI-modell belső működését. Ismerik a specifikációit, a képzési adatokat, a feldolgozási technikákat és a paramétereket. Ez a tudás lehetővé teszi számukra, hogy ellenséges támadást építsenek ki kifejezetten a modell számára.
A fehér dobozos támadás első lépése az eredeti edzési adatok megváltoztatása, a lehető legkisebb mértékben megrongálva azokat. A módosított adatok továbbra is nagyon hasonlóak lesznek az eredetihez, de elég jelentősek ahhoz, hogy az AI-modell pontatlan eredményeket adjon.
Ez még nem minden. A támadást követően a fenyegetőző értékeli a modell hatékonyságát úgy, hogy ellenséges példákat ad neki –torz bemenetek, amelyek a modell hibáit okozzák– és elemzi a kimenetet. Minél pontatlanabb az eredmény, annál sikeresebb a támadás.
2. Fekete doboz támadások
Ellentétben a fehér dobozos támadásokkal, ahol a fenyegetés szereplői ismerik az AI-modell belső működését, az elkövetők fekete doboz támadások fogalmam sincs, hogyan működik a modell. Egyszerűen egy holttérből figyelik a modellt, figyelik a bemeneti és kimeneti értékeit.
A fekete doboz támadás első lépése a bemeneti cél kiválasztása, amelyet az AI-modell be akar osztályozni. A fenyegetés szereplője ezután gondosan kialakított zaj hozzáadásával létrehozza a bemenet rosszindulatú változatát, Az emberi szem számára láthatatlan, de az AI modellt előidéző zavarok az adatokban üzemzavar.
A rosszindulatú verziót a rendszer betáplálja a modellbe, és megfigyeli a kimenetet. A modell által adott eredmények segítik a fenyegetettséget abban, hogy addig módosítsa a verziót, amíg nem biztos abban, hogy az tévesen minősíti a bele betáplált adatokat.
Az ellenséges támadásokban használt technikák
A rosszindulatú entitások különböző technikákat alkalmazhatnak ellenséges támadások végrehajtására. Íme néhány ilyen technika.
1. Mérgezés
A támadók manipulálhatják (megmérgezhetik) a mesterséges intelligencia modell bemeneti adatainak egy kis részét, így veszélyeztethetik a képzési adatkészleteket és a pontosságot.
A mérgezésnek többféle formája van. Az egyik gyakori a hátsó ajtó mérgezés, amely nagyon kevés edzési adatot érint. Az AI-modell továbbra is rendkívül pontos eredményeket ad mindaddig, amíg bizonyos triggerekkel való érintkezéskor „aktiválódik”, hogy meghibásodjon.
2. Kijátszás
Ez a technika meglehetősen halálos, mivel elkerüli az észlelést az AI biztonsági rendszerével.
A legtöbb mesterséges intelligencia modell anomália-érzékelő rendszerrel van felszerelve. Az adókijátszási technikák olyan ellentmondásos példákat használnak, amelyek közvetlenül követik ezeket a rendszereket.
Ez a technika különösen veszélyes lehet az olyan klinikai rendszerekre, mint az autonóm autók vagy az orvosi diagnosztikai modellek. Ezek olyan területek, ahol a pontatlanságok súlyos következményekkel járhatnak.
3. Átruházhatóság
Az ezt a technikát használó fenyegetés szereplőinek nincs szükségük előzetes ismeretekre az AI-modell paramétereiről. Olyan ellenséges támadásokat alkalmaznak, amelyek a múltban sikeresek voltak a modell más verziói ellen.
Például, ha egy ellenséges támadás hatására egy képosztályozó modell összetéveszti a teknőst egy puskával, akkor a pontos támadás más képosztályozó modellek esetében is hasonló hibát okozhat. A többi modellt egy másik adatkészletre képezhették volna, és akár eltérő architektúrával is rendelkezhettek volna, de így is áldozatul eshetnek a támadásnak.
4. Béranyaság
Ahelyett, hogy a modell biztonsági rendszereit kijátszási technikákkal vagy korábban sikeres támadásokkal keresné, a fenyegetés szereplője helyettesítő modellt használhat.
Ezzel a technikával a fenyegetés szereplője létrehozza a célmodell azonos változatát, egy helyettesítő modellt. A helyettesítő eredményeinek, paramétereinek és viselkedésének meg kell egyeznie a másolt eredeti modellel.
A helyettesítőt most különféle ellenséges támadások érik mindaddig, amíg pontatlan eredményre nem vezetnek, vagy téves besorolást hajtanak végre. Ezután ezt a támadást az eredeti cél AI-n fogják használni.
Hogyan lehet megállítani az ellenséges támadásokat
Az ellenséges támadások elleni védekezés bonyolult és időigényes lehet, mivel a fenyegetés szereplői különféle formákat és technikákat alkalmaznak. A következő lépésekkel azonban megelőzhetők és megállíthatók az ellenséges támadások.
1. Ellenzéki képzés
Az ellenséges támadások megelőzésének leghatékonyabb lépése az ellenséges kiképzés, az AI-modellek és gépek kiképzése ellenséges példák segítségével. Ez javítja a modell robusztusságát, és lehetővé teszi, hogy ellenálló legyen a legkisebb bemeneti zavarokkal szemben.
2. Rendszeres auditálás
Rendszeresen ellenőrizni kell a mesterséges intelligencia modellek anomáliák észlelő rendszerének gyenge pontjait. Ez magában foglalja a modell szándékos betáplálását ellentmondásos példákkal, és a modell viselkedésének figyelését a rosszindulatú bemenettel szemben.
3. Adatfertőtlenítés
Ez a módszer magában foglalja a modellbe betáplált rosszindulatú bemenetek ellenőrzését. Azonosításuk után azonnal el kell távolítani őket.
Ezeket az adatokat bemeneti érvényesítéssel lehet azonosítani, amely magában foglalja az adatok ellenőrzését, hogy vannak-e korábban ismert ellentétes példák mintái vagy aláírásai.
4. Biztonsági frissítések
A biztonsági frissítésekkel és javításokkal nehéz lenne hibázni. Többrétegű biztonság, mint a tűzfalak, a kártevőirtó programok és behatolásjelző és -megelőzési rendszerek segíthet megakadályozni a külső interferenciát azoktól a fenyegető szereplőktől, akik meg akarnak mérgezni egy AI-modellt.
Az ellenséges támadások méltó ellenfelek lehetnek
Az ellenséges támadások koncepciója problémát jelent a haladó tanulás és a gépi tanulás szempontjából.
Ennek eredményeként az AI-modelleket olyan védelemmel kell felvértezni, mint az ellenséges kiképzés, a rendszeres auditálás, az adatok fertőtlenítése és a vonatkozó biztonsági frissítések.