A GPTBot valószínűleg nem az, amit gondolsz.
Kulcs elvitelek
- Az OpenAI GPTBot egy webrobot, amelyet arra terveztek, hogy nyilvános webhelyekről gyűjtsön adatokat, amelyeket aztán az AI modellek, például a GPT-4 és a ChatGPT betanítására és fejlesztésére használnak fel.
- Az internet legnagyobb webhelyei közül néhány blokkolja a GPTBot-ot, mivel az engedély vagy az alkotók ellenszolgáltatása nélkül fér hozzá és használ szerzői jog által védett tartalmat.
- Míg a webhelyek olyan eszközöket használhatnak, mint a robots.txt, hogy megpróbálják blokkolni a GPTBot-ot, nincs garancia arra, hogy az OpenAI betartja a szabályokat, így szabályozhatják a szerzői joggal védett adatokhoz való hozzáférést.
2023 augusztusában az OpenAI, a ChatGPT fejlesztéséért felelős mesterséges intelligencia-erőmű bejelentette a GPTBotot, egy webbejárót, amely a weben való bejárásra és adatgyűjtésre szolgál.
Nem sokkal a bejelentés után az internet néhány legnagyobb webhelye blokkolta a bot hozzáférését a webhelyükhöz. De miért? Mi az OpenAI GPTBotja? Miért félnek tőle a nagy webhelyek, és miért próbálják blokkolni?
Mi az OpenAI GPTBotja?
A GPTBot egy webrobot, amelyet az OpenAI hozott létre, hogy keressen az interneten és információkat gyűjtsön az OpenAI mesterséges intelligencia fejlesztési céljaihoz. Úgy van programozva, hogy feltérképezze a nyilvános webhelyeket, és visszaküldje az adatokat az OpenAI szervereire. Az OpenAI ezután ezeket az adatokat használja fel mesterséges intelligencia modelljei betanításához és fejlesztéséhez, azzal a céllal, hogy egyre fejlettebb mesterséges intelligencia rendszereket építsen. A kifinomult mesterséges intelligencia modellek, például a GPT-4 vagy gyermektermékei, például a ChatGPT elkészítéséhez a webrobotok szinte nélkülözhetetlenek.
Egy mesterséges intelligencia modell betanítása óriási mennyiségű adatot igényel, és az adatok összegyűjtésének egyik leghatékonyabb módja az olyan eszközök, mint a webrobotok telepítése. A robotok szisztematikusan böngészhetnek az interneten, követhetik a hivatkozásokat nagy mennyiségű weboldal indexeléséhez, és kulcsfontosságú adatokat, például szöveget, képeket és metaadatokat kinyerhetnek, amelyek megfelelnek egy előre meghatározott mintának.
Ezek az adatok ezután strukturálhatók, és mesterséges intelligencia-modellekbe betáplálhatók, hogy megtanítsák természetes nyelvi feldolgozási képességeiket vagy képgenerálási képességeiket, vagy más mesterséges intelligencia-feladatokra képezzék őket. Egyszóval, a webrobotok összegyűjtik azokat az adatokat, amelyek lehetővé teszik az olyan eszközök számára, mint a ChatGPT vagy a DALL-E, hogy megtegyék, amit csinálnak.
A webrobotok nem új koncepció. Valószínűleg milliók keresik fel ma az interneten elérhető több milliárd webhelyet. És legalább a 90-es évek eleje óta léteznek. A GPTBot csak egy az OpenAI tulajdonában lévő ilyen bejárók közül. Tehát mi okozza a vitát ezzel a bizonyos webrobottal kapcsolatban?
Miért blokkolják a Big Tech webhelyek a GPTBotot?
Alapján Business Insider, az internet legnagyobb webhelyei közül néhány aktívan blokkolja az OpenAI bejáróját a webhelyén. Tehát, ha a GPTBot végső célja a mesterséges intelligencia fejlesztésének előmozdítása, miért tiltakozik az internet néhány legnagyobb webhelye, amelyek közül néhányan valamilyen módon hasznot húztak az AI-ból?
Nos, itt van a dolog. A generatív mesterségesintelligencia-technológiák 2022-es újjáéledése óta számos vita folyik a mesterséges intelligenciával foglalkozó vállalatok jogáról szinte korlátlanul használja fel az internetről származó adatokat, amelyek jelentős része jogilag védett szerzői jog. Nincsenek egyértelmű törvények, amelyek szabályozzák, hogy ezek a vállalatok hogyan gyűjtik és használják fel az adatokat saját érdekükben.
Tehát alapvetően az olyan feltérképező robotok, mint a GPTBot, feltérképezik az internetet, megragadják az emberek kreatív munkáját szövegek, képek vagy egyéb médiát, és kereskedelmi célokra használja fel anélkül, hogy engedélyt, engedélyt kérne vagy ellenszolgáltatást nyújtana az eredetinek alkotók.
Vadnyugat van odakint, és az AI-cégek mindent megragadnak, ami a kezükbe kerül. Az olyan nagy webhelyek, mint a Quora, a CNN, a New York Times, a Business Insider és az Amazon, nem nagyon örülnek annak, hogy A szerzői jog által védett tartalmat ezek a feltérképező robotok gyűjtik be, így az OpenAI anyagi hasznot húzhat belőle költség.
Ezért ezek a webhelyek a "robots.txt" fájlt alkalmazzák, amely egy évtizedes módszer a webrobotok blokkolására. Alapján OpenAI, a GPTBot betartja a webhelyek feltérképezésére vagy a feltérképezés elkerülésére vonatkozó utasításokat a robots.txt fájlba beágyazott szabályok alapján. Ez egy kis szövegfájl, amely megmondja a webrobotoknak, hogyan viselkedjenek egy webhelyen. Ha van saját webhelye, és szeretné megakadályozni, hogy a GPTBot lefoglalja az Ön adatait, a következőképpen teheti meg blokkolja az OpenAI bejáróit, hogy lekaparják webhelyét.
Valóban leállíthatják a webhelyek a GPTBotot?
Míg az olyan bejárók, mint a GPTBot, nélkülözhetetlenek a szükséges hatalmas mennyiségű adat összegyűjtéséhez. A fejlett mesterségesintelligencia-rendszerek betanítására jogos aggályok merülnek fel a szerzői jogokkal és a méltányos használattal kapcsolatban, amelyek nem lehetnek meg figyelmen kívül hagyva.
Természetesen vannak olyan egyszerű eszközök, mint a robots.txt, amelyekkel védekezni lehet ez ellen, de az, hogy a GPTBot betartja-e az ezen a fájlon található utasításokat, az teljesen az OpenAI döntésén múlik. Nincs garancia arra, hogy ezt megteszik, és nincs azonnali bolondbiztos módszer annak megállapítására, hogy megtették-e. A GPTBotnak a szerzői jog által védett adatoktól való távoltartásáért folytatott küzdelemben az OpenAI tartja az ászokat, legalábbis egyelőre.