Amikor az ember megnéz egy jelenetet vagy képet, megérti azt - milyen tárgyak vannak benne és mi történik, ha cselekvés zajlik. A számítógép viszont csak olyan digitális adatokat dolgoz fel, amelyek leírják az egyes pixelek színértékét. Az ember számára könnyedén felismeri a pizzát a rendetlen asztalon. De a közelmúltig a számítógépek nem tudták elvégezni ugyanazt a feladatot.
A számítógépes látás vagy önéletrajz lehetővé teszi a számítógép számára, hogy fontos információkat válasszon ki a vizuális bemenetekből, és pontos előrejelzéseket és ajánlásokat tegyen ezek alapján.
Hogyan működik a számítógépes látás?
A számítógépes látás előtt egy adott képet felismerő program létrehozásához az embernek órákon át kézi munkát kell végeznie. Először is össze kellene gyűjteni egy hasonló képek adatbázisát.
Ezután ezeket a képeket manuálisan kell elemezni, mérni és a vonatkozó adatokkal feljegyezni hogy a kutató úgy gondolta, hogy képes azonosítani a kérdéses tárgyat (például szín, mérések és alak). Csak ezután lehetett szoftvereket felhasználni előrejelzések készítésére.
Másrészt a számítógépes látás automatizálja ezt az egész folyamatot egy gépi tanulási megközelítéssel, amelyet mély tanulásnak neveznek. A mély tanulás többrétegű ideghálózatot használ több száz potenciális réteggel. Képek esetében ez általában konvolúciós ideghálózat (CNN).
A mély tanulás és az ideghálózatok működésének részletes ismertetése messze meghaladja a cikk kereteit. Alapvetően nagy mennyiségű adat kerül az ideghálózatba. A neurális hálózat ismételten elemzi az adatokat, amíg pontos előrejelzéseket nem tud kialakítani róla.
A számítógépes látási feladathoz használt CNN esetében az ideghálózat több lépésen keresztül veszi az adatokat. Először is, a képet több részre bontja (egyes képpontok vagy pixelcsoportok, amelyeket előzőleg felcímkéznek).
Ezután előrejelzéseket készít arról, hogy mi található a kép különböző darabjaiban (például kemény élek vagy konkrét tárgyak). Ismételten ellenőrzi ezeknek a jóslatoknak a pontosságát, és minden alkalommal kissé megváltoztatja az algoritmus egyes részeit, amíg nagyon pontos nem lesz.
A számítógépek ma már olyan nagy teljesítményűek, hogy sokkal gyorsabban tudnak elemezni egy képet, mint az emberi agy, különösen, ha megtanultak felismerni bizonyos mintákat. Ilyen módon könnyen belátható, hogy egy mély tanulási algoritmus hogyan lehetne felülmúlni az emberi képességeket.
Melyek a számítógépes látás típusai?
A számítógépes látás magában foglalja a képek elemzését és megértését, valamint a képekkel kapcsolatos releváns előrejelzések vagy döntések kimenetelét. Különböző feladatok vannak, amelyeket a számítógépes látás felhasználhat e célok elérésére. Ezek egy része a következőket tartalmazza:
- Képosztályozás: A kép típusa felismerésre kerül. Például, hogy ez egy személy arca, tájképe vagy tárgya. Ez a fajta feladat felhasználható a képek gyors azonosítására és osztályozására. Ennek egyik felhasználása a nem megfelelő tartalom automatikus felismerése és blokkolása a közösségi médiában.
- Tárgyfelismerés: A képosztályozáshoz hasonlóan az objektumfelismerés képes azonosítani egy adott objektumot egy jeleneten belül, mint például egy pizza az összezúzott asztalon.
- Éldetektáló: A számítógépes látás általános használata, és általában az objektum-észlelés első lépése, a kép kemény széleinek azonosítása.
- Objektumazonosítás: Ez egy tárgy vagy kép egyedi példáinak felismerését jelenti, például egy adott személy, ujjlenyomat vagy jármű azonosítását.
- Tárgyfelismerés: A detektálás egy adott tulajdonság azonosítása a képen belül, például egy törött csont egy röntgenfelvételen.
- Objektum szegmentálás: Ez azonosítja, hogy a kép mely képpontjai tartoznak a kérdéses objektumhoz.
- Objektumkövetés: A videoszekvenciában, ha egy objektum felismerésre került, könnyen nyomon követhető az egész videóban.
- Kép helyreállítása: Az elmosódás, a zaj és egyéb képi tárgyak eltávolíthatók az objektum és a háttér helyének pontos azonosításával.
Példák a számítógépes látásra
A mesterséges intelligencia az már több iparágban is használják megdöbbentő hatással, ami igaz a számítógépes látásra. Íme néhány példa a ma már használt önéletrajzra.
Arcfelismerő
Az arcfelismerés a számítógépes látás egyik fő módja manapság. Ha összehasonlítjuk az ismert arcok adatbázisával, a számítógépes látási algoritmusok nagyon pontosan képesek azonosítani az egyes embereket.
- A közösségi média elemzi a képeket, és automatikusan megcímkézi a felhasználókat, hogy megfelelő képválasztékkal rendelkezik.
- A laptopok, telefonok és biztonsági eszközök azonosíthatják az embereket a hozzáférés engedélyezéséhez.
- A bűnüldöző szervek arcfelismerést alkalmaznak a CCTV rendszerekben a gyanúsítottak azonosítására.
Gyógyszer
A számítógépes látást jelenleg az egészségügyben használják, hogy gyorsabb és pontosabb diagnózist biztosítsanak, mint amennyit a szakértők fel tudnak állítani. Számos alkalmazás magában foglalja a röntgen-, CT- vagy MRI-képek elemzését bizonyos körülmények között, ideértve a neurológiai betegségeket, a daganatokat és a törött vagy törött csontokat.
Önvezető autók
Az autonóm járműveknek meg kell érteniük a környezetüket biztonságosan vezetni. Ez azt jelenti, hogy felismerjük az utakat, sávokat, közlekedési jelzéseket, más járműveket, gyalogosokat és még sok mást. Mindezek a feladatok valós időben használják a számítógépes látórendszereket az ütközések elkerülése és a biztonságos vezetés érdekében.
A számítógépes látás kihívást jelent
A számítógépes látás jelenlegi alkalmazásai már kezdik megváltoztatni a különböző iparágakban végzett munkánkat. A számítógépes látás képes arra, hogy hibás vagy sérült berendezéseket észleljen a rák pontos diagnosztizálásáig a rendszerek fejlesztésére és életmentésre.
De nem nélkülözik a kihívásokat. A számítógépes látás még mindig messze áll attól, ami az emberi látás. Több ezer éves evolúciónk van, amely lehetővé teszi, hogy szinte mindent valós időben felismerjünk és megértsünk, ami körülöttünk történik. De fogalmunk sincs arról, hogy az emberi agy hogyan látja el ezeket a feladatokat.
A mély tanulás hatalmas lépés a helyes irányba, de mégis elképesztő mennyiségű munkát igényel olyan rendszer létrehozása, amely képes olyan feladatot végrehajtani, amelyet az emberek nagyon könnyen meg tudnak valósítani, például azonosítani egy autót a út. A számítógépek ugyanis nagyon hatékonyan látják el a korlátozott feladatokat. A vizuális világ teljes komplexitását megértő számítógép kifejlesztése teljesen más labdajáték.
Mivel egyre több kutatás folyik mind az AI alkalmazással, mind az emberi biológiával kapcsolatban, valószínűleg a közeljövőben robbanást tapasztalhatunk a számítógépes látás lehetséges felhasználására.
A gépi tanulási algoritmusokat úgy tervezték, hogy megkönnyítsék az életet és javítsák a rendszereket, de rossz következményekkel tévedhetnek el.
Olvassa el a következőt
- Technológia magyarázata
- Programozás
- Mesterséges intelligencia
- Neurális hálózatok
Jake Harfield szabadúszó író, székhelye Perth, Ausztrália. Amikor nem ír, általában a bokorban fényképezi a helyi vadon élő állatokat. Meglátogathatja a www.jakeharfield.com címen
Iratkozzon fel hírlevelünkre
Csatlakozzon hírlevelünkhöz, amely műszaki tippeket, véleményeket, ingyenes e-könyveket és exkluzív ajánlatokat tartalmaz!
Még egy lépés…!
Kérjük, erősítse meg e-mail címét az imént elküldött e-mailben.