Ha Ön diák, vagy a munkája során rengeteg képpel és PDF-fájllal dolgozik, akkor valamikor úgy érezte, hogy szöveget kell kivonnia egy képből vagy egy dokumentumból.
Szerencsére a szövegkivonat ezt lehetővé teszi. És ehhez több eszköz is használható. A gImageReader a sok eszköz egyike. Ingyenesen használható, és képes mind a képfájlokkal, mind a PDF dokumentumokkal dolgozni.
Vessen egy pillantást a gImageReader részletes bemutatására, és nézze meg, hogyan használhatja ki szövegek kinyerésére képekből és PDF-ekből.
Mi az a gImageReader?
A gImageReader egy olyan alkalmazás, amely lehetővé teszi szövegek kinyerését képekből és PDF-fájlokból Linuxon. Ez lényegében egy grafikus felhasználói felület vagy előtér a Tesseact OCR motor, an nyílt forráskód a Hewlett-Packard által kifejlesztett motor, amely az egyik legjobb elérhető OCR-motor.
A gImageReader segítségével egyszerűen és egészen pontosan kinyerhet szöveget képekből vagy PDF dokumentumokból néhány egyszerű kattintással. Ezután a kibontott szöveget szöveges vagy PDF-fájlba exportálhatja további felhasználás céljából.
A gImageReader szolgáltatásai
A gImageReader a következő szolgáltatásokat tartalmazza:
- PDF dokumentumok és képek importálása különböző forrásokból (lemez, lapolvasó eszközök, vágólap és képernyőkép)
- Képek vagy dokumentumok kötegelt feldolgozása, azaz egyszerre több képből vagy dokumentumból kivonható szöveg
- A szövegrészletek egyszerű szövegként vagy hOCR-dokumentumként való felismerése
- Beépített helyesírás-ellenőrző
- Automatikus szövegterület felismerés
- Alapvető kép/dokumentum szerkesztés
- Mentse el a kimenetet szöveges fájlként
A gImageReader telepítése Linuxra
A gImageReader itt érhető el a legtöbb nagyobb Linux disztribúció. Mielőtt azonban folytatná a telepítést, telepítenie kell a Tesseract OCR motort a rendszerére.
Ehhez nyissa meg a Szoftverkezelő a rendszeren, és keressen rá tesserakt. Amikor visszaadja az eredmények listáját, telepítse a tesseract-ocr és tesseract-ocr-eng csomagokat. A csomag telepítéséhez parancssori csomagkezelőket is használhat, ha jobban érzi magát a terminálban.
Ezt követően tekintse meg a következő szakaszokban található telepítési utasításokat a gImageReader számítógépre történő telepítéséhez.
Ha Debiant vagy Ubuntu-t használ, nyissa meg a terminált, és futtassa az alábbi parancsokat a gImageReader telepítéséhez:
sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-kap frissítés
sudo apt telepítés gimagereader
Fedora, CentOS vagy Red Hat Enterprise Linux (RHEL) rendszeren:
sudo dnf telepítés gimagereader-qt
Tovább Arch Linux vagy Manjaro:
sudo pacman -S gimagereader
Az openSUSE-felhasználók a gImageReader-t a következők segítségével telepíthetik:
sudo zypper telepítés gimagereader
Ha bármilyen más Linux disztribúciót használ, a gImageReader-t a forrásból is elkészítheti a következő helyen található utasításokat követve. gImageReader GitHub.
A gImageReader használata Linuxon
A gImageReader használata meglehetősen egyszerű, és mindenféle képfájllal, valamint PDF-dokumentumokkal működik. Kövesse az alábbi utasításokat, ha szöveget szeretne kivonatolni képekből vagy PDF-fájlokból Linux rendszeren.
Nyissa meg az alkalmazások menüt, keressen rá gImageReader, és indítsa el az alkalmazást. Üsd a Maximalizálás gombot a gImageReader ablakában, hogy teljes képernyős nézetben nyissa meg.
Most kattintson a Képek hozzáadása gombot a bal oldali ablaktáblán az eszköztár alatt, és a fájlböngészővel válassza ki azt a képet vagy PDF-et, amely(ek)ből szöveget szeretne kivonni.
Kattintson Rendben a kép(ek) vagy PDF(ek) gImageReaderbe importálásához. Vagy ha szöveget szeretne kivonni a képernyőn megjelenőből, kattintson a melletti legördülő menüre Képek hozzáadása gombot, és válassza ki Készítsen képernyőképet. A gImageReader képernyőképet készít a képernyő tartalmáról.
Miután hozzáadta a képet a gImageReaderhez, kattintson a Kimeneti ablaktábla váltása gombot (az egyik a jegyzettömb ikonnal) a kimeneti ablaktábla megjelenítéséhez. Itt jelenik meg a képekből vagy PDF-fájlokból kivont szöveg.
Attól függően, hogy hogyan kívánja folytatni, most lehetősége van arra, hogy automatikusan vagy manuálisan azonosítsa a szöveget a képen vagy a PDF-ben. Ennek automatikus végrehajtásához kattintson a gombra Elrendezés automatikus felismerése gombot, és kijelöli a kiválasztott kép vagy PDF dokumentum összes szövegblokkját.
Ezt követően érintse meg a gombot Kijelölés felismerése > Aktuális oldal a szövegkivonási folyamat megkezdéséhez.
Alternatív megoldásként a szöveg manuális kiválasztásához vigye az egérmutatót a kivonatolni kívánt szöveg fölé, és a szálkereszt segítségével rajzoljon egy négyzetet azon terület köré, ahonnan ki szeretné bontani a szöveget. Ezután nyomja meg a A kiválasztás felismerése gombot a folytatáshoz.
Ha ez egy PDF dokumentum, és különböző oldalakról szeretne szöveget kivonni, érintse meg a gombot Plusz (+) gombot az oldalak megfordításához.
A visszalépéshez nyomja meg a gombot Mínusz (-) gombot. Ezután válassza ki a kivonatolni kívánt szöveget, és nyomja meg a gombot A kiválasztás felismerése gombot a kibontásához.
Bár ritka, előfordulhatnak olyan esetek, amikor a gImageReader az angoltól eltérő nyelven adja vissza a kivont szöveget. Ha ez megtörténik, egyszerűen érintse meg a mellette lévő legördülő gombot A kiválasztás felismerése gombot, és válasszon egyet az angol nyelvű lehetőségek közül.
Végül a kivont szöveg mentéséhez kattintson a gombra Mentse a kimenetet gomb. Ekkor megjelenik a Mentés ablak. Itt adjon nevet a fájlnak, és nyomja meg a gombot Rendben.
Mit tehet még a gImageReaderrel?
Amint azt korábban említettük, a gImageReader lehetőséget ad az importált képek vagy dokumentumok bizonyos szempontjainak, például fényerejének, kontrasztjának és felbontásának módosítására is. Ezenkívül szükség esetén megfordíthatja a színeket, vagy elforgathatja a képeket vagy dokumentumokat.
Ezen opciók többsége hasznosnak bizonyulhat, ha a képben vagy dokumentumban lévő szöveg nem olvasható a gImageReader számára, és ezért megakadályozza, hogy az eszköz felismerje a szöveget.
A szerkesztési lehetőségek bármelyikének eléréséhez kattintson a gombra Képvezérlők gombot, és megjelenik egy mini eszköztár a fő eszköztár alatt. Innen válassza ki a megfelelő gombokat a kívánt szerkesztési művelet végrehajtásához a képen vagy dokumentumon.
Szövegkivonás Linuxon egyszerűen a gImageReader segítségével
A szöveg kinyeréséhez gyakran megfelelő eszközre van szükség: olyanra, amely megbízható és pontos OCR-motort alkalmaz lehetővé teszi, hogy hatékonyan azonosítsa a szöveget egy képen vagy dokumentumon, így hatékonyan kibonthatja azt anélkül szóváltás.
A gImageReader ezt szépen teljesíti, köszönhetően a háttérben használt Tesseract OCR motornak. Könnyű használhatóságát tekintve a gImageReader kétségtelenül az egyik legjobb szövegkivonó eszköz a Linux számára.
Alternatív megoldásként, ha egyszerűbb megoldást keres, nézze meg a TextSnatchert, amely gyors és meglehetősen könnyen használható.