Szöveg kinyerése PDF-ekből és képekből Linuxon a gImageReader segítségével

Ha Ön diák, vagy a munkája során rengeteg képpel és PDF-fájllal dolgozik, akkor valamikor úgy érezte, hogy szöveget kell kivonnia egy képből vagy egy dokumentumból.

Szerencsére a szövegkivonat ezt lehetővé teszi. És ehhez több eszköz is használható. A gImageReader a sok eszköz egyike. Ingyenesen használható, és képes mind a képfájlokkal, mind a PDF dokumentumokkal dolgozni.

Vessen egy pillantást a gImageReader részletes bemutatására, és nézze meg, hogyan használhatja ki szövegek kinyerésére képekből és PDF-ekből.

Mi az a gImageReader?

A gImageReader egy olyan alkalmazás, amely lehetővé teszi szövegek kinyerését képekből és PDF-fájlokból Linuxon. Ez lényegében egy grafikus felhasználói felület vagy előtér a Tesseact OCR motor, an nyílt forráskód a Hewlett-Packard által kifejlesztett motor, amely az egyik legjobb elérhető OCR-motor.

A gImageReader segítségével egyszerűen és egészen pontosan kinyerhet szöveget képekből vagy PDF dokumentumokból néhány egyszerű kattintással. Ezután a kibontott szöveget szöveges vagy PDF-fájlba exportálhatja további felhasználás céljából.

instagram viewer

A gImageReader szolgáltatásai

A gImageReader a következő szolgáltatásokat tartalmazza:

PDF dokumentumok és képek importálása különböző forrásokból (lemez, lapolvasó eszközök, vágólap és képernyőkép)
Képek vagy dokumentumok kötegelt feldolgozása, azaz egyszerre több képből vagy dokumentumból kivonható szöveg
A szövegrészletek egyszerű szövegként vagy hOCR-dokumentumként való felismerése
Beépített helyesírás-ellenőrző
Automatikus szövegterület felismerés
Alapvető kép/dokumentum szerkesztés
Mentse el a kimenetet szöveges fájlként

A gImageReader telepítése Linuxra

A gImageReader itt érhető el a legtöbb nagyobb Linux disztribúció. Mielőtt azonban folytatná a telepítést, telepítenie kell a Tesseract OCR motort a rendszerére.

Ehhez nyissa meg a Szoftverkezelő a rendszeren, és keressen rá tesserakt. Amikor visszaadja az eredmények listáját, telepítse a tesseract-ocr és tesseract-ocr-eng csomagokat. A csomag telepítéséhez parancssori csomagkezelőket is használhat, ha jobban érzi magát a terminálban.

Ezt követően tekintse meg a következő szakaszokban található telepítési utasításokat a gImageReader számítógépre történő telepítéséhez.

Ha Debiant vagy Ubuntu-t használ, nyissa meg a terminált, és futtassa az alábbi parancsokat a gImageReader telepítéséhez:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-kap frissítés
sudo apt telepítés gimagereader

Fedora, CentOS vagy Red Hat Enterprise Linux (RHEL) rendszeren:

sudo dnf telepítés gimagereader-qt

Tovább Arch Linux vagy Manjaro:

sudo pacman -S gimagereader

Az openSUSE-felhasználók a gImageReader-t a következők segítségével telepíthetik:

sudo zypper telepítés gimagereader

Ha bármilyen más Linux disztribúciót használ, a gImageReader-t a forrásból is elkészítheti a következő helyen található utasításokat követve. gImageReader GitHub.

A gImageReader használata Linuxon

A gImageReader használata meglehetősen egyszerű, és mindenféle képfájllal, valamint PDF-dokumentumokkal működik. Kövesse az alábbi utasításokat, ha szöveget szeretne kivonatolni képekből vagy PDF-fájlokból Linux rendszeren.

Nyissa meg az alkalmazások menüt, keressen rá gImageReader, és indítsa el az alkalmazást. Üsd a Maximalizálás gombot a gImageReader ablakában, hogy teljes képernyős nézetben nyissa meg.

Most kattintson a Képek hozzáadása gombot a bal oldali ablaktáblán az eszköztár alatt, és a fájlböngészővel válassza ki azt a képet vagy PDF-et, amely(ek)ből szöveget szeretne kivonni.

Kattintson Rendben a kép(ek) vagy PDF(ek) gImageReaderbe importálásához. Vagy ha szöveget szeretne kivonni a képernyőn megjelenőből, kattintson a melletti legördülő menüre Képek hozzáadása gombot, és válassza ki Készítsen képernyőképet. A gImageReader képernyőképet készít a képernyő tartalmáról.

Miután hozzáadta a képet a gImageReaderhez, kattintson a Kimeneti ablaktábla váltása gombot (az egyik a jegyzettömb ikonnal) a kimeneti ablaktábla megjelenítéséhez. Itt jelenik meg a képekből vagy PDF-fájlokból kivont szöveg.

Attól függően, hogy hogyan kívánja folytatni, most lehetősége van arra, hogy automatikusan vagy manuálisan azonosítsa a szöveget a képen vagy a PDF-ben. Ennek automatikus végrehajtásához kattintson a gombra Elrendezés automatikus felismerése gombot, és kijelöli a kiválasztott kép vagy PDF dokumentum összes szövegblokkját.

Ezt követően érintse meg a gombot Kijelölés felismerése > Aktuális oldal a szövegkivonási folyamat megkezdéséhez.

Alternatív megoldásként a szöveg manuális kiválasztásához vigye az egérmutatót a kivonatolni kívánt szöveg fölé, és a szálkereszt segítségével rajzoljon egy négyzetet azon terület köré, ahonnan ki szeretné bontani a szöveget. Ezután nyomja meg a A kiválasztás felismerése gombot a folytatáshoz.

Ha ez egy PDF dokumentum, és különböző oldalakról szeretne szöveget kivonni, érintse meg a gombot Plusz (+) gombot az oldalak megfordításához.

A visszalépéshez nyomja meg a gombot Mínusz (-) gombot. Ezután válassza ki a kivonatolni kívánt szöveget, és nyomja meg a gombot A kiválasztás felismerése gombot a kibontásához.

Bár ritka, előfordulhatnak olyan esetek, amikor a gImageReader az angoltól eltérő nyelven adja vissza a kivont szöveget. Ha ez megtörténik, egyszerűen érintse meg a mellette lévő legördülő gombot A kiválasztás felismerése gombot, és válasszon egyet az angol nyelvű lehetőségek közül.

Végül a kivont szöveg mentéséhez kattintson a gombra Mentse a kimenetet gomb. Ekkor megjelenik a Mentés ablak. Itt adjon nevet a fájlnak, és nyomja meg a gombot Rendben.

Mit tehet még a gImageReaderrel?

Amint azt korábban említettük, a gImageReader lehetőséget ad az importált képek vagy dokumentumok bizonyos szempontjainak, például fényerejének, kontrasztjának és felbontásának módosítására is. Ezenkívül szükség esetén megfordíthatja a színeket, vagy elforgathatja a képeket vagy dokumentumokat.

Ezen opciók többsége hasznosnak bizonyulhat, ha a képben vagy dokumentumban lévő szöveg nem olvasható a gImageReader számára, és ezért megakadályozza, hogy az eszköz felismerje a szöveget.

A szerkesztési lehetőségek bármelyikének eléréséhez kattintson a gombra Képvezérlők gombot, és megjelenik egy mini eszköztár a fő eszköztár alatt. Innen válassza ki a megfelelő gombokat a kívánt szerkesztési művelet végrehajtásához a képen vagy dokumentumon.

Szövegkivonás Linuxon egyszerűen a gImageReader segítségével

A szöveg kinyeréséhez gyakran megfelelő eszközre van szükség: olyanra, amely megbízható és pontos OCR-motort alkalmaz lehetővé teszi, hogy hatékonyan azonosítsa a szöveget egy képen vagy dokumentumon, így hatékonyan kibonthatja azt anélkül szóváltás.

A gImageReader ezt szépen teljesíti, köszönhetően a háttérben használt Tesseract OCR motornak. Könnyű használhatóságát tekintve a gImageReader kétségtelenül az egyik legjobb szövegkivonó eszköz a Linux számára.

Alternatív megoldásként, ha egyszerűbb megoldást keres, nézze meg a TextSnatchert, amely gyors és meglehetősen könnyen használható.

About Technology - denizatm.com

Szöveg kinyerése PDF-ekből és képekből Linuxon a gImageReader segítségével

Mi az a gImageReader?

A gImageReader szolgáltatásai

A gImageReader telepítése Linuxra

A gImageReader használata Linuxon

Mit tehet még a gImageReaderrel?

Szövegkivonás Linuxon egyszerűen a gImageReader segítségével

Kategóriák

Recent Post

Internet 2020-ban [INFOGRÁFIA]

5 út a Gmail biztonságának javításához 5 perc alatt

A 7 legrosszabb dolog, amit az internet hozott az életünkbe