OCR-tekst in PDF- en afbeeldingsbestanden in Adobe Acrobat

Gescande documenten zijn geweldig. Hiermee kunt u stapels papier in mappen op uw computer archiveren, neemt u veel minder ruimte in beslag en wordt het oneindig veel eenvoudiger om te organiseren, verplaatsen en kopiëren. Wat is er niet zo geweldig is het vinden van inhoud opgeslagen weg in een van uw honderden gescande documenten. Standaard zijn ze niet veel meer dan een afbeelding van je document - en als je informatie binnenin je wilt vinden, moet je ze allemaal openen en zelf lezen.

Of u kunt uw computer het zware werk voor u laten doen, door uw afbeelding in tekst om te zetten en u door uw gescande documenten te laten zoeken net zo gemakkelijk als u door andere documenten zoekt. Dat is wat OCR-Optical Character RERKENNING-doet. Het gebruikt de slimheid van uw computer om lettervormen in een afbeelding of gescand document te herkennen en om te zetten in digitale tekst die u naar behoefte kunt kopiëren en bewerken.

U kunt als volgt de OCR-tool gebruiken die is ingebouwd in Adobe Acrobat om uw gescande documenten en afbeeldingen van tekst om te zetten in echte digitale tekst.

OCR een document of afbeelding in Acrobat

Adobe Acrobat is het originele standaardprogramma voor het maken, bewerken en bekijken van PDF-bestanden. Het wordt vaak gebruikt in het bedrijfsleven en is gebundeld met Adobe Creative Suite en de volledige versie van Creative Cloud, dus er is een grote kans dat uw bedrijfscomputer het al heeft geïnstalleerd, of u kunt het gratis installeren via uw Creative Cloud-abonnement. Als dat zo is, is het een geweldig hulpmiddel om uw documenten snel op een Mac of pc te OCR.

Notitie: deze tutorial vereist Adobe Acrobaat, niet Adobe Lezer. De laatste is een gratis app alleen voor het bekijken van PDF's. Als dat alles is wat je hebt, ga dan naar het einde van deze tutorial voor enkele andere geweldige OCR-tools die je kunt gebruiken.

Open uw afbeelding of PDF en zorg dat Acrobat uw tekst herkent

Acrobat herkent tekst in elk PDF- of afbeeldingsbestand in tientallen talen. Het enige wat u hoeft te doen is het gescande document of de afbeelding openen die u wilt OCR en klik vervolgens op de blauwe Hulpmiddelen knop in de rechterbovenhoek van de werkbalk. Selecteer in die zijbalk de Herken tekst tab en klik vervolgens op de In dit bestand knop.

Je krijgt nu een aantal opties om je OCR te tweaken. Als u een document herkent dat in de standaardtalen van uw computer staat (Engels (VS) in mijn geval), klikt u gewoon op OK om je tekst herkend te krijgen. Anders klikt u op de Bewerk… om uw OCR-taal te selecteren, uw PDF-uitvoerstijl te kiezen en de resolutie die u wilt dat Acrobat gebruikt bij het herkennen van uw tekst.

Tweak uw OCR-instellingen

Na een korte pauze die wordt aangegeven door een voortgangsbalk onder aan het venster, wordt uw tekst volledig herkend. Het duurde slechts ongeveer 15 seconden om tekst te herkennen op een gescand formulier van 1 pagina op mijn MacBook Air van 2012, maar een paar minuten op een 30 pagina's full-colour tekstboek PDF. Als het klaar is, kunt u elke tekst in het document selecteren en kopiëren zoals normaal, of zoeken naar tekst in het document. Acrobat slaat de herkende tekst standaard op in het oorspronkelijke bestand wanneer u een PDF herkent. Als u een afbeelding OCR gebruikt, wordt de afbeelding met de tekst in een nieuw PDF-bestand opgeslagen. Hoe dan ook, de herkende tekst verschijnt achteraf in een PDF-reader, alsof het een origineel digitaal document is.

Kopieer tekst uit een gescand document als platte tekst of met opmaak of gebruik de PDF gewoon als een normale PDF

Als de tekst wordt herkend, kunt u nu de PDF markeren met alle normale markeringshulpmiddelen: u kunt markeringen accentueren, tekst doorsnijden en meer. Je kunt de tekst zelfs kopiëren met de gedetecteerde opmaak, hoewel dat vaak minder nauwkeurig is dan de tekstherkenning zelf.

Exporteer uw OCR-documenten

Als u uw originele gescande documenten wilt bewerken of de informatie erin in een nieuw document opnieuw wilt gebruiken, wilt u meer dan alleen selecteerbare tekst in een PDF. U wilt het volledige document geconverteerd. Acrobat maakt dat ook gemakkelijk, herkent de tekst en exporteert hem in één stap als een nieuw document.

Open gewoon het document dat u wilt OCR en converteren, klik het dossier > Opslaan als… en kies het formaat dat je wilt. U kunt exporteren als Word- of RTF-document, Excel- of CSV-spreadsheet of als HTML. Voeg de gewenste bestandsnaam toe en de locatie waar u uw nieuwe bestand wilt opslaan en klik op Opslaan. In Acrobat wordt dezelfde voortgangsbalk onder aan het venster weergegeven als waarin de tekst en opmaak in uw document worden herkend en vervolgens de geëxporteerde kopie wordt opgeslagen.

Exporteer uw afbeeldingen en PDF's vanuit Acrobat met wisselende resultaten.

Acrobat-export van gescande documenten is verrassend goed en frustrerend slecht. Het zal de meeste tekst en opmaak herkennen, en je zult waarschijnlijk verrast zijn door hoe mooi het voltooide geëxporteerde document eruit ziet als het niet te complex is. Maar dan is het nog steeds niet het originele document. Er zijn fouten, formattering die je moet repareren en meer. De beste manier is altijd om het originele digitale document te gebruiken, maar dit is een geweldige manier om een digitale kopie van een document terug te krijgen als je alleen een scan hebt.

OCR is niet perfect, maar de OCR van Acrobat is redelijk goed. In deze ingescande vorm werd bijna elk woord correct herkend, maar één exemplaar van het woord Naam werd gedetecteerd als N "" e. Dat is perfect genoeg als je gewoon in staat wilt zijn om ruwweg door je documenten te zoeken met de zoekfunctie van je PDF-lezer, maar als je de OCR echt gebruikt om een kopie van de originele tekst te maken, wil je het bewijs Lees het eerst en zorg ervoor dat u eventuele duidelijke fouten corrigeert.

OCR meerdere documenten tegelijk

Heb je een hoop documenten die je meteen wilt OCR? Acrobat is daar ook geweldig in. Open gewoon elk document in Acrobat en open vervolgens de Herken tekst zijbalk zoals voorheen. Selecteer deze keer In meerdere bestanden knop, en je ziet een venster waarin je al je bestanden kunt verslepen die je wilt OCR. Nogmaals, u kunt PDF- of afbeeldingsbestanden toevoegen en Acrobat herkent de tekst en slaat deze op in PDF-indeling. Er zijn ook enkele extra opties, waar u kunt kiezen waar u de voltooide bestanden wilt opslaan en hoe u ze wilt benoemen.

Andere OCR-hulpmiddelen

Acrobat is natuurlijk niet de enige manier om OCR-tekst uit uw gescande documenten te verwijderen. Als je er nog geen exemplaar van hebt, zijn er een hoop andere tools die je kunt gebruiken. We hebben al de beste hulpprogramma's voor OCR op uw Mac behandeld: Prizmo, FineReader, de Doxie-app, PDFPen en Evernote. Prizmo en PDFPen werken ook op uw iOS-apparaten voor OCR onderweg, en de Doxie-app werkt ook op pc's. Evernote laat je tekst niet kopiëren, maar het werkt overal - en op de pc is de OCR van OneNote geweldig en gratis.

Er is ook de gratis Tesseract OCR-bibliotheek, met een vreselijk standaard gratis Mac-app die tekst voor je kan herkennen. Een andere budgetvriendelijke OCR-tool is pica-tekst, voor $ 3,99. Hoe dan ook, als OCR alles is wat je nodig hebt, hoef je daarvoor geen kopie van Acrobat te krijgen, maar als je Acrobat hebt, is de OCR-tool een geweldige extra.

Conclusie

Een paar minuten nodig om OCR te maken, uw PDF-documenten zijn voldoende om van eenvoudige afbeeldingen van uw papieren documenten te komen tot digitale documenten die u kunt doorzoeken, tekst kopiëren, opmaken en exporteren in Office-indelingen. Acrobat is verguisd voor zijn PDF-lezer, maar het heeft nog steeds een groot aantal geweldige functies, en OCR is er een van.

Als u een kopie van Acrobat of een Creative Cloud-abonnement hebt, probeert u het en krijgt u uw gescande documenten OCRed. Ze zullen direct veel waardevoller voor u zijn dan ze ooit zouden zijn als gewone scans.

Computer vaardigheden