kaboompics.com_iPhone 6 Plus, notebook, pencils and laptop on the desk

OCR – Optical Character Recognition

W życiu potrafi zdarzyć się sytuacja, gdy jesteśmy zmuszeni do zmiany lub poprawy gotowego tekstu przy pomocy komputera, jednak posiadamy wyłącznie jego skan lub zdjęcie. Taki dokument jest niczym innym jak zbiorem kolorowych (z reguły czarno-białych) plamek, które nie są możliwe do otworzenia w edytorach takich jak Microsoft Word. Co zrobić w takiej sytuacji?

Oczywiście możemy spędzić całe godziny na żmudnym przepisywaniu tekstu na klawiaturze, ale na szczęście współczesna technologia umożliwia zaoszczędzenie naszego cennego czasu. Wystarczy tylko zeskanować interesujące nas pismo (lub zrobić mu zdjęcie aparatem cyfrowym) i wykorzystać odpowiednie oprogramowanie.

Nowa jakość w skanowaniu

Optical Character Recognition (OCR bo o nim mowa) to program pozwalający na  rozpoznawanie znaków w pliku graficznym i konwertowanie go do postaci pozwalającej na swobodną edycję tekstu. Całość opiera się w uproszczeniu na procedurze rozpoznawania symboli w obrazie a następnie układaniu ich w słowa i zdania, pozwalające na swobodną edycję oryginału. Można powiedzieć, że powyższe rozwiązanie jest niczym innym jak przeniesieniem na wirtualny grunt ludzkiego dekodowania obiektów i ich znaczenia. Cała procedura OCR rozpoczyna się od analizy struktury badanego dokumentu oraz dzielenia go na tekst i pozostałe elementy, takie jak tabele czy ilustracje. Po podzieleniu symboli następuje ich porównanie z gotowymi wzorcami, pozwalające na wstępne określenie tego czym jest dany znak. Gdy powyższy etap zostaje zakończony rozpoczyna się analiza wszystkich możliwych wariantów i ostateczne rozpoznanie tekstu. Po zakończeniu tego procesu wystarczy już tylko zapisać finalny efekt w jednym z popularnych formatów, np. PDF czy DOC.

Ewolucja oprogramowania OCR

Wczesne wersje programów wykorzystujących OCR posiadały wiele niedoskonałości, które były jednak systematycznie eliminowane wraz z rozwojem tak zwanego ICR, czyli Intelligent Character Recognition. Wypracowane w nim rozwiązania pozwoliły na znacznie dokładniejsze analizy takich elementów jak interlinia czy krój czcionki – w efekcie czego stało się możliwe rozpoznawanie także odręcznego pisma oraz natychmiastowe interpretowanie ręcznego pisania na tablecie. Pomysł został wykorzystany nawet do przetłumaczenia alfabetu Braille’a osobom nie mającym z nim styczności na co dzień. Całość Optical Braille Recognition opiera się na analizie tekstu przy pomocy odpowiedniego oświetlenia wszystkich wgłębień i wypukłości alfabetu i konwertowaniu go na klasyczny alfabet łaciński.

Automatic Number Plate Recognition

OCR to technologia, która dzięki swojej rewolucyjności znalazła praktyczne zastosowanie w wielu segmentach. Przykładowo, możliwość automatycznego rozpoznania numerów tablic rejestracyjnych (także na zdjęciach) znacznie ułatwiła pracę służb Policji. Dzięki zastosowaniu w radiowozach kamer z systemem ANPR wykrywanie poszukiwanych samochodów stało się możliwe nawet podczas osiągania dużych prędkości. ANPR okazał się na tyle praktyczny, że został wykorzystany również poza służbami porządkowymi,  chociażby w systemach parkingowych. Ich działania opiera się na procedurze, w której moment podjechania samochodu do bramki parkingowej jest fotografowany przez kamerę – zaś system rozpoznaje, czy pojazd może zostać wpuszczony na parking.

Digitalizacja bibliotek

Techniki OCR są wykorzystywane również przez biblioteki do digitalizacji ich zasobów. Niektóre z nich zdecydowały się także na użycie wspomnianej technologii w celu ułatwienia odczytywania danych z formularzy wypełnianych ręcznie. Wydaje się zresztą, że optyczne rozpoznawanie obrazów jest wprost stworzone dla książek – co potwierdzają przeróżne sposoby zastosowania tej technologii wobec druku. Jednym z nich jest Projekt Guteberg, czyli inicjatywa umieszczająca w Internecie elektronicznych wersji papierowych publikacji. Aktualnie liczba książek wynosi ponad 40 tysięcy dzieł i znajdziemy wśród nich także polskie klasyki przetłumaczone na język angielski – niektóre z nich, jak np. Quo Vadis doczekały się nawet własnego audiobooka. Z książkową inicjatywą wyszło również samo Google, które poprzez Google Books stworzyło wyszukiwarkę dzieł wykorzystującą OCR. Stworzony katalog obejmuje książki z największych księgarni i bibliotek, znajdujących się na całym świecie. Strona konkretnej książki zawiera najczęściej podgląd strony tytułowej oraz spis treści – jednak zdarzają się również przypadki, w których dana pozycja jest udostępniona w całości.

Rozwiązania dla przedsiębiorstw

Opisywana technologia to również element pracy wielu instytucji i firm, chociażby ubezpieczeniowych – dzięki automatycznemu wyciąganiu kluczowych informacji z dokumentów ubezpieczenia ich praca stała się znacznie efektywniejsza i mniej czasochłonna. OCR umożliwiło również zautomatyzowane wprowadzanie danych do dokumentów, co zostało wykorzystane między innymi w urzędach przy okazji paszportów, wypisywaniu recept czy przy wystawianiu wszelakiego rodzaju faktur.  

Polski rynek usług optycznej analizy dokumentów nie jest imponująco wielki, jednak w przeciągu ostatnich lat dorobił się kilku prężnie działających usług. Usługa skanuj.to (www.skanuj.to) oferuje użytkownikom możliwość przesłania zdjęć lub skanów interesujących nas dokumentów, które następnie zostaną poddane rozpoznawaniu zawartości. Po zakończeniu całego procesu zostaną z nich wyciągnięte najważniejsze informacje, zaś przetworzone zdjęcia zostaną bezpiecznie zarchiwizowane. Dodatkowym plusem oferty jest możliwość wygodnego przeszukiwania danych w dowolnym miejscu i czasie oraz obsługa większości dokumentów – obojętnie czy mówimy o paragonie czy np. fakturze paliwowej. Pakiety Plus oraz Multi oferują ponadto także analizę zeskanowanych danych oraz ich zintegrowanie z najpopularniejszymi programami księgowymi.

W niektórych przypadkach zdecydowano się na kompleksowe połączenie inteligentnego skanowania z innymi usługami, przydatnymi chociażby dla firm. Przykładem polskiej platformy wykorzystującej w taki sposób ocr-owanie jest serwis szybkafaktura.pl, który zapewnia obsługę dla małych i średnich przedsiębiorstw. Stworzona platforma on-line została dostosowana do najważniejszych potrzeb odbiorcy, zapewniając mu gotowy zestaw narzędzi do tworzenia dokumentów – lub też skorzystania z pomocy doświadczonego księgowego. Zdecydowaną zaletą tego typu usług jest zautomatyzowane wprowadzanie większości danych  i natychmiastowa komunikacja z podmiotami ważnymi dla naszej działalności – co pozwala przedsiębiorstwu zaoszczędzić zarówno czas, jak i pieniądze.

OCR a internauci

OCR stał się na tyle popularnym i przydatnym rozwiązaniem, że został wykorzystany nawet na nieświadomych niczego internautach. Zamieszczana na wielu stronach czy forach reCAPTCHA (czyli popularne przepisywanie tekstu z obrazka) jest bowiem niczym innym jak optycznym rozpoznawaniem pisma – z tą różnicą, że jest ono dokonywane przez żywą osobę. Dzięki takiemu zabiegowi pomagamy rozpoznać fragmenty zeskanowanego tekstu z którym nie poradziło sobie samo oprogramowanie… i łączymy pożyteczny proceder z ochroną stron internetowych.

Programy bazujące na optycznej analizie obiektów

W ostatnich latach na rynku pojawiło się również wiele programów oferujących optyczne rozpoznawanie pisma dla indywidualnego użytkownika. Jedną z najwyżej ocenianych aplikacji jest OmniPage, oferująca zaawansowane narzędzia konwersji plików w formacie PDF lub uchwyconych aparatem cyfrowym. Program rozpoznaje bez problemu wiele rodzajów pisma, obsługując wszystkie najważniejsze aplikacje biurowe. OmniPage pozwala również na pełne zintegrowanie z  systemem Windows i jednoczesne rozpoznawanie i konwertowanie plików. Finalne dokumenty nie tracą nic ze swojej treści, zachowując także oryginalne tabele oraz grafiki. Koszt jednorazowego zakupu programu to ponad 1700 złotych.

Kolejnym programem wykorzystującym technologię OCR jest popularny Adobe Acrobat, szczycący się obsługą niestandardowych czcionek oraz tworzenia tak zwanych inteligentnych plików PDF, które posiadają opcje wyszukiwania i kopiowania fragmentów. Zależnie od pakietu użytkowanie programu (w wersji standard i pro) to koszt około 60 lub 75 złotych miesięcznie.

ABBY FineReader jest z kolei najchętniej używany przez polskie firmy. Za kwotę wahającą się pomiędzy 343 a 690 pln oferuje aplikację zapewniającą pełne interpretowanie danych z dokumentów i obrazów – a nawet odtwarzanie pierwotnej struktury złożonych dokumentów, liczących wiele stron. Program radzi sobie również z dokumentami w niskiej rozdzielczości.

To oczywiście nie koniec bogatej oferty aplikacji wykorzystujących technologię OCR – możemy wymienić wśród nich chociażby takie programy jak Readiris, Power PDF Advanced, Soda PDF czy PaperPort. Są one bardzo wysoko oceniane przez użytkowników, proponując zróżnicowaną i dostosowaną do potrzeb klienta ofertę cenową.

Przełom w skanowaniu pisma

Nie będzie przesadnym stwierdzenie, że OCR jest rewolucją w dziedzinie edycji i magazynowania tekstu – która dała przy okazji początek szeregowi innych praktycznych rozwiązań. Po raz pierwszy w historii otrzymaliśmy nie tylko możliwość eliminacji zajmujących przestrzeń archiwów, ale także uczynienie ich w pełni podatnymi na edycję, konwersję i wszelakie poprawki. Dla wielu osób, przedsiębiorstw czy instytucji takie rozwiązanie stało się doskonałą okazją do zaoszczędzenia cennego czasu, miejsca i kosztów.

Więcej na temat OCR możesz przeczytać tutaj