OCR w technologii mobilnej

OCR Optical Character Recognition w technologii mobilnej

Technologie mobilne rozwijają się aktualnie w błyskawicznym tempie – tylko w przeciągu ostatnich 10 lat telefony komórkowe zwiększyły moc swoich procesorów blisko trzydziestokrotnie. Dzięki temu producenci wszelakich aplikacji są w stanie wdrażać w życie technologie, które do niedawna uchodziły za pomysły rodem z filmów science-fiction. Nie inaczej jest w przypadku skanowania metodą Optical Character Recognition OCR, które oprócz tradycyjnej zamiany dokumentów w podatny na edycję tekst znalazło swoje zastosowanie także w kilku innych dziedzinach.

Wirtualne przełamanie barier językowych dzięki OCR

Tłumaczenie tekstów obcojęzycznych w czasie rzeczywistym wydaje się jednym z ciekawszych przykładów korzystania z dobrodziejstw telefonicznego postępu. W 2010 roku firma Quest Visual rozpoczęła prace nad zupełnie nowym sposobem wykorzystania optycznego rozpoznawania obiektów. Zespół odpowiedzialny za Word Lens, bo tak została nazwana aplikacja, postawił sobie za cel wyniesienie programów translacyjnych na zupełnie nowy poziom. W przeciwieństwie do klasycznych tłumaczy program miał zaoferować swoim użytkownikom możliwość skanowania napisów w obcym języku (umieszczonych np. na znaku, rozkładzie jazdy, plakacie czy menu w restauracji) i natychmiastowego przekładania go na zrozumiały dla nich język. Co ważne, cały proces odbywałby bez konieczności połączenia z Internetem, dzięki czemu mielibyśmy dostęp do najwyższej jakości tłumacza w dowolnym zakątku globu. Ogromny potencjał pomysłu dostrzegła także korporacja Google, która w 2014 roku włączyła Quest Visual w swoje struktury. Sama aplikacja ujrzała światło dzienne 18 kwietnia 2014 roku na urządzenia z systemami iOS oraz Android.

Na czym to polega?

Działanie Word Lens opiera się na rejestracji obiektów w naszym otoczeniu przy pomocy tradycyjnego aparatu, zamontowanego w telefonie. Widoczny obraz zostaje następnie przesłany do aplikacji, która wykorzystuje ocr-owanie otrzymanego obrazu, przetwarzając w czasie rzeczywistym rozpoznane przez siebie słowa na wybrany przez nas język. W efekcie wyświetlacz smartfona ukazuje nam nadal ten sam obraz, który uchwyciła kamera – jednak tym razem oryginalny tekst jest zastąpiony tłumaczeniem. Obecna wersja Word Lens pozwala na dokonywanie całego procesu w siedmiu różnych językach: hiszpańskim, angielskim, rosyjskim, niemieckim, portugalskim, francuskim oraz włoskim. Jak na razie nie uświadczymy tu zatem języka polskiego, jednak tak jak w przypadku przeglądarkowego Google Translate liczba języków powinna z czasem wzbogacić się o język polski. Sam program jest udostępniany za darmo, jednak każdy dodatowy język jest płatny. Takie rozwiązanie ma swoje zalety (możemy np. potrzebować tylko jednego języka, więc płacimy mniej niż za wszystkie), ale jednocześnie stanowi spory wydatek dla osób podróżujących po wielu krajach.

Błędy wieku dziecięcego

Aplikacja nadal boryka się z wieloma problemami. Ze wzgledu na tłumaczenie pojedynczych słów często dochodzi do sytuacji, w której przy bardziej skomplikowanych obrazach zdarza się zgubić jej sens – co owocuje wyświetlaniem nie do końca poprawnie (lub wręcz abstrakcyjnie) brzmiących zdań. Word Lens nie radzi sobie póki co również z odręcznym pismem i stylizowanymi czcionkami. W niektórych momentach oprogramowanie traci również ostrość obrazu, przez co zamiast liter widzimy tylko rozmyte plamki. Pomimo wszystkich powyższych minusów tłumaczenie dokonywane przez Word Lens spełnia na dzień dzisiejszy swoją nadrzędną rolę – pozwala nam zrozumieć sens tekstu w obcym języku, radząc sobie całkiem nieźle z wszelakiego rodzaju znakami czy tablicami informacyjnymi. Oczywiście należy spodziewać się tego, że z czasem aplikacja będzie rozwijana i kolejne wersje wyeliminują występujące aktualnie mankamenty. Od jakiegoś czasu trwają również prace nad zaadaptowaniem Word Lens na potrzeby kolejnego wynalazku korporacji z Mountain View w postaci Google Glass.

Mobilny OCR w służbie wzrokowi

Opisywane rozwiązania mogą znaleźć zastosowanie również w innych, często użytecznych przypadkach. Pomysł na zintegrowanie aparatu z aplikacją rozpoznającą treść na obiektach został wykorzystany również przez LookTel. W przeciwieństwie Word Lens wspomniany program zajął się niesieniem pomocy osobom mającym problemy ze słabym wzrokiem. Wypracowane rozwiązanie wykorzystuje natychmiastową analizę tekstu na zeskanowanych przy pomocy telefonu obiektach i wyświetla je w formie wyraźnego i znacznie większego napisu. Według producentów program radzi sobie bez problemu z treścią opakowań, puszek, płyt, znaków czy napisów w sklepach. W chwili obecnej aplikacja posiada dwie wersje: pierwsza z nich służy do rozpoznawania obiektów, druga została zaprojektowana bezpośrednio do skanowania pieniędzy. Obecnie jest ona zdolna do rozpoznawania 21 nominałów z całego świata, wśród których znajdziemy także polską walutę. Dodatkowym ułatwieniem dla użytkowników jest  możliwość głosowego oczytania kwoty zeskanowanych pieniędzy.

Aplikacja jest dostępna póki co wyłącznie na telefony i tablety z systemem iOS, jednak twórcy pracują już nad wersją na pozostałe urządzenia. Program jest także ciągle rozwijany we współpracy zarówno z samymi użytkownikami, jak i amerykańskimi National Eye Institute oraz National Institute of Health.

Żadnych granic OCR?

Jeżeli firmy pracujące nad mobilnym ocr-owaniem zlikwidują wszystkie problemy dotychczasowych wersji oprogramowania, będziemy mieli do czynienia z prawdziwym przełomem. W dzisiejszych czasach bariera językowa pomiędzy ludźmi z różnych krajów staje się coraz mniejszą przeszkodą w komunikacji – zaś dzięki aplikacjom pozwalającym na bezpośrednie tłumaczenie treści w otoczeniu podróżujących może się ona stać wręcz marginalna. Rewolucyjna technologia (co widać chociażby na wspomnianym przykładzie LookTel)  prawdopodobnie znajdzie zastosowanie także w wielu innych dziedzinach życia – co znacznie poprawi komfort wykonywania codziennych czynności ludziom z całego świata.