obr

OBR – Optical Braille Recognition

Optyczne rozpoznawanie Braille’a OBR jest przechwytywaniem oraz konwertowaniem dotykowego alfabetu  na tradycyjny tekst dla osób widzących. Zabieg ten jest stosowany w celu umożliwienia poznania treści ludziom nieznającym Braille’a oraz przy ochronie i reprodukcji dokumentów.

Historia oprogramowania

W 1984 roku grupa naukowców z Delft University of Technology zaprojektowała tablet zdolny do odczytywania pisma dla niewidomych. Cały proces opierał się na wykorzystaniu światłoczułych komórek w aparacie, które były zdolne do odczytywania tekstu linia po linii. W 1988 roku francuska grupa badaczy z Uniwersytetu w Lille stworzyła algorytm, nazwany przez nich Lectobraille. Jego podstawową funkcją była konwersja dokumentów spisanych w Braille’u na docelowy tekst. System fotografował pierwotny tekst przy pomocy kamery o dość niskiej rozdzielczości, po czym stosował zaawansowane techniki w celu wyciągnięcia z niego treści. Ta była z kolei konwertowana na naturalny język przy użyciu tzw. adaptative recognition. Granica błędu całego wynalazku wynosiła zaledwie 1%, zaś konwersja zajmowała przeciętnie 7 sekund na jedną linijkę.

W 1993 roku naukowcy z Katolickiego Uniwersytetu w belgijskim Leuven zbudowali z kolei system do rozpoznawania Braille’a przy pomocy dostępnych powszechnie skanerów. Niestety, program był niezdolny do radzenia sobie ze zdeformowaniami. W 1999 grupa z Politechniki w Hong Kongu zaimplementowała technologię ocr do tłumaczenia Braille’a na angielski i chiński. Wypracowane rozwiązywanie wykorzystywało zaawansowane wykrywanie krawędzi znaków na podstawie różnej jasności konkretnych obszarów pisma. W 2001 roku wydano tzw. handheld recognition system, który jednorazowo skanował niewielkie obszary dokumentu – ale był na tyle poręczny, że mógł być używany np. w podróży. Ze względu na niewielkość badanego obszaru, badanie deformacji stawało się dość utrudnione. W efekcie w sprzęt zaimplementowano z czasem nową i bardziej skuteczną wersję algorytmu.

W 2003 roku zaprojektowano z kolei system odpowiedzialny za rozpoznanie liter z alfabetu Braille’a przy użyciu tzw. artifical neural networks – czyli modelu opartym o niemal statystyczne zapamiętywanie różnych modeli, które po połączeniu ze sobą w „neurony” sprawiały, że system „uczył się” zdobytych informacji. Ze względu na zaawansowane techniki wykorzystywane w oprogramowaniu (a w efekcie radzenie sobie także z podniszczonymi dokumentami) zyskał on znacznie większa aprobatę od swoich poprzedników.

Zastosowanie OBR

Optical Braille Recognition jest używane do digitalizacji oraz reprodukcji tekstów które nie były pierwotnie tworzone przy pomocy komputerów – a np. przy pomocy specjalistycznych maszyn do pisania. Digitalizacja przynosi jeszcze jedną korzyść w postaci oszczędności miejsca, bowiem oryginalny alfabet wymaga o wiele więcej przestrzeni pomiędzy poszczególnymi znakami. Wizualne rozpoznawanie alfabetu dla niewidomych jest oczywiście użyteczne także dla osób, które nie go nie znają i potrzebują dostępów do zapisanych w nim dokumentów.

Wyzwania OBR

Wiele problemów stojących na drodze do przetłumaczenia tekstu Braille’a wynika z jego natury. Jest on najczęściej drukowany na kolorowym papierze bez użycia tuszu, który tworzyłby odpowiedni kontrast pomiędzy literami a tłem. Doprowadza to do powstawania wielu niedoskonałości na skanach, co z kolei utrudnia interpretacje treści przez algorytm.

Wiele dokumentów jest drukowanych w technice inter-point, co oznacza dwustronny druk. W przypadku alfabetu opartego o wypukłości oznacza to utrudniające zagłębienia z drugiej strony.

Techniki OBR

Niektóre techniki Optical Braille Recognition próbują wykorzystywać różne kąty padania światła oraz kamery do stworzenia odpowiedniego cienia przy analizowanych wypukłościach oraz wgłębieniach. Znacznie bardziej powszechne jest jednak używanie dostępnych komercyjnie skanerów dla dokumentów.

Wraz z rozwojem technologii oraz coraz lepszej jakości urządzeń skanujących oraz rejestrujących rozpoznawanie Braille’a staje się coraz powszechniejsze. Cały proces stał się na tyle prosty i szybki, że znajduje zastosowanie zarówno w przypadku uniwersytetów czy firm, jak i indywidualnych osób. Przy pomocy kilku prostych komend w zaledwie kilka sekund otrzymują oni gotowe tłumaczenie. Doprowadziło to w prostej linii do wzrostu komunikatywności z osobami niewidomymi oraz znacznym przyśpieszeniu odszyfrowywania całej treści potrzebnych dokumentów.

Phptp credits: Roland DG Mid Europe Italia/ flickr.com/photos/rolanddme