Nowa wersja mobilnego programu do optycznego rozpoznawania tekstu “Prizmo Go”

Opublikowane w: Aktualności ze świata technologii asystujących

Autor: Sylwester Piekarski - s.piekarski@uw.edu.pl, Dodane w dniu: 06-03-2018

(Zrzut ekranu – strona firmy Creaceed https://creaceed.com)

Firma Creaceed, na swojej stronie poinformowała o wydaniu aktualizacji aplikacji do optycznego rozpoznawania tekstu OCR o nazwie Prizmo Go. Program w wersji 2.0 posiada nowy, oparty na sieciach neuronowych, skuteczniejszy system OCR, umożliwiający rozpoznawanie większej liczby języków, rozpoznawanie tekstu drukowanego i pisma ręcznego w chmurze oraz umożliwia tłumaczenie tekstu na 42 języki. Rozpoznawanie pisma ręcznego działa tylko dla języka angielskiego.

Prizmo Go to innowacyjna aplikacja, która pozwala użytkownikowi zrobić zdjęcie drukowanego lub napisanego ręcznie tekstu, a następnie rozpoznaje go za pomocą technologii optycznego rozpoznawania znaków (OCR), unikając konieczności ręcznego przepisywania go na ekranowej klawiaturze urządzenia. Część rozpoznanego tekstu można wybrać bezpośrednio ze zdjęcia przesuwając po nim palcami. Następnie użytkownicy mogą wchodzić w interakcję z rozpoznanym tekstem lub kopiować i wklejać go do innych aplikacji na mobilnym urządzeniu, albo na komputerze Mac.

Rozpoznany tekst można również bezpośrednio edytować w aplikacji lub odsłuchać go za pomocą dostępnych w urządzeniu syntezatorów mowy. Jeżeli komuś syntezatory te nie wystarczą, to bezpośrednio z poziomu aplikacji może dokupić inne. Podczas czytania program podświetla aktualnie odczytywane słowo, co może być przydatną funkcją dla osób z dysleksją. Wykryte w tekście adresy URL stron internetowych, numery telefonów, adresy e-mail, kody QR i adresy pocztowe można aktywować tzn. np. “tapnąć” w rozpoznanym tekście wykryty numer telefonu, albo adres mailowy i wywołać związaną z tymi elementami akcję.

Dla osób niewidomych aplikacja oferuje wsparcie dla VoiceOver, specjalne instrukcje głosowe przed zrobieniem zdjęcia, automatyczną korekcję kąta kamery i automatyczne odczytanie przez syntezator mowy rozpoznanego tekstu.

Oparty na sieciach neuronowych wbudowany OCR rozpoznaje tekst w 23 językach bez konieczności połączenia z internetem. Rozpoznawane w ten sposób języki to: angielski, czeski, (cyrylica), duński, fiński, francuski, grecki, hiszpański, holenderski, koreański, niemiecki, norweski, polski, portugalski, rosyjski, rumuński , serbski, słowacki, szwedzki, turecki, węgierski, włoski i ukraiński.

Inne funkcje programu to:

podświetlanie tekstu widzianego przez kamerę podczas jego podglądu,
dokładny wybór tekstu poprzez przesuwanie palcem po obrazie,
innowacyjna stabilizacja obrazu ze śledzeniem ostrości,
rozpoznawanie kodów QR,
kopiuj / wklej do komputera Mac za pomocą funkcji “Universal Clipboard”,
obsługa VoiceOver, w tym głosowe wskazówki przed zrobieniem zdjęcia.

Program jest zoptymalizowany dla najnowszej wersji iOS, funkcji Drag & Drop i szybkich akcji 3D Touch. Na iPadzie wspiera widoki Slide Over i Split View. Jest kompatybilny z Apple Workflow.

Aplikację można instalować na iPhone, iPad i iPod Touch. Do swego działania program wymaga zainstalowanego na urządzeniu systemu iOS 10.0 lub nowszego. Jest także wersja Prizmo Go na komputery Mac. Interfejs aplikacji jest dostępny w 16 językach, ale na razie w śród nich nie ma języka polskiego.

Prizmo Go można bezpłatnie pobrać z App Store z kategorii Utilities. Bezpośredni link do aplikacji w App Store to: https://itunes.apple.com/app/id1183367390?mt=8&pt=11162&at=1l3vojn&ct=prlaunch

W bezpłatnej wersji aplikacji można używać rozpoznawania tekstu, ale dostęp do wyniku rozpoznania jest ograniczony. Wyświetlony na ekranie urządzenia rozpoznany tekst może być tylko odczytany przez dostępne w urządzeniu syntezatory mowy i ScreenReader VoiceOver. Dla osób niewidomych funkcjonalność taka jest wystarczająca, aby używać Prizmo Go jako mobilnego OCR-a.

Dostęp do funkcji (kopiuj / wklej) i interakcję z rozpoznanymi w tekście informacjami można odblokować, kupując jednorazowy pakiet eksportowy za kwotę 4,99 USD. W pakiecie tym dodatkowo dostaniemy 10 tokenów w celu przetestowania OCR działającego w chmurze zarówno dla
tekstu drukowanego, jak i pisma ręcznego. Obecnie jest on na rynku najtańszym mobilnym OCR-em o takiej funkcjonalności. Działanie usługi w OCR chmurze wymaga obsługi tokenów, które można kupić bezpośrednio w aplikacji.

“Premium Plan” to nowa opcja subskrypcji wprowadzona w wersji 2.0 aplikacji, która odblokowuje wszystkie jej funkcje. Umożliwia ona nieograniczone korzystanie z rozpoznawania w chmurze tekstu drukowanego i pisanego ręcznie a także udostępnia opcję tłumaczenia tekstu na 42 języki. Abonament premium jest dostępny jako miesięczna lub roczna subskrypcja.

Konfigurowanie i używanie aplikacji

Aplikacja nie ma polskiego interfejsu, dlatego dla osób, które nie posługują się językiem Angielskim w tym miejscu napiszę parę słów o jej konfiguracji i sposobie używania. Opiszę tylko te funkcje, które są dostępne w bezpłatnej wersji programu.

Po zainstalowaniu aplikacji domyślnym językiem rozpoznawania jest angielski. Język polski musimy pobrać i zainstalować sami z poziomu aplikacji. W tym celu tapiemy w przycisk “English built-in OCR” i w sekcji “Built-in Recognition” wybieramy przycisk “Manage languages”. Następnie z listy języków wybieramy “Polish”. Odpowiadamy twierdząco na pytanie “Dowload Polish OCR language pack?” tapiąc w przycisk “Download”. W tym momencie pakiet językowy zostanie pobrany i zainstalowany na naszym urządzeniu. Napis “polish instaleed” oznacza, że operacja pobierania i instalowania pakietu została zakończona. Aby wrócić do poprzedniego ekranu stukamy przycisk “Back”. Stuknięciem w przycisk “Done” zamkniemy ekran ustawień OCR i wrócimy do głównego interfejsu aplikacji. Teraz na głównym ekranie przy przycisku ustawień OCR będzie napis “Polish built-in OCR”.

Dodatkowe opcje, które w aplikacji możemy włączyć przed zrobieniem zdjęcia to:

“Stabilization” – włącza mechanizm stabilizacji obrazu. Po jego włączeniu urządzenie będzie sygnalizowało nam dźwiękiem w postaci cichych trzasków i wibracją o ile jest ona w urządzeniu włączona, nachylenie kamery względem fotografowanego obiektu.
“Flash” – włącza i wyłącza podświetlenie dla kamery. Po włączeniu przełącznika lampa ciągle świeci, tak więc jeżeli jest ono niepotrzebne, to należy go wyłączyć.

W każdym przypadku napis przy przełączniku “Off” oznacza że jest on wyłączony zaś “On” że jest włączony.

W celu zrobienia zdjęcia ustawiamy urządzenie w pewnej odległości od fotografowanego obiektu i tapiemy przycisk “Take picture”. Możemy też nacisnąć w urządzeniu przycisk głośniej. Jeżeli zdjęcie będzie zawierać tekst, to po chwili syntezator mowy nam go odczyta. Tekst można także przeczytać VoiceOver dotykając na ekranie urządzenia obszaru z wynikiem rozpoznania i używając standardowych funkcji czytania. Proces rozpoznawania jest bardzo szybki i po zrobieniu zdjęcia, na jego rezultat czeka się do słownie dwie, albo trzy sekundy. Gdy na zdjęciu program nie znajdzie żadnego tekstu to poinformuje nas o tym komunikatem “text not found”. Aplikacja automatycznie nie odwraca ułożenia tekstu, tak więc jeżeli wynik rozpoznawania będzie niezrozumiały, to jest duże prawdopodobieństwo, że tekst został zeskanowany do góry nogami i fotografowany obiekt musimy o 180 stopni obrócić.

Z okna zawierającego wynik rozpoznawania na główny ekran programu możemy wrócić przy użyciu standardowego gestu potarcia dwoma palcami, albo tapiąc w przycisk “Return to camera”.

Automatyczne odczytywanie tekstu można w aplikacji wyłączyć. W tym celu na ekranie głównym aplikacji tapnij w przycisk “Application Settings”, aby przejść do opcji programu. Na ekranie ustawień odszukaj sekcję “Text reader” i wyłącz przełącznik “Read Text automatycally”. Na koniec stuknij przycisk “Done”, aby wrócić do głównego okna programu.

Na ekranie zawierającym wynik rozpoznania znajdziemy także przyciski do sterowania odtwarzaniem odczytywanego tekstu. Przyciski te to:

“Play” / “Pause” – wznawia i wstrzymuje odczytywanie,
“Stop” – zatrzymuje czytanie – możemy to też zrobić tapiąc w ekran dwa razy dwoma palcami,
“Repeat” – ponownie odczytuje tekst.

Po uruchomieniu czytania dodatkowo aktywne są przyciski “Next paragraf” i “Previous paragraf” umożliwiające przejście do następnego i poprzedniego paragrafu tekstu.

Tapnięcie w przycisk “Reading speed” otwiera wyskakujące okno zawierające suwak, którym możemy regulować prędkość czytania. Po ustawieniu odpowiedniej wartości tapnięciem musimy zamknąć to okno.

Przycisk “Polish” otwiera okno ustawień OCR, w którym możemy wybrać inny język rozpoznawania.

Uderzając w przycisk “Reading Voice” możemy zmienić głos i język syntezatora mowy.

Ekran ten zawiera jeszcze przyciski “Translate”, “Copy” i “Share”, ale w darmowej wersji aplikacji przypisane do nich funkcje nie działają.

Na głównym ekranie aplikacji przycisk “Import image” pozwala na zaimportowanie zdjęć z naszego urządzenia zrobionych innymi aplikacjami. Po tapnięciu w przycisk “Scene description” otrzymamy głosową informację o obszarze jaki widzi kamera, co osobom niewidomym może pomóc w lepszym ustawieniu jej nad fotografowanym przedmiotem. Funkcję tą możemy uruchomić także naciskając na urządzeniu przycisk ciszej. Jest to opisana wcześniej funkcja głosowych komunikatów wspomagających skanowanie. Niestety wszystkie komunikaty są w języku angielskim.

Prizmo Go w obecnej wersji, to naprawdę aplikacja warta zainstalowania. Posiada prosty szybki w obsłudze interfejs i wszystkie niezbędne funkcje. Osobiście uważam, że z chwilą pojawienia się jej na rynku, zdeklasowała swojego droższego konkurenta jakim jest KNFB Reader. Szkoda tylko, że nie ma ona jeszcze polskiego interfejsu.

Wróć do poprzedniej strony