Read Aloud: A Text to Speech Voice Reader – wtyczka do przeglądarek internetowych do odczytywania treści mową syntetyczną – Biuro ds. Osób z Niepełnosprawnościami Uniwersytetu Warszawskiego

Strona domowa: http://lsdsoftware.com

W ostatnich latach jakość sztucznej mowy znacznie się poprawiła – nie przypominają już h2d2/cpro, a istnieją już głosy, które trudno odróżnić od naturalnych. Odsłuchiwanie artykułów wysokiej jakości mową syntetyczną może dać wytchnienie oczom osób wpatrującymi się całymi godzinami przed ekranami monitorów i telefonów a także zapoznawanie się z informacjami w trakcie wykonywania innych czynności. Tym bardziej warto sprawdzić możliwości takich rozwiązań, nawet jeśli nie używamy ich na co dzień.

Poniżej omówimy możliwości wtyczki Read Aloud do przeglądarek Edge, Firefox i Chrome, która pozwala odczytywać na głos otwartą stronę internetową. Jej kluczową zaletą jest to, że potrafi także zinterpretować stronę w taki sposób, iż odczytuję tylko główną zawartość – pomija banery, menu, stopki reklamy itp. Oczywiście Read Aloud nie zawsze potrafi oddzielić główną treść od pozostałych elementów strony, ale zazwyczaj robi to całkiem nieźle.

Najczęściej problematyczne będą przeładowane informacjami strony główne instytucji lub portalów – wówczas Read Aloud zazwyczaj nie odczyta niczego sensownego. Aby się o tym przekonać wystarczy przejść na www.uw.edu.pl. Jeśli jednak wyświetlimy stronę o bardziej uporządkowanej zawartości np. https://www.uw.edu.pl/uniwersytet/fakty-i-liczby/, to wtyczka prawidłowo odczyta jej główną zawartość.

Rozszerzenie Read Aloud nie potrafi odczytywać książek w formacie ePub, ale wydaje się bardzo dobrze współpracuje z czytnikiem ePubReader (http://www.epubread.com). W przeglądarce Chrome ta współpraca wygląda bardzo dobrze – wtyczka umożliwia czytanie tekstu w trybie ciągłym.

Jeśli chcemy korzystać z głosów o najlepszej jakości (tzw. premium voices), to musimy za nie zapłacić. 100.000 znaków miesięcznie dostajemy za darmo, a za każde kolejne 2 miliony musimy zapłacić 1 USD. Wydaje się, że darmowa póla będzie wystarczająca do typowych potrzeb – jest to ok. 40 godzin tekstu przy normalnej prędkości mowy. Oczywiście nie musimy korzystać z głosów o najwyższej jakości. Zawsze bez ograniczeń możliwe jest korzystanie z głosów systemowych Windows 10. Więcej na temat „głosów premium” możemy dowiedzieć się na stronie: https://readaloud.app/premium-voices.html.

Obecnie można także bez opłat korzystać z głosów „Google Translate” w przeglądarkach Chrome i Firefox, a w przeglądarce Edge z naturalnych głosów rozwijanych przez Microsoft.

Korzystanie z dodatku za pomocą myszy jest intuicyjne – klikamy w ikonę dodatku na pasku narzędziowym w przeglądarce i zaczynamy słyszeć odczytywany tekst. Aby odsłuchać zaznaczony fragment strony możemy z menu kontekstowego wybrać Read Aloud. Zaletą dodatku jest także możliwość korzystania ze skrótów klawiszowych. Domyślnie są to:

Alt+p – odtwarzaj/pauza,

Alt+o – stop,

Alt+przecinek – przewiń do tyłu,

Alt+kropka – przewiń do przodu.

Aby przejść do okna dialogowego opcji dodatku, klikamy prawym przyciskiem na jego ikonie i wybieramy „Opcje”. W oknie tym zmieniamy prędkość, wysokość, rodzaj głosu oraz typ podświetlenia tekstu.

Standardowo głos ustawiony jest na „Auto select” (wybór automatyczny) i nie powinniśmy tego zmieniać. Takie ustawienie powoduje, że rozszerzenie samodzielnie wybierze odpowiedni język zależny od treści strony. Gdy naciśniemy przycisk „Voice” będziemy mogli wybrać rodzaje głosów dla poszczególnych języków albo również pozostawić wybór automatyczny. Aby zmienić typ mowy dla konkretnego języka zaznaczamy pole wyboru przy jego nazwie i wybieramy syntezator, który najbardziej lubimy. Gdy dokonaliśmy wyboru, naciskamy przycisk „Back to options”.

Szybkość mowy wyrażamy za pomocą ułamka dziesiętnego, w którym separatorem miejsc dziesiętnych jest kropka. Wartość 1.0 oznacza prędkość standardową.

Aby sprawdzić brzmienie i szybkość głosu można użyć przycisku „Test”. Niestety testować można tylko język angielski.

Nie będę szczegółowo opisywał instalacji dodatku w konkretnych przeglądarkach. W repozytoriach dodatków (rozszerzeń) trzeba wyszukać frazę „Read Aloud” i postępować dalej zgodnie ze wskazówkami. Poniżej zwrócę tylko uwagę na pewne niuanse dotyczące korzystania z rozszerzenia w poszczególnych przeglądarkach.

Przeglądarka Firefox

W przeglądarce Firefox po instalacji wskazane jest wykonanie dwóch dodatkowych czynności. Aby można było używać skrótu klawiszowego pauza/odtwórz, trzeba zmienić skrót klawiszowy (Alt+p) na jakiś inny, ponieważ ten wywołuje w polskiej wersji Firefox menu plik. Aby to zrobić:

1. Naciskamy Narzędzia -> Dodatki i motywy

2. Rozwijamy menu „Narzędzia dla wszystkich dodatków”, a następnie wybieramy „Zarządzaj skrótami rozszerzeń”.

3. Zmieniamy skrót dla opcji „Play/Pause”. Gdy staniemy na polu edycyjnym naciskamy odpowiednią kombinację klawiszy – ja dokonałem zmiany skrótu na Ctrl+Alt+p.

4. Zamykamy okno.

Ponadto, jeśli chcielibyśmy korzystać z głosów Google Translate, to w przypadku tej przeglądarki musimy wybrać ten głos dla języków, z których chcemy korzystać, oraz udzielić odpowiednich uprawnień dla omawianego rozszerzenia. Aby tego dokonać:

1. Włączamy okno opcji dodatku.

2. Za pomocą przycisku „Voice” wybieramy głos Google Translate przykładowo dla języka polskiego i angielskiego. Naciskamy przycisk „Back to options”. Następnie naciskamy przycisk „test” i dopiero wtedy pojawia nam się informacja ” You need to grant additional permissions to enable Google Translate voices”. Naciskamy link „Permisions”. Na kolejnej stronie naciskamy przycisk „Grant”. Powinniśmy zobaczyć informację ” Successful, you may close this tab”. Teraz można zamknąć tę stronę i głos Google Translate powinien już działać.

Microsoft Edge

W tej przeglądarce nie udało mi się włączyć głosów Google Translate, ale za to można korzystać z wszystkich głosów Microsoft dostępnych w Edge dla funkcji „czytaj na głos”. Dają one nawet lepszą jakość od tych oferowanych przez firmę Google.

Aby wyświetlić okno opcji „Read Aloud” klikamy prawym przyciskiem myszy w ikonę rozszerzenia i wybieramy „opcje rozszerzenia”. Aby uzyskać to samo okno za pomocą klawiatury, naciskamy Ctrl+l. Następnie klawiszem Tab dochodzimy do ikony „Read Aloud”, naciskamy klawisz menu kontekstowego, strzałkami wybieramy „Opcje rozszerzenia” i naciskamy Enter. Niestety teraz fokus ustawia się na opcji „Zamknij” i w żaden sposób nie da się z niej przejść na inne kontrolki. Jeżeli korzystamy z programu odczytu ekranu NVDA możemy za pomocą kursora wirtualnego przesunąć się do słowa „Options” i nacisnąć Enter. Wtedy z jakiegoś powodu będziemy się mogli poruszać w oknie opcji za pomocą klawisza Tab.

W Edge za darmo mamy dostęp do głosów o znacznie lepszej jakości w porównaniu do dwóch pozostałych przeglądarek. Jednakże trzeba pamiętać o tym, że dostępność dla programów odczytu ekranu do panelu ustawień pozostawia wiele do życzenia.

W przeglądarce Microsoft Edge jest dostępny tylko jeden polski głos Natural Voice On-line – jest to głos Zofii. Microsoft udostępnia także na swoich stronach wysokiej jakości polskie głosy Agnieszki i Marka – można je przetestować na stronie (https://azure.microsoft.com/pl-pl/services/cognitive-services/text-to-speech/#overview).

Dlaczego Read Aloud?

Osoby posługujące się programami odczytu ekranu mogą się zapytać w czym może im pomóc korzystanie z tego rozszerzenia – przecież podobną funkcję realizują chociażby przeglądarki poprzez tryb czytnika i możliwość odczytywania na głos. Zaobserwowałem, że Read Aloud skuteczniej oddziela główną treść od reszty strony, daje dostęp do większej liczby głosów, ma więcej wbudowanych skrótów klawiszowych, a wysokiej jakości mowa syntetyczna jakością zbliżona do mowy naturalnej daje wyższy komfort słuchania. Dlatego polecam wszystkim, także osobom obecnie korzystającym z funkcji odczytywania na głos aby osobiście przetestować nowe rozwiązania w tym zakresie. Warto przekonać się samemu jakie wrażenia wywoła odsłuchanie artykułu albo wpisu na blogu przy użyciu wysokiej jakości głosów syntetycznych.