Treść strony

Od lewej znak Funduszy Europejskich złożony z symbolu graficznego, nazwy Fundusze Europejskie oraz odwołania do Programu Regionalnego; w środku flaga Polski z napisem Rzeczpospolita Polska następnie logo promocyjne Mazowsza złożone z ozdobnego napisu Mazowsze oraz podpisu Serce Polski; zestaw podstawowy zamyka znak Unii Europejskiej złożony z flagi Unii Europejskiej i napisu Unia Europejska oraz Europejski Fundusz Społeczny. Napisy znajdują się po lewej stronie flagi.

 

Sztuczne oko smartfona - Jacek Zadrożny

A gdyby tak zagonić urządzenia do tego, czego osobom niewidomym najbardziej brakuje… Gdyby nauczyć urządzenia widzieć i opowiadać o otaczającym świecie. Przecież nie zawsze jest z nami jakiś człowiek widzący, a niemal zawsze pod ręką mamy smartfon, a on ma przecież swoje oko, czyli kamerę. Może mógłby popatrzeć za nas. I chociaż dochodziliśmy do tego stopniowo, to jednak jesteśmy już coraz bliżej takiego rozwiązania. Rozwiązania, które technologicznie jest bardzo zaawansowane i wymaga ogromnych mocy obliczeniowych.

Co widzi smartfon

Każdy obecnie produkowany smartfon ma przynajmniej jedną kamerę. Bardzo dużo ma dwie, a czasem nawet trzy kamery, służące do różnych celów. Oprócz tego mają diody doświetlające, których celem jest usuwanie efektu czerwonych oczu oraz doświetlanie. Mamy zatem całkiem niezłe sztuczne oko o rozdzielczości przynajmniej 10 milionów punktów. Dane z kamery trafiają do systemu operacyjnego, czyli mózgu smartfona, gdzie dokonywana jest ich obróbka. Obróbka najczęściej polega po prostu na kompresji do kontenera JPEG i zapisania w galerii. Jednak jeżeli można zrobić to, to zapewne można robić także inne rzeczy.

Smartfon „widzi” tylko ciąg danych liczbowych, składający się na prostokąt o określonej liczbie punktów w pionie i poziomie. Poszczególne liczby oznaczają wysycenie kolorem danego punktu i nic więcej. Obróbką tak gigantycznych danych muszą się zająć wyspecjalizowane aplikacje, w tym przeznaczone dla niewidomych użytkowników. Czasem wymagają wykorzystania sieci neuronowych, a czasem wręcz elementów sztucznej inteligencji (AI).

Na początek wykrywanie światła i kolorów

To jest najprostsze, czego można nauczyć smartfon. Stosunkowo prosty algorytm oblicza poziom jasności lub kolor obszaru, na który skierowane jest oko kamery. Wykrywanie światła przydaje się choćby do tego, by sprawdzić, czy w mieszkaniu zgaszono wszystkie światła. Wykrywanie kolorów zaś przede wszystkim do dobierania ubrań. Wykrywanie kolorów jest zdecydowanie trudniejsze i obarczone dużym błędem, ponieważ wymagane jest bardzo dobre doświetlenie powierzchni oraz dosyć precyzyjne nakierowanie obiektywu na konkretny obszar. Dlatego wciąż nieco lepiej sprawdzają się w tym urządzenia specjalizowane. Jednak smartfon mamy zawsze pod ręką, a moduł rozpoznawania kolorów jest wbudowany w kilka aplikacji. Zarówno wykrywanie światła, jak i rozpoznawanie kolorów dostępne są w Seeing Assistant Home, jak i w Seeing AI dla systemu iOS. W sklepie z aplikacjami można znaleźć także aplikacje służące tylko do jednego celu, jak na przykład Say Color.

Czytanie tekstu

O wiele bardziej zaawansowane algorytmy odpowiadają za rozpoznawanie tekstu, czyli przetwarzanie obrazu tekstu na jego edytowalną formę. Algorytm musi wyodrębnić z grafiki obszary kolumny, podzielić ją na wiersze, te z kolei na znaki, rozpoznać każdy z osobna, a potem złożyć to razem i do tego z sensem. Rozwój aplikacji OCR (optyczne rozpoznawanie znaków) zaczął się jednak na tyle dawno, że obecne programy są już bardzo wyrafinowane. Od pewnego czasu można je instalować w smartfonach, a to dzięki coraz lepszym aparatom i mocniejszym procesorom. Zatem wystarczy zrobić kartce zdjęcie, by po chwili zapoznać się z treścią wydrukowaną na papierze.

Użytkownicy są raczej zgodni, że najlepszą tego typu aplikacją jest KNFB Reader, który powstał już dosyć dawno na telefony z systemem Symbian. Był jednak absurdalnie drogi i nie upowszechnił się. Wersje na obecne smartfony też nie są tanie, bo kosztują ok. 100 dolarów, co jednak jest o rząd wielkości mniej, niż jeszcze dekadę temu. Co więcej – przynajmniej raz w roku pojawia się promocja, gdy kupić można tę rewelacyjną aplikację ze zniżką 25 proc., 33 proc., a nawet 50 proc. Kolejną jest aplikacja Prizmo, która jest nieco gorsza, a jednocześnie sporo tańsza. Podobnych aplikacji jest zresztą bardzo dużo i można znaleźć nawet bezpłatne. Trzeba jednak szukać takich, które potrafią rozpoznać tekst w języku polskim. Wbudowany OCR ma nawet świetna aplikacja firmy Microsoft o nazwie Office Lens. Potrafi ona pracować jak szybki skaner do dokumentów, których zdjęcia zrobione nawet niewprawną ręką zostaną wyprostowane i obcięte wzdłuż krawędzi. Jednak KNFB Reader i Prizmo są przygotowane, by służyć niewidomym użytkownikom, więc pomagają jak mogą. Inne liczą na prawidłowe skadrowanie, co w wypadku osoby niewidomej nie jest możliwe.

Obce oczy w naszym domu

Czasem potrzebne są nam oczy w sytuacjach codziennych. Podczas poszukiwania konkretnego ubrania, obejrzenia skóry niemowlaka, przeglądania segregatora z dokumentami. Możemy wówczas skorzystać z rozwiązania w postaci połączenia wideo, na przykład Skype lub Facetime. Po drugiej stronie musi być osoba, która będzie patrzeć i opisywać to, co pokazujemy kamerze smartfona. Rozwiązanie jest proste i skuteczne, o ile mamy kogoś do pomocy, kto akurat dysponuje czasem. Jeżeli nie, to warto spróbować aplikacji Be My Eyes, której nazwa oznacza po polsku „bądź moimi oczami” i do tego właśnie służy. Pozwala ona na łączenie osób niewidomych z wolontariuszami, którzy chcą posłużyć swoim wzrokiem. Obsługa jest bardzo prosta, chociaż wpuszczenie obcych osób do własnego domu nie jest proste. Nawet jeżeli wpuszczamy ich tylko wirtualnie. Tym bardziej, że z wolontariuszem trzeba rozmawiać i to czasem niekoniecznie po polsku. Liczba osób chętnych do pomagania powoli zbliża się do miliona, co dobrze świadczy o ludziach.

Warto wspomnieć jeszcze o jednej aplikacji o nazwie TapTapSee. Pozwala ona na rozpoznawanie produktów na zdjęciach. Wystarczy zatem zrobić zdjęcie puszce, kartonowi z sokiem, a nawet po prostu przestrzeni przed sobą, by w ciągu kilku sekund otrzymać tekstowy opis obrazu. Opis jest tworzony przez ludzi, a nie żaden algorytm, więc jest zależny od tego, ile ktoś włoży w niego wysiłku. Może posłużyć także jako prosty OCR, chociaż pojawić się mogą problemy z polskimi literami. Działanie jest zatem bardzo podobne do Be My Eyes, z tą różnicą, że nie wymaga kontaktu z osobą widzącą na drugim końcu Internetu.

Sztuczna inteligencja patrzy

Prawdziwy przełom nastąpi, gdy nie będzie nam niezbędna pomoc innego człowieka, a wystarczy odpowiednio zaawansowany algorytm. W rozpoznawaniu tekstu już tak się dzieje, a powoli zaczynają pojawiać się rozwiązania analizujące obraz z wykorzystaniem sztucznej inteligencji. Jeszcze nie działa to doskonale i trochę czasu upłynie, zanim osiągnięty zostanie odpowiedni poziom rozpoznawania obrazów.

Pierwszym z dużych był Facebook, który zaoferował w swojej aplikacji mobilnej sztucznie generowane opisy alternatywne do zdjęć. Najczęściej ograniczały się do informacji w rodzaju „przynajmniej jeden człowiek i las” lub „grupa ludzi, uśmiechają się”. Niezbyt wiele informacji, a czasem wręcz błędna interpretacja. Zdjęcie prezydenta Andrzeja Dudy z żoną podczas pogrzebu Inki zostało rozpoznane jako „ślub”, a słynna fotografia martwej wiewiórki w pniu wyciętego parkowego drzewa jako „jedzenie”.

Początkiem rewolucji wydaje się być aplikacja Aipoly Vision, pozwalająca na całkowicie automatyczne rozpoznawanie kolorów, pieniędzy (tylko dolary USA), zwierząt, roślin, tekstu, przestrzeni (na przykład pomieszczeń), przedmiotów itp. Wyniki są całkiem zadowalające, gdyby nie fakt, że aplikacja jest słabo dostosowana do polskich warunków. Pierwsze użycie naprawdę zapiera dech, chociaż z biegiem czasu zaczyna dostrzegać się ograniczenia. W dodatku pełne wykorzystanie wymaga opłacania miesięcznej subskrypcji.

Pod koniec 2017 roku firma Microsoft wypuściła aplikację pod nazwą Seeing AI, która ma podobne, chociaż równocześnie bardziej zaawansowane funkcje, a do tego jest zupełnie za darmo. Potrafi rozpoznawać ludzi, ich wiek, płeć i nastrój. Jest to wciąż pewien eksperyment, więc ta funkcja może niektórych sfrustrować. Potrafi rozpoznawać przedmioty, pieniądze, kolory i tekst. W trybie „krótkiego tekstu” sprawdza się rewelacyjnie przy przeglądaniu sterty papierów w segregatorze lub korespondencji wyciągniętej ze skrzynki. Wystarczy trzymać smartfon nad stertą i przekładać kartki, by usłyszeć zawartość odczytaną na głos. Nie jest to informacja tak dokładna jak z porządnego skanowania, ale zupełnie wystarczająca do zorientowania się, czym jest dany dokument.

Aby uzupełnić listę aplikacji, można wspomnieć jeszcze o aplikacjach odczytujących kody kreskowe i QR, a także rozpoznające nominały banknotów (Nant Looktel Money Reader). Wciąż jednak technologie rozpoznające obraz są niewygodne o tyle, że wymagają trzymania w ręku smartfona. Czekam na okulary z wmontowanymi kamerami i słuchawkami, które rozwiążą ten problem i pozwolą na bardziej naturalne korzystanie. Gwoli ścisłości – takie zamknięte rozwiązania już istnieją, ale są absurdalnie drogie. Tymczasem mogą kosztować zaledwie kilkaset złotych i zrewolucjonizować życie osób niewidomych. W pewnym sensie – pozwolą nam odzyskać wzrok. A wszystko to dzięki sztucznej inteligencji, ogromnej mocy obliczeniowej w naszych smartfonach i pracy tysięcy mądrych ludzi.

Jacek Zadrożny