Technologie | 27 września 2019

Superwydajne, samodzielne rozpoznawanie głosu – idealne dla niedużych MCU

Funkcję sterowania głosem, zwykle wykonywaną obecnie za pośrednictwem połączenia internetowego z chmurą, można teraz dodać do wszystkich urządzeń, nawet tych niewielkich, które pracują pod kontrolą jedynie MCU. Jest to zasługa technologii kanadyjskiego startupu PicoVoice.

Nowa technologia od kanadyjskiego startupu PicoVoice pozwala na uruchamianie modeli AI do przetwarzania języka naturalnego (mowy) na niewielkich układach CPU, takich jak te, które znaleźć można w wielu mikrokontrolerach. Technologia pozwala na wydajną pracę algorytmów, pomimo niewielkiej mocy obliczeniowej tych układów. Funkcję sterowania głosem, zwykle wykonywaną obecnie za pośrednictwem połączenia internetowego z chmurą, można teraz dodać do wszystkich urządzeń. Rozwiązanie PicoVoice opiera się na kompaktowym, wcześniej przygotowanym silniku wnioskowania mowy na tekst. Nie wymaga on dużej mocy obliczeniowej. W porównaniu z konkurencyjnymi rozwiązaniami przetwarzania języka naturalnego, technologia PicoVoice zużywa mniej zasobów o cały rząd wielkości; zarówno pod względem obliczeniowym, jak i pamięci. Nie ma też konieczności przesyłania danych do chmury. Możliwe będzie dzięki temu zaimplementowanie funkcji rozpoznawania mowy do ogromnej ilości urządzeń i aplikacji, zwiększając „user-experience”.

Projektujesz elektronikę? Zarezerwuj 17 października 2019 roku na największą w Polsce konferencję dedykowaną projektantom, Evertiq Expo Kraków 2019. Przeszło 90 producentów i dystrybutorów komponentów do Twojej dyspozycji, ciekawe wykłady i świetna, twórcza atmosfera. Jesteś zaproszony, wstęp wolny: kliknij po szczegóły. © Evertiq

Bo chociaż model przetwarzania w chmurze jest dobrze zrozumiały, w przypadku takich systemów i asystentów jak Amazon Alexa czy Google Home, może nie przekładać się efektywnie na rozpoznawanie głosu w urządzeniach brzegowych (klasy „edge”), wymagających ścisłej prywatności lub niskich kosztów. „Ponieważ urządzenia (z obsługą głosu) stają się coraz powszechniejsze, przetwarzanie wszystkiego po stronie serwera nie będzie korzystne finansowo”; powiedział Alireza Kenarsari-Anhari, założyciel i prezes PicoVoice. „Zasoby obliczeniowe nie są bezpłatne. Aby stworzyć interfejs głosowy do wszystkiego, musisz uczynić go wystarczająco tanim. Jedynym sposobem na to jest uruchomienie na urządzeniu.” Prezes podał przykład: ekspres do kawy uruchamiany głosem, korzystający z publicznych usług chmurowych, używany 10 razy dziennie, kosztowałby producenta urządzenia około 15 USD rocznie na urządzenie. „Możesz to zrobić za darmo, jeśli wykorzystasz zasoby, które już masz na procesorze swojego ekspresu do kawy”. Dodatkową zaletą takiego podejścia jest zwiększenie niezawodności (znika dodatkowe ogniwo w postaci konieczności stałego podłączenia do internetu) oraz zmniejszy opóźnienia. Czy to jest? Nowy produkt PicoVoice to model uczenia maszynowego do transkrypcji mowy na tekst, który działa wydajnie nawet na małym procesorze, takim jak rdzeń ARM11 w Raspberry Pi Zero. Model może zrozumieć około 200 000 angielskich słów ze współczynnikiem błędów słów porównywalnym z asystentami „chmurowymi”. Można więc to wykorzystywać w urządzeniach wymagających transkrypcji, bez korzystania z sieci i usług w chmurze. Działa najlepiej w określonej, zamkniętej domenie (zakresie wypowiadanych słów, pod konkretną aplikację). „Jeśli mam dobrze zdefiniowaną domenę, a użytkownik wyda w tej domenie polecenia mówione, możemy w tej dziedzinie rozumieć język naturalny i możemy to zrobić bardzo skutecznie, do tego stopnia, że cały model jest mniejszy niż pół megabajta. Dlatego możemy to zrobić na jednostce MCU, której cena jest poniżej 1 USD”, powiedział Kenarsari-Anhari. „Jeśli klient chce stworzyć inteligentną lodówkę z określonym zestawem wypowiadanych poleceń, przeszkolimy model dla tej konkretnej aplikacji, a on wdroży go w swojej lodówce i zapłaci nam tantiemy.” Dodatkową zaletą tego rozwiązania jest zapewnienie większego bezpieczeństwa. Jest wiele firm i osób, które nie chcą, by „słuchające” urządzenie przesyłało każde wypowiedziane słowo do chmury, w celu ich analizy. Przykładem mogą być różnego rodzaju spotkania firmowe, jak podaje Kenarsari-Anhari. Działanie? Aby uruchomić modele przetwarzania języka naturalnego na małych procesorach, PicoVoice wynalazł nowy sposób uczenia modeli, który czyni je mniejszymi i bardziej wydajnymi obliczeniowo. „Patrzymy na zestaw instrukcji na urządzeniu docelowym i staramy się znaleźć operacje matematyczne, które można skutecznie wdrożyć przy użyciu tych instrukcji”, powiedział Kenarsari-Anhari. „Naśladujemy mnożenie macierzy za pomocą najefektywniejszej operacji matematycznej na danych układzie[...]”. Oznacza to, że wyszkolone modele są specyficzne dla urządzenia, ponieważ zależą od dokładnego zestawu instrukcji, ale w praktyce, ogromna większość procesorów audio opiera się tylko na trzech rozwiązaniach: ARM, Tensilica HiFi i Ceva TeakLite. „Znaleźliśmy instrukcje dotyczące tych trzech różnych klas procesorów, w których możemy bardzo skutecznie wdrożyć coś, co naśladuje mnożenie macierzy”. Kenarsari-Anhari odmówił jednak dokładniejszego określenia, jakich konkretnie instrukcji używa PicoVoice, powiedział jednak, że podstawowa koncepcja jest podobna do Xnor z Seattle, który przyspiesza komputerowe modele widzenia przy użyciu instrukcji XNOR. Jednak modele rozpoznawania obrazów (widzenia), które zwykle opierają się na splotowych sieciach neuronowych (CNN), są prostszym zadaniem niż modele rozpoznawania głosu, które są oparte na rekurencyjnych sieciach neuronowych (RNN), jak podaje prezes PicoVoice. Wyjaśnił, że CNN patrząc na zdjęcia z kamery jest ograniczony, zaś RNN zawierają pojęcie czasu. PicoVoice Zespół PicoVoice składa się „zaledwie” z 10 osób, które w głównej mierze są byłymi pracownikami Amazon, w tym sam prezes. PicoVoice otrzymał grant od National Research Council of Canada, a w ramach programu badań przemysłowych (IRAP) nie miał do tej pory żadnego zewnętrznego finansowania. Decyzja o nie korzystaniu z innych funduszy dała firmie czas na „rozwiązanie podstawowych problemów związanych z rozwojem eksperymentalnym i badaniami stosowanymi”, powiedział Kenarsari-Anhari. Firma ma już źródła przychodów od wielu klientów, w tym LG, Whirlpool i Local Motors, którzy są zainteresowani tą technologią.