Komponenty | 09 stycznia 2019

IP do rozpoznawania mowy oparte na sieciach neuronowych

Editor: Adam Wesolowski

Nowa technologia od CEVA skupia się na szybkim i skutecznym rozpoznawaniu głosu (efektywność 95%). Praca na urządzeniu końcowym redukuje znacząco opóźnienia. Nie zużywa przy tym wiele energii.

CEVA opracowała technologię rozpoznawania mowy opartą o sieci neuronowe, gotową do zaimplementowania w formie scalonej. Ma odnaleźć się w zyskujących na popularności wielu aplikacjach interfejsu człowiek-maszyna, dla urządzeń operujących w chmurze, a także tych skupionych na ideologii „edge”. WhisPro to technologia ciągłego nasłuchu, która odnaleźć się ma w nowoczesnych smartfonach, głośnikach typu smart i wielu innych aplikacji wykorzystujących mechanizm aktywacji głosowej. Pozwala to na sprawną interakcję z takimi rozwiązaniami jak: Google Assistant, Amazon Alexa, Baidou DuerOS i innymi podobnymi. System zapewniać ma możliwość konfiguracji frazy wyzwalającej, włączającej system kontroli głosowej. Można będzie wykorzystać go w aplikacjach nie tylko domowych, ale też np. w motoryzacji, jak podają twórcy. WhisPro operować ma w towarzystwie innej technologii CEVA, czyli ClearVox – technologii front-endowej przetwarzania głosu. Zestaw ten ma zapewniać wysoce niezawodne rozwiązanie, sprzętowo(DSP)-programowe, służące skutecznemu rozpoznawaniu głosu. Efektywność działania systemu sięgać ma 95%. Jednocześnie producent zapewnia, że całość zużywać ma bardzo mało energii, a także dobrze radzić sobie nawet w towarzystwie dużego szumu i zakłóceń w otoczeniu. Technologia opiera się na pracy w urządzeniu końcowym („edge”), co ma zapewniać szybką pracę przy niemalże zerowych opóźnieniach.