© Evertiq
Technologie | 27 września 2019
Superwydajne, samodzielne rozpoznawanie głosu – idealne dla niedużych MCU
Funkcję sterowania głosem, zwykle wykonywaną obecnie za pośrednictwem połączenia internetowego z chmurą, można teraz dodać do wszystkich urządzeń, nawet tych niewielkich, które pracują pod kontrolą jedynie MCU. Jest to zasługa technologii kanadyjskiego startupu PicoVoice.
Nowa technologia od kanadyjskiego startupu PicoVoice pozwala na uruchamianie modeli AI do przetwarzania języka naturalnego (mowy) na niewielkich układach CPU, takich jak te, które znaleźć można w wielu mikrokontrolerach. Technologia pozwala na wydajną pracę algorytmów, pomimo niewielkiej mocy obliczeniowej tych układów.
Funkcję sterowania głosem, zwykle wykonywaną obecnie za pośrednictwem połączenia internetowego z chmurą, można teraz dodać do wszystkich urządzeń. Rozwiązanie PicoVoice opiera się na kompaktowym, wcześniej przygotowanym silniku wnioskowania mowy na tekst. Nie wymaga on dużej mocy obliczeniowej.
W porównaniu z konkurencyjnymi rozwiązaniami przetwarzania języka naturalnego, technologia PicoVoice zużywa mniej zasobów o cały rząd wielkości; zarówno pod względem obliczeniowym, jak i pamięci. Nie ma też konieczności przesyłania danych do chmury.
Możliwe będzie dzięki temu zaimplementowanie funkcji rozpoznawania mowy do ogromnej ilości urządzeń i aplikacji, zwiększając „user-experience”.
Projektujesz elektronikę? Zarezerwuj 17 października 2019 roku na największą w Polsce konferencję dedykowaną projektantom, Evertiq Expo Kraków 2019. Przeszło 90 producentów i dystrybutorów komponentów do Twojej dyspozycji, ciekawe wykłady i świetna, twórcza atmosfera. Jesteś zaproszony, wstęp wolny: kliknij po szczegóły.Bo chociaż model przetwarzania w chmurze jest dobrze zrozumiały, w przypadku takich systemów i asystentów jak Amazon Alexa czy Google Home, może nie przekładać się efektywnie na rozpoznawanie głosu w urządzeniach brzegowych (klasy „edge”), wymagających ścisłej prywatności lub niskich kosztów. „Ponieważ urządzenia (z obsługą głosu) stają się coraz powszechniejsze, przetwarzanie wszystkiego po stronie serwera nie będzie korzystne finansowo”; powiedział Alireza Kenarsari-Anhari, założyciel i prezes PicoVoice. „Zasoby obliczeniowe nie są bezpłatne. Aby stworzyć interfejs głosowy do wszystkiego, musisz uczynić go wystarczająco tanim. Jedynym sposobem na to jest uruchomienie na urządzeniu.” Prezes podał przykład: ekspres do kawy uruchamiany głosem, korzystający z publicznych usług chmurowych, używany 10 razy dziennie, kosztowałby producenta urządzenia około 15 USD rocznie na urządzenie. „Możesz to zrobić za darmo, jeśli wykorzystasz zasoby, które już masz na procesorze swojego ekspresu do kawy”. Dodatkową zaletą takiego podejścia jest zwiększenie niezawodności (znika dodatkowe ogniwo w postaci konieczności stałego podłączenia do internetu) oraz zmniejszy opóźnienia. Czy to jest? Nowy produkt PicoVoice to model uczenia maszynowego do transkrypcji mowy na tekst, który działa wydajnie nawet na małym procesorze, takim jak rdzeń ARM11 w Raspberry Pi Zero. Model może zrozumieć około 200 000 angielskich słów ze współczynnikiem błędów słów porównywalnym z asystentami „chmurowymi”. Można więc to wykorzystywać w urządzeniach wymagających transkrypcji, bez korzystania z sieci i usług w chmurze. Działa najlepiej w określonej, zamkniętej domenie (zakresie wypowiadanych słów, pod konkretną aplikację). „Jeśli mam dobrze zdefiniowaną domenę, a użytkownik wyda w tej domenie polecenia mówione, możemy w tej dziedzinie rozumieć język naturalny i możemy to zrobić bardzo skutecznie, do tego stopnia, że cały model jest mniejszy niż pół megabajta. Dlatego możemy to zrobić na jednostce MCU, której cena jest poniżej 1 USD”, powiedział Kenarsari-Anhari. „Jeśli klient chce stworzyć inteligentną lodówkę z określonym zestawem wypowiadanych poleceń, przeszkolimy model dla tej konkretnej aplikacji, a on wdroży go w swojej lodówce i zapłaci nam tantiemy.” Dodatkową zaletą tego rozwiązania jest zapewnienie większego bezpieczeństwa. Jest wiele firm i osób, które nie chcą, by „słuchające” urządzenie przesyłało każde wypowiedziane słowo do chmury, w celu ich analizy. Przykładem mogą być różnego rodzaju spotkania firmowe, jak podaje Kenarsari-Anhari. Działanie? Aby uruchomić modele przetwarzania języka naturalnego na małych procesorach, PicoVoice wynalazł nowy sposób uczenia modeli, który czyni je mniejszymi i bardziej wydajnymi obliczeniowo. „Patrzymy na zestaw instrukcji na urządzeniu docelowym i staramy się znaleźć operacje matematyczne, które można skutecznie wdrożyć przy użyciu tych instrukcji”, powiedział Kenarsari-Anhari. „Naśladujemy mnożenie macierzy za pomocą najefektywniejszej operacji matematycznej na danych układzie[...]”. Oznacza to, że wyszkolone modele są specyficzne dla urządzenia, ponieważ zależą od dokładnego zestawu instrukcji, ale w praktyce, ogromna większość procesorów audio opiera się tylko na trzech rozwiązaniach: ARM, Tensilica HiFi i Ceva TeakLite. „Znaleźliśmy instrukcje dotyczące tych trzech różnych klas procesorów, w których możemy bardzo skutecznie wdrożyć coś, co naśladuje mnożenie macierzy”. Kenarsari-Anhari odmówił jednak dokładniejszego określenia, jakich konkretnie instrukcji używa PicoVoice, powiedział jednak, że podstawowa koncepcja jest podobna do Xnor z Seattle, który przyspiesza komputerowe modele widzenia przy użyciu instrukcji XNOR. Jednak modele rozpoznawania obrazów (widzenia), które zwykle opierają się na splotowych sieciach neuronowych (CNN), są prostszym zadaniem niż modele rozpoznawania głosu, które są oparte na rekurencyjnych sieciach neuronowych (RNN), jak podaje prezes PicoVoice. Wyjaśnił, że CNN patrząc na zdjęcia z kamery jest ograniczony, zaś RNN zawierają pojęcie czasu. PicoVoice Zespół PicoVoice składa się „zaledwie” z 10 osób, które w głównej mierze są byłymi pracownikami Amazon, w tym sam prezes. PicoVoice otrzymał grant od National Research Council of Canada, a w ramach programu badań przemysłowych (IRAP) nie miał do tej pory żadnego zewnętrznego finansowania. Decyzja o nie korzystaniu z innych funduszy dała firmie czas na „rozwiązanie podstawowych problemów związanych z rozwojem eksperymentalnym i badaniami stosowanymi”, powiedział Kenarsari-Anhari. Firma ma już źródła przychodów od wielu klientów, w tym LG, Whirlpool i Local Motors, którzy są zainteresowani tą technologią.© Evertiq
Najważniejsze parametry wyświetlaczy LCD-TFT
Wyświetlacze LCD-TFT to wciąż najpopularniejsze rozwiązania do wizualizacji informacji. O ich powszechności decyduje m.in. łatwość dostosowywania wyświetlacza LCD-TFT do wymagań projektu – nie tylko pod względem wyboru optymalnej przekątnej, lecz również dopasowania kluczowych parametrów.
Stopnie ochrony obudów, czyli co kryje się pod kodem IP65
Kody IP opisują w jakim stopniu obudowy chronią urządzenia przed takimi czynnikami, jak pył czy woda. Eksperci firmy Unisystem wyjaśniają znaczenie poszczególnych symboli.
Sponsored content by Kradex
Usługi w ofercie marki Kradex
Dzisiejszy rynek elektroniki wymaga bardziej kompleksowego podejścia. Obudowy, które są ważnym elementem, to nie tylko kwestia doboru koloru, materiału czy pasujących elementów elektronicznych, ale większy proces, który ma nie tylko zapewnić wykonanie urządzenia, ale także nieść ze sobą dodatkowe wsparcie.
Ropla Elektronik autoryzowanym dystrybutorem Dongguan Better Electronics Technology
Ropla Elektronik podpisała umowę dystrybucyjną z Dongguan Better Electronics Technology Co., Ltd., producentem specjalizującym się w produkcji elementów ochrony przeciwprzepięciowej, nadprądowej i termicznej.
Sony wprowadza czujniki wizyjne z funkcją przetwarzania opartego o AI
Sony Corporation zapowiedziało wprowadzenie dwóch modeli inteligentnych czujników wizyjnych, będących pierwszymi na świecie przetwornikami obrazu z funkcją przetwarzania opartego na sztucznej inteligencji (AI).
Pierwszy, w pełni sprawny, przełomowy procesor kwantowy od Google
Naukowcy w Google opracowali i zbudowali w pełni działający procesor kwantowy. Konstrukcja nie jest prosta, ale dostawcza niesamowitej wydajności. To co robią superkomputery latami, procesor kwantowy zrobi w ciągu sekundy.
Niezwykłe kości LPDDR4X o rekordowej pojemności
Nowe pamięci od Samsung, są nie tylko superpojemne (12 GB), stając się pierwszymi tego typu na rynku, ale też bardzo szybkie i wydajne. Mogą skutecznie wspierać funkcje szybkiego nagrywania video 4K, czy też funkcje AI, nie tylko w smartfonach z najwyższej półki.
Mocne i bezpieczne przełączniki obciążenia
Nowe przełączniki od Diodes są nie tylko wydajne (operując prądem do 2 A), ale też bezpieczne, dzięki sprawnie działającej funkcji blokowania prądu wstecznego TRCB.
Konwertery POL o ultraszerokim zakresie napięć wejściowych
Nowe konwertery nieizolowane od Traco cechują się nie tylko świetną efektywnością (nawet 94%), ale przede wszystkim wsparciem ultra-szerokiego zakresu napięć wejściowych, w stosunku 8:1. Stanowią tym samym idealne zamienniki dla regulatorów liniowych.
Miniaturowa kamera dla medycznych zadań specjalnych
Nowy, ultra-mały moduł kamery od OmniVision Technologies stworzono z myślą o zastosowaniach medycznych, docierając w najciaśniejsze miejsca, wspierając wiele zabiegów i procedur. Kamera ma wymiar tylko 0.65 na 0.65 na 1.16 mm.
Sensory SWIR o rekordowej gęstości pikseli
Nowe sensory, opracowane w Imec, cechują się wysoką rozdzielczością w zakresie NIR i SWIR, bijąc na głowę swoich klasycznych odpowiedników. Opracowany proces tworzenia, jest też efektywniejszy i tańszy, co pozwolić ma na upowszechnienie stosowania tych sensorów w aplikacjach konsumenckich.
Bardziej wytrzymały SoC Bluetooth 5.1
Nowy układ od Nordic Semiconductor to zaawansowana jednostka SoC, wspierająca interfejsy bezprzewodowe (jak Bluetooth 5.1, w tym BLE, i inne 2.4 GHz), jak i wiele przewodowych (w tym NFC, USB, itp.). Efektywnie pracuje w temperaturach sięgających nawet 105 stopni Celsjusza.
Jeszcze większa niezawodność pozycjonowania od u-blox
Nowa platforma technologiczna od u-blox zapewnia jeszcze większą niezawodność, przy świetnej dokładności i dużej częstości odświeżania. Pozwoli to na sprawniejszą i bezpieczniejszą pracę aplikacji motoryzacyjnych, UAV, itp.
Vitis – ujednolicona platforma software od Xilinx
Nowa platforma od Xilinx może zrewolucjonizować to jak pracujemy z nowoczesnymi układami, poprzez samoczynne dostosowanie sprzętowe pod oprogramowanie. Dzięki temu algorytmy będą działały jak najwydajniej, na dostosowanej dla nich platformie sprzętowej, bez konieczności dokonywania fizycznych zmian w układzie.
Małe, kompaktowe i niedrogie konwertery DC/DC
Traco Power wypuściło na rynek swoje nowe konwertery DC/DC. Są małe, dobrze odnajdując się w niewielkich aplikacjach. Stanowią niedrogie rozwiązanie, dla wielu zastosowań, oferując dobrą wydajność i standardowe zabezpieczenia.
64-kanałowy, wysoce wydajny przełącznik scalony
STMicroelectronics zaprezentowało swój nowy, wysoce wydajny analogowy przełącznik wysokonapięciowy 64-kanałowy, zdolny pracować z prądem 3 A. Stworzony jest w oparciu o najnowsze technologie producenta, oferując sporo; w tym zaawansowane wsparcie logiczne.
Mikrogłośniki MEMS stworzone na nowo
Naukowcy z Fraunhofer opracowali nowy koncept i technologię, która pozwoliła stworzyć nowy rodzaj mikro-głośników MEMS. Dzięki niej możliwe będzie tworzenie wydajnych urządzeń audio, generujących silny dźwięk, bez zwiększania powierzchni.
SoM Toradex na bazie procesora i.MX 8QuadMax
Nowy moduł z rodziny Apalis od Toradex jest w pełni kompatybilny ze starszymi braćmi, oferując w stosunku do nich większą moc obliczeniową oraz większą funkcjonalność (np. wsparcie nowoczesnych funkcji bezpieczeństwa), za sprawą najnowszego procesora NXP.
SDRAM DDR4 4 Gb na 1.2 V dla urządzeń mobilnych
Nowe kości pamięciowe DDR4 od Alliance Memory cechują się większą wydajnością i prędkością przesyłania danych oraz niższym zużyciem energii, niż starsze DDR3. Korzyści są spore. Stworzono je z myślą o urządzeniach mobilnych.
Wyświetlacze plug-and-play dla Przemysłu 4.0.
Nowe wyświetlacze od Distec cechują się możliwością łatwej i szybkiej integracji z różnorodnymi aplikacjami przemysłu nowoczesnego. Cechują się dużą wszechstronnością (min. dzięki Rasperry Pi) i dobrym obrazem, w jakości nawet 4K UHD.
Dokładny sensor Halla z 4 trybami pracy
Najnowszy sensor Halla od TDK świetnie radzi sobie z polem rozproszonym, oferując wysoką dokładność. Jest też układem wszechstronnym, wspierając samodzielnie aż 4 tryby pracy. Stworzony został z myślą o motoryzacji (ASIL B).
Nowe MCU od NXP przekraczają barierę GHz
Nowe MCU od NXP, cechują się niespotykaną dotąd (jak na MCU) wydajnością, przy zachowaniu niskiego zużycia energii. Skutecznie operują grafiką 2D w wysokiej rozdzielczości, efektywnie wykonując też zaawansowane operacje AI i ML, jak np. rozpoznawanie głosu i mowy naturalnej.
Wydajna ochrona przed ESD i EMI dla audio
Nowe ochronniki od TDK zapewniają kompleksową i skuteczną ochronę, zarówno przed ESD, jak i EMI. Stworzono je z myślą o systemach audio, korzystających z łączności bezprzewodowej w paśmie 2.4 GHz.
Malutki fotoprzekaźnik w formacie S-VSON4T
Nowy fotoprzekaźnik od Toshiby cechuje się głównie mniejszym rozmiarem o 27%, niż tradycyjne opakowania VSONR4. Jest też bardziej energooszczędny i wszechstronny, niż jego poprzednik.
Załaduj więcej newsów