reklama
reklama
reklama
reklama
reklama
reklama
reklama
© Evertiq Komponenty | 26 kwietnia 2019

Dziesięciokrotnie wydajniejsze rdzenie AI dla aplikacji Edge

FlexLogix staje do wyścigu, prezentując swoje najnowsze, niezwykłe rozwiązania, które biją na głowę dotychczasowe, w sferze aplikacji Edge. Oferując nawet 10-krotnie większą przepustowość niż konkurencja, zachowując przy tym bardzo małe zużycie energii i gabaryt.

Powszechnie wiadomo, że mamy teraz czas silnego rozwoju układów i procesorów AI. Nie ma też ukrywać, że większość z nich nie przetrwa tego wyścigu. W niektórych raportach można doczytać, że nawet 80 startup’ów bierze udział w tym wyścigu, dostając pewne dofinansowanie, by stworzyć procesory mające skutecznie identyfikować mysz, przy minimalnym opóźnieniu i zużyciu energii. Klasyczne procesory się tu nie odnajdują najlepiej. Oczywiście, w wyścigu tym nie brakuje też dużych graczy. Intel ogłosił niedawno, że ich nowe procesory z linii Xeon będą posiadały specjalne rozszerzenie „DL Boost”, które wspomagać ma pracę z AI, wnioskowanie, identyfikację, itp. W porównaniu z poprzednimi generacjami, efektywność na tym polu ma wzrosnąć nawet 30-krotnie. Warto też wspomnieć, że Intel jakiś czas temu kupił takie firmy jak: Movidius, Nervana i Altera, które specjalizowały się w rozwiązaniach AI. Również Nvidia poczyniła ogromne postępy w kwestii rozwiązań AI i przyśpieszenia operacji z tym związanych. Udało się to dzięki ich wydajnym jednostkom GPU, wspieranemu przez język CUDA. Xilinx także przestał być firmą tylko-FPGA, skupiając się na akceleracji AI, dzięki nowemu hasłu: „najpierw centra danych” („data-center first”). W dużej mierze koncentrując się na przyśpieszaniu zadań i operacji AI w centrum danych. Pomóc w tym ma też niedawny zakup DeepPhi, i ich rozwiązaniom machine-learning. Szybkie rozwiązania AI sprawdzają się na każdym poziomie infrastruktury obliczeniowej: od chmury i centrów danych, po urządzenia końcowe stanowiące końcówki sieci („edge”). Te ostatnie są oczywiście bardziej wymagające pod względem mocy, kosztów, zużycia energii, itp. Niektóre rozwiązania i aplikacje nie mogą skorzystać z dobrodziejstw serwerowych, bo jest to niewydajne. Np. opóźnienia są za wielkie. Trwa więc na tym polu zażarta walka, która uwzględnia też to, by całość zajmowała jak najmniej miejsca i generowała minimalne opóźnienia. Atrakcyjnie na tym polu wypada FlexLogic, który ogłosił, że wskakuje do walki na tym polu, ze swoimi rewolucyjnymi InferX X1, opracowany na podstawie własnych rozwiązań IP. Jak podają twórcy, zapewniać on ma ogromną przepustowość w aplikacjach klasy Edge, z użyciem pojedynczej kości DRAM. W porównaniu z innymi na tym polu, nowy układ FlexLogic zapewniać ma nawet 10-krotnie większą przepustowość. Zastosowano tu technologię między-łączeń znanych z ich wydajnych układów eFPGA, dodając klastry nnMAX. Powstał w ten sposób układ o ogromnej przepustowości w przeliczeniu na zużywaną moc, w porównaniu do istniejących rozwiązań, odnajdując się w aplikacjach, gdzie zazwyczaj występuje jedna kamera (lub innych tego typu sensor). Jak podają twórcy, nowe układy InferX X1, przy zachowaniu małych rozmiarów, cechują się wydajnością zbliżoną do tego, co oferować mają rozwiązania w centrach danych. Zostały też zoptymalizowane do pracy z modelami, wymagającymi nawet 100 miliardów operacji na obraz. W przypadku modelu rozpoznawania obrazów YOLOv3, układ InferX X1 jest w stanie przetworzyć 12.7 klatek na sekundę przy pracy z obrazami o rozdzielczości 2 Mpx (co odpowiada rozdzielczości np. FullHD). Wzrost lub spadek wydajności jest liniowy, powiązany z rozmiarem obrazu. Jeśli więc zmniejszymy rozdzielczość operacyjną obrazu do 1 Mpx, układ zwiększy ilość FPS około dwu-krotnie, jak podaje producent. A to wszystko przy jednej kości DRAM. InferX X1 ma być oferowany jako układy dla urządzeń brzegowych (Edge), o wymiarach połowy kart PCIe dla serwerów i bram, ale także jako rdzenie IP dla twórców układów ASIC i SoC, pozwalając na tworzenie własnych, wyspecjalizowanych scalaków. Układ X1 składa się z czterech elementów nnMAX, a każdy zawiera 1024 jednostki MAC, pracujące przy 1.067 GHz i 2 MB wbudowanej pamięci SRAM. Dane przesyłane są przez (między)łącza ArrayLINX na szczyt stosów klastrów nnMAX. Zastosowano tu też częściową rekonfigurację routingu, warstwa po warstwie, wyciągając nowe wagi z pamięci DRAM. Całość trwa zaledwie mikrosekundę. Złożoność FPGA została sprawnie ukryta, dzięki czemu użytkownicy nie będą musieli uczyć się jej, ani korzystać z narzędzi dla FPGA. Zastosowany kompilator nnMAX Compiler, akceptuje modele z TensorFlow lub ONNX. Silnik obsługuje dane liczbowe, 8- i 16-bitowe oraz bfloat 16-bitowy. System sam zadba o odpowiednie rzutowanie typów, w celu osiągnięcia najlepszej precyzji i wydajności. Celem architektury Flex Logix jest zminimalizowanie zużycia energii poprzez ograniczenie ruchu za pośrednictwem wspomnianego systemu między-łączeniowego FPGA. Wbudowanie SRAM pozwala zmniejszyć wymagania dla DRAM, poprawiając tym samym wydajność i zużycie energii. Układy tworzone mają być w technologii TSMC 16 nm FinFET, oferującą wyjątkową charakterystykę mocy statycznej i dynamicznej, zwiększając sprawność X1 w zastosowaniach Edge. X1, ze swoimi 4096 jednostkami MAC osiągać ma wydajność na poziomie 8.5 TOPS. Co więcej, zostały tak zaprojektowane, by móc je łączyć łańcuchowo, dla większych modeli oraz osiągania wyższej przepustowości. Układy te dostępne mają być w trzecim kwartale 2019 jako rdzenie IP, ze względu na jeszcze trwające prace rozwojowe nad nnMAX. Pierwsze próbki chipów i kart PCIe będą dostępne niedługo potem. © Obrazki od FlexLogix
reklama
reklama
Załaduj więcej newsów
June 25 2019 20:13 V13.3.22-1