Nauka i technologie | 15 lipca 2024

Microsoft stworzył zbyt realistyczny generator mowy VALL-E 2

VALL-E 2 to nowy generator mowy firmy Microsoft, który może przekonująco odtwarzać ludzkie głosy. Jego wyjątkowość polega na tym, że na podstawie zaledwie kilku sekund dźwięku, jest w stanie wygenerować "dokładną, naturalną mowę dokładnie głosem oryginalnego mówcy, porównywalną z ludzką wydajnością". Jego twórcy nie udostępnią go do użytku publicznego ze względu na zagrożenia, jakie widzą w jego powszechnym użyciu.

Nowy generator głosu AI VALL-E 2 jest na tyle przekonujący, że można go pomylić z prawdziwą osobą - przynajmniej według jego twórców.

"VALL-E 2 to najnowszy postęp w modelach językowych kodeków neuronowych, który stanowi kamień milowy w syntezie tekstu na mowę (TTS), osiągając po raz pierwszy ludzki parytet. Co więcej, VALL-E 2 konsekwentnie syntetyzuje wysokiej jakości mowę, nawet w przypadku zdań, które tradycyjnie stanowią wyzwanie ze względu na ich złożoność lub powtarzające się frazy" - czytamy w opisie nowinki od Microsoftu.

Ze względu na tak zaawansowane możliwości, Microsoft nie udostępni VALL-E 2 publicznie. Chodzi o potencjalne ryzyko niewłaściwego użycia. Zbiega się to z rosnącymi obawami dotyczącymi klonowania głosu i technologii deepfake. Inne firmy zajmujące się sztuczną inteligencją, takie jak OpenAI, nałożyły podobne ograniczenia na swoją technologię głosową.

"VALL-E 2 jest wyłącznie projektem badawczym. Obecnie nie mamy planów włączenia VALL-E 2 do produktu lub rozszerzenia dostępu do niego" - napisali naukowcy w poście na blogu. "Może to wiązać się z potencjalnym ryzykiem związanym z niewłaściwym wykorzystaniem modelu, takim jak fałszowanie identyfikacji głosu lub podszywanie się pod konkretnego mówcę".

Jednocześnie autorzy zasugerowali, że technologia mowy AI może znaleźć praktyczne zastosowanie w przyszłości.

"VALL-E 2 może syntetyzować mowę, która zachowuje tożsamość mówcy i może być wykorzystywana do nauki, rozrywki, dziennikarstwa, treści własnych, funkcji dostępności, interaktywnych systemów odpowiedzi głosowych, tłumaczeń, chatbotów i tak dalej" - dodali naukowcy.