В Microsoft научили ИИ имитировать любой человеческий голос – видео | MigNews | Новости Израиля и Мира на русском языкеMigNews

13.01.2023 06:30 Наталья Богинская

В Microsoft научили ИИ имитировать любой человеческий голос – видео

VALL-E может имитировать тембр и манеру речи, прослушав голос реального человека всего три секунды. И хотя звучание немного выдает электронный голос, результат все равно поражает – модель синтеза речи может сохранить эмоциональный тон говорящего и даже акустическую среду.

Microsoft назвала свою разработку "языковой моделью нейронного кодека". VALL-E создавалась на основе EnCodec, звукового кодека, использующего методы машинного обучения, разработанном Meta в 2022 году.

В отличие от других методов преобразования текста в язык, обычно синтезирующих речь путем манипулирования формами волн, VALL-E генерирует отдельные коды аудиокодеков из текстовых и акустических подсказок. Фактически, он анализирует, как звучит человек, разбивает эту информацию на отдельные компоненты "токены" благодаря EnCodec, и использует обучающие данные, чтобы отвечать тому, что он "знает" о том, как звучал бы этот голос, если бы он говорил другие фразы вне трехсекундного образца.

В статье, описывающей технологию, присутствует несколько сравнительных записей. Они разделены на 4 колонки:

В пункте Speaker Prompt можно прослушать оригинальную запись голоса, ограниченную лишь тремя секундами.
В колонке Ground Truth – фраза целиком.
Baseline приводит пример обычного синтезатора языка.
Четвертая колонка позволяет прослушать фразу в исполнении нейросети VALL-E.

VALL-E учили на основе библиотеки LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек. Разработчики предполагают, что технологию можно использовать для высококачественных программ преобразования текста в вещание, редактирования записей языка, где слова человека разрешается менять, создания аудиоконтента и прочего.

Surprised there isn't more chatter around VALL-E

This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯

Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023

В Microsoft научили ИИ имитировать любой человеческий голос – видео

ПОДЕЛИТЬСЯ

ВСЕ ПО ТЕМЕ

КОММЕНТАРИИ

ВСЕ за 24 часа

Лента новостей

НОВОСТИ ПАРТНЕРОВ

ЗНАКОМСТВА

МЫ НА FACEBOOK

Опросы