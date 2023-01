VALL-E может имитировать тембр и манеру речи, прослушав голос реального человека всего три секунды. И хотя звучание немного выдает электронный голос, результат все равно поражает – модель синтеза речи может сохранить эмоциональный тон говорящего и даже акустическую среду.



Microsoft назвала свою разработку "языковой моделью нейронного кодека". VALL-E создавалась на основе EnCodec, звукового кодека, использующего методы машинного обучения, разработанном Meta в 2022 году.



В отличие от других методов преобразования текста в язык, обычно синтезирующих речь путем манипулирования формами волн, VALL-E генерирует отдельные коды аудиокодеков из текстовых и акустических подсказок. Фактически, он анализирует, как звучит человек, разбивает эту информацию на отдельные компоненты "токены" благодаря EnCodec, и использует обучающие данные, чтобы отвечать тому, что он "знает" о том, как звучал бы этот голос, если бы он говорил другие фразы вне трехсекундного образца.



В статье, описывающей технологию, присутствует несколько сравнительных записей. Они разделены на 4 колонки:

