Эмулятор голоса — это когда человеческая речь воспроизводится с помощью специализированной программы. Как правило, такие программы для синтезирования речи используют нейронные сети, обучаемые в процессе программирования.
Имитация человеческого голоса с одной стороны требует не сильно сложного программного обеспечения, но это не убавляет значимости и вариаций использования имитатора голоса. Приведем лишь несколько примеров, где может использоваться синтезированная человеческая речь:
- можно озвучить аудиокнигу голосом любимого актера;
- можно «читать» книги своему ребенку, когда вас нет рядом;
- эмулятор голоса может быть использован, чтобы воспроизводить речь инвалидов, которые не могут этого сделать самостоятельно.
- и др.
Когда-то, лет 25 назад, имитация голоса казалась неведомой игрушкой и мечтой, которая на тот момент была неосуществимой. Ведь как хотелось говорить другими голосами! Теперь же нас сплошь и рядом окружают синтезаторы человеческой речи. На данный момент самым ярким представителем является разработка компании Lyrebird. Этот эмулятор голоса генерирует больше 1000 предложений в секунду, а это на порядок выше, чем у существующих аналогов. Плюс это позволяет сымитировать практически любой голос.
Искусственный интеллект — технология имитации голоса
Развитие искусственного интеллекта идет очень стремительно. Рано или поздно ИИ проникнет во многие сферы человеческой деятельности. Первыми в имитации человеческой речи его начали использовать разработчики Lyrebird. Именно они стали применять нейронную сеть, которая, обучаясь, стала более точно имитировать речь людей, анализируя саму речь и представленные записи речи как в аудио, так и в виде текста.
Там, где искусственный интеллект слабо используется в синтезе речи, возникает ощущение именно компьютерного голоса, а не человеческого. Яркими представителями являются голосовые помощники:
- Siri у Apple;
- Alexa у Amazon;
- Алиса у Yandex;
- Google Assistant;
- и др.
У вышеупомянутых систем, хоть они и используют искусственный интеллект для имитации голоса, принцип воспроизведения речи построен на том, что в программе есть только один или максимум несколько голосов. То есть эти голосовые помощники собирают слова и фразы для воспроизведения из ранее уже записанных файлов одного или нескольких конкретных голосов. Они не могут зазвучать любым голосом. А для того, чтобы все-таки зазвучал другой голос, нужно будет записывать новые аудиофайлы, которые должны содержать все возможные слова для поддержки общения.
Эмулятор голоса Lyrebird
Имитация голоса в системе Lyrebird происходит несколько по другому сценарию, чем у других. Здесь искусственный интеллект обучен таким образом, что он может воспроизводить речь практически любым голосом. Достигается это путем многочасового прослушивания огромного количества аудиозаписей. Именно «оттуда» имитатор голоса черпает новые предложения, новые слова, интонации, эмоции и т.д., и из полученных данных генерирует речь. Данная нейронная сеть постоянно глубоко обучается, а из прослушиваемых файлов она генерирует закономерности построения речи, достигая совершенства. По своему принципу работы у нее есть схожесть с функционированием человеческого мозга.
Потом, после обучения, имитатор голоса Lyrebird понимает, как генерируется речь, и ищет возможность адаптироваться под любой голос. Для адаптации ей достаточно прослушать минутный аудио фрагмент желанного голоса. Этого достаточно, чтобы «уловить» основу и алгоритмы построения любого голоса.
Разработчики Lyrebird заметили интересную вещь: с каждой новой речью система «изучает» и начинает говорить новым голосом быстрее. Это происходит потому, что в большинстве своем алгоритмы построения разных голосов схожи. Все, как у людей: выучив один иностранный язык, следующий дается быстрее, а третий еще быстрее и т.д.
Конечно, говорить о полной естественности речи системы Lyrebird еще рано. Хоть она и способна имитировать разные человеческие голоса, но от наличия «роботизированности» речи полностью уйти не удалось. Есть ряд недочетов, над которыми нужно еще поработать, например:
- использование звуков дыхания человека (вдох/выдох);
- использование движения человеческого рта (чмоканье, прикус и т.д).
Это все естественно для обычной человеческой речи, поэтому мы «на слух» этого не замечаем. Однако отсутствие этих «мелочей» в синтезированной речи сразу становится заметным. По словам разработчиков Lyrebird, эти недостатки удастся исправить в ближайшие несколько лет, и только потом можно будет с точностью имитировать человеческую речь.
Эмулятор голоса — это все-таки не просто игрушка
Имитатор голоса — это, безусловно, полезное программное обеспечение, если его использовать правильно. Однако имитация голоса может принести определенные проблемы в некоторых моментах. Потому что, даже имея недостатки, упомянутые выше, в большинстве своем неподготовленные и ничего не подозревающие «человеческие» уши не способны различить разницу в аудио- или видеозаписи человеческого голоса и имитирующего его машинного. Это может принести ряд проблем:
- может быть сбита с толку система голосовой проверки;
- может быть сбита с толку судебная система в делах, где применяется в качестве доказательства аудио- или видеозаписи;
- личная безопасность может быть нарушена, ведь практически в записи можно «заговорить» голосом любого человека;
- данная технология позволяет управлять звуком в режиме реального времени, поэтому можно ставить под сомнения достоверность даже «прямых» новостных эфиров.
Определить, что звук подделан,возможно. Но, учитывая потенциальный объем и важность информации, это не всегда будет возможным.
Менее глобальной проблемой, но имеющей место быть, является то, что некоторые люди, использующие имитацию голоса, например, в своем смартфоне, могут «сдружиться» с таким помощником и принимать от него советы. Это возможно, потому что, в принципе, люди больше доверяют «знакомому» голосу, чем написанному тексту.
В заключение хочется сказать, что эмулятор голоса — это не игрушка. В добрых намерениях он может приносить огромную пользу. В недобрых — большой вред. Но в целом к существованию технологии для имитации голоса нужно просто привыкнуть. Ведь если чуток углубиться в историю: раньше мы доверяли фотографиям, но в эпоху Фотошопа мы привыкли к тому, что не всем фото можно доверять. Так будет и с синтезированной речью — со временем привыкнем, что любой голос, в принципе, может быть подделан. И это наша новая реальность, которая уже наступила, но привыкнем мы к ней только спустя время.
Другое