ИИ-приложения уже могут клонировать голос конкретного человека
Большинству пользователей наверняка не понравится будущее, в котором искусственный интеллект сможет cкопировать его голос и говорить то, что он никогда не произносил.
Согласно статье «Neural Voice Cloning with a Few Samples» («Нейронное клонирование голоса на базе небольшого количества примеров»), опубликованной исследователями из компании Baidu, ИИ-приложение может всего несколько раз прослушать чей-то голос, а затем начать говорить почти так же. Отмечается, что это отчасти похоже на кибернетическую птицу-пересмешника, копирующую голоса.
Эксперты опасаются, что такая технология, когда ее усовершенствуют, будет идеально подходить для создания поддельных аудиозаписей людей. К сожалению, это открывает большое поле для шантажа.
Итак, Искусственный Интелект наступает, скоро пранкером может стать каждый и потребуются технологии, котоыре возможно каким-то способом будут подтверждать что свами говорит именно тот человек, чей голос вы слышите. И вот тогда станет понятна актуальность звонков через мессенджеры - там оцифрованный голос можно будет снабжать электронными подписями, сертификатами и прочими идентифицирующими элементами. Скоро не только сайты не использующие https будут считаться ненадежными, но и поступивший звонок без использования значка доверенного сертификата будет считаться подозрительным. Светлое будущее все ближе.
Команда китайской компании Baidu, предоставляющей web-сервисы, хорошо известна благодаря разработке реалистично звучащей речи ИИ при прочтении текстовых файлов. Последний исследовательский проект этой компании, представленный на этой неделе, показывает, как ИИ-приложение может изучать характеристики голоса человека и воссоздавать этот звук для того, чтобы «человек» произнес совсем другие слова. Издание The Register приводит ссылку, содержащую оригинальную аудиозапись с определенным женским голосом, а также записи «клонированного» голоса, созданного на базе одного примера, пяти примеров, а также 100 примеров оригинального голоса.
Аналитики подчеркивают, что пока результаты не идеальны. Тем не менее, системе нейронного клонирования голоса удалось сохранить в речи британский акцент.
Исследователи представили два разных подхода к созданию системы нейронного клонирования голоса, первая получила название «speaker adaptation», вторая — «speaker encoding». Первый подход подразумевает обучение ИИ-приложения различным голосам, которые слышны на аудиозаписях разных людей. Для этого команда использовала 2 484 образца голоса. Искусственный интеллект учится распознавать характерные черты речи людей, чтобы имитировать даже едва уловимые особенности произношения и ритма.
Второй подход основан на обучении ИИ-приложения конкретным трансформациям голоса с аудиозаписи и воспроизведении схожих звуковых фрагментов с помощью отдельной базы. Для обучения этой системы также использовались примеры речи различных людей.
Ученый Серкан Арик (Sercan Arik), соавтор статьи и научный сотрудник Baidu Research, объяснил изданию The Register, что метод «speaker encoding» применить намного проще. Такое ИИ-приложение можно использовать даже на смартфоне, потому как этот метод быстр и не требует большого количества памяти устройства. Другими словами, не исключено, что вскоре появятся приложения для смартфона, которым достаточно будет прослушать фразу, сказанную другим человеком, и сконструировать другие фразы его голосом. Это, к сожалению, открывает путь для фальшивых телефонных звонков. Мысль, что ИИ может изменять данные, чтобы распространять ложную информацию, вызывает обеспокоенность у очень многих.
Ранее 26 специалистов в области искусственного интеллекта из различных университетов опубликовали документ «The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation», в котором перечислили варианты того, как ИИ-приложения могут использоваться злонамеренно. К сожалению, подобные документы не только служат цели предупредить проблемы, но и подкидывают идеи в топку тех, кто находится по другую сторону баррикад и как раз не против использовать ИИ с намерениями, далекими от добропорядочных.
Впрочем, технология клонирования голоса также может быть использована для вполне невинных целей, а не так, как в фильме «Терминатор 2», где два робота, один «хороший», а другой «плохой», обмениваются репликами, имитируя голоса юного Джона Коннора и его приемной матери.
В качестве позитивных примеров использования клонирования голоса приводится следующий вариант — матери смогут настроить аудиокнигу с тем, чтобы текст читался их голосом. О том, что это крадет бесценные моменты общения с ребенком, и о теряемой в данном варианте обратной связи, эксперты умалчивают.
Большинство аналитиков подчеркивают, что такие технологии, способные обходить биометрическую идентификацию по голосу, необходимо контролировать.
По материалам www.it-weekly.ru