Анализ рынка, Траблшутинг | Олег Брагинский, Роман Жихарев
Основатель «Школы Траблшутеров» Олег Брагинский и слушатель Роман Жихарев делятся опытом применения нейросетей для дубляжа видеопродукции, включая перевод, озвучку голосом персонажа и генерацию губ (липсинк).
В феврале 2024 года к нам обратилась студия из Сербии, планирующая выпустить художественный и документальный фильмы на Netflix. Фирма надеялась стать первой кинокомпанией, дублировавшей видеопродукцию с применением ИИ.
С нашей стороны целью проекта была отработка нюансов дубляжа для последующего создания программного обеспечения, радикально удешевляющего процесс. Переводить текст, копировать голос и рисовать губы нейросети уже умеют. Оставалось только собрать всё это вместе.
На рынке есть несколько онлайн-сервисов, позволяющих перевести и озвучить видео в один клик. Персонаж на экране начинает говорить на другом языке, его губы двигаются в соответствии с произносимыми звуками. Но для серьёзного кино это не подходит. Детально расскажем почему.
Чтобы понять, как происходит переозвучка, посетили студию профессионального дубляжа. Наблюдали работу над эпизодом турецкого сериала. Владелец продемонстрировал все шаги процесса, дал комментарии к ним, ответил на наши вопросы.
Для дубляжа нужны минимум двое. Редактор пишет скрипт и расставляет эмоциональные акценты, а затем руководит техническим процессом записи. Актёр озвучивает фразы персонажа по скрипту, просматривая видеозапись фильма.
Скрипт представляет собой таблицу на полтора десятка страниц, состоящую из трёх колонок: тайм-код, имя персонажа и фразы с пометками звукорежиссёра: «громко», «весло», «с придыханием».
Дуэт актёра и режиссёра движется от строки к строке. Фраза переозвучки должна попасть в длину оригинальной реплики, сочетаться с движением персонажа в кадре и передавать эмоциональный настрой. Часто удовлетворить этим требованиям получается лишь со второй или третьей попытки.
Ознакомившись с типовым подходом, стали работать над собственной методикой. Выбрали отрезок фильма, подготовили машинный перевод на три языка: немецкий, французский, испанский.
Длину фраз подогнали на этапе проверки точности перевода с носителями языка. Люди помогли выявить и исправить ошибки в терминологии и игре слов, которые сделал искусственный интеллект. Поняли, что важен контекст фразы и разговорные обычаи, про которые машина ничего не знает.
При озвучке персонажей потребовалось меньше усилий. Нейросеть проанализировала образцы голоса оригинала и сгенерировала аудиодорожку согласно предоставленному тексту перевода. Актёры на экране заговорили собственным голосом на незнакомом им языке.
Последний шаг: заставить губы персонажа двигаться в такт аудиодорожке. На результат мы могли повлиять выбором технического решения. Испробовали множество вариантов: два онлайн-сервиса (heygen.com и rask.ai), шесть открытых библиотек, проприетарное решение одного из подрядчиков.
Для получения качественного результата ели слона по частям: работали не с готовым монтажом, а с исходными дублями. Иначе загрузка файлов в рабочем разрешении, обработка и последующее исправление ошибок занимали бы слишком много времени.
Столкнулись с проблемами:
- Адекватность перевода. Чтобы подготовить текст, нужно отменно владеть вторым языком, иначе результат будет непредсказуемым, и вы об этом даже не узнаете.
- Попадание в тайминги. Машинный перевод не учитывает требования к длине фраз, приходится подгонять вручную, сохраняя смысл сказанного.
- Невозможно выполнить первые этапы отдельно и произвести их самостоятельно. Нереально перевести текст реплик за раз, правки приходится делать с переводчиком.
- Постановка ударений и выражение эмоций. Существующие инструменты дают мало возможности управлять интонациями, даже ударения в словах проставляются неверно.
- Необходимость доступа к исходным дублям. В смонтированном видео голос персонажа не изолирован, в кадре бывает несколько человек, что создаёт «помехи» для нейросетей.
- Артефакты при повороте. Если голова актёра отклонена на 45+ градусов, наложение губ работает нестабильно. После 70 градусов не работает вообще.
- Несколько лиц в кадре. Иногда губы накладываются не на того персонажа, инструментов разметки пока нет.
- Трудности при работе с разрешением 4k. Большой размер файлов замедляет процессы обработки. Чем крупнее лицо в кадре, тем сильнее заметны артефакты наложения губ.
Ещё одну проблему подсветил специалист по авторским правам. Крупные правообладатели беспокоятся за франшизу и предъявляют более высокие требования к качеству, чем в случае сериалов. Низкие требования – маленькая аудитория, нецелесообразность инвестиций в перевод.
Самым сложным и самым важным с точки зрения инноваций этапом оказался липсинк. Основные технические решения, которые продемонстрировали хорошее качество генерации и наложения губ:
- Heygen – лидер рынка, даёт лучшее качество наложения губ. Полный контроль над текстом перевода предоставляет в энтерпрайз версии: от $10К в год, час дубляжа обходится в $600.
- Второй результат показало решение одного из подрядчиков. Картинка получилась довольно близкая к тому, что демонстрировало решение от Heygen образца февраля 2024 года.
- Rask – демократичное решение по цене от $60 в месяц, включено 25 минут перевода. Позволяет управлять текстом перевода и двигать фразы по таймлайну. Не всегда хорошо справляется с подменой губ: местами съезжают в сторону или глючат.
- Из открытых библиотек хорошие результаты и потенциал к улучшению показала связка waw2lip_gan+codeformer. Точность наложения и качество картинки было близко к коммерческим решениям.
В итоге нам удалось освоить процесс дубляжа, но не получилось достичь нужного уровня качества генерации и наложении губ. Для некоторых сцен это вообще оказалось невозможным.
Выводы:
- Существующие на рынке технические решения не достигли необходимого уровня качества.
- Необходим контроль компетентного специалиста и точная разметка исходных материалов.
- Процесс профессионального дубляжа видео состоит из многих этапов и довольно сложен.
- Вероятно, увидим первый фильм, дублированный с применением ИИ в ближайший год.