Публикация Школы траблшутеров

Как артилект видит наш мир

Время чтения: 7 мин 25 сек
6 декабря 2024 г. Просмотров: 149

Искусственный интеллект | Олег БрагинскийМарина Строева

Основатель «Школы траблшутеров» Олег Брагинский и ученица Марина Строева расскажут о наблюдениях за искусственным интеллектом: как машина понимает, отвечает на запросы и отображает картину мира. Несовпадение с действительностью чарует, удивляет и пугает.

Усердное обучение AI помогло собрать достаточный объём материала для статьи. Протестировали многое, обнаружили системные особенности моделей, отыскали варианты решений и оптимизации для получения приемлемого результата быстрой генерации изображений по поручению заказчиков.

Одной из популярных ошибок (огрех в нашем понимании), стало дублирование обученной модели рисовать то же лицо у всех людей, присутствующих на изображении. Это будут мужчины, женщины и дети, что выглядит пугающе странно. Но артилект, обученный рисовать конкретного человека, будет многократно тиражировать его. Победить проблему достаточно сложно, дополнительные описания в промптах не помогают, система продолжает игнорировать уточнения. Во избежание системных деформаций для генерации картинок рекомендуем задействовать необученные модели:

Вторая, не менее популярная особенность систем – стремление увеличить или уменьшить количество пальцев на руке. К сожалению, 5,4,6 – абсолютно нормальный результат. Но в отличие от дублирования лиц, с ошибкой можно бороться, повторно сгенерировав то же самое изображение:

Следующая необычная для нас вещь, которая кажется естественной и логичной интеллектуальным системам – зависающие в воздухе предметы, которые появляются ниоткуда и идут в никуда. Это может быть что угодно: канаты, привязанные к пустоте и левитирующие предметы. Данный парадокс достаточно популярен и встречается в 3-5 случаях из 10. Чем сложнее и необычнее будет задача, тем чаще получите совершенно удивительный, но физически неподходящий результат. Справляемся просто: не усложняем задачу непопулярными запросами и переделываем пару раз.

AI нередко удивляет видением человеческого тела, по мнению машин, мы резиновые, гибкие и текучие. Как только система не заворачивает конечности! Встречаются изображения в стиле Сальвадора Дали: кожа просто стекает. Выглядит, как в фильме ужасов, но исправляется легко.

Уникальными способностями наделяет нас искусственный интеллект: возможность проникать сквозь предметы кажется абсолютно реальной. Вероятность получить изображение с рукой в стене и телом внутри другого объекта достаточно велика. Особенно если запрос не популярен, а система недостаточно хорошо обучена примерам подобных изображений. Сложнее всего оказалось получить изображение девушке на мотоцикле. Дам модели рисуют неплохо, мотоциклы также получаются хорошо, но совмещает эти два объекта артилект недостаточно реалистично:

Количество пальцев – не единственная математическая погрешность машины: ноги и руки тоже способны удивлять нестандартным количеством. Три конечности появляются достаточно часто, но можно столкнуться и с фантастическим явлением «два в одном». Исправить? Просим переделать!

Если сеть обучать и использовать массово, возникает «смешение» моделей. В результате дублирования снова получаем «2 в 1». Начинается заимствование черт лица, могут измениться волосы, от одной личности модель берёт нос, от другой – глаз, таким образом изменяя эталонные объекты, доводя результат до абсурда. Чаще всего при возникновении таких сбоев приходится всё сносить и пересоздавать заново. Подобные болезни так просто не лечатся. Природа происходящего непонятна, отследить почему и в какой момент включается блендер невозможно:

Несмотря на описанные несоответствия и фантазии систем, итоги работы не делают их непригодными к использованию. В примере для обучения использовали лицо конкретного человека, а, следовательно, модель наловчилась рисовать именно его. Результат не идеален, но приемлем:

Очевидно, что главная проблема не в нейронной сети, а в нас, пользователях. Разработав и получив работающую модель, проводим тестирование, получаем несколько хороших результатов и ошибочно делаем выводы, что модель может «исполнить любые желания». Это ошибка!

Не стройте универсальную систему для решения любых вопросов. Нейронки хороши в решении задач, для которых обучались. Детализированный портрет, без лишних деталей за исключением крупного плана, демонстрирует качество работы системы при реализации главных функций.

Извлечённые выводы:

  1. Неопределённость и системные ошибки моделей ИИ: описание ошибок в восприятии и интерпретации, таких как дублирование лиц, искажение количества пальцев, зависающие предметы, показывает ограниченность ИИ-систем в точности и реалистичности. Проблемы возникают из-за того, что модели обучаются на ограниченных данных, что влияет на способность генерировать адекватное изображение, соответствующее запросу.
  2. Особенности работы с неидеальными моделями: некоторые ошибки, такие как неверное количество пальцев, неожиданные аномалии (человек с телом внутри объекта или рук, проходящих сквозь стены), можно корректировать путём повторной генерации или более точных запросов. Важно помнить, что генерация изображений по непопулярным или сложным промптам ведёт к более частым «сюрпризам».
  3. Проблемы восприятия тела и поз: ИИ странно представляет человеческое тело, часто изображая его как резиновое или искажённое, например, излишними изгибами конечностей или исчезновением кожи. Это указывает на сложности системы в восприятии людской анатомии, что связано с недостаточной вариативностью примеров на этапе обучения.
  4. Трудности с комбинированием объектов: проблемы возникают, когда необходимо объединить несколько элементов (например, девушка на мотоцикле). Несмотря на то что сеть может качественно рисовать отдельные объекты, их реалистичное сочетание требует дополнительной настройки: модель может не всегда правильно составлять сложные сцены.
  5. Смешение моделей и неожиданные результаты: различные черты лица или особенности изображаемого объекта из разных примеров начинают «сливаться» в нечто единое, что является одной из серьёзных системных ошибок. Это может привести к нелепым результатам, когда лицо на изображении будет состоять из элементов разных людей. Попытки исправить такие ошибки не всегда успешны, часто приходится начинать заново.

Рекомендации для работы с ИИ:

Невозможно создать универсальную модель, подходящую для всех запросов. Артилекты имеют специфику – для достижения лучшего результата важно ограничить круг решаемых задач.

Для получения качественных изображений учитывайте текущие ограничения систем – упрощайте сложные запросы или действуйте итерационно, чтобы получить оптимальный результат.

Не ИИ виновна в сбоях, а завышенные ожидания пользователей, верящих, что нейронная сеть сможет решить любую задачу, даже если не была обучена на подходящих данных.

Избегайте использования универсальных моделей и больше полагайтесь на специализированные системы, которые могут дать более корректные прикладные результаты.