Публикация Школы траблшутеров

Как я строил языковые модели искусственного интеллекта. Часть 4

Время чтения: 9 мин 50 сек
29 мая 2024 г. Просмотров: 167

Искусственный интеллект, Проекты | Олег Брагинский

Многомерные пространства позволили описать морфемы, помогая объяснить компьютерам значение слов на естественных языках. Сложности трактования подтолкнули к необходимости формализовать систему исчерпывающего множества конструкций описания понятий машинам.

Чтобы не забивать голову читателя сверхсложными построениями, представим, что имеем дело не с многомерным, а четырёхмерным пространством. Для этого сократим веер из 78’125 лучей достаточных для русского языка, как писал в первой части публикации, до четырёх пучков осей:

  1. Х – характеризует элементы общего смысла, нечувствительные к смене контекста: время, размеры, положение, температура, сила тока, количество вещества, угол, освещённость.
  2. Y – определяет параметры, используемые для повышения точности трактовки понятий в составе ограниченных множеств: ярко-красный цвет металла свидетельствует о перегреве.
  3. Q – согласует системы различного масштаба: расстояние между атомами в молекуле и световой год или ценности: алмаз как драгоценный камень и материал высокой прочности.
  4. Z – искусственные связки для использования в рамках базы знаний: тип морфемы, роль слова во фразе, значение координат в облаке подобных: изысканные описания цветов.

При предложенном упрощении не должно возникнуть сложностей с пониманием. Объёма статьи не хватило бы даже для перечисления 1’000 лучей, которые могут требоваться для постановки промышленной задачи, при том что решение способно затронуть в десять раз больше координат.

Аналогичная сложность возникает и при кодировании пользовательского запроса: очевидно, что фраза «Кто отец Люка?» потребует дополнительных изысканий, ведь может равновероятно относиться к тысячам, а то и триллионам блоков знаний, изложенных измышлениями и фактами.

Начальная калибровка занимает немного времени при проектировании наиболее очевидных осей: спектр, длина рек, глубина морей, площадь океанов, высота знаковых сооружений, население городов, скоростные характеристики животных, электропроводность металлов, крупность плодов.

Сложности приходят с позиционированием смыслов. Простейшие представимы фиксированной точкой пространства, отрезком или вектором заданной длины (здесь и далее – слева направо):

Для необратимостей хорошо подойдёт луч, одномерности задаваемы прямой, проходящей через две принадлежащие ей точки, три объекта элегантно определяют плоскость доступных значений:

Пространственный угол ограничивает конус пространства, функциональная зависимость отражает уравнения, проекции подходят разносторонним описательным взглядам на цельный предмет:

Близкие понятия формируют облака значений, ограниченных радиусом подобия, категориальные смыслы задают сложный объём, вероятностные плоскости фиксируются координатными осями:

Множества задаются гранями, образованными векторами, проекции строятся интервальной направленностью или через условную семантическую симметрию:

Иногда помогает пространственный поворот, описанию способствует «вращение», причём, необязательно по простым траекториям, а также направленный сдвиг:

Понятия определяемы через диапазонно-коэффициентное приближение, генерацию структурно-атрибутивных пояснений, последовательное приближение к желаемому смыслу:

Неплохо справляется сечение плоскостью объёмных фигур, аналогично производится ограничение, прекрасно формируется геометрическое место точек вокруг направляющей кривой:

Доступно множественное объёмное ограничение, спасает введение синтетических координат, выручает представление поверхностью:

Не забыты классические старички: интерполяция, аппроксимация и объёмно-вероятностные модели с итеративной точностью представления…

Логические операции ограничивают взаимодействующие «сферы Эйлера», создавая сколь угодно сложные конструкции из операций «и», «или», «и»…

… и «не». Ещё 22 конструкции не описал даже в диссертации: использовал при построении антивируса, архиватора и хакерского редактора, но частично раскрою в пятой части публикации.

Для упрощения понимания, перечисленные модели описания понятий можно представить переменными и константами, с которыми допустимы операции логики, арифметики, тригонометрии. Комбинаторика применения не исключает множественность, вложенность, итерационность.

Рассмотрим поведение умной машины, снабжённой подобной механикой, на примере фразы: «Мальчику достался червивый огурец». Понятия первого уровня мог бы составить ряд четырёх элементов промта – слов. «Мальчику» и «достался» на втором этапе не будут добавлены атрибуты.

«Огурцу» повезло меньше с точки зрения овощных свойств, но больше с точки зрения семантики, поэтому превратится в лучшем случае «червивый», если на оси «качество» окажется необходимый маркер. В ином случае придётся на других лучах искать близкое понятие «испорченный».

Далее сложности возникнут с:

  • параметрами мальчика: возраст, рост, цвет глаз и волос, национальность, одежда
  • видом овощного червя или визуализацией следов его жизнедеятельности
  • описанием пассивного действия «достался»: подарили, купил, украл
  • свойствами огурца: размер, окрас, спелость, форма.

Нейросеть от Сбера «Kandinsky» видит картину так:

Признайтесь, ваше воображение рисовало всё иначе: огурец – продолговатее и надкушен, парень – взрослее, хотя, надо сказать, к заднему фону претензий нет – вид огородной грядки логичен и правдоподобен. Та-а-ак, а что это красное маячит в левом нижнем углу? Артефакт непонятливости!

Поверьте на слово – машина рассуждала логично, значит, по избыточному элементу можно выяснить способ построения запроса на формирование изображения. А если нейросеть попросить нарисовать тысячи картинок, то рано или поздно узнаем оси формирования неоднозначностей?

Специалист мог бы сказать, что вероятность червивого огурца, выращенного на чернозёме, довольно низка, а вот в индийских теплицах подобное явление не считается редкостью. Если при калибровке понятий привлекались агрономы, машина с достоинством выйдет из затруднения.

В противном случае червивым может оказаться даже гранит, ведь в каком-нибудь из гипотетических миров это возможно. И хоть будет отрицаться специалистами по сельскому хозяйству с Земли, но может быть описано в сотнях рассказов фантастов об иных планетах.

Вернёмся к вопросу, заданному двумя абзацами ранее, но сначала озадачим Kandinsky: «Мальчику достался червивый гранит». Воображение вовсю модифицирует предыдущую картинку, меняя овощ на камень, ну и ходы прорытые паразитом тоже надеемся узреть. Результат озадачит…

Изменилось вообще всё, включая стиль отображения. Не станем придираться к странностям анатомии конечностей, фасону сорочки, инверсному галстуку, выглядывающему из нижней части одежды… но где же, чёрт возьми, камень, который был заказан. Как такое возможно? Караул!

Для начала скажем спасибо, что благодаря подобным инструментам можно оценить неадекватность ожиданий и «способности» машин. Далее отметим то, что артилект в многопользовательском режиме не способен оставаться статичным: запросы меняют базу знаний.

Ну а в третью очередь – сами виноваты. Глупо надеяться, что машина с непривычки поймёт наш призыв. Забываем, что постоянно работаем в контексте. Если попрошу опытного сотрудника прошить презентацию, он возьмёт не дырокол и ленточку, а привычно воспользуется биндером.

А как бы поступили вы? Знали название приспособления для скрепления толстых документов? А с помощью чего делается апостилирование? Для чего используется? Как выглядит? Кто уполномочен проводить? Куда предъявляется? Имеет срок годности? Боится солнечных лучей или нагревания?

Кстати, не подглядывая, быстро и не задумываясь, ответьте, пожалуйста, на вопрос: «Какая из картинок с мальчиком уже?» Думаю, скажете вторая – мультипликационная и… ошибётесь: равны.

Вот так, себе прощаем огрехи мышления и восприятия, ведь инструментом мышления и оценки является единый орган – мозг, которому нравится всё, что сотворит. Аналогичным образом «размышляет» и артилект, оценивая отсутствие уточняющего запроса, довольствование ответом.

Перефразируем запрос на: «Мальчик двумя руками держит гранит, в котором ползают крупные дождевые черви». Получим новое изображение, где проигнорировано «в котором»:

А если: «мальчик двумя руками держит большой кусок гранита, внутри которого ползают крупные дождевые черви». Лучше не стало… опять же, не станем придираться к… обеим рукам:

Конечности редко встречаются в обучающих изображениях, в отличие от причёски, глаз, носа, губ, ушей. Секционные многоцветные черви, поверхность похожая на мокрое сиденье стула, два графических начертания в левом нижнем углу тоже не должны смущать – проблемы устранимы.

Гораздо хуже то, что на последних двух картинках… вообще нет «мальчика» и «внутри». Предложил бы не злорадствовать – такая работа нейросети является колоссальным прорывом, о котором в середине 90-х мы и мечтать не могли, но почему не использовать модели, которым уже 20 лет.

Причина проста: новички склонны изобретать велосипед, не желая изучать серьёзные научные труды. Хорошо, что в своё время меня заставили прочесть работы предшественников: помогло построить артилект гораздо более умный, чем то, что повсеместно с грустью наблюдаю сейчас.

А ещё спасибо Тарасу Жерихину за отрисовку моделей в Photoshop, которые набрасывал карандашом в блокноте, путешествуя на электричке из общежития на побывки к родителям. А в следующий раз рассмотрим пример использования подхода для лечения компьютерных вирусов.