Публикация Школы траблшутеров

Как я строил языковые модели искусственного интеллекта. Часть 3

Время чтения: 18 мин
6 марта 2024 г. Просмотров: 282

Искусственный интеллект, Проекты | Олег Брагинский

Разобрав на морфемы 20+ тысяч слов, понял, что предстоит сменить способ представления неполной информации вследствие контекстной зависимости естественных языков. Задумал создать универсальную формулу описания фраз на базе понятий из многомерных пространств.

Разберём отличие мышления человека и машины на примере научного мифа: «Ньютон придумал закон всемирного тяготения, когда на голову упало яблоко». Забавную небылицу великий учёный придумал для племянницы Катерины Кондуит, а позже пересказал биографу Уильяму Стакли.

Даже школьник сообразит, что «Ньютон» – английский физик, математик, механик и астроном, создатель классической физики и математического анализа. К сожалению, для моего артилекта М7 трактовка была неоднозначной. В начале предложения слова всегда пишутся с большой буквы.

При смене регистра на нижний, гипотетически, речь может идти о единице измерения «ньютон» – воздействии, изменяющем на 1 с скорость тела массой 1 кг на 1 м/с в направлении действия силы. Возникающую неоднозначность устраняет слово «придумал», говорящее об активности личности.

Описание персоны может быть детальным или частичным в зависимости от распространённости и полноты информации. «Закон всемирного тяготения» разберём ниже, но уже понятна адресация события к фундаментальному труду «Математические начала натуральной философии».

Если бы не своевременная подсказка глаголом, искусственный интеллект не смог бы даже определить пол субъекта анализа. Не верите? Тогда рассмотрим тёзок дам:

  1. Ребекка Сара Ньютон, Кэтрин Ньютон и Беки Ньютон – американские актрисы
  2. Элла Ньютон и Оливия Ньютон – австралийские лицедейки
  3. Ньютон Джюс – певица, гитаристка и поэтесса-песенник
  4. Тэнди Ньютон – английская актриса
  5. Нерида Ньютон –писательница
  6. Мика Ньютон – украинская певица
  7. Ли Ньютон – комик и блогер.

С мужчинами ситуация ещё хуже (список усечён):

  1. Фредерик Ньютон – военный, казнённый за участие в попытке государственного переворота
  2. Хьюи Перси Ньютон – революционер, пропагандист, правозащитник, писатель
  3. Калеб Ньютон – американский рыбак, поймавший крупнейшего змеелолова
  4. Кэмерон Джеррелл Ньютон и Кэм Ньютон – американские футболисты
  5. Хельмут Ньютон – немецко-австралийский фотограф и фотохудожник
  6. Бенджамин Уиллс Ньютон – евангелист и христианский писатель
  7. Айвор Ньютон – английский пианист и аккомпаниатор
  8. Альфред Ньютон – британский зоолог и орнитолог
  9. Майкл Ньютон – американский гипнотерапевт
  10. Чарльз Томас Ньютон – британский археолог
  11. Берт Ньютон – австралийский телеведущий
  12. Карлос Ньютон – канадский боец ММА
  13. Адам Ньютон – английский футболист
  14. Артур Ньютон – легкоатлет
  15. Вейн Ньютон – певец.

Человек сразу поймёт, что Ньютон – фамилия, а неназванное имя «Исаак» может быть указано выше, тогда информация будет «полной» или известной благодаря школьной программе, и речь пойдёт о распространённости. Искусственный интеллект будет обязан проверить ещё и имена.

Затем займётся названиями и окажется, что «Ньютоны» находятся буквально повсеместно:

  1. в географии: гора Шпицбергена, район Окленда; 14 городов, 7 деревень и 6 округов США
  2. в культуре: монотипия Уильяма Блейка и скульптура Эдуардо Паолоцци
  3. в ИТ: серия карманных компьютеров и операционная система для них
  4. в астрономии: космический рентгеновский телескоп
  5. у военных: база британских ВВС возле Ноттингема
  6. в физике: устаревшая единица температуры
  7. в астрономии: кратеры на Луне и Марсе.

Когда работал в «Альфа-Банк» был у меня коллега Тарас Степан. На Украине, и не только там, распространены фамилии похожие на имена – это отдельная история из антропонимики. Думаете, отчества образовывают исключительно по отцам? Погуглите «матчество» или «матроним»!

Моя фамилия совпадает с Брагинским районным центром Гомельской области Республики Беларусь. Подобные явления называются топонимией, которые изучает ономастика – раздел языкознания, занимающийся историей возникновения и трансформацией собственных имён.

Второе слово «придумать» доставит хлопот не меньше. Может означать:

  1. создать – образ или сюжет, не основанный непосредственно на действительных фактах
  2. решить – обдумав, прийти к выводу, вынести постановление
  3. сообразить – понять, догадаться, дойти в уме, организовать
  4. вообразить – представить мысленно, предположить, счесть
  5. изобрести – создать что-либо новое, прежде неизвестное
  6. измыслить – найти способ, догадаться сделать что-то
  7. сочинить – выдумать то, чего не было, солгать.

Даже вам, читатель, придётся постараться, тщательно выбирая единственно верный вариант, ведь каждое понятие должно однозначно адресоваться в многомерном пространстве описаний. Человек, вероятно, остановится на «сообразить», но машине нужно «изобрести», ведь речь идёт о новизне.

Разобрав всего два слова, сталкиваемся «полнотой», как с бетонной стеной. При промышленном анализе текста важно знать, когда произошло событие. Это может быть «когда-то» или «сегодня». В первом случае – идея 1666 года с публикацией в 1687. Во втором – утро, день, вечер, ночь.

Понимание давности и длины временного горизонта должно отсекать попытки манипуляций, при которых студенты или шутники с издёвкой скормят артилекту фрагмент «Классическая теория тяготения Ньютона сразу после великого озарения была записана в файле формата MS Word».

Третье слово «закон» тоже заставит попотеть. Варианты трактовки в:

  1. философии – объективные связи событий
  2. науке – повторяемая связь явлений
  3. праве – нормативно-правовой акт.

А ещё был советский исторический фильм режиссёра Владимира Наумова с хронометражем в 138 минут, снятый в 1988 году на киностудии «Мосфильм» и вышедший на экраны в 1989 году. Драма повествует о событиях реабилитации необоснованно репрессированных в середине 1950-х.

В 2002-м прошёл российский сериал «Закон» из 23 частей режиссёра Александра Велединского, который в том же году стал соавтором сценария телесериала «Бригада». Можно возразить, что название продукта «Рекун-Фильм» должно начинаться большой буквой и обрамляться кавычками.

Это в теории, а на практике парный знак препинания может отсутствовать вовсе из-за спешки, ошибки, игнорирования, невнимательности. Страшнее может быть только наличие одного из выделений, причём пропуск второй «сестрицы» превратит часть текста от первой – цитатой.

Помните название труда, в котором сэр Исаак изложил закон после падения яблока? Если вы не физик, то скорее всего запамятовали. В четвёртом абзаце текущего материала ясно указал: «Математические начала натуральной философии». Так что же выбрать: физику или философию?

Возвращаемся к определению первого слова: «английский физик, математик, механик и астроном». С неподдельной радостью от однозначности выбираем физику в качестве предметной области. Жаль, не можем посоветовать автору сменить название трактата во избежание путаницы.

На пятой позиции фразы стоит «всемирный», который можно расшифровать, как:

  1. распространяющийся на весь мир
  2. относящийся ко всему
  3. универсальный
  4. глобальный.

M7, несомненно, ведает о релятивистской теории тяготения, первые труды которой публиковали в начале 1910-х годов Макс Абрахам, Гуннар Нордстрём и Альберт Эйнштейн. Артилект знает и о гравитационном парадоксе Неймана – Зелигера, сформулированном в 1894-1896 годах.

Поэтому ни одно из предложенных мною определений для термина «всемирный» использовано быть не может. Тем более что машина помнит ещё один отбраковывающий факт: расхождение теоретического и наблюдаемого смещения перигелия Меркурия. Слово придётся проигнорировать!

На шестой позиции красуется многозначное «тяготение» с вариативностью:

  1. метафорический термин в русской теории музыки XX века
  2. свойство тел притягиваться
  3. потребность
  4. стремление
  5. притяжение
  6. гравитация
  7. влечение.

Благодаря введённому в 13-м абзаце понятию «временной горизонт» отметаем вариацию «музыкальный термин», как несостоятельную. К рассмотрению остаётся целых шесть гипотез. Когда дойдём до яблока, рискуем скатиться до символа грехопадения, плодородия, любви, радости.

А пока «вспоминаем», что Ньютон – человек, следовательно, обладает руками-ногами. Значит, версия «свойство тел притягиваться» имеет право жить. Туда же отправляется «потребность», «стремление», «притяжение», «влечение», но никак не «гравитация». Шалят предметные области!

Безобидная запятая может использоваться для выделения и обособления:

  1. причастных и деепричастных оборотов
  2. определений
  3. вводных слов
  4. междометий
  5. обращений
  6. уточнений.

Просмотром изучаемой фразы отсекаем варианты с первого по пятый. Остаётся 6-й: «уточнение». При воспроизведении текста обособление потребует ритмико-интонационного выделения слова после запятой. А понятие, выбранное исключением, будем понимать, как «пояснять и дополнять».

Нейтральное «когда» не вызовет испуга у людей, машина же неслабо напряжётся:

  1. риторический вопрос, предполагающий ответ «никогда»
  2. в значении «в какое время?»
  3. одновременность событий
  4. относительность действия
  5. противопоставление
  6. иногда.

Определение части речи тоже способно завести в непроходимые дебри наречий:

  1. определительное
  2. неопределённое
  3. вопросительное
  4. относительное
  5. времени

или союзов:

  1. временной
  2. условный.

Выбор станет возможен только после анализа последующих слов, а пока удивимся тому, что невзрачный предлог способен подло «подложить свинью». Учитывая шанс написания в ошибочном регистре, обязаны рассмотреть версии аббревиатур:

  1. новый алфавит – латинизированный набор букв
  2. нитрамин – антиангинальное лекарство
  3. организация «Национальный альянс»
  4. испанская партия «Народный альянс»
  5. норадреналин – нейромедиатор
  6. национальная ассамблея,

а если учесть вероятность пропуска знаков препинания, добавятся:

  1. На. – книга пророка Наума
  2. н. а. – народный артист

К искренней радости и большому облегчению все восемь вариантов снова отсекаются… временным горизонтом. Честь ему и хвала! Переходим к выбору определения смысла предлога «на» (даже тут без него не обойтись):

  1. указание на эмоциональное состояние
  2. источник финансирования
  3. обозначение средства
  4. промежуток времени
  5. размер инструмента
  6. местонахождение
  7. распространение
  8. манера действий
  9. метод запирания
  10. объект действия
  11. способ оценки
  12. направление
  13. поверхность
  14. указание
  15. цель.

Снова придётся отложить вынесение вердикта до оцифровки слова «голова» и просто не будет:

  1. пищевой продукт шарообразной или конусовидной формы
  2. передняя по ходу движения доля протяжённого
  3. верхняя часть тела животного или человека
  4. животное или птица при учёте
  5. интеллект
  6. сознание
  7. причёска
  8. рассудок
  9. волосы.

Ньютон мог вкусно есть, бодро считать, осматривать сверху, козырять интеллектом, демонстрировать сознание, бравировать причёской, прибегать к рассудку, расчёсывать волосы. Фактически яблоко свалилось на варианты, описываемые пунктами 3, 7, 8. Машина выберет ждать.

От «упасть» тоже поблажки ждать не приходится:

  1. переместиться вниз под действием силы тяжести до встречи с опорой
  2. показывать более низкое значение, чем ранее
  3. временно потерять работоспособность
  4. уменьшиться
  5. ухудшиться
  6. дать сбой.

Осторожный артилект попросит следующую «карту», которая окажется последней. Даже за пределами множественного символизма «яблоко» петляет и путает:

  1. расширение на шейке наконечника колющего древкового холодного оружия
  2. круглое пятно на шкуре животного, иногда на одежде
  3. конец эфеса меча или другого холодного оружия
  4. рабочая часть булавы и шестопёра
  5. противовес в виде шара на рычаге
  6. плод яблони, кисло-сладкий фрукт
  7. сфера в завершении шпиля.

Оценим расклад на руках, составляющий неразобранную фразу «когда на голову упало яблоко». Для «когда»:

  • никогда не подходит, ведь нечто таки произошло
  • относительность не обнаруживается
  • иногда не просматривается
  • противопоставления нет
  • время не указано,

остаётся «одновременность».

«На» в качестве предлога, дополненного тремя последующими словами:

  • эмоционального состояния не передаёт
  • источник финансирования не указывает
  • размер инструмента не декларирует
  • местонахождения не предполагает
  • распространением не занимается
  • манерой действий не бахвалится
  • метод запирания не называет
  • объект действия не адресует
  • способом оценки не пахнет
  • средство не обозначает,

а вот направление, поверхность, указание и цель отсечь пока не представляется возможным.

«Голова» не способна оказаться:

  • неосязаемыми интеллектом, сознанием, рассудком
  • учётной единицей животного или птицы
  • пищевым продуктом,

оставляя вариации в смыслах: передняя доля, верхняя часть, причёска или волосы.

«Упасть» по методу не будет:

  • потерей работоспособности
  • более низким значением
  • уменьшением
  • ухудшением
  • сбоем,

значит, окажется перемещением под силой тяжести!

 

 

Тогда «яблоко» не может быть:

  • пятном на шкуре или одежде
  • противовесом на рычаге
  • сферой на шпиле,

остаются: наконечник колющего оружия, конец эфеса меча, верхушка булавы, фрукт. Искусственному интеллекту остаётся рассмотреть не забракованные части подмножеств:

  1. когда: одновременность
  2. на: направление, поверхность, указание, цель
  3. голова: передняя доля, верхняя часть, причёска, волосы
  4. упасть: перемещением под силой тяжести
  5. яблоко: наконечник колющего оружия, конец эфеса меча, верхушка булавы, фрукт.

Элементы списка 1 и 5 формируют однозначную техническую фразу «одновременно с перемещением под силой тяжести». Вторая строка трансформируется в «сверху». Третья часть определится по частотности «верхняя часть», пятая – по аналогии станет плодом.

Думаете на этом можно завершить? Как бы не так! Представьте, что решим зарисовать случившееся. Из приведённой и расшифрованной фразы артилекту будет совершенно невдомёк:

  • сколько времени и когда именно размышлял Ньютон – устал и был ли измучен по окончании
  • пользовался ли учёный письменными принадлежностями или действовал с пустыми руками
  • великий муж стоял, сидел на корточках, на стуле, за столом, ходил кругами, мимо шёл
  • стоит ли изобразить людей: друзей сэра, садовника, упомянутую ранее племянницу
  • яблоко упало на макушку, ударило со смещением, задело нос или одно из ушей
  • фрукт остался цел, отскочил, раскололся, расквасился, испачкал мыслителя
  • плод нырнул в траву, шлёпнулся в лужу, влип в грязь, покатился дорожкой.

Помимо проанализированного текста придётся добавить обобщения на базе «здравого машинного смысла»:

  • одежду, сообразно историческому периоду и потенциальной территории случившегося
  • возраст, физическое состояние, выражение лица, украшения на шее и руках
  • толщину ствола, высоту и раскидистость дерева, близость к человеку
  • время года и суток; температура и ветер; состояние неба и солнца
  • сорт злосчастного плодоносного; размер, цвет и сочность плода
  • атрибуты комфорта и уюта: трость, мебель, чашка, закуски
  • наличие живности: червяк в яблоке, кошки и собаки вблизи.

Два последних списка опять представил упрощёнными, чтобы не терять лес за деревьями. Всё верно – намекаю на пословицы, поговорки, афоризмы, цитаты, их вариации, сокращения и неверные использования. Надеюсь, прониклись величием великого и могучего, будем закругляться.

Источниками наиболее очевидных галлюцинаций артилекта в нашем частном случае могли бы стать:

  1. Неверные части составного понятия, например, всех – принцип вселенского притяжения.
  2. Невозможность определения пола живого существа – Ньютон имя и мужское, и женское.
  3. Смешение давности и длины временных горизонтов – в 17 веке творил на компьютере.
  4. Отчества, образованные по матери – минангкабау в Индонезии и неварцы в Непале.
  5. Спорная атрибуция характеристик – тяготение слабо коррелирует с гравитацией.
  6. Большая буква в начале слова: Ньютон – учёный, ньютон – единица измерения.
  7. Путаница с предметной областью – закон относится к философии и физике.
  8. Элементы полного имени (ФИО) путаются из-за схожести – Тарас Степан.
  9. Размеры множеств – мало что способно летать, а вот падать – почти всё.
  10. Упущенные знаки препинания – перекраивают смысл до неузнаваемости.
  11. Множественность значений слов, способных к мимикрии частей речи.
  12. Абсолютизм – универсальность нередко опровергается со временем.
  13. Идентичность написания слова, аббревиатуры, сокращения – на.
  14. Совпадение имён и географических объектов – Брагинский.
  15. Исторического опровержения абсолютизма – всемирный.

Список не конечный и сокращён из жалости к дочитавшим. Полный в силу комбинаторики может достигать десятков тысяч причудливо смешанных строк. А в следующий раз смиренно поведаю об описательных моделях, которыми годами оцифровывал понятия в многомерных измерениях.