Публикация Школы траблшутеров

Чем искусственный интеллект полезен стройке?

Время чтения: 7 мин 15 сек
12 января 2026 г. Просмотров: 130

Строительство, Искусственный интеллект | Олег Брагинский, Валерий Хлебнов

Бумажная рутина в строительстве – главный враг автоматизации процессов сдачи объектов. Основатель «Школы траблшутеров» Олег Брагинский и ученик Валерий Хлебнов подскажут один из множества вариантов использования искусственного интеллекта на благо общества.

Электронный документооборот (ЭДО) в строительстве пока не позволяет полностью упразднить бумажные носители: Товарно-транспортные и «мягкие» накладные подписываются от руки по старинке. При завершении работ Заказчик требует передачи оригиналов документов на бумаге.

ЭДО имеет неоспоримые преимущества (избавление от бумажных архивов, ускоренное согласование документации разноудалёнными ответственными), но до сих пор не способен упразднить сканирование листов первички с последующим внесением данных в поля системы.

Задумавшись об ускорении данного узкого места, решили испытать искусственный интеллект в качестве распознавания отсканированного массива документов с последующим занесением целевых данных в таблицу. Заполнение таблиц со скана вручную занимало 90% времени работ.

В качестве испытательной площадки выбрали Google Workspace + Drive + Gemini 3. С недавнего времени Google предлагает распознать файл и «составить краткое содержание файла». Было интересно, как артилект справится с разноформатированными документами и фотографиями.

В исходных данных имеет 375 документов о качестве бетонной смеси. Данные необходимые для последующей обработки:

  • дата и время отгрузки
  • вид бетонной смеси
  • номер партии
  • поставщик
  • объём.

Каждый бетонный завод имеет собственную форму для выписки документов о качестве. Отсутствие стандартизированной размеченной формы усложняет поиск необходимых данных в каждом документе вручную. Дополнительные графические элементы не облегчают задачу исполнителям:

Предложив файл Gemini, ждём несколько секунд для обработки. На выходе получаем аннотацию содержания ключевых данных, которые были распознаны. Если в томе несколько однотипных документов, то на экране будут отображены только общая информация для рассмотренных листов:

Для удобства использования объединяем однотипные документы заливок по датам. Многостраничный pdf также будет рассмотрен на предмет разночтений. Артилект понимает, что различия наиболее удобочитаемы в табличной форме, превью которого предлагает на экспорт:

Предварительная таблица не является окончательной. Составив корректный параметрический запрос, получаем искомый результат. Помните, что ИИ не говорит о своих неудачах: полученные данные необходимо просмотреть хотя бы «по диагонали» - увидите уровень адекватности модели.

Рекомендуется формулирование и запуск дополнительных запросов с целью выведать, какие листы не обработаны и пропущены. Причины игнорирования машина опишет в нескольких пунктах наиболее часто встречаемых ошибок. Иногда помогает обособленная обработка «кривого» файла.

Не пытайтесь засунуть объёмные файлы в огромном количестве. Методом проб и ошибок нашли границы работоспособности ИИ: файлы не более 100 М и не более 5 штук за раз. Тяжелее сотки интеллект не проглатывает, а при обработке массива халтурит: рассматривает не более 60 листов.

Дробление на малые части также позволяет отслеживать неточности распознавания и обработки сканов. Номера и даты распознаются хорошо при условии неиспользования уникальных шрифтов и нестандартных начертаний. Полужирный и курсивный потребуют дополнительного внимания.

На нашем примере стены в грунте загружали файлы на бетон за пять дней. В документе не более 10 листов. Запрос на создание таблиц копировали на каждую группу для последующего слияния. Полученные Google-таблицы скачали архивом для пакетной обработки в Power Query MS Excel:

Обращаем ваше внимание, что искусственный интеллект по своей сути является всего лишь ускорителем. «Грязные» исходные данные породят аналогичные выводы. Не жалейте времени на проверку и чистку исходных таблиц, созданных помощником. Ошибки возможны, как и у человека.

При работе на рассматриваемом массиве из 374 листов не было распознано и полностью проигнорировано два листа (0,535%). Кроме того, на одном восьмистраничном файле был получен абсолютно неадекватный результат (2,139%). Модель решила сгенерировать собственные данные.

Из-за порционных скармливаний данных удалось быстро найти нестыковки. Также был выявлен дубляж одного документа, случайно переданного поставщиком повторно. Причёсанные выгрузки импортировали в Power Query, который быстро объединил массив стандартизированных выгрузок:

При импорте загружали папку целиком с промежуточным шагом «Преобразовать данные». Первичная таблица относится к файлам и малоинформативна человеку. Чтобы получить доступ к непосредственно данным, нажимаем сдвоенную стрелку вниз на заголовке колонки «Content».

Получив общую таблицу данных, снова удивляемся магии Power Query. Автоматическое распознавание заголовком и форматов по столбцам, сортировка строк по дате и времени. Избавляемся от дежурных колонок с лишней для нас информацией для дальнейшей работы:

Проверив фильтры, обнаружим несовершенство распознавания документов: путаница между единицей, заглавной латинской «ай» и строчной латинской «л». Ошибочные – плохо пропечатанные шрифты быстро корректируют на лету встроенным функционалом «замена значений»:

Доведя исправления до идеальных значений, наводим красоту итоговой таблицы: проставляем форматы числовых значений, скрываем дополнительную техническую информацию, переименовываем заголовки столбцов в наиболее удобочитаемое по ширине представление:

В очередной раз довольствуемся высокой производительностью Power Query и простотой понятностью языка Power М. Внося корректировки в исходные таблицы при выявлении ошибок, не забывайте обновлять данные для пересчёта вручную. Занимает пару кликов и секунд для вывода.

Предлагаемый вариант займёт значительно меньше времени в сравнении со скроллингом документов, выявления данных и их занесением в таблицу. 374 листа были занесены в течение часа с учётом проверок. Обратите внимание, что в начальных таблицах дата внесена до секунд.

Аналогично можно выстроить работу с Товарно-транспортными накладными (ТТН) и Универсальными передаточными документами (УПД). ИИ хорошо распознаёт структуру документов и выявляет ключевые данные. Корректные запросы помогают быть модели ещё полезнее.

Полученный результат позволяет выдёргивать данные в любом необходимом разрезе, составлять сводные таблицы для проведения анализа затрат планируемых и фактических материалов. Полученная таблица легко ложится в основу любого Реестра, запрошенного по форме Заказчика:

С нетерпением ждём внедрения во все системы ЭДО автоматического распознавания загруженных документов. Не стоит бояться ошибок машин, отсмотр на лету позволит уточнить промахи. Проверить и откорректировать занесённые данные в таблице всё же быстрее заполнения с нуля.