Статьи

Автоматизация процесса сопоставления документов

Искусственный интеллект БЕЗ нейронок

Сопоставление смет, подготовленных в программе "Гранд-Смета", с ведомостями объемов работ, поступающих из проектных институтов, представляет собой многоуровневую задачу, требующую учета множества факторов. Рассмотрим сложности этого вопроса и пути их преодоления.

авторы-2Авторы статьи: руководитель практики продуктов видеоаналитики Дмитрий Зуев, главный разработчик Валерий Зайцев. Центр разработки нейросетевых решений ООО "Газпромнефть – Цифровые решения"

Основная сложность заключается в принципиальных различиях структуры и содержания этих документов. Сметы фокусируются на номенклатурных позициях – материалах и оборудовании с указанием их стоимости, норм расхода и единиц измерения (например, "Кирпич, 1 000 шт., 50 руб./шт."). Ведомости же акцентируют внимание на описании видов и этапов работ, часто без детализации до уровня конкретных ресурсов (например, "Кладка стен, 500 кв. м"). Это создает парадокс: объемы работ в ведомостях необходимо соотнести с расходными материалами в сметах, что требует знания нормативов и умения преобразовывать единицы измерения.

Дополнительные вопросы возникают из-за терминологической несовместимости. Одна и та же операция может быть описана по-разному: например, "Устройство фундамента" в проектной документации и "Бетонирование ленточного основания" в смете. Такая разница в формулировках затрудняет автоматическое сопоставление данных без применения методов нечеткого поиска или машинного обучения.

Еще одной проблемой становятся разночтения в уровнях детализации. Сметы часто дробят работы на подэтапы ("Прокладка кабеля", "Установка розеток"), тогда как ведомости объединяют их в общие категории ("Монтаж электропроводки"). Это требует либо агрегирования данных, либо их дезагрегирования, что может привести к погрешностям.

Единицы измерения и нормативные базы добавляют еще один уровень сложности. Если ведомости оперируют квадратными или кубическими метрами, то сметы фиксируют объемы в штуках, тоннах или погонных метрах. Например, 1 кв. м кладки стен предполагает использование определенного количества кирпичей, но для точного расчета требуется интеграция данных из нормативных справочников. При этом нормы расхода материалов могут меняться в зависимости от технологий или регламентов, что делает актуализацию данных непрерывным процессом.

Техническая сторона автоматизации сравнения также вызывает определенные трудности. Документы поступают в различных форматах, от таблиц Excel до сканов PDF, что требует разработки гибких парсеров и ETL-процессов. Даже использование API "Гранд-Смета" не решает проблему, если ведомости предоставлены в неструктурированном виде. Кроме того, человеческий фактор (опечатки, субъективные интерпретации или ошибки ввода) может существенно искажать результаты.

Программа онлайн-мероприятий для специалистов по безопасности, ИТ и цифровой  трансформации

Подход к разработке системы сравнения: алгоритм Рэтклиффа – Обершелпа и гештальт-анализ

Разработка программы для сопоставления сметной документации и ведомостей объемов работ требовала отказа от традиционных методов в пользу решения, способного обрабатывать неструктурированные данные с высокой вариативностью формулировок. В основе системы лежит алгоритм Рэтклиффа – Обершелпа, известный также как гештальт-сопоставление, – метод, изначально разработанный для сравнения строк на основе их "общей формы", а не буквального совпадения. Он идеально подходит для задачи, где ключевой проблемой является терминологическая несовместимость и разночтения в описаниях работ.

Архитектура системы

Система состоит из трех основных модулей (см. рис. 1). На первом этапе производится извлечение данных из документов смет и ведомостей, на втором – анализ хешируемых данных, на третьем – формирование отчета для эксперта.

1 (14)

Рис. 1. Визуальное представление этапов обработки данных

Извлечение и нормализация данных

Документы из "Гранд-Смета" и ведомости объемов работ парсятся с учетом их форматов (Excel, PDF, XML). Данные структурируются в единую таблицу, где каждая позиция содержит описание работы, объем, единицы измерения и номенклатурные коды для смет. На этом этапе применяются правила валидации: проверка корректности единиц измерения, диапазонов значений и отсутствия дубликатов.

Сопоставление гештальт-шаблонов

Здесь в действие вступает алгоритм Рэтклиффа – Обершелпа. Каждая строка описания работы преобразуется в числовой хеш, учитывающий не только буквенный состав, но и семантическую "форму" фразы. Например, строки "Кладка стен" и "Монтаж стеновых конструкций" получают близкие хеши, несмотря на различия в формулировках. Алгоритм анализирует последовательности символов, их длину и позиции, вычисляя коэффициент схожести от 0 до 100%. Порог совпадения настраивается: для строгих сметных позиций он выше, для описательных ведомостей – ниже.

Анализ расхождений и визуализация

Сопоставленные позиции проверяются на соответствие объемов с учетом конвертации единиц (например, кв. м в штуки кирпичей через нормативные базы). Система выявляет три типа расхождений:

  1. Структурные. Работы, отсутствующие в одном из документов.
  2. Количественные. Отклонения в объемах более заданного порога.
  3. Семантические. Неоднозначные формулировки, требующие ручной проверки.

Почему не нейросети?

Отказ от машинного обучения обусловлен спецификой задачи. Нейросети требуют больших объемов размеченных данных для обучения, которых часто нет в уникальных проектах. Кроме того, семантические нюансы строительных терминов могут варьироваться между заказчиками, что делает универсальную модель неприменимой. Гештальт-алгоритм, напротив, работает "из коробки", не требуя обучения, и легко адаптируется к новым стандартам через настройку хеш-функций и словарей синонимов. Результаты выводятся в виде интерактивного отчета с цветовой индикацией и пояснениями, почему та или иная позиция была сопоставлена.

Преимущества подхода

  1. Гибкость. Алгоритм Рэтклиффа – Обершелпа корректно обрабатывает опечатки, синонимы и различия в уровнях детализации.
  2. Прозрачность. В отличие от "черного ящика" нейросетей, гештальт-метод позволяет отследить логику сопоставления через хеш-значения.
  3. Скорость. Обработка 10 тыс. позиций занимает менее минуты, что критично для крупных проектов.

Ограничения и дальнейшее развитие

Система не заменяет, а дополняет экспертов: по нашей оценке, 10–15% позиций требуют ручной проверки из-за двусмысленных формулировок (например, "Устройство перекрытий" может подразумевать как бетонные, так и металлические конструкции). В планах – интеграция элементов NLP для анализа контекста и расширение нормативной базы.

Заключение

Использование гештальт-алгоритма позволило создать систему, которая преодолевает ключевые барьеры сравнения смет и ведомостей – терминологическую несовместимость, разночтения в единицах измерения и уровни детализации. Подход доказал свою эффективность в пилотном проекте, сократив время проверки документов на 40% и снизив количество ошибок. Это подтверждает, что, даже применяя методологии искусственного интеллекта без использования ML, можно решать сложные задачи анализа данных, если выбрать алгоритм, точно соответствующий специфике предметной области.

Иллюстрации предоставлены авторами.

Опубликовано в журнале "Системы безопасности" № 1/2025

Все статьи журнала "Системы безопасности"
доступны для скачивания в iMag >>

Изображение от lcd2020 на Freepik

ОБЗОРЫ ПО БЕЗОПАСНОСТИ >>

Поделитесь вашими идеями

Подписаться на новости

Технологии. Обзоры решений. Задачи заказчиков.