Автоматизация процесса сопоставления документов
Дмитрий Зуев 15/04/25
Искусственный интеллект БЕЗ нейронок
Сопоставление смет, подготовленных в программе "Гранд-Смета", с ведомостями объемов работ, поступающих из проектных институтов, представляет собой многоуровневую задачу, требующую учета множества факторов. Рассмотрим сложности этого вопроса и пути их преодоления.
Авторы статьи: руководитель практики продуктов видеоаналитики Дмитрий Зуев, главный разработчик Валерий Зайцев. Центр разработки нейросетевых решений ООО "Газпромнефть – Цифровые решения"
Основная сложность заключается в принципиальных различиях структуры и содержания этих документов. Сметы фокусируются на номенклатурных позициях – материалах и оборудовании с указанием их стоимости, норм расхода и единиц измерения (например, "Кирпич, 1 000 шт., 50 руб./шт."). Ведомости же акцентируют внимание на описании видов и этапов работ, часто без детализации до уровня конкретных ресурсов (например, "Кладка стен, 500 кв. м"). Это создает парадокс: объемы работ в ведомостях необходимо соотнести с расходными материалами в сметах, что требует знания нормативов и умения преобразовывать единицы измерения.
Дополнительные вопросы возникают из-за терминологической несовместимости. Одна и та же операция может быть описана по-разному: например, "Устройство фундамента" в проектной документации и "Бетонирование ленточного основания" в смете. Такая разница в формулировках затрудняет автоматическое сопоставление данных без применения методов нечеткого поиска или машинного обучения.
Еще одной проблемой становятся разночтения в уровнях детализации. Сметы часто дробят работы на подэтапы ("Прокладка кабеля", "Установка розеток"), тогда как ведомости объединяют их в общие категории ("Монтаж электропроводки"). Это требует либо агрегирования данных, либо их дезагрегирования, что может привести к погрешностям.
Единицы измерения и нормативные базы добавляют еще один уровень сложности. Если ведомости оперируют квадратными или кубическими метрами, то сметы фиксируют объемы в штуках, тоннах или погонных метрах. Например, 1 кв. м кладки стен предполагает использование определенного количества кирпичей, но для точного расчета требуется интеграция данных из нормативных справочников. При этом нормы расхода материалов могут меняться в зависимости от технологий или регламентов, что делает актуализацию данных непрерывным процессом.
Техническая сторона автоматизации сравнения также вызывает определенные трудности. Документы поступают в различных форматах, от таблиц Excel до сканов PDF, что требует разработки гибких парсеров и ETL-процессов. Даже использование API "Гранд-Смета" не решает проблему, если ведомости предоставлены в неструктурированном виде. Кроме того, человеческий фактор (опечатки, субъективные интерпретации или ошибки ввода) может существенно искажать результаты.
Подход к разработке системы сравнения: алгоритм Рэтклиффа – Обершелпа и гештальт-анализ
Разработка программы для сопоставления сметной документации и ведомостей объемов работ требовала отказа от традиционных методов в пользу решения, способного обрабатывать неструктурированные данные с высокой вариативностью формулировок. В основе системы лежит алгоритм Рэтклиффа – Обершелпа, известный также как гештальт-сопоставление, – метод, изначально разработанный для сравнения строк на основе их "общей формы", а не буквального совпадения. Он идеально подходит для задачи, где ключевой проблемой является терминологическая несовместимость и разночтения в описаниях работ.
Архитектура системы
Система состоит из трех основных модулей (см. рис. 1). На первом этапе производится извлечение данных из документов смет и ведомостей, на втором – анализ хешируемых данных, на третьем – формирование отчета для эксперта.
Рис. 1. Визуальное представление этапов обработки данных
Извлечение и нормализация данных
Документы из "Гранд-Смета" и ведомости объемов работ парсятся с учетом их форматов (Excel, PDF, XML). Данные структурируются в единую таблицу, где каждая позиция содержит описание работы, объем, единицы измерения и номенклатурные коды для смет. На этом этапе применяются правила валидации: проверка корректности единиц измерения, диапазонов значений и отсутствия дубликатов.
Сопоставление гештальт-шаблонов
Здесь в действие вступает алгоритм Рэтклиффа – Обершелпа. Каждая строка описания работы преобразуется в числовой хеш, учитывающий не только буквенный состав, но и семантическую "форму" фразы. Например, строки "Кладка стен" и "Монтаж стеновых конструкций" получают близкие хеши, несмотря на различия в формулировках. Алгоритм анализирует последовательности символов, их длину и позиции, вычисляя коэффициент схожести от 0 до 100%. Порог совпадения настраивается: для строгих сметных позиций он выше, для описательных ведомостей – ниже.
Анализ расхождений и визуализация
Сопоставленные позиции проверяются на соответствие объемов с учетом конвертации единиц (например, кв. м в штуки кирпичей через нормативные базы). Система выявляет три типа расхождений:
- Структурные. Работы, отсутствующие в одном из документов.
- Количественные. Отклонения в объемах более заданного порога.
- Семантические. Неоднозначные формулировки, требующие ручной проверки.
Почему не нейросети?
Отказ от машинного обучения обусловлен спецификой задачи. Нейросети требуют больших объемов размеченных данных для обучения, которых часто нет в уникальных проектах. Кроме того, семантические нюансы строительных терминов могут варьироваться между заказчиками, что делает универсальную модель неприменимой. Гештальт-алгоритм, напротив, работает "из коробки", не требуя обучения, и легко адаптируется к новым стандартам через настройку хеш-функций и словарей синонимов. Результаты выводятся в виде интерактивного отчета с цветовой индикацией и пояснениями, почему та или иная позиция была сопоставлена.
Преимущества подхода
- Гибкость. Алгоритм Рэтклиффа – Обершелпа корректно обрабатывает опечатки, синонимы и различия в уровнях детализации.
- Прозрачность. В отличие от "черного ящика" нейросетей, гештальт-метод позволяет отследить логику сопоставления через хеш-значения.
- Скорость. Обработка 10 тыс. позиций занимает менее минуты, что критично для крупных проектов.
Ограничения и дальнейшее развитие
Система не заменяет, а дополняет экспертов: по нашей оценке, 10–15% позиций требуют ручной проверки из-за двусмысленных формулировок (например, "Устройство перекрытий" может подразумевать как бетонные, так и металлические конструкции). В планах – интеграция элементов NLP для анализа контекста и расширение нормативной базы.
Заключение
Использование гештальт-алгоритма позволило создать систему, которая преодолевает ключевые барьеры сравнения смет и ведомостей – терминологическую несовместимость, разночтения в единицах измерения и уровни детализации. Подход доказал свою эффективность в пилотном проекте, сократив время проверки документов на 40% и снизив количество ошибок. Это подтверждает, что, даже применяя методологии искусственного интеллекта без использования ML, можно решать сложные задачи анализа данных, если выбрать алгоритм, точно соответствующий специфике предметной области.
Иллюстрации предоставлены авторами.
Опубликовано в журнале "Системы безопасности" № 1/2025
Все статьи журнала "Системы безопасности"
доступны для скачивания в iMag >>
- Безопасность объектов (313)
- Пожарная безопасность (281)
- Видеонаблюдение (279)
- Комплексная безопасность (279)
- СКУД (260)
- Транспортная безопасность (172)
- Пожарная сигнализация (141)
- Каталог "Пожарная безопасность" (129)
- Мнения экспертов (118)
- Цифровая трансформация (115)
- Видеоаналитика (109)
- Видеокамеры (99)
- Биометрия (97)
- Искусственный интеллект (88)
- Пожаротушение (64)
- Цифровое ЖКХ (61)
- Места с массовым пребыванием людей (59)
- Информационная безопасность (57)
- Киберзащита (57)
- Журнал "Системы безопасности" №1/2021 (48)
- Журнал "Системы безопасности" №6/2023 (48)
- Ритейл (48)
- Охрана периметра (46)
- Журнал "Системы безопасности" №6/2021 (45)
- Журнал "Системы безопасности" №2/2022 (43)
- Беспроводные технологии (42)
- Журнал "Системы безопасности" №1/2022 (42)
- Журнал "Системы безопасности" №1/2023 (42)
- Журнал "Системы безопасности" №5/2022 (41)
- Журнал "Системы безопасности" №5/2024 (41)
- Журнал "Системы безопасности" №6/2022 (41)
- Журнал "Системы безопасности" №2/2020 (40)
- Журнал "Системы безопасности" №3/2020 (39)
- Журнал "Системы безопасности" №3/2022 (39)
- Журнал "Системы безопасности" №5/2023 (39)
- Журнал "Системы безопасности" №6/2019 (39)
- Умный дом (39)
- Журнал "Системы безопасности" №1/2024 (38)
- Журнал "Системы безопасности" №4/2023 (38)
- Журнал "Системы безопасности" №4/2024 (38)
- Журнал "Системы безопасности" №5/2021 (38)
- Технологии распознавания (38)
- Журнал "Системы безопасности" №4/2022 (37)
- Журнал "Системы безопасности" №2/2021 (36)
- Журнал "Системы безопасности" №3/2023 (36)
- Журнал "Системы безопасности" №5/2020 (36)
- ТЭК и нефтегаз (36)
- Журнал "Системы безопасности" №3/2021 (35)
- Журнал "Системы безопасности" №4/2020 (35)
- Журнал "Системы безопасности" №1/2020 (34)
- Защита от БПЛА (34)
- Рынок безопасности (34)
- Журнал "Системы безопасности" №2/2023 (33)
- Журнал "Системы безопасности" №2/2024 (33)
- Журнал "Системы безопасности" №6/2020 (33)
- Журнал "Системы безопасности" №5/2019 (31)
- Журнал "Системы безопасности" №4/2021 (30)
- Тепловидение (30)
- Автоматизация зданий (29)
- Журнал "Системы безопасности" №1/2025 (29)
- Журнал "Системы безопасности" №6/2024 (29)
- Центры обработки данных (ЦОД) (29)
- Интернет вещей (IoT) (28)
- Умный город (28)
- Журнал "Системы безопасности" №3/2024 (27)
- Машинное зрение (27)
- Антидрон (26)
- Идентификация (26)
- Журнал "Системы безопасности" №4/2019 (25)
- Нейросети (25)
- СОУЭ (25)
- Безопасность (24)
- Импортозамещение (24)
- Транспорт (24)
- Облачные технологии (23)
- Журнал "Системы безопасности" №3/2019 (22)
- Новости компаний (20)
- Охрана труда и промышленная безопасность (ОТиПБ) (20)
- Банки и финансы (19)
- Промышленность (19)
- PSIM (17)
- Антитеррор (17)
- НВП "Болид" (17)
- COVID-19 (15)
- Досмотр (15)
- Охрана объектов (15)
- Интеграция (14)
- Аргус-Спектр (13)
- Безопасный город (13)
- Исследование (13)
- Турникеты (13)
- Итоги (12)
- Охранная сигнализация (12)
- Рейтинги (12)
- Системы хранения данных (СХД) (12)
- Удаленный доступ (12)
- All-over-IP (11)
- Beward (11)
- Автоматизация (11)
- Домофоны (11)
- Извещатели (11)
- Проектирование и монтаж (11)
- ТБ Форум (11)
- BioSmart (10)
- CCTV (10)
- МЧС России (10)
- Распознавание лиц (10)
- Сертификация (10)
- IdM (9)
- PERCo (9)
- Взрывозащита (9)
- Дайджест (9)
- Интервью (9)
- Источники бесперебойного питания (ИБП) (9)
- Роботизация (9)
- Axis Communications (8)
- Стрелец-ПРО (8)
- ААМ Системз (7)
- АРМО-Системы (7)
- Авиакомпании и аэропорты (7)
- БАС (7)
- Болид (7)
- ИТ-инфраструктура (7)
- Метрополитен (7)
- ПБ (7)
- Программное обеспечение (7)
- DSSL (6)
- Бизнес, идеи и мнения (6)
- Лидеры технологий (6)
- Радиоканальные системы (6)
- АСУ ТП (5)
- Беспилотники (5)
- Законодательство (5)
- Индустрия 4.0 (5)
- Компании (5)
- Металлургия (5)
- Мобильный доступ (5)
- Шлагбаумы (5)
- IDIS (4)
- ITV Group (4)
- PERCo-Web (4)
- Бюро Технического Развития (4)
- Журнал "Системы безопасности" (4)
- Журнал "Системы безопасности" №2/2025 (4)
- ИПДА (4)
- ИТ-отрасль (4)
- Коммутаторы (4)
- Машинное обучение (4)
- ОПС (4)
- Регулирование (4)
- Ситуационные центры (4)
- ТД Актив-СБ (4)
- Тестирование (4)
- Трибуна заказчика (4)
- BIM-технологии (3)
- Smartec (3)
- dormakaba (3)
- АСКУЭ (3)
- АУП (3)
- Агрокомплекс (3)
- Алкотестер (3)
- Астрон (3)
- Безопасность КИИ (3)
- Важные люди (3)
- Гибридная война (3)
- Защита информации и связи, кибербезопасность (3)
- Информационные технологии (3)
- Колонка эксперта (3)
- Конференции (3)
- Критически важные объекты (КВО) (3)
- Мероприятия по безопасности (3)
- Микроэлектроника (3)
- Персональные данные (3)
- Промышленная автоматизация (3)
- Противотаранные устройства (3)
- СУРВ (3)
- Сельское хозяйство (3)
- ТЕКО (3)
- Умные парковки (3)
- Учет рабочего времени (3)
- Эксклюзив (3)
- 5G (2)
- ACaaS (2)
- EverFocus (2)
- IT-системы (2)
- Iron Logic (2)
- PALMJET (2)
- PCI DSS (2)
- Parsec (2)
- RPA (2)
- RusGuard (2)
- SaaS (2)
- Synology (2)
- TRASSIR (2)
- Vidau Systems (2)
- ZKTeco (2)
- АО "ОКБ "АСТРОН" (2)
- Аналитика (2)
- Астра-А (2)
- Аттестация (2)
- Аттестация персонала (2)
- Безопасность данных (2)
- Беспроводные системы (2)
- Виртуальный рабочий стол (2)
- Главгосэкспертиза (2)
- Делетрон (2)
- ИТС (2)
- Инновации (2)
- Кабельная продукция (2)
- Категорирование (2)
- Контроллеры (2)
- Корпоративная безопасность (2)
- Метро (2)
- Минтранс (2)
- Объекты культурного наследия (2)
- Охранный мониторинг (2)
- ПО (2)
- Производитель (2)
- РЖД (2)
- Росгвардия (2)
- ССОИ (2)
- Современный офис (2)
- Стандарты, нормы и требования (2)
- Строительная экспертиза (2)
- Термокожухи (2)
- Тоннели (2)
- Удаленная работа (2)
- Хранение оружия (2)
- ЦеСИС НИКИРЭТ (2)
- Цифровизация (2)
- Цифровые технологии (2)
- Энергетика (2)
- логистика (2)
- 3D-моделирование (1)
- Ajax (1)
- Axis Talk 2021 (1)
- BARNET (1)
- BIM- моделирование (1)
- BYOD (1)
- Basler AG (1)
- Beyond Security (1)
- Big Data (1)
- Bosch (1)
- CMOS-технология (1)
- COPE (1)
- ChatGPT (1)
- Cloud4Y (1)
- D-link (1)
- DBaaS (1)
- DCImanager (1)
- DDoS-атаки (1)
- DIS Group (1)
- Dahua (1)
- Deep Learning (1)
- EAS-система (1)
- EKF (1)
- Edge AI + Vision (1)
- Face ID (1)
- FaceStation 2 (1)
- Faceter Russia (1)
- Flamax (1)
- GDPR-террористы (1)
- Grundig Security (1)
- HID Global (1)
- HR Tech (1)
- Hanwha Techwin (1)
- Hi-Tech Security (1)
- Hikvision Russia (1)
- Hrtech (1)
- IP-коммуникации (1)
- IP-протокол (1)
- IP-системы (1)
- ISPsystem (1)
- IT-инфраструктура (1)
- IaaS (1)
- InPrice Distribution (1)
- InfoWatch Traffic Monitor (1)
- Intel (1)
- Intelligent Video (1)
- Milestone Systems (1)
- Mission Critical (1)
- NAS (1)
- NFC (1)
- NFC BLE (1)
- NOVIcam (1)
- NVR (1)
- OSDP (1)
- OSRAM (1)
- ParsecNET 3 (1)
- Phoenix Contact (1)
- QNAP (1)
- QR-коды (1)
- RPA-платформы (1)
- RecFaces (1)
- SIP (1)
- SVA/SVI (1)
- SVP/SVZ (1)
- Seagate (1)
- Seagate Technology (1)
- SecuriSmoke (1)
- Securika Moscow (1)
- Sicurezza (1)
- Sigur (1)
- Synology DVA3219 (1)
- UEM SafeMobile (1)
- Ultra-Wideband (1)
- VMS (1)
- VUCA-мир (1)
- deepfake (1)
- e-commerce (1)
- e-сommerce (1)
- eIVP1570 VE (1)
- АМТ-ГРУП (1)
- АНВ (1)
- АПС rubetek (1)
- АСУДД (1)
- Адресные СПС (1)
- Аспирационные системы (1)
- Астра-Z-8845 (1)
- Астра-Zитадель (1)
- Астра-РИ-М (1)
- БГ-Оптикс (1)
- БайтЭрг (1)
- Бесконтактный сканер (1)
- Беспилотный транспорт (1)
- Бизнес (1)
- Биотехнологии (1)
- Большие данные (1)
- Бун Эдам (1)
- В2В (1)
- В2С (1)
- Вентиляция (1)
- Верификация (1)
- Виртуальный ассистент (1)
- Вирусная активность (1)
- Вишинг (1)
- Всероссийский союз страховщиков (1)
- Гениус Первый (1)
- Гибридная пена (1)
- Государственный надзор (1)
- Дактилоскопия (1)
- Деловая программа (1)
- Дистанционное обучение (1)
- Добродел (1)
- ЕБС (1)
- Евразийский экономический союз (1)
- Европейский союз (1)
- ЖКУ (1)
- Зимняя вишня (1)
- ИИС (1)
- ИКАО (1)
- ИПДЛ (1)
- ИСБ (1)
- ИСО Орион (1)
- ИСП (1)
- ИТРИУМ СПб (1)
- Игорь Олейник (1)
- Иконоскоп Зворыкина (1)
- Интеллектуальные транспортные системы (1)
- Интернет (1)
- Интером (1)
- Источники информации (1)
- К2Тех (1)
- Квантовые вычисления (1)
- Киберугрозы (1)
- Колонка редактора (1)
- Контрафактная продукция (1)
- Контроллер Matrix-VI (1)
- Контроль доступа (1)
- Конфиденциальная информация (1)
- Логический доступ (1)
- МГП ЗАРЯ (1)
- МФСБ (1)
- МЦД (1)
- Малленом Системс (1)
- Менеджер по продажам СБ (1)
- Методы защиты информации (1)
- Метрология (1)
- Микропроцессоры (1)
- Минимизация последствий ЧС (1)
- Минэнерго (1)
- Минэнерго России (1)
- Мировая урбанизация (1)
- Мобильные мошенники (1)
- Модули подключения (1)
- Морская безопасность (1)
- Мосгортранс (1)
- Московский метрополитен (1)
- Мошеннические схемы (1)
- Мощность излучения (1)
- НПЗ (1)
- НПК "Фотоника" (1)
- Нетворк Профи (1)
- Ниеншанц-Автоматика (1)
- Новости (1)
- ОКБ "Гамма" (1)
- ОС QuTS hero (1)
- ОТИ (1)
- Огневые испытания (1)
- Опрос онлайн (1)
- Оптимизация систем безопасности (1)
- Отраслевые сайты по безопасности (1)
- Отрасль (1)
- Охранные системы (1)
- ПАО "КАМАЗ" (1)
- ПК (1)
- Пентест (1)
- Передатчик (1)
- Персоны (1)
- Пожтехника (1)
- Полупроводники (1)
- Развитие экономики (1)
- Результаты сертификации (1)
- Росжелдор (1)
- Росморречфлот (1)
- Ростехнадзор (1)
- Рынок ИТ (1)
- СБ "Марит" (1)
- СМК (1)
- Самарский метрополитен (1)
- Самолет-амфибия (1)
- Сбербанк (1)
- Сверхвысокочастотный сигнал (1)
- Сенсорные барьеры (1)
- Система измерения (1)
- Системы безопасности (1)
- Системы защиты с трибоэлектрическим кабелем (1)
- Системы позиционирования (1)
- Системы связи и мониторинга (1)
- Сканер отпечатков пальцев (1)
- Сканирование пассажиров в метро (1)
- Сколково (1)
- Смарт-считыватели (1)
- События (1)
- Советы менеджерам (1)
- Социальная инженерия (1)
- Стивен Кови (1)
- Стрелец-Мониторинг (1)
- Строительство (1)
- Считыватели (1)
- Считыватели рисунка вен (1)
- Т8 Сенсор (1)
- ТЕНЗОР (1)
- ТПУ (1)
- ТСПО (1)
- Тайм менеджмент (1)
- Телевидение (1)
- Телеком (1)
- Телефонные мошенники (1)
- Терагерцовая технология (1)
- Термометрия (1)
- Тест (1)
- Технологии (1)
- Управление доступом (1)
- Управляемый хаос (1)
- ФСБ (1)
- ФСТЭК (1)
- Фиксация нарушений ПДД (1)
- Форум (1)
- Центр ФСБ России (1)
- Цикл продаж СБ (1)
- Чат-бот (1)
- Широкополосный доступ (1)
- Шоплифтер (1)
- Экономическая безопасность (1)
- Экспертиза (1)
- Электрозамки (1)
- Электромагнитная совместимость (1)
- Эпоха диджитализации (1)
- виртуальная реальность (1)
- здравоохранение (1)
- маркетинг (1)
- процессоры (1)
- связь (1)
- фишинг (1)
- Апрель 2025 (20)
- Март 2025 (22)
- Февраль 2025 (17)
- Январь 2025 (17)
- Декабрь 2024 (21)
- Ноябрь 2024 (26)
- Октябрь 2024 (24)
- Сентябрь 2024 (22)
- Август 2024 (23)
- Июль 2024 (23)
- Июнь 2024 (18)
- Май 2024 (23)
- Апрель 2024 (20)
- Март 2024 (20)
- Февраль 2024 (19)
- Январь 2024 (25)
- Декабрь 2023 (30)
- Ноябрь 2023 (24)
- Октябрь 2023 (19)
- Сентябрь 2023 (23)
- Август 2023 (26)
- Июль 2023 (21)
- Июнь 2023 (20)
- Май 2023 (24)
- Апрель 2023 (17)
- Март 2023 (21)
- Февраль 2023 (24)
- Январь 2023 (24)
- Декабрь 2022 (32)
- Ноябрь 2022 (28)
- Октябрь 2022 (24)
- Сентябрь 2022 (25)
- Август 2022 (21)
- Июль 2022 (24)
- Июнь 2022 (27)
- Май 2022 (24)
- Апрель 2022 (24)
- Март 2022 (27)
- Февраль 2022 (21)
- Январь 2022 (22)
- Декабрь 2021 (25)
- Ноябрь 2021 (23)
- Октябрь 2021 (24)
- Сентябрь 2021 (25)
- Август 2021 (24)
- Июль 2021 (26)
- Июнь 2021 (30)
- Май 2021 (25)
- Апрель 2021 (25)
- Март 2021 (22)
- Февраль 2021 (17)
- Январь 2021 (17)
- Декабрь 2020 (23)
- Ноябрь 2020 (19)
- Октябрь 2020 (17)
- Сентябрь 2020 (16)
- Август 2020 (23)
- Июль 2020 (20)
- Июнь 2020 (22)
- Май 2020 (16)
- Апрель 2020 (26)
- Март 2020 (22)
- Февраль 2020 (17)
- Январь 2020 (20)
- Декабрь 2019 (21)
- Ноябрь 2019 (12)
- Октябрь 2019 (18)
- Сентябрь 2019 (24)
- Август 2019 (14)
- Июль 2019 (17)
- Июнь 2019 (17)
- Май 2019 (13)
- Апрель 2019 (18)
- Март 2019 (18)
- Февраль 2019 (25)
Поделитесь вашими идеями