Разработка системы машинного зрения для детекции и классификации СИЗ на металлургическом производстве
Дмитрий Лапин, Владимир Клычников, Марк Хуббатулин, Антон Штарев, 14/04/22
Системы детекции и классификации средств индивидуальной защиты (СИЗ) с помощью машинного зрения все чаще применяются к видеоданным с существующих и вновь устанавливаемых камер в различных цехах и помещениях металлургических производств. В статье будут рассмотрены основные трудности, с которыми сталкиваются разработчики таких систем, идеи, которые помогают их решить, и перспективы развития с точки зрения как технологий, так и бизнеса.
Главная трудность подобных проектов возникает уже на старте, когда у разработчиков в доступе не оказывается собранных и подготовленных данных, а текущая инфраструктура не сильно готова к быстрому сбору и автоматизированной разметке. В этом случае командам целесообразно искать как релевантные внешние датасеты, так и собирать внутренний своими силами, используя доступные OpenSource-решения для разметки собираемых данных.
Модели хорошие и разные
Пока разработчики готовят первые данные и самостоятельно их размечают, параллельно стоит проводить бенчмарк моделей из открытых источников для поиска подходящей для поставленной задачи предобученной нейросети и ее архитектуры. По ощущениям, это что-то среднее между использованием китайских научных библиотек и гитов с результатами хакатонов.
Философия точности
Перед бизнесом и командой разработчиков могут стоять и специфические задачи, например приземлить критерии успешности от внедрения системы вообще (повышение дисциплины и снижение нарушений) на количественные метрики работы системы компьютерного зрения (accuracy, mAP и т.д.). Общение на разных языках и общая неопределенность делают такую задачу нетривиальной.
Пул идей
Чтобы победить возникающие трудности и быстро сдвинуть проект с мертвой точки, хорошо подойдет брейнсторминг и недельная разработка в режиме хакатона. Так получится выработать ряд решений, которые помогут взлететь.
Главные вопросы, которые разработчикам нужно задать себе и бизнесу:
- Сколько времени человек может быть без каски? Секунду? Минуту?
- Сколько оповещений о событии должно быть? Однократное? Пока событие не прекратится?
Ответы на эти вопросы помогут при подборе границ срабатываний и повышении уровня робастности моделей.
Связь "бизнес – алгоритм"
Познакомиться и подружиться с бизнесом – необходимый шаг для того, чтобы поставить проект на рельсы. Это всегда непростая задача, с учетом разных интересов, профильного образования и деятельности разных участников. Поэтому стоит обратиться к хорошо зарекомендовавшему себя фреймворку LeanDS и применить "укороченный" вариант канваса на первом же кик-оффе (рис. 1).
Рис. 1. Пример канваса вопросов и идей на старте проекта
Заполнив совместно с заказчиком такую форму на кик-оффе, можно выявить основные технические и организационные трудности и оперативно их решить.
Логика спасает ИИ
Какими бы навороченными и современными ни были SOTA-архитектуры нейросетей, без правильной логики их использования результатов не будет. Именно этим нужно руководствоваться при создании алгоритма (пайплайна) работы системы детекции и классификации СИЗ. В общем виде вариант такого алгоритма представлен на рис. 2.
Рис. 2. Алгоритм (пайплайн) работы системы детекции и классификации СИЗ
Алгоритм анализа видеопотока строится модульно, с возможностью расширения функционала детектируемых и классифицируемых объектов и событий без изменения логики последовательной обработки.
Базовым решением является детекция человека на видеопотоке и присвоение ему уникального идентификатора (ID) для привязки будущих детектируемых и классифицируемых событий. При этом целевые показатели точности и полноты детекции человека достигают не менее 0,9.
После детекции человека на видеопотоке проводится как классификация наличия на нем СИЗ согласно установленному списку, так и анализ пересечения или нахождения в границах опасной зоны.
Постобработка полученной при классификации и анализе информации позволяет объединить параметры алгоритма с установленной для конкретной камеры бизнес-логикой. При этом из настроек и конфигураций определяются как пороги детекции и классификации, так и время эффективного срабатывания.
В части работы с метриками можно сделать отдельную статью, однако просто зафиксируем простую истину. На первом этапе вся задача по детекции и классификации СИЗ может быть сведена к бинарной классификации, известная матрица ошибок которой представлена на рис. 3.
Рис. 3. Матрица ошибок при бинарной классификации
Для простоты восприятия каждый квадрант рекомендуется расписать простыми словами:
- TP – "каску сняли, и мы увидели";
- FP – "каску сняли, но мы не увидели";
- FN – "каску не сняли, но мы увидели";
- TN – "каску не сняли, и мы не увидели".
Благодаря этому можно, например, быстро выяснить у заказчика, что "больнее" всего бизнесу от FN-срабатываний, так как они перегружают диспетчеров.
Флешмобы
Имеет смысл формирование комплексной методики, которая позволит на каждой камере провести практически исчерпывающие сценарии видимости человека в СИЗ за достаточно ограниченные сроки. Например, так можно получить и разметить 12 тыс. кадров с площадок по людям и каскам для дообучения детектора и классификатора, чтобы приблизить выборку к сбалансированной. Пример кадра с подобного флешмоба представлен на рис. 4.
От "человека" к остальному
Когда получено стабильное и повторяемое решение по детекции на кадре человека в различных условиях, архитектура микросервиса позволяет добавлять модели классификации и детекции без создания дополнительной нагрузки или костылей к общему решению.
Гибкая инфраструктура
В ходе разработки решения можно учитывать разные схемы размещения микросервиса. Три из них представлены в таблице.
Таблица. Схемы размещения микросервиса
Плюсы | Минусы | |
Одноплатники |
Самые компактные |
ARM-процессор Маломощные |
Неттопы |
Компактные Мощные |
Редкие |
Сервера |
Самые мощные |
Негабаритные Дорогие |
Юнит-экономика во главе
Для окончательной победы здравого смысла и дружбы между разработчиками и бизнесом есть смысл ввести единую целевую функцию, справедливую для разных ситуаций в проекте – от небольшого дооснащения будки в цеху до покрытия новой зоны размером с футбольное поле:
Мин. (Цвидео) при макс. (Квидео)
То есть цена (себестоимость) видео с одной камеры должна стремиться к минимуму при максимальном качестве. При этом не обязательно все входящие переменные устремлять к нулю. Скорее наоборот, рациональный подбор отдельных элементов поможет бизнесу правильно выстроить карту проекта, а разработчикам – подобрать правильные инструменты.
Что в результате
Опыт внедрения показывает, что описанная система машинного зрения для детекции и классификации СИЗ способна покрывать 4 металлургических завода суммарно на 100+ камер, бодро работать со скоростью 15 кадр/с и занимать одну карточку Nvidia P5000 на 20 видеопотоков. При этом статистика нарушений снизится от более 50 в месяц к стабильному показателю порядка 10–12, и эта цифра будет постоянно уменьшаться за счет всяческих предупредительных работ. На каждой камере в таком кейсе работают сценарии как с СИЗ, так и со статичными опасными зонами.
Перспективы
Совершенствование моделей – дело бесконечное. В рамках развития системы машинного зрения для детекции и классификации СИЗ на металлургическом производстве возможна доработка и оптимизация алгоритмов модели, добавление новых (например, алгоритма классификации для сигнальных жилетов, масок и иных СИЗ), работа с динамическими опасными зонами. При этом основной целью разработчиков остается высокое быстродействие ансамбля моделей при сохранении требуемой ресурсоемкости.
В плане всего сервиса есть смысл переходить на децентрализованные, граничные вычисления, а также внедрять решения по оповещению сотрудников о нарушении в режиме, близком к реальному времени, например с помощью мобильных устройств или систем тревоги. Здесь можно отталкиваться от имеющейся статистики о том, как идет работа сервиса на всех уровнях – от слесаря на заводе до директора, чтобы и дальше предупреждать опасные инциденты на производстве.
Опубликовано в журнале "Системы безопасности" №1/2022
Все статьи журнала "Системы безопасности"
доступны для скачивания в iMag >>
Изображения предоставлены автором
Фото: https://ru.freepik.com