Статьи

Эффективность видеонаблюдения с новыми визуальными моделями VLM

Мы уже привыкли к тому, что видеоаналитика позволяет не просто записывать видео и просматривать его, но и анализировать в режиме реального времени то, что происходит в видеопотоке, и, при определенных условиях, отправлять сигналы тревоги операторам. 

Видеоданные, которые раньше было очень трудно искать и анализировать, также стали доступными для поиска с помощью таких запросов, как "Найдите мужчину в фиолетовой рубашке с футляром для скрипки", которые (как и распознавание лиц) теперь можно запускать для огромных объемов видеоданных. Технологии видеоаналитики стали широко доступны, и большинство камер наблюдения коммерческой линейки включают в себя ту или иную форму встроенной интеллектуальной технологии.

Предыдущее поколение технологий видеоаналитики было ограничено обнаружением узкого набора объектов, на которых их кропотливо обучали, и часто работает плохо. Сегодня революционные достижения в области больших языковых моделей приводят к появлению и становлению нового поколения технологии.

Хотя языковые модели, как следует из их названия, в основном сосредоточены на тексте, методы, приведшие к прорывному успеху этих моделей, проникают и в машинное зрение. В частности, программы Vision Language Models (VLM) могут понимать как визуальные, так и входные данные в виде текста на естественном языке. Эти новые программы машинного зрения основаны на той же технологии, что и языковые модели, называемые трансформаторами, в отличие от "классического" машинного зрения, в основе которого технологии "сверточные нейронные сети" (Convolutional Neural network – CNN). Хотя обе технологии продолжают использоваться и иногда комбинироваться, а видеотехнологии все еще быстро развиваются, это, по-видимому, большое изменение в сфере видеонаблюдения.

Обзор видеокамер высокого разрешения

Преимущества VLM

Развитие Vision Language Models будет иметь три важных последствия.

1. Они делают технологию более мощной и эффективной

VLM способны обобщать гораздо лучше, чем прежние программы видеоаналитики на основе сверточных нейросетей, поскольку они сочетают распознавание изображений с общими знаниями о мире, которые большие языковые модели получают в ходе обучения на всех текстовых данных Интернета. Например, старой форме машинного зрения (программе на основе технологий CNN) показывают миллионы изображений лошадей и слонов и таким образом кропотливо учат ее идентифицировать и различать этих животных. VLM находят зебру на видео, даже если они никогда раньше не видели ее фотографии, используя свои знания о мире ("зебра похожа на лошадь с полосками"). Вместо того чтобы ограничиваться закрытым набором предопределенных вещей, VLM способны распознавать огромное количество разнообразных объектов, событий и контекстов без специальной подготовки по каждому из них. VLM также, по-видимому, намного лучше справляются с контекстным и целостным пониманием сцен.

2. VLM делают аналитику намного дешевле и более доступной

В декабре 2024 г. инженер-технолог Саймон Уиллисон подсчитал, что анализ всех 68 тыс. изображений в его личной фотобиблиотеке с использованием модели Google Gemini обойдется в 1,68 доллара. Можно также транслировать видео на такие модели, как Gemini, и заставлять их анализировать содержимое, что стоит примерно 10 центов за час демонстрации видео. Такие низкие затраты означают, что по мере совершенствования технологии и распространения понимания этих возможностей ее применение не будет ограничиваться Google и несколькими другими разработчиками ИИ.

Технология станет легкодоступной для широкого круга компаний, занимающихся безопасностью, и найдет свое применение в продуктах, использующихся для наблюдения за людьми в самых разных контекстах, от частных пространств, таких как магазины и торговые центры, до общественных мест, где полиция разместила камеры наблюдения.

Как и в случае с LLM, модели могут все чаще запускаться локально, без необходимости подключения к серверам OpenAI, Google или других крупных компаний и обмена данными с ними. Хорошо, если технологии ИИ будут демократизироваться, а не контролироваться крупными игроками, но это также означает, что защитные механизмы станут жизненно важными, поскольку различные стороны, использующие технологии на основе ИИ, будут их развертывать как с благими намерениями, так и с совсем иными.

3. Интерфейсы на естественном языке делают машинное зрение более доступным и простым в использовании

Вместо того чтобы ограничиваться точно сформулированными меню или тегами объектов и поведения, которые модель обучена распознавать, пользователи смогут просто отдавать команды, используя повседневную речь, например: "Напиши мне, если собака запрыгнет на диван", "Сообщи мне, если дети будут ходить по моему газону", или "Сообщи мне, если в районе появится чернокожий мужчина", или "Кто-то ведет себя подозрительно".

Технология все еще дает сбои

Важно помнить, что, как и большие языковые модели, VLM ненадежны. Аналитическая фирма IPVM, работающая в сфере видеонаблюдения, протестировала новый продукт на базе VLM одной компании из сферы безопасности и отметила, что он "выдал некоторые результаты, которые были невероятно впечатляющими, но также и некоторые результаты, которые были невероятно плохими". Группа академических и отраслевых экспертов объяснила в недавней статье, что проблема соединения языка со зрением не решена полностью. Например, большинство моделей с трудом понимают пространственные отношения или подсчет. Они часто игнорируют часть входной подсказки, а также могут "галлюцинировать" и создавать контент, который не является ни необходимым, ни релевантным, так что разработка надежных моделей по-прежнему является очень активной сферой деятельности.

Как и в случае с распознаванием лиц (которое на самом деле является подмножеством видеоаналитики), есть ряд причин беспокоиться по поводу этой технологии, когда она работает плохо, и другие причины беспокоиться, когда она работает хорошо. Если VLM останется в чем-то не совсем надежной технологией, но при этом достаточно внушающей доверие для того, чтобы люди полагались на нее и не перепроверяли точность результатов, это может привести к ложным обвинениям и другим несправедливым моментам в сфере безопасности.

Но по мере того как данная технология будет становиться более интеллектуальной, появится возможность собирать больше и более детальной информации, а также осуществлять тщательный контроль и мониторинг людей во все большем количестве контекстов.

В конце концов, никто не знает, насколько эффективной станет эта технология или как быстро это произойдет. Мы уже видим, как ИИ все чаще используется для мониторинга в самых различных ситуациях, включая мониторинг водителей транспортных средств, рабочего места, обнаружение оружия и обеспечение соблюдения правил.

По материалам www.aclu.org

Иллюстрация к статье сгенерирована нейросетью Kandinsky 

SS_Security and Safety

Поделитесь вашими идеями

Подписаться на новости

Технологии. Обзоры решений. Задачи заказчиков.