В рубрику "Видеонаблюдение (CCTV)" | К списку рубрик | К списку авторов | К списку публикаций

Локомотив интеллектуальных видеосистем, или Получение сверхвысокого разрешения и новой видеоинформации

В.П. Косых
Старший научный сотрудник Института автоматики и электрометрии СО РАН, к.т.н.

Г.И. Громилин
Ведущий специалист Института автоматики и электрометрии СО РАН

А.К. Шакенов
Начальник отдела систем компьютерного зрения компании ITV, к.т.н

В.А. Куликов
Аспирант Института автоматики и электрометрии СО РАН

Видеонаблюдение является технологией, напрямую влияющей на жизнь и безопасность людей, поэтому особо актуальными становятся задачи получения как можно более достоверной информации о происходящем на наблюдаемой сцене.

Одной из важных современных тенденций в области обработки информации вообще и в области видеонаблюдения в частности является объединение информации различной природы для получения некоторой новой информации об интересующем явлении или событии. В этом проявляется принцип синергии, когда эффект от комбинированного воздействия двух или более факторов существенно превосходит не только эффект действия каждого отдельно взятого компонента, но и их суммы. Полученная таким путем информация используется для повышения достоверности наблюдаемых событий.

Рассмотрим, как реализуется данная тенденция на конкретной задаче видеонаблюдения - получении сверхразрешения (Super Resolution) изображения некоторого фрагмента сцены.

Super Resolution vs. zoom

Задача получения сверхразрешения требует объединить информацию, содержащуюся в последовательности кадров изображения одной и той же сцены, чтобы иметь более детальное изображение некоторого фрагмента сцены. Несмотря на то что на первый взгляд подобная постановка задачи кажется немного фантастической, в реальности осуществление этого замысла вполне возможно. Дело в том, что если камера колеблется с амплитудой, сопоставимой по размерам с расстоянием между элементами фоточувствительной матрицы, то каждый последующий кадр является информацией, зарегистрированной в других точках расположения матрицы фоточувствительных элементов.

Владея сведениями о смещении каждого кадра относительно некоторой виртуальной глобальной решетки изображения, можно с помощью численной интерполяции восстановить значения в узлах этой решетки и таким образом получить изображение большего разрешения. Такая процедура схематично изображена на рис. 1. На иллюстрации голубыми, зелеными и сиреневыми точками обозначены дискретные узлы исходных изображений, а синим цветом - узлы восстановленного изображения, имеющего большее разрешение. Важно, что полученное таким способом изображение будет нести в себе реальную информацию о сцене, зарегистрированную между узлами дискретной решетки оригинального изображения. В этом заключается принципиальное отличие данной технологии от так называемого цифрового зума, который лишь "размазывает" исходное изображение по полю большей площади, не внося дополнительной информации.

Восстановление изображения повышенного разрешения является сложной научно-технической задачей'. Рассмотрим некоторые основные препятствия, характерные для задач данного класса, а также возможные пути их преодоления

Восстановление изображения: препятствия

На грани вычислительных возможностей
Одной из существенных проблем является вычислительная сложность используемых алгоритмов. Для повышения разрешения необходимо с субпиксельной точностью оценить смещения нескольких изображений одной и той же сцены, причем на практике для получения устойчивых результатов необходимо оценивать порядка 10-30 кадров. Затем по изображениям с оцененным сдвигом необходимо синтезировать конечное изображение. Несмотря на то что обработке подвергается только фрагмент изображения, представляющий наибольший интерес для оператора, такая процедура находится на грани вычислительных возможностей среднестатистических компьютеров, используемых для целей видеомониторинга. Ниже мы обратимся к разным сценариям, позволяющим адаптировать технологию для различных нужд, в том числе и в случае недостатка вычислительных ресурсов.

Требования к колебаниям оптической оси камеры
Другим фактором, ограничивающим применение технологии, является требование к обязательному колебанию оптической оси камеры относительно регистрирующей матрицы, хотя бы на величину в несколько микронов. Казалось бы, столь малые колебания, безусловно, будут возникать внутри камер, расположенных снаружи зданий, ввиду помех разного рода, обусловленных потоками ветра, движением транспорта и другими воздействиями. Для наружных камер это действительно так, но если рассмотреть телекамеры, надежно закрепленные на специальных основах внутри помещений, то выясняется, что изображение, получаемое с их помощью, практически "стационарное". В этой ситуации для применения методов повышения разрешения следует снабдить камеру специальной вибрирующей установкой. Причем важно, чтобы вибрация камеры осуществлялась как в вертикальном, так и в горизонтальном направлениях.

Ограничения оптики
Более фундаментальное препятствие на пути работы рассматриваемых алгоритмов связано с ограничениями, накладываемыми оптикой. Как известно, пространственное разрешение оптической системы не бесконечно - объектив камеры, как правило, подбирается таким образом, чтобы пятно, проецируемое линзой, имело тот же порядок размерности, что и сенсор фоточувствительной матрицы. Таким образом, возникает ограничение на повышение разрешения конечного изображения, поскольку при фиксированном размере пятна увеличение разрешения фоточувствительной матрицы после достижения некоторого предела не вносит дополнительной информации. Поэтому алгоритм сверхразрешения хорошо работает для увеличения разрешения изображения не более чем в 2-4 раза.

Три сценария реализации технологии Super Resolution

Восстановление изображения повышенного разрешения является задачей, требующей существенных вычислительных затрат. Целесообразно рассмотреть три возможных сценария применения этой технологии. Все приведенные здесь сценарии используют одну и ту же идею и схожий математический аппарат; первостепенные различия заключаются в способе применения данного аппарата

Режим № 1: вычисления в реальном времени
Основным режимом работы является повышение разрешения несжатого видео в режиме реального времени. По запросу пользователя в реальном времени происходит повышение разрешения выбранного фрагмента. Непосредственно после запроса алгоритм переходит в режим накопления (напомним, что для получения одного кадра сверхразрашения нужно 10-30 "обычных" кадров) и предварительных вычислений. Эти вычисления могут проводиться не в режиме реального времени. Затем алгоритм переходит в режим работы в реальном времени, то есть при появлении каждого следующего кадра изменения учитываются в результирующем изображении повышенного разрешения. Результатом работы данного алгоритма является видеоизображение выделенного фрагмента повышенного разрешения, причем частота кадров равна частоте кадров изначального видеопотока.

Режим № 2: статическое изображение
Второй режим работает аналогично описанному выше. Отличие заключается в том, что в данном случае отсутствует необходимость проводить вычисления в реальном времени, соответственно результатом работы алгоритма является не видеопоследовательность, а статическое изображение фрагмента сцены с повышенным разрешением. Режим № 2 целесообразно применять на машинах со слабыми вычислительными возможностями, а также для снижения общей вычислительной нагрузки на систему, что может быть необходимо в ситуации большой загрузки процессора, обусловленной, например, значительным количеством подключенных детекторов.

Режим № 3: постпроцессинг

Третий режим целесообразен в случае необходимости повышать разрешение фрагмента, содержащего изображение одного и того же движущегося объекта. Предполагается, что детектор обнаруживает движущиеся объекты и передает их изображения на вход процедуры повышения разрешения. Считается также, что все изображения объекта имеются в наличии в момент запуска процедуры повышения разрешения (то есть алгоритм работает в режиме пост-процессинга, а не реального времени).

Результатом работы алгоритма является статическое изображение объекта повышенного разрешения, которое в дальнейшем может использоваться в автоматических алгоритмах распознавания образов. Примерами движущихся объектов могут быть номера автомобилей, сами автомобили, лица людей и т.д. Надо отметить, что преимуществом режима № 3 является отсутствие необходимости дрожания камеры -его заменяет движение интересующего объекта. Описанные алгоритмы были реализованы программно. Применение алгоритмов на тестовых и реальных данных подтвердило их работоспособность. Для вычислительного эксперимента использовался фрагменттелевизионной таблицы. На рис. 2 видно, что сверхразрешение позволяет избежать эффекта "муара", а также более четко прорисовывать мелкие детали, при восприятии которых у пользователя возникает больше всего проблем.

Актуальность и востребованность этой технологии в задачах видеонаблюдения очевидна. Повышение разрешения изображений позволяет оператору более детально и достоверно различать и оценивать структуру и потенциальную опасность, например, оставленных предметов, что очень важно для защиты от возможных террористических атак. Кроме того, автоматическое повышение разрешения и улучшение качества фрагментов видеоизображений, содержащих человеческие лица или автомобильные номера, может быть использовано в дальнейшей автоматической обработке последних, как уже указывалось выше.

Можно с уверенностью предсказать, что с каждым годом видеоанализ будет все более активно использовать интеллектуальные методы обработки информации и послужит локомотивом и катализатором разработки интеллектуальных систем обработки информации, базирующихся на принципах синергетического синтеза информации самой разной природы и происхождения.

Опубликовано: Журнал "Системы безопасности" #1, 2009
Посещений: 10483

Автор