5 мифов об облачном распознавании документов

Виталий Астраханцев 01/11/21

Распознавание документов с применением AI-решений – не просто модный тренд, а современная реальность. Востребованность этого решения выросла в связи с массовым переходом на Hybrid Office из-за пандемии. В статье я хочу уделить внимание мифам, которые сложились вокруг данной передовой технологии, так как из-за них бизнес зачастую боится выбирать облака, предпочитая классическую локальную поставку.

Cloud_1

Минусы классического распознавания

Классические инструменты интеллектуального распознавания работают в закрытом контуре заказчика. Для крупных компаний это весомый аргумент в пользу выбора. Но есть у локально разворачиваемых систем и ряд минусов:

1. Недостаточно высокое качество распознавания.

Клиенту важно, чтобы в процессе интеллектуального распознавания поля карточки или комплекта документов были заполнены полностью. Это упрощает задачу: настроенные алгоритмы бизнес-процессов в информационной системе корректно выстраивают цепочку обработки документа. Но применение методов машинного обучения и нейросетей обеспечивает точность, близкую к 100%, только при соблюдении ряда условий, таких как неизменность формы документа и высокое качество скан-образа. В реальности этим требованиям отвечает лишь небольшое число видов документов.

2. Мощные аппаратные ресурсы.

Чем выше поток обрабатываемых документов и требования к качеству распознавания, тем больше AI-системам нужно аппаратных ресурсов (основная нагрузка ложится на ОЗУ и CPU). Высокоточные решения на базе нейронных сетей часто для вычислений требуют высокоскоростные видеокарты по аналогии со специализированным оборудованием для майнинга. Такие комплектующие и без того дорогие, при этом с каждым годом цена на них только растет.

3. Трудоемкость внедрения.

Если вы решили развернуть систему искусственного интеллекта (ИИ) локально, то запаситесь временем на установку программного обеспечения. Наиболее трудоемкий этап – обучение системы на документах заказчика. Для чего это необходимо и почему они не могут работать "из коробки"? На самом деле коробочные модели есть, и с ними можно начинать работу. Но, как показывает практика, от заказчика к заказчику комплектность документов меняется и появляются новые виды, которыми необходимо дополнять "коробку". Ряд систем не способны на такое обучение и предлагают работать с тем, что есть. Другие же для создания новых моделей и повышения точности существующих требуют от заказчика подготовки датасетов для обучения образов тех самых документов. Причем нужны именно "живые" документы в достаточном количестве (от 100 до 1000 на один вид), с которыми заказчик работает сейчас и будет продолжать работать.

Рынок России готов к облакам

Последними двумя недостатками грешат не только AI-продукты, но и другие корпоративные информационные системы. Между тем уже давно придумано решение, позволяющее обойти эти минусы и получить полный набор функциональности, необходимой заказчику. Все верно, речь идет о модели SaaS (Software as a Service).

По данным аналитического агентства J’son & Partners Consulting, объем рынка SaaS в России по итогам 2020 г. составил 11,5 млрд рублей. Несмотря на то что это на 28% больше по сравнению с предыдущим годом, наблюдается явная тенденция к снижению динамики перехода на облачное программное обеспечение. Это связано, скорее, с менталитетом российского бизнеса, чем с объективными факторами. Существует ряд предубеждений относительно использования SaaS, с которыми вы наверняка сталкивались. Взглянем на них через призму распознавания документов в облаке.

Миф № 1. Облачное распознавание – это долго

Бытует мнение, что документы всех заказчиков "выстраиваются" в общую очередь и до вашего пакета она может дойти через 10-15 минут. Рассказываю, почему это не так.

Прежде чем разместить программное обеспечение в облаке, вендоры рассчитывают плановую и пиковую нагрузку, а после, исходя из этих показателей, выделяют ресурсы. Плюс ко всему в облаках не размещают однопоточные приложения, которые нельзя масштабировать. Эффект от их использования в облаке сводится к нулю. Причина – прямая зависимость пропускной способности приложения от выделяемых аппаратных ресурсов.

Многопоточные приложения параллельно распознают десятки документов или страниц в зависимости от схемы работы. Плюсы такого подхода:

равная скорость движения документов всех заказчиков;
отсутствие задержек;
в моменты пиковой загрузки динамическое выделение ресурсов на поток позволяет увеличить пропускную способность и ускорить обработку очереди.

Миф № 2. Распознавание в облаке – это небезопасно

Поскольку документы передаются во внешнюю сеть, они уязвимы к атакам и доступу со стороны злоумышленников. Конечно, можно отключить компьютер от Интернета, заблокировать USB-порты, но давайте не будем впадать в крайности.

Отмечу, что большинство сервисов облачного распознавания обменивается данными по протоколу HTTPS, который предполагает TLS- или SSL-шифрование. Насколько он надежен? Настолько, что, например, банк-клиенты на ваших мобильных устройствах передают данные по этому же протоколу, хотя зачастую для дополнительной защиты здесь используется двухфакторная авторизация с СМС-кодом.

Входящие документы редко поступают исключительно в бумаге, большей частью они приходят по e-mail или через системы ЭДО. Протоколы, на которых работает электронная почта (IMAP, SMTP, POP3), или те, по которым бухгалтерия передает отчетные документы в налоговую, защищены точно таким же шифрованием. Стоит ли жертвовать удобством облачного распознавания, если документы уже побывали в сети?

Миф № 3. Распознавать документы в облаке дороже, чем обрабатывать их вручную

Этот постулат зачастую становится краеугольным камнем при выборе не только облачного распознавания, но и в целом ИИ для распознавания документов. Затраты на расшифровку человеком кажутся понятными – это расходы на фонд оплаты труда. Но, к сожалению, не всегда при расчетах заказчик учитывает, сколько именно людей нужно для выполнения этой функции. И здесь речь не только о пропускной способности, но и о том, что люди иногда болеют, берут отгулы и ходят в отпуск, а новые документы поступают на обработку каждый день.

Давайте посчитаем. Пропускная способность одного сотрудника тоже ограниченна. Например, на ручное занесение одного документа и заполнение карточки из 10 реквизитов уходит не менее 5 минут. Это значит, что при 40-часовой рабочей неделе один сотрудник сможет обработать, не делая перерывов, 2016 документов и получит при этом 30–40 тыс. рублей. С учетом налогов это обойдется работодателю в 42–56 тыс. в месяц, или, в пересчете на один документ, от 21 рубля за документ. И это без учета амортизации офисного оборудования.

Облачные AI-сервисы распознавания тоже дают 100% заполнения. Но сотрудник также понадобится, правда на верификацию одного документа у него будет уходить всего 1–1,5 минуты. Таким образом, "пропускная способность" сотрудника увеличивается в 4–5 раз.

Существуют и такие сервисы, которые, кроме распознавания с помощью AI, предлагают услуги удаленной верификации и гарантируют на выходе на 100% корректно и полностью заполненные данные по документу. Сотрудники компании-клиента при этом не задействуются.

Миф № 4. Эффективность облачного распознавания ничем не выше решений on-premise

В облачной и локальной поставке одного и того же вендора могут работать идентичные AI-сервисы, дающие на выходе одинаковый результат. Однако за счет того, что у разных клиентов используются одни и те же виды документов, модели распознавания в облачном сервисе дообучаются на всей общности обрабатываемых данных. При этом ни один из клиентов не видит документы другого (так как модель не содержит непосредственно данные документов, а лишь относительные определения реквизитов), но все получают качественный результат.

Простой кейс

Компании № 1 необходимо распознать бухгалтерские документы. Она работает с ТОРГ-12, УПД, счетами-фактурами, но актов выполненных работ у нее немного. Их недостаточно для обучения локальной модели распознавания. В это же время облачный сервис использует компания № 2, которая специализируется на оказании услуг. В ее портфеле много актов, но мало товарных накладных. Совместная работа в облаке обеих компаний позволяет получить качественные модели по всем четырем видам документов

Есть и финансовая сторона вопроса. Лицензии on-premise предполагают либо единоразовый платеж за определенный пакет документов, который заказчик распознает каждый месяц/год, либо готовую подписку на пакеты. В случае с облачным распознаванием многие вендоры предлагают авансовую схему оплаты по пакетам документов или страниц, которые клиент может и не израсходовать. Однако самой удобной и прозрачной будет оплата за фактически распознанные документы, прошедшие через облачный сервис, с выставлением счета по итогу прошедшего месяца.

Миф № 5. "Я не контролирую данные, которые попадают в облако"

Может ли вендор обратиться к данным заказчика, которые проходят обработку в облачном сервисе? Да. Может ли он использовать эти данные по своему усмотрению? Все зависит от условий, на которых заключается договор подключения к сервису. Любой уважающий себя вендор отразит в договоре условия доступа к данным заказчика (например, для оказания технической поддержки по запросу заказчика или регулярного обучения моделей), а также подпишет NDA, где оговаривается ответственность за доступ к данным. Особенно это актуально для облачных сервисов, которые гарантируют 100%-ное распознавание. В 99% случаев это возможно только за счет привлечения людей на стороне исполнителя, выполняющих верификацию распознанных данных.

Если вам обещают 100%-ное распознавание, внимательно прочтите все условия договора и уточните, за счет чего и при каких условиях достигается столь высокий результат.

Заключение

Как вы могли убедиться, у распознавания документов по модели SaaS есть свои плюсы и минусы. В зависимости от профиля вашего бизнеса какие-то из приведенных выше критериев будут иметь больший или меньший вес. Однако в сухом остатке моя статья направлена на то, чтобы сделать ваш выбор более объективным и эффективным.

Все статьи журнала "Системы безопасности"

доступны для скачивания в iMag >>

Темы: Облачные технологии Искусственный интеллект Технологии распознавания SaaS Журнал "Системы безопасности" №6/2021

Поделитесь вашими идеями

Подписаться на новости

28 ноября | 11:00

Автоматизация ЦОД: решения для управления электроэнергией и автоматизацией, управления инфраструктурой ЦОД

2 декабря | 11:00

Чат-боты и голосовые ассистенты для бизнеса: сценарии использования, сервисы, кейсы

3 декабря | 11:00

Цифровые технологии для удаленной и гибридной работы: инструменты и сервисы для построения цифрового рабочего места

4 декабря | 11:00

5 мифов об облачном распознавании документов

Минусы классического распознавания

Рынок России готов к облакам

Миф № 1. Облачное распознавание – это долго

Миф № 2. Распознавание в облаке – это небезопасно

Миф № 3. Распознавать документы в облаке дороже, чем обрабатывать их вручную

Миф № 4. Эффективность облачного распознавания ничем не выше решений on-premise

Миф № 5. "Я не контролирую данные, которые попадают в облако"

Заключение

Подписаться на новости

Автоматизация ЦОД: решения для управления электроэнергией и автоматизацией, управления инфраструктурой ЦОД

Чат-боты и голосовые ассистенты для бизнеса: сценарии использования, сервисы, кейсы

Цифровые технологии для удаленной и гибридной работы: инструменты и сервисы для построения цифрового рабочего места

HR-Tech: как руководители используют AI для автоматизации, управления командами и найма

Регистрация на

Журнал "Системы безопасности"
Издается компанией Гротек с 1995 года

5 мифов об облачном распознавании документов

hbspt.cta._relativeUrls=true;hbspt.cta.load(2037604, 'c9797619-19d5-417f-9833-18bab3b3053f', {"useNewLoader":"true","region":"eu1"});

Минусы классического распознавания

Рынок России готов к облакам

Миф № 1. Облачное распознавание – это долго

Миф № 2. Распознавание в облаке – это небезопасно

Миф № 3. Распознавать документы в облаке дороже, чем обрабатывать их вручную

Миф № 4. Эффективность облачного распознавания ничем не выше решений on-premise

Миф № 5. "Я не контролирую данные, которые попадают в облако"

Заключение

Подписаться на новости

Автоматизация ЦОД: решения для управления электроэнергией и автоматизацией, управления инфраструктурой ЦОД

Чат-боты и голосовые ассистенты для бизнеса: сценарии использования, сервисы, кейсы

Цифровые технологии для удаленной и гибридной работы: инструменты и сервисы для построения цифрового рабочего места

HR-Tech: как руководители используют AI для автоматизации, управления командами и найма

Регистрация на

Журнал "Системы безопасности"Издается компанией Гротек с 1995 года

Журнал "Системы безопасности"
Издается компанией Гротек с 1995 года