Технологии

Работа системы Cognitive Forms изнутри

Продукты для распознавания и ввода документов (Cognitive Forms, Cognitive Passport), разработанные в компании Cognitive Technologies, содержат множество интеллектуальных технологий, которые являются уникальными и заслуживают отдельного внимания.

 

PullOut

Технология PullOut позволяет системам на базе Cognitive Forms (Cognitive Passport, Cognitive Forms Bank и прочие) распознавать несколько документов за один проход сканера, тип документа при этом определяется автоматически. При этом в сканере можно размещать и ксерокопии и оригиналы документов.

Часто встречается ситуация, когда имеются ксерокопии нескольких документов, причем располагаются они на одном листе. Технология PullOut позволяет находить документы на таком листе и автоматически определять их тип.

Scanify

Случается так, что требуется обработать не оригиналы документов, а их ксерокопии. Или форма, которую необходимо ввести, напечатана на бумаге с «водяными знаками» и гербовым фоном. А такие документы весьма сложно обработать. И самый неприятный вариант — ксерокопия «гербового» документа. Естественно при сканировании таких документов качество их цифровой копии будет далеко не идеальным.

Но во всех этих ситуациях документы можно распознать информацию из них. Это происходит благодаря использованию технологии Scanify, которая обеспечивает обработку документов низкого качества и обработку фона гербовой бумаги.

Именно благодаря технологии Scanify системы Cognitive Forms и Cognitive Passport являются первыми в России программными продуктами, способными обрабатывать гербовый фон документов.

FlexiDocs

Особенностью некоторых форм документов является то, что состав и порядок следования частей форм по горизонтали и вертикали одинаков, но части могут отличаться по размерам или масштабу. Такие формы называют слабоструктурированными или «гибкими». Например, такой формой является счет-фактура.

Технология FlexiDoc позволяет системе Cognitive Forms (и другим продуктам на её базе) обрабатывать гибкие формы. Также она дает возможность обрабатывать искажения, возникающие рядом со сгибом документа, а также сдвинутый относительно стандартного положения текст.

CogniDocs

Одной из самых важных областей применения систем ввода форм является обработка документов, в которых реквизиты не имеют четко заданного геометрического положения или табличного упорядочения. Реквизиты таких документов можно назвать «плавающими». Для идентификации такого рода реквизитов системы на базе Cognitive Forms используют более широкий набор методов — границы искомого фрагмента определяются с учетом распознанного текста, его соответствия предопределенному синтаксису реквизита, формату, стилю заполнения, в зависимости от правил бизнес-логики и контекста (наличия поблизости ключевых слов и т.п.).

Такие возможности для системы Cognitive Forms предоставляет технология распознавания многокомпонентных частично-структурированных документов CogniDocs. Системы, обладающие такими возможностями, принадлежат к классу IDR (intelligent document recognition — интеллектуальное распознавание документов).

Фактически, IDR-системы решает ту же задачу, что и система обработки форм, т.е. выделяет из документа значимые структурные элементы, распознает их с применением тех или иных механизмов распознавания, передает во внешнюю информационную систему. Но при этом, спектр документов, на котором решается эта задача, существенно расширяется — и теперь включает в себя частично структурированные и не структурированные документы.

Технологии CogniDocs позволяет обрабатывать документы, состоящие из частей (секций), которые могут «стыковаться» между собой по определенным правилам, заданным в описании. Формальное описание такого класса документов включает описание секций и возможных вариантов их комбинации друг с другом. Создается компактное описание, покрывающее многообразие вариантов компоновки и форматирования реальных документов.

Для реализации технологии в компании разработаны формальная модель документа, язык описания документа и алгоритмы анализа, которые обеспечивают идентификацию секций (декомпозицию документа) и контролируют выполнение связей между ними. Вложенные алгоритмы обеспечивают анализ секций и выделение реквизитов документа.

Важными свойствами технологии являются возможность работы с документами, содержимое которых перетекает со страницы на страницу, а также работа с документами, содержащими переменное количество реквизитов (например, строк таблицы).