Предназначено для распознавания отсканированных документов на портале.
Используйте данное решение в ходе выполнения своих бизнес-процессов над документами для эффективной реализации документооборота или архива.
Распознанный текст добавляется в поле описание документа, которое индексируется модулем поиска на портале. Таким образом вы получаете возможность искать среди сканированных документов.
Для корректной работы модуля на сервере необходимо установить библиотеку Tesseract-ocr и leptonica. Мы подготовили пакет для быстрой установки и видеоурок. Если у вас что-то не получится - обратитесь к нам.
Скачайте, установите модуль из маркетплейса. Решение разворачивает инфоблок для хранения очереди на распознавание, агент и активити для бизнес-процессов.
После этого перейдите в настройки модуля Распознавание документа, проставьте язык распознавания и количество документов, забираемых из очереди за один проход. Учитывайте, что операция распознавания достаточно трудоемкая, поэтому мы вынесли ее в фоновое выполнение.
В дизайнере бизнес-процессов на вкладке "Обработка документов" появится новый инструмент - "Запись в очередь на распознавание". С помощью этого активити проставьте нужный элемент в очередь. Активити записывает ID указанного документа в очередь документов на сканирование, и присваивает элементу очереди статус new. Элементы содержатся в инфоблоке-очереди.
Агент CmcartTesseract::Check(); раз в 10 минут просматривает очередь документов (инфоблок) - и выбирает оттуда документы со статусом new в том количестве, которое указано в настройках модуля, при этом элементу очереди присваивает статус InProgress.
Обратите внимание! Наши решения разработаны для сайтов/порталов с кодировкой UTF-8.
1.1.6, 13.04.2015
Добавлена обработка файлов, лежащих в облаке +
добавлена обработка ситуации, если элемент, поставленный в очередь на распознавание был удален
1.1.2, 30.03.2015
Добавлена обработка множественного ID документов (д б перечислены через запятую, без пробелов)