Существуют ли локальные механизмы распознавания документов для 1С:ERP и как их использовать?

← К списку

При работе с большим объемом первичных документов многие пользователи 1С:ERP сталкиваются с необходимостью автоматизации ввода данных. Вопрос о наличии локальных механизмов распознавания документов становится особенно актуальным, когда существуют ограничения на использование облачных сервисов, будь то вопросы безопасности, конфиденциальности данных или отсутствие стабильного интернет-соединения. В этом тексте мы подробно разберем существующие подходы и решения для распознавания документов непосредственно в вашей инфраструктуре или с минимальным использованием внешних сервисов.

Мы рассмотрим различные варианты, от фирменных решений 1С до интеграции сторонних продуктов и разработки собственных нейронных сетей, чтобы вы могли выбрать наиболее подходящий для вашей задачи.

1. Фирменное решение 1С: "1С:Распознавание первичных документов"

Начнем с официального подхода от фирмы "1С", который, хотя и использует облачную инфраструктуру для самого процесса распознавания, глубоко интегрирован с локальными конфигурациями 1С и позиционируется как решение для пользователей "коробочных" версий. Это позволяет вашей локальной системе 1С использовать мощные возможности распознавания без необходимости развертывания и поддержки сложного ПО на собственном сервере.

Описание и интеграция:

Сервис "1С:Распознавание первичных документов" предназначен для автоматического преобразования бумажных или электронных образов документов (сканов, фотографий) в документы базы 1С. Мы выясним, что этот сервис интегрирован с 1С:ERP Управление предприятием 2, начиная с версии 2.5.9, а также с другими популярными конфигурациями, такими как 1С:Управление торговлей, 1С:Комплексная автоматизация, 1С:Управление нашей фирмой и 1С:Бухгалтерия 8.

Для 1С:Документооборот 3.0 существует отдельный тариф "Распознавание текста" в рамках этого же сервиса, доступный с релиза 3.0.15 для версий КОРП, ДГУ, Холдинг.
Технология распознавания:

Сервис использует обученные нейронные сети, которые способны извлекать информацию даже из документов низкого качества, таких как мятые накладные или нечеткие фотографии. Это значительно превосходит возможности устаревших технологий.
Основные возможности:

Рассмотрим подробнее функционал:
- Распознавание содержания: Сервис автоматически считывает данные из полей документа.
- Сопоставление с объектами ИБ: Он сопоставляет распознанные данные с существующими элементами в вашей информационной базе 1С (например, контрагентами, номенклатурой).
- Проверка корректности: Осуществляется проверка чисел по формулам, а места, требующие внимания пользователя, подсвечиваются.
Конфиденциальность и удобство:

Фирма "1С" заявляет, что все документы обрабатываются непосредственно внутри их инфраструктуры и не передаются третьим лицам, обеспечивая конфиденциальность данных. Для удобства загрузки документов от удаленных сотрудников доступно мобильное приложение 1С:Сканер документов.
Стоимость и тестовый период:

Мы проанализируем стоимость: сервис предлагает бесплатный тестовый период — 250 страниц для распознавания в течение 1 года для пользователей локальных версий 1С, зарегистрированных на портале 1С:ИТС. После тестового периода сервис работает по платным тарифам.

2. Развертывание собственных нейронных сетей и ИИ-решений

Если требования к конфиденциальности или к полной автономности настолько высоки, что даже "облачное, но интегрированное" решение 1С не подходит, мы можем рассмотреть вариант развертывания полностью локальной нейронной сети на вашем сервере. Этот путь более сложен и ресурсоемок, но дает полный контроль.

Принцип работы:

Современные OCR-системы активно используют комбинации технологий обработки изображений, машинного обучения и нейронных сетей для повышения точности распознавания. Выясним, что вы можете обучить нейросеть на собственных данных, что значительно повышает точность для специфических типов документов вашей компании.

Интеграция с 1С:

Мы разберем, как можно подключить почти любую существующую нейросеть к системе 1С. Это обычно реализуется через API (HTTP-сервисы). Ваша 1С отправляет запрос на локальный сервер с нейросетью, передает ему образ документа, а нейросеть возвращает распознанные данные в структурированном виде.


// Пример вызова HTTP-сервиса (псевдокод)
Функция ОтправитьДокументНаРаспознавание(ДвоичныеДанныеДокумента)
    HTTPЗапрос = Новый HTTPЗапрос("/api/recognize");
    HTTPЗапрос.УстановитьТелоИзДвоичныхДанных(ДвоичныеДанныеДокумента);
    HTTPЗапрос.Заголовки.Вставить("Content-Type", "application/pdf");

    HTTPСоединение = Новый HTTPСоединение("localhost", 8000); // Адрес вашего локального сервера с нейросетью
    HTTPОтвет = HTTPСоединение.Отправить(HTTPЗапрос);

    Если HTTPОтвет.КодСостояния = 200 Тогда
        Возврат HTTPОтвет.ПолучитьТелоКакСтроку(); // JSON с распознанными данными
    Иначе
        Возврат Неопределено;
    КонецЕсли;
КонецФункции;

Стоимость и время:

Важно понимать, что разработка и развертывание собственной нейронной сети на сервере может быть спорным вариантом по деньгам и времени. Это требует квалифицированных специалистов (Data Scientists, DevOps), мощного серверного оборудования и значительных временных затрат на обучение и отладку.

3. Использование сторонних коммерческих OCR-систем

Существуют готовые коммерческие OCR-системы, которые можно развернуть локально и интегрировать с 1С. Мы проанализируем этот рынок.

ABBYY и их аналоги:

Исторически компания ABBYY была лидером в области распознавания текста со своим продуктом ABBYY FineReader. Однако, в связи с уходом ABBYY FineReader с российского рынка, появились отечественные аналоги, которые мы рассмотрим:
- SETERE OCR от компании SETERE Group. Это российский аналог, включенный в реестр отечественного ПО. Он использует лицензированные технологии ABBYY для распознавания текста, поддерживает российские операционные системы (Astra Linux, РЕД ОС, Альт Рабочая станция) и предлагает локальные лицензии.
- Content AI с продуктом ContentCapture, разработанным выходцами из ABBYY.
- Easydoc — еще одна российская OCR-система, позиционирующая себя как платформа интеллектуальной обработки документов с использованием ИИ.
Интеграция:

Обычно эти системы предлагают собственные SDK (Software Development Kit) или API для интеграции. Мы можем использовать их для взаимодействия с 1С, так же как и в случае с собственными нейросетями, через HTTP-сервисы или внешние компоненты.

4. Бесплатные и Open-Source решения: Tesseract и PaddleOCR

Для тех, кто ищет бюджетные или полностью бесплатные локальные решения, существуют мощные open-source библиотеки для распознавания текста. Рассмотрим их подробнее.

Tesseract OCR:
- Описание: Tesseract является бесплатной и открытой альтернативой для распознавания документов, разрабатываемой Google.
- Качество: Мы выясним, что Tesseract считается более современной и качественной альтернативой устаревшему CuneiForm.
- Интеграция с 1С: Существуют решения по интеграции Tesseract с 1С, в том числе для извлечения табличной информации и работы с RPA-системами. Мы можем развернуть Tesseract с Flask в Docker и обеспечить его взаимодействие с 1С:Документооборот, что позволяет заменить CuneiForm в старых версиях.
PaddleOCR:

PaddleOCR также упоминается как бесплатный аналог, разработанный Baidu. Он предлагает хорошие результаты распознавания и поддерживает множество языков.
CuneiForm (исторический контекст):

Важно отметить, что CuneiForm является устаревшей технологией (последняя версия вышла в 2011 году). Мы проанализируем его недостатки: качество распознавания у CuneiForm низкое, особенно для некачественных сканов или нестандартных шрифтов. Он хорошо распознает текст только при хорошем сканировании и стандартных шрифтах (Times, Arial). В старых версиях 1С:Документооборот 2.1 и ранее для распознавания на сервере требовалась установка утилит CuneiForm, Ghostscript и ImageMagic. Мы настоятельно не рекомендуем использовать CuneiForm для новых проектов.

5. Решения от партнеров 1С: EFSOL

Помимо фирменного сервиса 1С, некоторые партнеры также предлагают свои решения, которые могут быть полезны для локального использования.

EFSOL: 1С-РПД:

Компания EFSOL предлагает решение "1С-РПД" ("1С: Распознавание первичных документов"), которое обеспечивает быстрый ввод первичных документов в 1С:ERP и другие конфигурации, сокращая ошибки ручного ввода. Мы выясним, что это решение может быть оптимизировано для специфических потребностей вашей компании.
EFSOL: Загрузка документов:

Также у EFSOL есть "EFSOL: Загрузка документов" — программа для точного ввода первичных документов в 1С с помощью сканера. Это решение может быть реализовано на базе ABBYY FlexiCapture (если у вас есть действующие лицензии или вы используете отечественные аналоги) и модуля "EFSOL: Коннектор" для 1С.

В заключение, мы видим, что существуют различные подходы к реализации локального распознавания документов для 1С:ERP. Если вам нужна простота и интеграция, сервис "1С:Распознавание первичных документов" является удобным и быстрым решением, несмотря на то что само распознавание происходит в облаке 1С. Для полной автономности и максимального контроля над данными, вы можете рассмотреть развертывание собственных нейронных сетей с использованием open-source решений (Tesseract, PaddleOCR) или интеграцию с коммерческими локальными OCR-системами (например, SETERE OCR).

Выбирайте решение, которое наилучшим образом соответствует вашим требованиям к безопасности, бюджету и квалификации специалистов.

← К списку