Существуют ли локальные механизмы распознавания документов для 1С:ERP и как их использовать?

Программист 1С v8.3 (Управляемые формы) 1С:ERP Управление предприятием
← К списку

При работе с большим объемом первичных документов многие пользователи 1С:ERP сталкиваются с необходимостью автоматизации ввода данных. Вопрос о наличии локальных механизмов распознавания документов становится особенно актуальным, когда существуют ограничения на использование облачных сервисов, будь то вопросы безопасности, конфиденциальности данных или отсутствие стабильного интернет-соединения. В этом тексте мы подробно разберем существующие подходы и решения для распознавания документов непосредственно в вашей инфраструктуре или с минимальным использованием внешних сервисов.

Мы рассмотрим различные варианты, от фирменных решений 1С до интеграции сторонних продуктов и разработки собственных нейронных сетей, чтобы вы могли выбрать наиболее подходящий для вашей задачи.

1. Фирменное решение 1С: "1С:Распознавание первичных документов"

Начнем с официального подхода от фирмы "1С", который, хотя и использует облачную инфраструктуру для самого процесса распознавания, глубоко интегрирован с локальными конфигурациями 1С и позиционируется как решение для пользователей "коробочных" версий. Это позволяет вашей локальной системе 1С использовать мощные возможности распознавания без необходимости развертывания и поддержки сложного ПО на собственном сервере.

  1. Описание и интеграция:

    Сервис "1С:Распознавание первичных документов" предназначен для автоматического преобразования бумажных или электронных образов документов (сканов, фотографий) в документы базы 1С. Мы выясним, что этот сервис интегрирован с 1С:ERP Управление предприятием 2, начиная с версии 2.5.9, а также с другими популярными конфигурациями, такими как 1С:Управление торговлей, 1С:Комплексная автоматизация, 1С:Управление нашей фирмой и 1С:Бухгалтерия 8.

    Для 1С:Документооборот 3.0 существует отдельный тариф "Распознавание текста" в рамках этого же сервиса, доступный с релиза 3.0.15 для версий КОРП, ДГУ, Холдинг.

  2. Технология распознавания:

    Сервис использует обученные нейронные сети, которые способны извлекать информацию даже из документов низкого качества, таких как мятые накладные или нечеткие фотографии. Это значительно превосходит возможности устаревших технологий.

  3. Основные возможности:

    Рассмотрим подробнее функционал:

    • Распознавание содержания: Сервис автоматически считывает данные из полей документа.
    • Сопоставление с объектами ИБ: Он сопоставляет распознанные данные с существующими элементами в вашей информационной базе 1С (например, контрагентами, номенклатурой).
    • Проверка корректности: Осуществляется проверка чисел по формулам, а места, требующие внимания пользователя, подсвечиваются.
  4. Конфиденциальность и удобство:

    Фирма "1С" заявляет, что все документы обрабатываются непосредственно внутри их инфраструктуры и не передаются третьим лицам, обеспечивая конфиденциальность данных. Для удобства загрузки документов от удаленных сотрудников доступно мобильное приложение 1С:Сканер документов.

  5. Стоимость и тестовый период:

    Мы проанализируем стоимость: сервис предлагает бесплатный тестовый период — 250 страниц для распознавания в течение 1 года для пользователей локальных версий 1С, зарегистрированных на портале 1С:ИТС. После тестового периода сервис работает по платным тарифам.

2. Развертывание собственных нейронных сетей и ИИ-решений

Если требования к конфиденциальности или к полной автономности настолько высоки, что даже "облачное, но интегрированное" решение 1С не подходит, мы можем рассмотреть вариант развертывания полностью локальной нейронной сети на вашем сервере. Этот путь более сложен и ресурсоемок, но дает полный контроль.

  1. Принцип работы:

    Современные OCR-системы активно используют комбинации технологий обработки изображений, машинного обучения и нейронных сетей для повышения точности распознавания. Выясним, что вы можете обучить нейросеть на собственных данных, что значительно повышает точность для специфических типов документов вашей компании.

  2. Интеграция с 1С:

    Мы разберем, как можно подключить почти любую существующую нейросеть к системе 1С. Это обычно реализуется через API (HTTP-сервисы). Ваша 1С отправляет запрос на локальный сервер с нейросетью, передает ему образ документа, а нейросеть возвращает распознанные данные в структурированном виде.

    
    // Пример вызова HTTP-сервиса (псевдокод)
    Функция ОтправитьДокументНаРаспознавание(ДвоичныеДанныеДокумента)
        HTTPЗапрос = Новый HTTPЗапрос("/api/recognize");
        HTTPЗапрос.УстановитьТелоИзДвоичныхДанных(ДвоичныеДанныеДокумента);
        HTTPЗапрос.Заголовки.Вставить("Content-Type", "application/pdf");
    
        HTTPСоединение = Новый HTTPСоединение("localhost", 8000); // Адрес вашего локального сервера с нейросетью
        HTTPОтвет = HTTPСоединение.Отправить(HTTPЗапрос);
    
        Если HTTPОтвет.КодСостояния = 200 Тогда
            Возврат HTTPОтвет.ПолучитьТелоКакСтроку(); // JSON с распознанными данными
        Иначе
            Возврат Неопределено;
        КонецЕсли;
    КонецФункции;
    
  3. Стоимость и время:

    Важно понимать, что разработка и развертывание собственной нейронной сети на сервере может быть спорным вариантом по деньгам и времени. Это требует квалифицированных специалистов (Data Scientists, DevOps), мощного серверного оборудования и значительных временных затрат на обучение и отладку.

3. Использование сторонних коммерческих OCR-систем

Существуют готовые коммерческие OCR-системы, которые можно развернуть локально и интегрировать с 1С. Мы проанализируем этот рынок.

  1. ABBYY и их аналоги:

    Исторически компания ABBYY была лидером в области распознавания текста со своим продуктом ABBYY FineReader. Однако, в связи с уходом ABBYY FineReader с российского рынка, появились отечественные аналоги, которые мы рассмотрим:

    • SETERE OCR от компании SETERE Group. Это российский аналог, включенный в реестр отечественного ПО. Он использует лицензированные технологии ABBYY для распознавания текста, поддерживает российские операционные системы (Astra Linux, РЕД ОС, Альт Рабочая станция) и предлагает локальные лицензии.
    • Content AI с продуктом ContentCapture, разработанным выходцами из ABBYY.
    • Easydoc — еще одна российская OCR-система, позиционирующая себя как платформа интеллектуальной обработки документов с использованием ИИ.
  2. Интеграция:

    Обычно эти системы предлагают собственные SDK (Software Development Kit) или API для интеграции. Мы можем использовать их для взаимодействия с 1С, так же как и в случае с собственными нейросетями, через HTTP-сервисы или внешние компоненты.

4. Бесплатные и Open-Source решения: Tesseract и PaddleOCR

Для тех, кто ищет бюджетные или полностью бесплатные локальные решения, существуют мощные open-source библиотеки для распознавания текста. Рассмотрим их подробнее.

  1. Tesseract OCR:

    • Описание: Tesseract является бесплатной и открытой альтернативой для распознавания документов, разрабатываемой Google.
    • Качество: Мы выясним, что Tesseract считается более современной и качественной альтернативой устаревшему CuneiForm.
    • Интеграция с 1С: Существуют решения по интеграции Tesseract с 1С, в том числе для извлечения табличной информации и работы с RPA-системами. Мы можем развернуть Tesseract с Flask в Docker и обеспечить его взаимодействие с 1С:Документооборот, что позволяет заменить CuneiForm в старых версиях.
    • 
      // Пример команды для запуска Tesseract из командной строки (для понимания принципа)
      // Tesseract может быть вызван из 1С через КомандаСистемы() или внешнюю компоненту
      // для обработки файла и получения результата.
      // tesseract input.png output -l rus+eng --oem 3 --psm 3
      
  2. PaddleOCR:

    PaddleOCR также упоминается как бесплатный аналог, разработанный Baidu. Он предлагает хорошие результаты распознавания и поддерживает множество языков.

  3. CuneiForm (исторический контекст):

    Важно отметить, что CuneiForm является устаревшей технологией (последняя версия вышла в 2011 году). Мы проанализируем его недостатки: качество распознавания у CuneiForm низкое, особенно для некачественных сканов или нестандартных шрифтов. Он хорошо распознает текст только при хорошем сканировании и стандартных шрифтах (Times, Arial). В старых версиях 1С:Документооборот 2.1 и ранее для распознавания на сервере требовалась установка утилит CuneiForm, Ghostscript и ImageMagic. Мы настоятельно не рекомендуем использовать CuneiForm для новых проектов.

5. Решения от партнеров 1С: EFSOL

Помимо фирменного сервиса 1С, некоторые партнеры также предлагают свои решения, которые могут быть полезны для локального использования.

  1. EFSOL: 1С-РПД:

    Компания EFSOL предлагает решение "1С-РПД" ("1С: Распознавание первичных документов"), которое обеспечивает быстрый ввод первичных документов в 1С:ERP и другие конфигурации, сокращая ошибки ручного ввода. Мы выясним, что это решение может быть оптимизировано для специфических потребностей вашей компании.

  2. EFSOL: Загрузка документов:

    Также у EFSOL есть "EFSOL: Загрузка документов" — программа для точного ввода первичных документов в 1С с помощью сканера. Это решение может быть реализовано на базе ABBYY FlexiCapture (если у вас есть действующие лицензии или вы используете отечественные аналоги) и модуля "EFSOL: Коннектор" для 1С.

В заключение, мы видим, что существуют различные подходы к реализации локального распознавания документов для 1С:ERP. Если вам нужна простота и интеграция, сервис "1С:Распознавание первичных документов" является удобным и быстрым решением, несмотря на то что само распознавание происходит в облаке 1С. Для полной автономности и максимального контроля над данными, вы можете рассмотреть развертывание собственных нейронных сетей с использованием open-source решений (Tesseract, PaddleOCR) или интеграцию с коммерческими локальными OCR-системами (например, SETERE OCR).

Выбирайте решение, которое наилучшим образом соответствует вашим требованиям к безопасности, бюджету и квалификации специалистов.

← К списку