При работе с большим объемом первичных документов многие пользователи 1С:ERP сталкиваются с необходимостью автоматизации ввода данных. Вопрос о наличии локальных механизмов распознавания документов становится особенно актуальным, когда существуют ограничения на использование облачных сервисов, будь то вопросы безопасности, конфиденциальности данных или отсутствие стабильного интернет-соединения. В этом тексте мы подробно разберем существующие подходы и решения для распознавания документов непосредственно в вашей инфраструктуре или с минимальным использованием внешних сервисов.
Мы рассмотрим различные варианты, от фирменных решений 1С до интеграции сторонних продуктов и разработки собственных нейронных сетей, чтобы вы могли выбрать наиболее подходящий для вашей задачи.
Начнем с официального подхода от фирмы "1С", который, хотя и использует облачную инфраструктуру для самого процесса распознавания, глубоко интегрирован с локальными конфигурациями 1С и позиционируется как решение для пользователей "коробочных" версий. Это позволяет вашей локальной системе 1С использовать мощные возможности распознавания без необходимости развертывания и поддержки сложного ПО на собственном сервере.
Описание и интеграция:
Сервис "1С:Распознавание первичных документов" предназначен для автоматического преобразования бумажных или электронных образов документов (сканов, фотографий) в документы базы 1С. Мы выясним, что этот сервис интегрирован с 1С:ERP Управление предприятием 2, начиная с версии 2.5.9, а также с другими популярными конфигурациями, такими как 1С:Управление торговлей, 1С:Комплексная автоматизация, 1С:Управление нашей фирмой и 1С:Бухгалтерия 8.
Для 1С:Документооборот 3.0 существует отдельный тариф "Распознавание текста" в рамках этого же сервиса, доступный с релиза 3.0.15 для версий КОРП, ДГУ, Холдинг.
Технология распознавания:
Сервис использует обученные нейронные сети, которые способны извлекать информацию даже из документов низкого качества, таких как мятые накладные или нечеткие фотографии. Это значительно превосходит возможности устаревших технологий.
Основные возможности:
Рассмотрим подробнее функционал:
Конфиденциальность и удобство:
Фирма "1С" заявляет, что все документы обрабатываются непосредственно внутри их инфраструктуры и не передаются третьим лицам, обеспечивая конфиденциальность данных. Для удобства загрузки документов от удаленных сотрудников доступно мобильное приложение 1С:Сканер документов.
Стоимость и тестовый период:
Мы проанализируем стоимость: сервис предлагает бесплатный тестовый период — 250 страниц для распознавания в течение 1 года для пользователей локальных версий 1С, зарегистрированных на портале 1С:ИТС. После тестового периода сервис работает по платным тарифам.
Если требования к конфиденциальности или к полной автономности настолько высоки, что даже "облачное, но интегрированное" решение 1С не подходит, мы можем рассмотреть вариант развертывания полностью локальной нейронной сети на вашем сервере. Этот путь более сложен и ресурсоемок, но дает полный контроль.
Принцип работы:
Современные OCR-системы активно используют комбинации технологий обработки изображений, машинного обучения и нейронных сетей для повышения точности распознавания. Выясним, что вы можете обучить нейросеть на собственных данных, что значительно повышает точность для специфических типов документов вашей компании.
Интеграция с 1С:
Мы разберем, как можно подключить почти любую существующую нейросеть к системе 1С. Это обычно реализуется через API (HTTP-сервисы). Ваша 1С отправляет запрос на локальный сервер с нейросетью, передает ему образ документа, а нейросеть возвращает распознанные данные в структурированном виде.
// Пример вызова HTTP-сервиса (псевдокод)
Функция ОтправитьДокументНаРаспознавание(ДвоичныеДанныеДокумента)
HTTPЗапрос = Новый HTTPЗапрос("/api/recognize");
HTTPЗапрос.УстановитьТелоИзДвоичныхДанных(ДвоичныеДанныеДокумента);
HTTPЗапрос.Заголовки.Вставить("Content-Type", "application/pdf");
HTTPСоединение = Новый HTTPСоединение("localhost", 8000); // Адрес вашего локального сервера с нейросетью
HTTPОтвет = HTTPСоединение.Отправить(HTTPЗапрос);
Если HTTPОтвет.КодСостояния = 200 Тогда
Возврат HTTPОтвет.ПолучитьТелоКакСтроку(); // JSON с распознанными данными
Иначе
Возврат Неопределено;
КонецЕсли;
КонецФункции;
Стоимость и время:
Важно понимать, что разработка и развертывание собственной нейронной сети на сервере может быть спорным вариантом по деньгам и времени. Это требует квалифицированных специалистов (Data Scientists, DevOps), мощного серверного оборудования и значительных временных затрат на обучение и отладку.
Существуют готовые коммерческие OCR-системы, которые можно развернуть локально и интегрировать с 1С. Мы проанализируем этот рынок.
ABBYY и их аналоги:
Исторически компания ABBYY была лидером в области распознавания текста со своим продуктом ABBYY FineReader. Однако, в связи с уходом ABBYY FineReader с российского рынка, появились отечественные аналоги, которые мы рассмотрим:
ContentCapture, разработанным выходцами из ABBYY.Интеграция:
Обычно эти системы предлагают собственные SDK (Software Development Kit) или API для интеграции. Мы можем использовать их для взаимодействия с 1С, так же как и в случае с собственными нейросетями, через HTTP-сервисы или внешние компоненты.
Для тех, кто ищет бюджетные или полностью бесплатные локальные решения, существуют мощные open-source библиотеки для распознавания текста. Рассмотрим их подробнее.
Tesseract OCR:
// Пример команды для запуска Tesseract из командной строки (для понимания принципа)
// Tesseract может быть вызван из 1С через КомандаСистемы() или внешнюю компоненту
// для обработки файла и получения результата.
// tesseract input.png output -l rus+eng --oem 3 --psm 3
PaddleOCR:
PaddleOCR также упоминается как бесплатный аналог, разработанный Baidu. Он предлагает хорошие результаты распознавания и поддерживает множество языков.
CuneiForm (исторический контекст):
Важно отметить, что CuneiForm является устаревшей технологией (последняя версия вышла в 2011 году). Мы проанализируем его недостатки: качество распознавания у CuneiForm низкое, особенно для некачественных сканов или нестандартных шрифтов. Он хорошо распознает текст только при хорошем сканировании и стандартных шрифтах (Times, Arial). В старых версиях 1С:Документооборот 2.1 и ранее для распознавания на сервере требовалась установка утилит CuneiForm, Ghostscript и ImageMagic. Мы настоятельно не рекомендуем использовать CuneiForm для новых проектов.
Помимо фирменного сервиса 1С, некоторые партнеры также предлагают свои решения, которые могут быть полезны для локального использования.
EFSOL: 1С-РПД:
Компания EFSOL предлагает решение "1С-РПД" ("1С: Распознавание первичных документов"), которое обеспечивает быстрый ввод первичных документов в 1С:ERP и другие конфигурации, сокращая ошибки ручного ввода. Мы выясним, что это решение может быть оптимизировано для специфических потребностей вашей компании.
EFSOL: Загрузка документов:
Также у EFSOL есть "EFSOL: Загрузка документов" — программа для точного ввода первичных документов в 1С с помощью сканера. Это решение может быть реализовано на базе ABBYY FlexiCapture (если у вас есть действующие лицензии или вы используете отечественные аналоги) и модуля "EFSOL: Коннектор" для 1С.
В заключение, мы видим, что существуют различные подходы к реализации локального распознавания документов для 1С:ERP. Если вам нужна простота и интеграция, сервис "1С:Распознавание первичных документов" является удобным и быстрым решением, несмотря на то что само распознавание происходит в облаке 1С. Для полной автономности и максимального контроля над данными, вы можете рассмотреть развертывание собственных нейронных сетей с использованием open-source решений (Tesseract, PaddleOCR) или интеграцию с коммерческими локальными OCR-системами (например, SETERE OCR).
Выбирайте решение, которое наилучшим образом соответствует вашим требованиям к безопасности, бюджету и квалификации специалистов.
← К списку