Как настроить автоматическое извлечение текстов в "1С:Документооборот" на сервере приложений "1С"?

Задача:

Для работы полнотектового поиска в "1С:Документооборот" по содержимому файлов нужно, чтобы программа "1С:Документооборот" могла извлекать тексты. "1С:Документооборот" умеет извлекать тексты из файлов популярных форматов средствами операционной системы Windows для дальнейшего использования в полнотекстовом поиске. Данная процедура в клиент-серверном варианте под Windows должна производиться на сервере.

Решение:

В Windows обязательно надо проверить региональные настройки (особенно это важно, если Windows не русский). Если русский язык в системе не установлен, то при извлечении русских текстов на сервере "1С" будут проблемы, так как извлечение текстов осуществляется средствами операционной системы MS Windows.


Для того, чтобы извлечение текстов в "1С:Документооборот" производилось на сервере, надо включить настройку "Извлекать тексты только на сервере" в настройках программы.


За это отвечает регламентное задание "Извлечение текста".
Из форматов txt, html, doc, xls текст будет извлекаться средствами Windows. А вот из форматов docx и xlxs – нет. Для извлечения текстов данных форматов в "1С:Документообороте" надо установить Pack от Microsoft.
Есть 32 и 64 битные версии Pack-ов от Microsoft. Все зависит от разрядности сервера 1С:Предприятия. Ставим тот, который нам подходит. Скачиваем с сайта microsoft по ссылке  файлы Filters:

  • FilterPack32bit.exe или
  • FilterPack64bit.exe.

Запускаем фильтр-пак и устанавливаем его.

Для извлечения текстов из pdf файлов с текстовым слоем в "1С:Документооборот" нужно установить IFilter. Есть разные версии iFilters: платные и бесплатные, под разные форматы (в том числе и  для Autocad).  PDF является самым популярным форматом у пользователей.
Есть 32 и 64 битные версии PDF IFilter. Все зависит от разрядности сервера "1С:Предприятия". Ставим тот, который нам подходит. Скачиваем с сайта adobe по ссылкам фильтры:


Запускаем PDF Filter и устанавливаем его.

В программе "1С:Документооборот" под Администратором установим в настойках программы флаг "Извлекать тексты только на сервере". Это нужно для того, чтобы извлечение текстов не зависело от того, где работают пользователи (в тонком клиенте под Линукс и в браузерах извлечение текстов не работает).
Загрузим файлы в формате doc и в формате pdf в хранилище Файлы.


Проверим тестовые образы файлов pdf и doc.



Видим, что содержимое файлов успешно извлекается.
Проверим расписание регламентного задания "Извлечение текста".

И проверим, как выполнялись фоновые задания.




Этот и другие материалы Владимира Лушникова опубликованы в блоге "1С:Документооборот".


Поделиться ссылкой:

whatsapp