Как настроить автоматическое извлечение текстов в "1С:Документооборот" на сервере приложений "1С"?
29.сен.2015
Задача:
Для работы полнотектового поиска в "1С:Документооборот" по содержимому файлов нужно, чтобы программа "1С:Документооборот" могла извлекать тексты. "1С:Документооборот" умеет извлекать тексты из файлов популярных форматов средствами операционной системы Windows для дальнейшего использования в полнотекстовом поиске. Данная процедура в клиент-серверном варианте под Windows должна производиться на сервере.
Решение:
В Windows обязательно надо проверить региональные настройки (особенно это важно, если Windows не русский). Если русский язык в системе не установлен, то при извлечении русских текстов на сервере "1С" будут проблемы, так как извлечение текстов осуществляется средствами операционной системы MS Windows.
Для того, чтобы извлечение текстов в "1С:Документооборот" производилось на сервере, надо включить настройку "Извлекать тексты только на сервере" в настройках программы.
За это отвечает регламентное задание "Извлечение текста".
Из форматов txt, html, doc, xls текст будет извлекаться средствами Windows. А вот из форматов docx и xlxs – нет. Для извлечения текстов данных форматов в "1С:Документообороте" надо установить Pack от Microsoft.
Есть 32 и 64 битные версии Pack-ов от Microsoft. Все зависит от разрядности сервера 1С:Предприятия. Ставим тот, который нам подходит. Скачиваем с сайта microsoft по ссылке файлы Filters:
FilterPack32bit.exe или
FilterPack64bit.exe.
Запускаем фильтр-пак и устанавливаем его.
Для извлечения текстов из pdf файлов с текстовым слоем в "1С:Документооборот" нужно установить IFilter. Есть разные версии iFilters: платные и бесплатные, под разные форматы (в том числе и для Autocad). PDF является самым популярным форматом у пользователей.
Есть 32 и 64 битные версии PDF IFilter. Все зависит от разрядности сервера "1С:Предприятия". Ставим тот, который нам подходит. Скачиваем с сайта adobe по ссылкам фильтры:
Запускаем PDF Filter и устанавливаем его.
В программе "1С:Документооборот" под Администратором установим в настойках программы флаг "Извлекать тексты только на сервере". Это нужно для того, чтобы извлечение текстов не зависело от того, где работают пользователи (в тонком клиенте под Линукс и в браузерах извлечение текстов не работает).
Загрузим файлы в формате doc и в формате pdf в хранилище Файлы.
Проверим тестовые образы файлов pdf и doc.
Видим, что содержимое файлов успешно извлекается.
Проверим расписание регламентного задания "Извлечение текста".
И проверим, как выполнялись фоновые задания.