Описание

Обзор
3i Search Platform имеет распределенную архитектуру сбора, индексации данных и обработки запросов. Система сбора данных реализована в виде коннекторов к различным источникам данных, например, к файловой системе или Интернет. 3i Search Platform обойдет внутренние и внешние источники данных, объединит их в единое информационное пространство и предоставит доступ через Web-интерфейс. Посредством SOAP-API можно получить доступ к следующим функциям системы:

поиск по ключевым словам;
смысловой поиск;
нечеткий поиск;
параметрический поиск;
поиск похожих документов;
поиск по различным типам полей;
поиск с использованием усечения (wildcard);
поиск с учетом синонимов и пользовательских словарей;
кросс-языковый поиск;
автоматическое дополнение запросов при поиске;
проверка правописания запросов;
анализ статистики по запросам (анализ интересов пользователей);
классификация документов;
ведение различных типов классификаторов для совместной работы (пользовательские, групповые, общие);
кластеризация документов;
построение карты связей для кластеров;
динамическая кластеризация результатов поиска;
ведение пользовательских агентов для мониторинга данных и уведомлений;
смысловое аннотирование.

Технические характеристики
Коннекторы: файловая система, Интернет, POP3/IMAP, Fetch API.

Типы файлов: более 200 различных форматов, среди них XML, HTML, PDF, файлы Microsoft Office и многие другие. Для XML и HTML имеются гибкие настройки.

3i Search Platform поддерживает лингвистическую обработку документов на следующих языках: английский, арабский, иврит, итальянский, испанский, китайский (трад.), китайский (упр.), корейский, немецкий, польский, португальский, русский, турецкий, французский, японский. Также для указанного списка доступно автоматическое определение языка. Список поддерживаемых языков пополняется.

Скоростные характеристики на современных процессорах семейства Intel Xeon:

индексация на одном ядре со скоростью более 4 MB/s (32 Mbps);
выполнение более 50 простых запросов в секунду.
3i Search Platform поддерживает линейную масштабируемость по количеству обрабатываемых запросов и проиндексированных данных. Рекомендуемое количество документов на один узел индексации - до 5 млн.

3i Search Platform разработана на основе самых передовых достижений в области обработки текстов на естественном языке (Natural Language Processing) и по своим характеристикам не уступает мировым лидерам отрасли корпоративных поисковых систем.