Описание

Обзор
3i Search Platform 3.x представляет собой развитие платформы 3i Search Platform (2.х). Поисковые возможности 3i Search Platform 3.x базируются на технологиях Elasticsearch – распределенного поискового сервера с открытым кодом для поиска и анализа данных в режиме реального времени. Компания “ДСС Лаб” расширяет его функционал за счет включения в состав ряда плагинов собственной разработки. API 3i Search Platform 3.x сохраняет возможности API Elasticsearch, добавляя новые функции. 3i Search Platform 3.x имеет распределенную архитектуру индексации данных, обработки запросов и может использоваться как документно-ориентированная NoSQL база. 3i Search Platform 3.x предоставляет пользователю развитой функционал обработки текстовой информации:


Расширенный поиск. Технология расширенного поиска базируется на мощном и гибком языке запросов, позволяющем выполнять профессиональное исследование информации. Например, помимо традиционных логических операторов возможен поиск с учетом морфологии языка (усечение грамматических форм и т.п.), по конкретным типам полей и др.
Автодополнение и проверка правописания. Обеспечивается возможность при формировании запроса автодополнять отдельные слова и/или словосочетания, а также осуществлять проверку правописания. В основе данной технологии лежит качественная морфология языков, позволяющая на основе имеющихся в системе словарей исправлять грамматические ошибки и опечатки, понимать транслитерированные слова.
Кроссязыковый поиск. Обеспечивается возможность поиска требуемой информации на нескольких языках одновременно.
Поиск с учетом синонимов. Обеспечивается возможность выполнения поиска не только по непосредственно введенному пользователем слову или сочетанию, но и параллельно по их синонимам.
Поиск похожих документов. Технология основана на выявлении ограниченного числа наиболее значимых слов в исходном документе и поиску по ним нечетких дубликатов.
Нечеткий поиск. Обеспечивается выполнение поиска в текстовых данных, содержащих орфографические ошибки или опечатки. На практике такой подход позволяет, например, выявлять ситуации преднамеренной замены символов, например, буквы «О» на цифру «0» с целью усложнения поиска информации.
Извлечение сущностей. Обеспечивается возможность распознавания и извлечения из текста определенной значимой информации – сущностей (люди, места, организации, номера телефонов, продукты или услуги и т.п.). В основе используемой технологии лежит частичный синтаксический анализ и машинное обучение.
Кластеризация информации. Обеспечивается возможность автоматической группировки схожих по смыслу документов.
По своим характеристикам 3i Search Platform 3.x является лидером для рынка Big Data. Примером использования 3i Search Platform 3.x является сайт анализа новостей, поступающих от средств массовой информации www.3inews.ru


Технические характеристики
3i Search Platform 3.х используется в качестве отдельного модуля, встраиваемого в другое программное обеспечение, предоставляя разработчику соответствующий функционал API. API 3i Search Platform 3.х относится к классу REST (сокр. англ. Representational State Transfer, передача репрезентативного состояния). 3i Search Platform 3.x поддерживает лингвистическую обработку документов на следующих языках: английский, арабский, иврит, итальянский, испанский, китайский (трад.), китайский (упр.), корейский, немецкий, польский, португальский, русский, турецкий, французский, японский. Также для указанного списка доступно автоматическое определение языка. Список поддерживаемых языков пополняется. Программное обеспечение функционирует под ОС Linux. 3i Search Platform 3.x разработана на основе самых передовых достижений в области обработки текстов на естественном языке (Natural Language Processing).