Принадлежность текста заданной категории определяется на основании векторной модели категоризации, которая включает в себя четыре настраиваемых компонента, задаваемые в лексическом профиле:
‒ Весовые коэффициенты терминов профиля;
‒ Параметр учёта частоты термина в документе (бинарный, частотный);
‒ Нормирующий множитель (евклидова норма, длина текста);
‒ Пороговое значение.
Есть возможность редактирования используемых лексических профилей либо создания их полностью вручную.
Поддерживаемые языки: русский, английский, армянский, белорусский, казахский, киргизский, таджикский, узбекский, украинский.
Поддерживает тексты в форматах html, txt.
При обработке текста в формате html производится очистка веб-страницы от навигационных элементов, загромождающих страницу и зашумляющих содержимое.
Обеспечивает скорость обработки текста не ниже 50 тысяч текстовых символов в секунду на одном ядре процессора с частотой 3 ГГц при совокупном объеме лексических профилей в 1 млн. слов и словосочетаний.
Поддерживает задание терминов в виде поисковых выражений, состоящих из слов, словосочетаний (цепочек слов) и логических операторов «И», «ИЛИ», «И НЕ» между ними, со следующими возможностями:
‒ Задавать максимально допустимое число вставок других слов между словами словосочетания;
‒ Распознавать словосочетание с произвольным порядком следования его слов в тексте;
‒ Указывать «неразрывные» пробелы между словами словосочетания: слова, разделённые таким пробелом, не могут быть переставлены в тексте местами, и между ними не может быть вставлено никакое слово;
‒ Распознавать слова с учетом всех словоформ;
‒ Распознавать слова в точности, как написано в термине или в словосочетании;
‒ Распознавать слова по словоформам, явно заданным к отождествлению в профиле;
‒ Объявлять и использовать синонимические ряды слов и словосочетаний;
‒ Допускать использование знаков препинания в качестве слов;
‒ При распознавании словосочетания игнорировать знаки препинания, вставленные в тексте между его словами;
‒ Распознавать словосочетания с учётом и без учёта разбиения текста на предложения.
Имеет возможность принимать в качестве слова объекты, а в качестве словосочетания – факты, содержащиеся в предварительно подготовленной семантической разметке текста. Есть возможность вводить ограничения на атрибуты объектов, роли и участников фактов. Обеспечивается интеграция (на уровне API) с RCO Fact Extractor, выполняющим функции синтактико-семантического анализа.
Предоставляет программный интерфейс (API) для интеграции с внешними системами.
RCO Text Categorization Engine можно протестировать на своих данных.
ПО предоставляется без каких-либо функциональных ограничений на 2 месяца путем заключения Лицензионного соглашения.
Для получения ПО, необходимо передать нам оригинал соглашения, предварительно выслав скан подписанного соглашения по электронной почте.
Если Вы находитесь не в Москве, можно заказать доставку ключа курьерской службой. По окончании тестирования библиотеки, ключ нужно будет вернуть.
Срок гарантийных обязательств составляет 1 год с момента начала использования ПО.
После окончания гарантийного срока, возможно заключение договора технической поддержки ПО, которая включает в себя:
– Консультации;
– Обновление ПО до актуальной версии, по запросу.
Cтоимость технической поддержки составляет 22% от стоимости приобретенных лицензий, в год.
Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214
Телефон: +7 (495) 287-98-87
E-mail:
© ООО «ЭР СИ О», 2024. Все права защищены
Политика конфиденциальности
Карта сайта
Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214
Телефон: +7 (495) 287-98-87
E-mail: info@rco.ru
Я согласен на обработку персональных данных
Сценарии применения
Продукты
Нейросети