RCO Categorization Engine

Аннотация

RCO Text Categorization Engine производит тематическую классификацию (категоризацию) текстов.

ПО включено в Единый реестр российских программ для ЭВМ и баз данных по Приказу Минкомсвязи России от 21.04.2021 №396, реестровый № 10312.

Основные особенности:

Автоматическое обучение

При наличии обучающих выборок текстов для каждой из тематических категорий система позволяет автоматически построить лексические профили категорий, которые будут впоследствии использоваться для категоризации новых текстов.

Возможность ручной настройки

При отсутствии обучающих выборок текстов можно создать лексические профили вручную, указав ключевые слова с их весовыми коэффициентами, в том числе используя сложные логические конструкции, определяющие отношения между словами и их взаимное расположение в тексте.

Скорость работы

Тексты обрабатываются «в один проход»: скорость обработки линейно зависит от длины текста, не зависит от количества тематических категорий и имеет логарифмическую зависимость от размера лексических профилей.

Характеристики

Принадлежность текста заданной категории определяется на основании векторной модели категоризации, которая включает в себя четыре настраиваемых компонента, задаваемые в лексическом профиле:
‒ Весовые коэффициенты терминов профиля;
‒ Параметр учёта частоты термина в документе (бинарный, частотный);
‒ Нормирующий множитель (евклидова норма, длина текста);
‒ Пороговое значение.

Есть возможность редактирования используемых лексических профилей либо создания их полностью вручную.

Поддерживаемые языки: русский, английский, армянский, белорусский, казахский, киргизский, таджикский, узбекский, украинский.

Поддерживает тексты в форматах html, txt.
При обработке текста в формате html производится очистка веб-страницы от навигационных элементов, загромождающих страницу и зашумляющих содержимое.

Обеспечивает скорость обработки текста не ниже 50 тысяч текстовых символов в секунду на одном ядре процессора с частотой 3 ГГц при совокупном объеме лексических профилей в 1 млн. слов и словосочетаний.

Поддерживает задание терминов в виде поисковых выражений, состоящих из слов, словосочетаний (цепочек слов) и логических операторов «И», «ИЛИ», «И НЕ» между ними, со следующими возможностями:
‒ Задавать максимально допустимое число вставок других слов между словами словосочетания;
‒ Распознавать словосочетание с произвольным порядком следования его слов в тексте;
‒ Указывать «неразрывные» пробелы между словами словосочетания: слова, разделённые таким пробелом, не могут быть переставлены в тексте местами, и между ними не может быть вставлено никакое слово;
‒ Распознавать слова с учетом всех словоформ;
‒ Распознавать слова в точности, как написано в термине или в словосочетании;
‒ Распознавать слова по словоформам, явно заданным к отождествлению в профиле;
‒ Объявлять и использовать синонимические ряды слов и словосочетаний;
‒ Допускать использование знаков препинания в качестве слов;
‒ При распознавании словосочетания игнорировать знаки препинания, вставленные в тексте между его словами;
‒ Распознавать словосочетания с учётом и без учёта разбиения текста на предложения.

Имеет возможность принимать в качестве слова объекты, а в качестве словосочетания – факты, содержащиеся в предварительно подготовленной семантической разметке текста. Есть возможность вводить ограничения на атрибуты объектов, роли и участников фактов. Обеспечивается интеграция (на уровне API) с RCO Fact Extractor, выполняющим функции синтактико-семантического анализа.

Предоставляет программный интерфейс (API) для интеграции с внешними системами.

Пробная версия

RCO Text Categorization Engine можно протестировать на своих данных.

ПО предоставляется без каких-либо функциональных ограничений на 2 месяца путем заключения Лицензионного соглашения.

Для получения ПО, необходимо передать нам оригинал соглашения, предварительно выслав скан подписанного соглашения по электронной почте.

RCO Text Categorization Engine предоставляется с аппаратным ключом защиты HASP HL. Для его получения необходимо направить курьера в наш офис.

Если Вы находитесь не в Москве, можно заказать доставку ключа курьерской службой. По окончании тестирования библиотеки, ключ нужно будет вернуть.

Примеры использования

Технические требования

Платформа

RCO Text Categorization Engine работает на платформах Linux и Microsoft Windows с текстами на русском, английском, армянском, белорусском, казахском, киргизском, таджикском, узбекском, украинском языках.

Процессор

Для работы одного экземпляра продукта (обработка потока в 40-200 Мб текста/час) требуется одно ядро процессора и от 100 до 300 Мб оперативной памяти в зависимости от сложности конфигурации и объема обрабатываемого текста. Скорость обработки текста с 1 млн. слов и словосочетаний в лексических профилях составляет не ниже 50 тысяч текстовых символов в секунду на одном ядре процессора с частотой 3 ГГц.

Система лицензирования

Продукт лицензируется по количеству экземпляров, доступных для запуска. Актуальный ценовой лист находится здесь.
Данное ПО не облагается НДС в соответствии с пп.26 п.2 ст.149 НК РФ.

Гарантийные обязательства и техническая поддержка

Срок гарантийных обязательств составляет 1 год с момента начала использования ПО.

После окончания гарантийного срока, возможно заключение договора технической поддержки ПО, которая включает в себя:
– Консультации;
– Обновление ПО до актуальной версии, по запросу.

Cтоимость технической поддержки составляет 22% от стоимости приобретенных лицензий, в год.