RCO Fact Extractor SDK

Инструмент компьютерного анализа текстовой информации для извлечения фактографических данных
01

Аннотация

ПО включено в Единый реестр российских программ для ЭВМ и баз данных, реестровый № 3470.

Осуществляет полный синтактико-семантический анализ содержания русского текста на естественном языке в форматах html, txt.

Выделяет различные классы сущностей, упомянутые в тексте, в том числе:

Именованные сущности —

персоны, организации, географические объекты и прочие сущности, обозначаемые в тексте с использованием имен собственных

Неименованные сущности,

обозначенные в тексте полнозначными словами основных частей речи: нарицательными именами существительными, прилагательными, нестроевыми глаголами – одушевленные и неодушевленные предметы (новое оружие массового поражения, тариф на энергоноситель) признаки (нищий, нищета), события (голодовка шахтеров, требовать понизить тариф на энергоноситель)

Специальные сущности —

сущности, обозначаемые в тексте конструкциями особого вида, обычно смешанными из цифр и символов: даты и обстоятельства времени, денежные суммы, идентификационные данные персон и организаций (паспорт, ОМС, ИНН, ОГРН с проверкой на валидность для соответствующих типов), номера телефонов, почтовые адреса, адреса электронной почты, государственного номера транспортных средств и т.п.
02

Характеристики

Для определения имен собственных и приведения их к нормальной форме используются алгоритмы словарного и бессловарного морфологического анализа, информацию о возможных способах написания названий в русском языке, алгоритмы синтаксического анализа и снятия омонимии, алгоритмы установления кореферентности обозначений и синтаксического эллипсиса.

При поиске фактов и событий учитываются условные, сослагательные наклонения и отрицания – при их наличии факты и события не выделяются.

Определяет как тональность текста в целом, так и тональность упоминания отдельных сущностей.

Есть возможность редактирования используемых лингвистических ресурсов: словарей, правил, семантических шаблонов.

Поддерживаемые языки: русский, английский, армянский, белорусский, казахский, киргизский, таджикский, узбекский, украинский.

Включает в себя средства настройки cемантических шаблонов.

Обеспечивает скорость анализа текста (с полным функционалом) не ниже 10 тысяч текстовых символов в секунду на одном ядре процессора с частотой 3 ГГц.

Выполняет поиск фактов и событий – описаний ситуаций в соответствии с заданными схемами, например, «встреча» или «покупка акций», и извлекает требуемую информацию, связанную с ситуациями – имена и позиции в тексте задействованных участников-фигурантов с учетом их ролей в фактах и событиях.

Строит семантическую сеть, содержащую все сущности, упоминаемые в тексте – наименования предметов и лиц, действий и признаков, связанные различными типами синтактико-семантических связей.

Осуществляет поиск ожидаемых событий с указанием предполагаемого интервала времени, в котором событие должно произойти, и приводит событие к нормализованному виду.

Выявляет речемыслительные акты (прямая, косвенная речь) с указанием автора, способа выражения и содержимого.

Извлекает факты из данных, представленных в табличном виде.

Предоставляет программный интерфейс (API) для выполнения перечисленных выше функций, а именно:

  • Анализ текста;
  • Получение списка выделенных сущностей;
  • Получение списка найденных фактов и их участников.
03

Пробная версия

RCO Fact Extractor SDK можно протестировать на своих данных.

Библиотека предоставляется без каких-либо функциональных ограничений на 2 месяца путем заключения специального лицензионного соглашения.

Для получения библиотеки, необходимо передать нам оригинал соглашения, предварительно выслав скан подписанного соглашения по электронной почте.

RCO Fact Extractor SDK предоставляется с аппаратным ключом защиты HASP HL. Для его получения необходимо направить курьера в наш офис.

Если Вы находитесь не в Москве, можно заказать доставку ключа курьерской службой. По окончании тестирования библиотеки, ключ нужно будет вернуть.

05

Обучение

RCO Fact Extractor SDK. Базовый курс

Продолжительность: 18 академических часов

Курс включает следующие темы: этапы обработки текста, виды лингвистических ресурсов, пользовательские словари, правила токенизации, правила извлечения сложных объектов, описания фактов. По каждой теме слушателю предлагается выполнить задания для закрепления материала.

RCO Fact Extractor SDK. Расширенный курс

Продолжительность: 30 академических часов

Курс включает следующие темы: этапы обработки текста, виды лингвистических ресурсов, пользовательские словари, правила токенизации, правила извлечения сложных объектов, высокоточные описания объектов, описания фактов, настройка морфологического словаря, настройка семантических словарей. По каждой теме слушателю предлагается выполнить задания для закрепления материала.

06

Технические требования

Платформа

RCO Fact Extractor SDK работает на платформах Linux и Microsoft Windows с текстами на русском, английском, армянском, белорусском, казахском, киргизском, таджикском, узбекском, украинском языках.

Процессор

Для работы одного экземпляра библиотеки (обработка потока в 40-200 Мб текста/час) требуется одно ядро процессора и от 100 до 300 Мб оперативной памяти в зависимости от сложности конфигурации и объема обрабатываемого текста.
07

Система лицензирования

Standard

Позволяет выделять из текста все упомянутые в нем сущности с их характеристиками, необходимыми для построения информационного портрета текста, а также определять общие стилистические характеристики текста и отдельных предложений.

Standard Plus

Дополнительно к редакции Standard позволяет выделять из текста описания событий и фактов в соответствии с заданными семантическими шаблонами.

Professional

Дополнительно к редакции Standard Plus обеспечивает доступ к семантической сети текста (получение синтактико-семантических связей между сущностями), а также к полному набору грамматических атрибутов сущностей.

Также существуют две специализированные редакции RCO Fact Extractor SDK  – RCO Deduplicator SDK (для выявления дубликатов среди множества текстовых документов) и RCO Document Parser (для выделения реквизитов из  типовых документов).

Актуальный ценовой лист находится здесь.

Данное ПО не облагается НДС в соответствии с пп.26 п.2 ст.149 НК РФ.

Кроме того, выпускается настольная редакция библиотеки, позволяющая работать с небольшим объемом данных – до 10 тысяч документов.

08

Гарантийные обязательства и техническая поддержка

Срок гарантийных обязательств составляет 1 год с момента начала использования ПО.

После окончания гарантийного срока, возможно заключение договора технической поддержки ПО, которая включает в себя:
– Консультации;
– Обновление ПО до актуальной версии, по запросу.

Cтоимость технической поддержки составляет 22% от стоимости приобретенных лицензий, в год.

09

Документация

Подберём продукты
и решения для вашей задачи

Заполните форму и мы свяжемся с вами для консультации о продуктах и решениях RCO
Подпишитесь на обновления о наших последних разработках

© ООО «ЭР СИ О», 2024. Все права защищены

Политика конфиденциальности

Карта сайта

Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214

Телефон: +7 (495) 287-98-87 

E-mail: 

info@rco.ru

© ООО «ЭР СИ О», 2024. Все права защищены

Политика конфиденциальности

Карта сайта

Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214

Телефон: +7 (495) 287-98-87 

E-mail: info@rco.ru

Подпишитесь на обновления о наших последних разработках

Я согласен на обработку персональных данных

Оставить заявку

Укажите интересующий Вас продукт*

Отправляя сведения через электронную форму, вы даете согласие на обработку, сбор, хранение представленной вами информации на условиях Политики конфиденциальности

Оставить заявку

Отправляя сведения через электронную форму, вы даете согласие на обработку, сбор, хранение представленной вами информации на условиях Политики конфиденциальности