Лаборатория предоставляет услуги извлечения фактов из русскоязычных текстов. Результатом работы может быть разовый расчёт, коробочное решение или веб-сервис.
Для подготовки к судебным заседаниям юристы изучают историю дел судей по отдельным статьям. Для поиска и фильтрации из текстов дел извлекается ключевая информация:
В ЕГРЮЛ не всегда содержится актуальная информация о телефоне и адресе организаций. Такие данные лучше искать на сайте компаний:
Для подсчёта упоминаний из текстов новостей извлекаются имена и должности людей:
Рекрутеры получают резюме в формате PDF и DOC. Для удобства ведения списка кандидатов, из документов извлекается имя, возраст, последнее место работы, желаемая должность и зарплата:
С 2007 года Минюст ведёт список материалов, признанных судом экстремистскими. Записи приходят из разных регионов страны и оформлены по-разному. Для поиска и блокировки описание материалов приводятся к общему виду:
Информация извлекается с помощью набора словарей и правил. Упрощённое решение для поиска имён будет выглядеть так:
На практике всё сложнее. Например, слова «вера», «любовь», «серёжка», «лев» — это не всегда имена. Нормальная форма для «сашу иванову» — «саша иванова», а для «саше иванову» — «саша иванов». Части имени должны быть согласованы, например, на «рамзаном ахматовичу» правило не должно срабатывать.
Арбитражные дела, резюме, страницы с контактами используют контролируемый естественный язык. Для таких текстов точность разбора обычно выше 95%, борьба идёт за полноту. Например, на страницах с контактами адрес находится в ~80% случаев, суммы взысканий в арбитражных делах разбираются только в 60% текстов.
Для новостей, постов в социальных сетях и других текстов на естественном языке качество зависит от источника. Например, точность разбора имён в новостях ~75%, в отзывах на школьных учителей — 90%. Качество других коммерческих решений для этой задачи 85% и выше.
Скорость обработки зависит от текста и сложности правил. Например, имена из новостей извлекаются со скоростью 20 статей в секунду*. Скорость яндексового Томита-парсера на этой задаче 120 текстов в секунду. Правила для адресов сложнее, скорость обработки страниц с контактами компаний 2 штуки в секунду.
Для обработки больших объёмов данных парсер запускается на нескольких машинах.
Решения строятся на технологии «Наташа». Лаборатория один из основных разработчиков проекта. В открытом доступе находятся правила и словари для извлечения имён, адресов, названий организаций, дат и сумм денег.
На практике готовых правил не всегда хватает для решения бизнес-задач. Мы предлагаем услуги по разработке новых правил и доработке существующих. Результатом работы может быть коробочное решение, работающее у заказчика, или веб-сервис с оплатой по подписке.
Для оценки сроков и стоимости, пожалуйста, напишите письмо на alex@alexkuk.ru.