← Лаборатория анализа данных Кукушкина Александра

Извлечения структурированной информации из текстов на русском языке

Лаборатория предоставляет услуги извлечения фактов из русскоязычных текстов. Результатом работы может быть разовый расчёт, коробочное решение или веб-сервис.

Примеры

Арбитражные дела

Для подготовки к судебным заседаниям юристы изучают историю дел судей по отдельным статьям. Для поиска и фильтрации из текстов дел извлекается ключевая информация:

Арбитражный суд Ростовской области в составе судьи Рябухи С.Н. рассмотрев в судебном заседании дело по заявлению общества с ограниченной ответственностью «ЭПП» (ИНН 6164267798 ОГРН 1076164010262) к открытому акционерному обществу «Ростовский порт» (ИНН 6167014330 ОГРН 1026104143780) о взыскании 196227,21руб…

{ "judges": [ { "position": "судья", "name": { "last": "Рябухи", "first": "С", "middle": "Н" }, } ], "claimant": { "type": "Общество с ограниченной ответственностью", "name": "ЭПП", "attributes": { "inn": "6164267798", "ogrn": "1076164010262" } }, "defendant": { "type": "Общество с ограниченной ответственностью", "name": "Ростовский порт", "attributes": { "inn": "6167014330", "ogrn": "1026104143780" } }, "topic": "о взыскании 196227,21руб" }

Руководствуясь статьями 110, 167 - 169, 216 Арбитражного процессуального кодекса РФ, Арбитражный суд Вологодской области…

{ "refences": [ { "article": 110, "source": "АПК" }, { "article": 167, "source": "АПК" }, { "article": 168, "source": "АПК" }, … ] }

Взыскать с индивидуального предпринимателя Капуновой Валентины Константиновны в доход Пенсионного фонда Российской Федерации финансовые санкции в сумме 1039 (одна тысяча тридцать девять) руб. 20 (двадцать) коп.

{ "paying": { "type": "Индивидуальный предприниматель", "name": { "last": "Капунова", "first": "Валентина", "middle": "Константиновна" } }, "penalties": [ { "type": "финансовые санкции", "money": { "amount": 1039.2, "currency": "RUB" } } ] }

Контакты компаний

В ЕГРЮЛ не всегда содержится актуальная информация о телефоне и адресе организаций. Такие данные лучше искать на сайте компаний:

Горячая линия: 8 800 100 84 48 Звонки по России бесплатно Время работы операторов: с 9.00 до 18.00 Головной офис 192241, г.Санкт-Петербург, Южное шоссе, д.37, корпус 4 Карта проезда т/ф: +7 (812) 708-84-27

{ "phones": [ "+7 800 100-84-48", "+7 812 708-84-27" ], "addresses": [ { "parts": [ {"value": 192241, "type": "индекс"}, {"name": "Санкт-Петербург", "type": "город"}, {"name": "Южное", "type": "шоссе"}, {"number": 37, "type": "дом"}, {"number": 4, "type": "корпус"} ] } ] }

Наш адрес: Россия, 190020,г. Санкт-Петербург, Старо-Петергофский пр., д. 43-45, лит. Б, офис 4Н Магазин работает с 10.00 до 18.00 Суббота, воскресенье – выходные Телефон: +7 (812) 495-43-01 Факс: +7 (812) 325-35-23 Email: shop@gold10.ru Реквизиты: ООО «Голд 10 Маркет» ИНН:7840038965; КПП:784001001;

{ "phones": ["+7 812 495-43-01"], "faxes": ["+7 812 325-35-23"], "emails": ["shop@gold10.ru"], "addresses": [ { "parts": [ {"name": "Россия", "type": "страна"}, {"value": 190020, "type": "индекс"}, {"name": "Санкт-Петербург", "type": "город"}, {"name": "Старо-Петергофский", "type": "проспект"}, {"number": "43-45", "type": "дом"}, {"value": "Б", "type": "литер"}, {"value": "4Н", "type": "офис"}, ] } ], "inn": "7840038965", "kpp": "784001001" }

Новости

Для подсчёта упоминаний из текстов новостей извлекаются имена и должности людей:

Байкеры мотоклуба «Ночные волки» совместно с главой Чечни Рамзаном Кадыровым совершили мотопробег, посвященный дню рождения президента РФ Владимира Путина. Об этом сообщил в «ВКонтакте» сам Кадыров. «В среду вечером мы организовали мотопробег, посвященный дню рождения президента России Владимира Путина…

{ "coreferences": [ { "position": "глава Чечни", "name": { "last": "Кадыров", "first": "Рамзан", } }, { "position": "президент России", "name": { "last": "Путин", "first": "Владимир", } } ] }

Белый дом расследует утечки информации о телефонных переговорах президента США Дональда Трампа с иностранными лидерами. Об этом, как сообщает The Hill, заявил пресс-секретарь Белого дома Шон Спайсер…

{ "coreferences": [ { "position": "президент США", "name": { "last": "Трамп", "first": "Дональд", } }, { "position": "пресс-секретарь Белого дома", "name": { "last": "Шон", "first": "Спейсер", } } ] }

Резюме

Рекрутеры получают резюме в формате PDF и DOC. Для удобства ведения списка кандидатов, из документов извлекается имя, возраст, последнее место работы, желаемая должность и зарплата:

Женщина, 38 лет, родилась 13 февраля 1978 Проживает: Новосибирск Гражданство: Россия, есть разрешение на работу: Россия Не готова к переезду, не готова к командировкам Желаемая должность и зарплата Менеджер-аналитик Продажи • Дилерские сети • Дистрибуция • Менеджер по работе с клиентами 25 000 руб.

{ "gender": "female", "birth": { "year": 1978, "month": 2, "day": 13 }, "location": { "area": "Новосибирск", "metro": null }, "citizen_of": [ "Россия" ], "permission_for": [ "Россия" ], "relocation": false, "travel": false, "position": "Менеджер-аналитик", "specialization": "Продажи", "salary": { "amount": 25000, "currency": "RUB" } }

Опыт работы - 1 год 8 месяцев Июль 2011 - Октябрь 2012 1 год 4 месяца КФ ОАО Ростпечать (продажа газетно-журнальной продукции и сопутствующих товаров) Семикаракорск Бухгалтер-ревизор Проведение ревизий, начисление зп, сдача отчета в ФСС, 2 НДФЛ, помощь киоскерам в сдаче отчета, замещение кассира(принятие наличности от киоскеров и сдача ее в банк, ведение кассовой книги). Август 2010 - Ноябрь 2010 4 месяца ЗАО Аксинья Ростовская область Бухгалтер по реализации Выписка торг 12, ттн, пко, рко, проведение ревизий

[ { "period": { "start": {"year": 2011, "month": 7}, "stop": {"year": 2012, "month": 10} }, "position": "Бухгалтер-ревизор", "company": { "name": "КФ ОАО Ростпечать", "area": "Семикаракорск", } }, { "period": { "start": {"year": 2010, "month": 8}, "stop": {"year": 2010, "month": 11} }, "position": "Бухгалтер по реализации", "company": { "name": "ЗАО Аксинья", "area": "Ростовская область", } } ]

ФСЭМ

С 2007 года Минюст ведёт список материалов, признанных судом экстремистскими. Записи приходят из разных регионов страны и оформлены по-разному. Для поиска и блокировки описание материалов приводятся к общему виду:

Стихотворение Алексея Серенина «Россия! Ты слышишь?! - Народ твой опять называют фашистом!» из сборника «Запрещенные стихи» (решение Новоспасского районного суда Ульяновской области от 02.02.2012);

{ "type": "Стихотворение", "title": "Россия! Ты слышишь?! - Народ твой опять называют фашистом!", "author": { "name": { "first": "Алексей", "middle": "Серенин", } }, "source": { "type": "сборник", "name": "Запрещенные стихи", } }

Видеоролик под названием «Русский выбирает НС», продолжительностью 01 мин. 06 сек., размещенный на интернет-странице по электронному адресу: http://youtube.com/watch?v=7urD5h6PTQg (решение Центрального районного суда г. Хабаровска от 12.05.2014);

{ "type": "Видеоролик", "title": "Русский выбирает НС", "source": { "type": "интернет-страница", "url": "http://youtube.com/watch?v=7urD5h6PTQg" }, "duration": { Точная длительность помогает находить "minutes": 1, материалы на страницах со встроенным плеером "seconds": 6 } }

Текст песни «Просторы Европы» музыкальной группы «Циклон Б» (решение Нагатинского суда г. Москвы от 01.10.2007).

{ "type": "Текст песни", "title": "Просторы Европы", "author": { "type": "музыкальная группа", "name": "Циклон Б" } }

Принцип работы

Информация извлекается с помощью набора словарей и правил. Упрощённое решение для поиска имён будет выглядеть так:

name → first Борис, рашид, Том last Королёв, Трамп, жирик first last Николь Кидман abbr . abbr . last А.С.Пушкин middle first last Иванович Иван Иванов first middle last Анна Павловна Шерер

На практике всё сложнее. Например, слова «вера», «любовь», «серёжка», «лев» — это не всегда имена. Нормальная форма для «сашу иванову» — «саша иванова», а для «саше иванову» — «саша иванов». Части имени должны быть согласованы, например, на «рамзаном ахматовичу» правило не должно срабатывать.

Качество

Арбитражные дела, резюме, страницы с контактами используют контролируемый естественный язык. Для таких текстов точность разбора обычно выше 95%, борьба идёт за полноту. Например, на страницах с контактами адрес находится в ~80% случаев, суммы взысканий в арбитражных делах разбираются только в 60% текстов.

Для новостей, постов в социальных сетях и других текстов на естественном языке качество зависит от источника. Например, точность разбора имён в новостях ~75%, в отзывах на школьных учителей — 90%. Качество других коммерческих решений для этой задачи 85% и выше.

Скорость

Скорость обработки зависит от текста и сложности правил. Например, имена из новостей извлекаются со скоростью 20 статей в секунду^*. Скорость яндексового Томита-парсера на этой задаче 120 текстов в секунду. Правила для адресов сложнее, скорость обработки страниц с контактами компаний 2 штуки в секунду.

Для обработки больших объёмов данных парсер запускается на нескольких машинах.

^*Все измерения проводились с интерпретатором PyPy

Услуги

Решения строятся на технологии «Наташа». Лаборатория один из основных разработчиков проекта. В открытом доступе находятся правила и словари для извлечения имён, адресов, названий организаций, дат и сумм денег.

На практике готовых правил не всегда хватает для решения бизнес-задач. Мы предлагаем услуги по разработке новых правил и доработке существующих. Результатом работы может быть коробочное решение, работающее у заказчика, или веб-сервис с оплатой по подписке.

Для оценки сроков и стоимости, пожалуйста, напишите письмо на alex@alexkuk.ru.