Лаборатория анализа данных Александра Кукушкина

Сбор, обработка, анализ, визуализация данных. Исследования, разработка сервисов и коробочных продуктов.

Сбор данных

Социальные сети

Собираем данные из ВКонтакте, Twitter, Instagram и LinkedIn. Используем API для разработчиков и полупубличные интерфейсы.

Государственные данные

В России действует 8-ФЗ, государство публикует закупки, результаты выборов, статистику внешней торговли. Мы следим за источниками открытых данных, используем их в исследованиях.

Интернет

Лаборатория проводит регулярный сбор данных с сайтов в зонах .ru и .рф (5 500 000 хостов). Робот решает капчи и обходит блокировки.

Закрытые базы данных

Согласуем с заказчиком, используем закрытые базы данных и API: BuiltWith, SimilarWeb, Quantcast.

Обработка данных

Извлечение фактов из текста

Лаборатория разрабатывает и поддерживает открытые инструменты для работы с естественным русским языком. Yargy-parser извлекает из текста имена, даты, адреса и названия организаций.

Нормализация

Данные, собранные из разных источников, приводим к нормальной форме и объединяем.

Анализ

Описательный анализ

Когда данные собраны и обработаны, разбираемся как они устроены: строим графики, придумываем и проверяем гипотезы.

Deep learning

Лаборатория разрабатывает и поддерживает библиотеку Slovnet — набор современных deep learning моделей для решения базовых задач русскоязычного NLP.

Классическое машинное обучение

Для решения задач регрессии и классификации табличных данных используем классического машинного обучения.

Визуализация

Строим графики, интерактивные визуализации на D3.js, наносим данные на карту, раскрашиваем графы.
Исследование Коробочный продукт Сервис
Результат — отчёт, таблицы, графики, доклад Программа, работающая в дата-центре заказчика Решение, работающее у нас в дата-центре. Заказчик использует API.
Разовая оплата Разовая оплата Подписка

Примеры работ

Извлечение информации из текстов резюме обработка сервис

Рекрутинговое агенство получает сотни pdf-документов с резюме в день. HR-специалисты переносят контакты, опыт работы в Excel-таблицы.

Мы разработали инструмент, который принимает на вход текст резюме, извлекает фото, имя кандидата, телефон, почту, должность на прошлом месте работы, желаемую зарплату.

Решение экономит 30 минут рабочего времени HR-специалиста в день.

Извлечение контактов с сайтов компаний сбор обработка сервис

Заказчик занимается скорингом юридических лиц в России.

Для каждого сайта в зонах .ru и .рф мы находим раздел с контактами и извлекаем ИНН, ОГРН, банковские реквизиты, фактический адрес, телефон, почту, имя директора. Раз в месяц заказчик получает выгрузку 1 000 000 записей.

Телефон и адрес с сайта компании актуальнее, чем в выписке из ЕГРЮЛ.

Сбор карточек дел с сайтов судов общей юрисдикции сбор обработка сервис

Суды публикуют решения по уголовным и гражданским делам у себя на сайтах. В России 2300 судов, у каждого свой сайт.

Мы собираем карточки поступивших дел, следим за изменениям, сохраняем текст приговора. Ежедневно заказчик получает выгрузку 100 000 дел с обновлениями, организует поиск по текстам документов.

Разбор капчи анализ сервис

Заказчик автоматизирует работу с сайтами ФНС и ГАС «Правосудие». Запросы к поиску требуют ввода капчи.

Наш сервис принимает картину с капчей, возвращает текст с кодом. Решение построено на свёрточных нейронных сетях, точность распознавания 95%.

Поиск по базе предметов искусства обработка коробочный продукт

Государственные музеи вносят информацию о своих фондах в общую базу предметов искусства.

В базе 6 000 000 предметов. Стандартного формата для записей нет. Из описания на естественном русском языке мы извлекаем период создания и габариты объекта: «вторая треть xvii в.» → [1630, 1660), «рамка: 10,5х16 см» → [105, 160]. Заказчик использует новые атрибуты для поиска по базе.

Извлечение информации из текстов арбитражных дел обработка сервис

При подготовке к судебному заседанию юристы знакомятся с практикой по релевантным делам.

С 2010 года в картотеке Право.ру накопилось 5 000 000 решение по арбитражным делам. Наш инструмент принимает текст документа, извлекает имя судьи, реквизиты сторон, исковые требования, ссылки на нормативные акты, вердикт по делу.

Заказчик организует поиск по отдельным полям, делает подборки практики по судьям, статьям, компаниям-участникам.

Портреты клиентов банка анализ исследование

Банк собирает информацию о транзакциях: id-клиента, время, сумму, MCC-код. По истории транзакций мы строим портрет клиента: автовладелец, путешественник, есть дети. Банк делает персонализированные предложения по кредитам и вкладам.

Метчинг названий товаров обработка анализ коробочный продукт

Заказчик делает маркетплейс аналог Яндекс.Маркета.

Магазины присылают прайс-листы — список названий товаров и цены. Наше решение объединяет предложения в карточки. Один и тот же товар может называться по-разному: «iPhone X», «айфон десять». И наоборот, названия разных товаров могут отличаться одной буквой: «Dell SeriesJ XN», «Dell SeriesK XN». Мы делим названия на части: артикул, производитель, модель, атрибуты. Приводим всё к нормальной форме: «айфон» → «iphone», «X» → «10», «десять» → «10». Процедура сравнения возвращает вес: 0 — разные товары, 1 — одинаковые.

Чистка кликстрима обработка анализ исследование

Заказчик занимает DPI (Deep Packet Inspection), видит весь HTTP-трафик интернет-провайдеров.

В потоке много мусора: рекламные пиксели, загрузка javascript и картинок. Наше решение выделяет содержательные события: загрузка страниц, переходы по ссылкам.

Заказчик использует чистый кликстрим для пользовательской аналитики: определение пола, возраста, интересов.

Блокировка страниц с экстремистским содержанием анализ коробочный продукт

Заказчик интернет-провайдер обслуживает московские школы.

Мы разработали технологию для классификации веб-страниц. Система анализирует текст, определяет категорию: экстремизм, порнография, наркотики, суицид. Решение работает быстро, использует байесовский классификатор на нграммах, руководствуется реестром ФСЭМ.

Сбор лидов для новостной CMS сбор обработка исследование

Заказчик медиа-холдинг упаковал в коробочный продукт свою внутреннюю систему для вёрстки и публикации новостей.

Мы собрали список потенциальных покупателей: 5000 компаний владельцев новостных сайтов в России и США. Для каждого сайта указана тематика (спорт, политика, финансы), оценка трафика, CMS, почта и телефоны руководителей СМИ. Данные собраны из открытых и закрытых источников: Quantcast, SimilarWeb, BuiltWith, профили в Twitter и LinkedIn.

Заказчик провёл персонализированную коммуникацию с руководителями СМИ.

Конкурентный анализ Tilda и ReadyMag сбор обработка анализ исследование

Заказчик запускает конструктор сайтов аналог Tilda и Readymag.

Из открытых источников через полупубличные интерфейсы мы собрали основные показатели конкурентов: число новых сайтов за 5 лет по месяцам, доход от пользователей на платных тарифах.

Заказчик установил KPI для менеджеров по числу пользователей и выручке.

Сбор лидов для WordPress-плагина сбор обработка исследование

Заказчик разрабатывает плагины и темя для WordPress.

Мы собрали список всех сайтов на WP в зонах .ru и .com. Через полупубличный интерфейс для каждого определили тему и набор плагинов, динамику числа постов за год.

Заказчик провёл персонализированную коммуникацию с владельцами сайтов.

Оптимальное размещение наружной рекламы анализ визуализация исследование

Заказчик авиаперевозчик проводит рекламную кампанию, покупает места на билбордах.

Мы проанализировали 1 000 000 поездок на такси из 3 аэропортов Москвы. Определили популярные направления. Заказчик оптимально разместил рекламные сообщения.

Таргетинг абитуриентов сбор обработка анализ исследование

Заказчик московский ВУЗ размещает рекламу в социальных сетях, рассказывает о себе абитуриентам.

Мы собрали список профилей выпускников московских школ, проанализировали их подписки, для каждого указали вес: 1 — предложение ВУЗа релевантно, 0 — вряд ли заинтересует.

Заказчик настроил таргетинг для рекламных кампаний.

Клиенты

Отзывы

Владислав Комиссаров, директор по развитию, Интерфакс: «Мы заказывали в лаборатории сбор и обработку данных. Своих рук на всё не хватает. Радует гибкий подход: о полях и формате выгрузки всегда можно договориться.»
Михаил Танский, руководитель Хантфлоу: «Понравилось, что работы были сделаны в срок, у нас не возникло проблем с интеграцией и решение сразу заработало с хорошим качеством.»
Екатерина Базилевская, руководитель Look At Media: «Мы делали в лаборатории кучу исследований: анализ рынка, конкурентный анализ, сбор контактов для HR и продаж. Удобно, что такие разные исследования можно получить в одном месте, а не собирать по кусочкам.»

Open source

Лаборатория разрабатывает и поддерживает проект Natasha — набор открытых Python-библиотек для обработки естественного русского языка. Качество инструментов сравнимо или выше, чем у других открытых решений.

Natasha

Объединяет инструменты проекта в одной библиотеке, решает базовые задачи: сегментация на токены и предложения, морфология, лемматизация, синтаксис, извлечение и нормализация именованных сущностей.

Razdel

Сегментация текста на токены и предложения.

Slovnet

Компактные deep learning модели: морфологический теггер, синтаксический парсер, NER.

Yargy-парсер

Наследние яндексового Томита-парсера. Извлекает структурированную информацию из текстов на русского языке.

Контакты

Пожалуйста, коротко опишите задачу и оставьте контакты. Мы свяжемся, обсудим варианты решения.

Заявка отправлена. В ближайшее время мы с вами свяжемся.
Не удалось отправить заявку.
Александр Кукушкин