Лаборатория анализа данных Александра Кукушкина

Исследование	Коробочный продукт	Сервис
Результат — отчёт, таблицы, графики, доклад	Программа, работающая в дата-центре заказчика	Решение, работающее у нас в дата-центре. Заказчик использует API.
Разовая оплата	Разовая оплата	Подписка
Оптимальное размещение наружной рекламы Конкурентный анализ Tilda и ReadyMag	Поиск по базе предметов искусства Метчинг названий товаров	Сбор дел СОЮ Извлечение контактов с сайтов компаний

Примеры работ

Извлечение информации из текстов резюме обработка сервис

Рекрутинговое агентство получает сотни pdf-документов с резюме в день. HR-специалисты переносят контакты, опыт работы в Excel-таблицы.

Мы разработали инструмент, который принимает на вход текст резюме, извлекает фото, имя кандидата, телефон, почту, должность на прошлом месте работы, желаемую зарплату.

Решение экономит 30 минут рабочего времени HR-специалиста в день.

Извлечение контактов с сайтов компаний сбор обработка сервис

Заказчик занимается скорингом юридических лиц в России.

Для каждого сайта в зонах .ru и .рф мы находим раздел с контактами и извлекаем ИНН, ОГРН, банковские реквизиты, фактический адрес, телефон, почту, имя директора. Раз в месяц заказчик получает выгрузку 1 000 000 записей.

Телефон и адрес с сайта компании актуальнее, чем в выписке из ЕГРЮЛ.

Сбор карточек дел с сайтов судов общей юрисдикции сбор обработка сервис

Суды публикуют решения по уголовным и гражданским делам у себя на сайтах. В России 2300 судов, у каждого свой сайт.

Мы собираем карточки поступивших дел, следим за изменениям, сохраняем текст приговора. Ежедневно заказчик получает выгрузку 100 000 дел с обновлениями, организует поиск по текстам документов.

Разбор капчи анализ сервис

Заказчик автоматизирует работу с сайтами ФНС и ГАС «Правосудие». Запросы к поиску требуют ввода капчи.

Наш сервис принимает картину с капчей, возвращает текст с кодом. Решение построено на свёрточных нейронных сетях, точность распознавания 95%.

Поиск по базе предметов искусства обработка коробочный продукт

Государственные музеи вносят информацию о своих фондах в общую базу предметов искусства.

В базе 6 000 000 предметов. Стандартного формата для записей нет. Из описания на естественном русском языке мы извлекаем период создания и габариты объекта: «вторая треть xvii в.» → [1630, 1660), «рамка: 10,5х16 см» → [105, 160]. Заказчик использует новые атрибуты для поиска по базе.

Извлечение информации из текстов арбитражных дел обработка сервис

При подготовке к судебному заседанию юристы знакомятся с практикой по релевантным делам.

С 2010 года в картотеке Право.ру накопилось 5 000 000 решений по арбитражным делам. Наш инструмент принимает текст документа, извлекает имя судьи, реквизиты сторон, исковые требования, ссылки на нормативные акты, вердикт по делу.

Заказчик организует поиск по отдельным полям, делает подборки практики по судьям, статьям, компаниям-участникам.

Портреты клиентов банка анализ исследование

Банк собирает информацию о транзакциях: id-клиента, время, сумму, MCC-код. По истории транзакций мы строим портрет клиента: автовладелец, путешественник, есть дети. Банк делает персонализированные предложения по кредитам и вкладам.

Метчинг названий товаров обработка анализ коробочный продукт

Заказчик делает маркетплейс аналог Яндекс.Маркета.

Магазины присылают прайс-листы — список названий товаров и цены. Наше решение объединяет предложения в карточки. Один и тот же товар может называться по-разному: «iPhone X», «айфон десять». И наоборот, названия разных товаров могут отличаться одной буквой: «Dell SeriesJ XN», «Dell SeriesK XN». Мы делим названия на части: артикул, производитель, модель, атрибуты. Приводим всё к нормальной форме: «айфон» → «iphone», «X» → «10», «десять» → «10». Процедура сравнения возвращает вес: 0 — разные товары, 1 — одинаковые.

Чистка кликстрима обработка анализ исследование

Заказчик занимает DPI (Deep Packet Inspection), видит весь HTTP-трафик интернет-провайдеров.

В потоке много мусора: рекламные пиксели, загрузка javascript и картинок. Наше решение выделяет содержательные события: загрузка страниц, переходы по ссылкам.

Заказчик использует чистый кликстрим для пользовательской аналитики: определение пола, возраста, интересов.

Блокировка страниц с экстремистским содержанием анализ коробочный продукт

Заказчик интернет-провайдер обслуживает московские школы.

Мы разработали технологию для классификации веб-страниц. Система анализирует текст, определяет категорию: экстремизм, порнография, наркотики, суицид. Решение работает быстро, использует байесовский классификатор на нграммах, руководствуется реестром ФСЭМ.

Сбор лидов для новостной CMS сбор обработка исследование

Заказчик медиа-холдинг упаковал в коробочный продукт свою внутреннюю систему для вёрстки и публикации новостей.

Мы собрали список потенциальных покупателей: 5000 компаний владельцев новостных сайтов в России и США. Для каждого сайта указана тематика (спорт, политика, финансы), оценка трафика, CMS, почта и телефоны руководителей СМИ. Данные собраны из открытых и закрытых источников: Quantcast, SimilarWeb, BuiltWith, профили в Twitter и LinkedIn.

Заказчик провёл персонализированную коммуникацию с руководителями СМИ.

Конкурентный анализ Tilda и ReadyMag сбор обработка анализ исследование

Заказчик запускает конструктор сайтов аналог Tilda и Readymag.

Из открытых источников через полупубличные интерфейсы мы собрали основные показатели конкурентов: число новых сайтов за 5 лет по месяцам, доход от пользователей на платных тарифах.

Заказчик установил KPI для менеджеров по числу пользователей и выручке.

Сбор лидов для WordPress-плагина сбор обработка исследование

Заказчик разрабатывает плагины и темы для WordPress.

Мы собрали список всех сайтов на WP в зонах .ru и .com. Через полупубличный интерфейс для каждого определили тему и набор плагинов, динамику числа постов за год.

Заказчик провёл персонализированную коммуникацию с владельцами сайтов.

Оптимальное размещение наружной рекламы анализ визуализация исследование

Заказчик авиаперевозчик проводит рекламную кампанию, покупает места на билбордах.

Мы проанализировали 1 000 000 поездок на такси из 3 аэропортов Москвы. Определили популярные направления. Заказчик оптимально разместил рекламные сообщения.

Таргетинг абитуриентов сбор обработка анализ исследование

Заказчик московский ВУЗ размещает рекламу в социальных сетях, рассказывает о себе абитуриентам.

Мы собрали список профилей выпускников московских школ, проанализировали их подписки, для каждого указали вес: 1 — предложение ВУЗа релевантно, 0 — вряд ли заинтересует.

Заказчик настроил таргетинг для рекламных кампаний.

Клиенты

Отзывы

Владислав Комиссаров, директор по развитию, Интерфакс: «Мы заказывали в лаборатории сбор и обработку данных. Своих рук на всё не хватает. Радует гибкий подход: о полях и формате выгрузки всегда можно договориться.»

Михаил Танский, руководитель Хантфлоу: «Понравилось, что работы были сделаны в срок, у нас не возникло проблем с интеграцией и решение сразу заработало с хорошим качеством.»

Екатерина Базилевская, руководитель Look At Media: «Мы делали в лаборатории кучу исследований: анализ рынка, конкурентный анализ, сбор контактов для HR и продаж. Удобно, что такие разные исследования можно получить в одном месте, а не собирать по кусочкам.»

Open source

Лаборатория разрабатывает и поддерживает проект Natasha — набор открытых Python-библиотек для обработки естественного русского языка. Качество инструментов сравнимо или выше, чем у других открытых решений.

Контакты

Пожалуйста, коротко опишите задачу и оставьте контакты. Мы свяжемся, обсудим варианты решения.

Лаборатория анализа данных Александра Кукушкина

Сбор данных

Государственные данные

Интернет

Закрытые базы данных

Обработка данных

Извлечение фактов из текста

Нормализация

Анализ

Описательный анализ

Deep learning

Классическое машинное обучение

Визуализация

Примеры работ

Извлечение информации из текстов резюме обработка сервис

Извлечение контактов с сайтов компаний сбор обработка сервис

Сбор карточек дел с сайтов судов общей юрисдикции сбор обработка сервис

Разбор капчи анализ сервис

Поиск по базе предметов искусства обработка коробочный продукт

Извлечение информации из текстов арбитражных дел обработка сервис

Портреты клиентов банка анализ исследование

Метчинг названий товаров обработка анализ коробочный продукт

Чистка кликстрима обработка анализ исследование

Блокировка страниц с экстремистским содержанием анализ коробочный продукт

Сбор лидов для новостной CMS сбор обработка исследование

Конкурентный анализ Tilda и ReadyMag сбор обработка анализ исследование

Сбор лидов для WordPress-плагина сбор обработка исследование

Оптимальное размещение наружной рекламы анализ визуализация исследование

Таргетинг абитуриентов сбор обработка анализ исследование

Клиенты

Отзывы

Open source

Natasha

Razdel

Slovnet

Navec

Yargy-парсер

Контакты

Лаборатория анализа данных Александра Кукушкина

Сбор данных

Социальные сети

Государственные данные

Интернет

Закрытые базы данных

Обработка данных

Извлечение фактов из текста

Нормализация

Анализ

Описательный анализ

Deep learning

Классическое машинное обучение

Визуализация

Примеры работ

Извлечение информации из текстов резюме обработка сервис

Извлечение контактов с сайтов компаний сбор обработка сервис

Сбор карточек дел с сайтов судов общей юрисдикции сбор обработка сервис

Разбор капчи анализ сервис

Поиск по базе предметов искусства обработка коробочный продукт

Извлечение информации из текстов арбитражных дел обработка сервис

Портреты клиентов банка анализ исследование

Метчинг названий товаров обработка анализ коробочный продукт

Чистка кликстрима обработка анализ исследование

Блокировка страниц с экстремистским содержанием анализ коробочный продукт

Сбор лидов для новостной CMS сбор обработка исследование

Конкурентный анализ Tilda и ReadyMag сбор обработка анализ исследование

Сбор лидов для WordPress-плагина сбор обработка исследование

Оптимальное размещение наружной рекламы анализ визуализация исследование

Таргетинг абитуриентов сбор обработка анализ исследование

Клиенты

Отзывы

Open source

Natasha

Razdel

Slovnet

Navec

Yargy-парсер

Контакты