Лаборатория анализа данных Кукушкина Александра

Лаборатория решает задачи анализа данных на заказ. Выделяются четыре типа услуг: сбор данных, обработка, анализ и визуализация. Заказчик редко приходит с готовыми данными, поэтому в лаборатории накоплен опыт по сбору и обработке информации из открытых источников. Результат анализа — код и отчёт. Отчёт состоит из текста и иллюстраций. Чтобы иллюстрации получались понятные и красивые, набили руку в визуализации.

Сбор данных

Иногда данных, накопленных бизнесом, нет или их недостаточно для решения задачи. В таких случаях мы обращаемся к открытым источникам и платным базам данных.

Социальные сети

Мы собираем данные из ВКонтакте и более сложных для обработки сетей: Twitter, Instagram и LinkedIn.

Интернет

Лабораторный кластер скачивает 106 страниц в час и обрабатывает сложные ситуации: капчи, блокировки.

Государственные данные

В России немало государственных данных открыто: закупки, результаты выборов, данные о внешней торговле. Мы следим за такими источниками и разбираемся в их содержании.

Закрытые базы данных

Существует масса платных баз данных: Similarweb, Builtwith. Если заказчик согласен, мы их используем.
Владислав Комиссаров, директор по развитию, Интерфакс:
«Мы заказывали в лаборатории сбор и обработку данных. Своих рук на всё не хватает. Радует гибкий подход: о полях и формате выгрузки всегда можно договориться.»

Обработка данных

Извлечение фактов из текста

Из произвольного текста на английском или русском языке мы умеем извлекать имена, адреса, даты и названия компаний.

Нормализация данных

Для объединения разных источников, мы приводим их к нормальной форме.
Выражаем благодарность Анисимовой Вере Николаевне, воспитательнице ДО «Солнышко»...
Михаил Танский, руководитель Хантфлоу:
«В Хантфлоу из резюме автоматически извлекается фотография кандидата, его имя, возраст, опыт и желаемая должность. Понравилось, что работы были сделаны в срок, у нас не возникло проблем с интеграцией и распознавание сразу заработало с хорошим качеством.»

Ручная разметка

Иногда обработать данные автоматически не получается. Тогда мы максимально оптимизируем процесс разметки и собираем данные вручную.

OCR

Иногда нужно работать с текстом на изображениях. Когда Finereader и Tesseract не справляются, разрабатываются специальные решения.
m11m21 m31m41m51
s3682 685870l
m3786 725971
l3890 766072
xl3994 806173
xl4098 846274

Анализ

— творческий процесс. Выделяются приёмы, которые встречаются чаще остальных:

Описательный анализ

Когда данные собраны и обработаны, первым делом, мы разбираемся, как они устроены. Строим графики, придумываем и проверяем гипотезы. Из публичного: «анализ резюме», «анализ ЕГЭ», «исследование думских выборов», «исследование ДТП».

Классификация сайтов

Для задачи анализа рынка мы выделяем сайты заданной тематики: новостные сайты, интернет магазины. Для этого используем граф похожих сайтов и и полуавтоматический классификатор сайтов.

Классификация текстов

Для систем родительского контроля мы определяем содержание страниц: порно, наркотики, суицид.

Классификация изображений

Чтобы выделить аккаунты организаций в социальных сетях, мы ищем лица на аватарках. Если лица нет, значит организация.
Екатерина Базилевская, руководитель, Look At Media
«Мы делали в лаборатории кучу исследований: анализ рынка, конкурентный анализ, сбор контактов для HR и продаж. Удобно, что такие разные исследования можно получить в одном месте, а не собирать по кусочкам.»

Визуализация

Чтобы донести результат анализа до заказчика, в отчёте нужны иллюстрации.

Графики

В 80% случаев обычные графики справляются с задачей.

Интерактивные визуализации

При необходимости мы делаем сложные визуализации на D3.js.

Графы

При анализе социальных сетей результат исследования удобно показать в виде графа.

Карты

Когда в данных есть координаты, адреса домов, названия областей, мы наносим их на карту.
Лаборатория работает с крупными и маленькими компаниями, сотрудничает с государством в области открытых данных.
Мы делимся своими наработками: описываем технологии, рассказываем об источниках открытых данных.
  1. Структура внешней торговли Российской Федерации 2016-12-11

    Импорт и экспорт России в динамике за 2013-2016 годы. В разрезе товарных групп и стран-партнёров.

  2. Исследование ДТП на территории России 2016-10-23

    Когда, где и с кем происходят аварии на дорогах страны.

  3. Поиск тематических аккаунтов в Инстаграме 2016-10-01

    Что делать, когда нужно найти все аккаунты, например, про вязание или мыловарение.

  4. Московские школы 2016-05-14

    Помощь в выборе школ для московских родителей. В ходе работы над проектом были собраны данные по ЕГЭ, вузам, кружкам и масса другой информации.

  5. 1 000 000 жилых домов России 2016-03-22

    Как строилось жильё в России: число этажей, архитектура, энергоэффективность жилых домов.

  6. Первый кандидат 2016-03-13

    Поддержка в ведении избирательных кампаний в Российской Федерации. Проект основан на исследовании результатов выборов в Госдуму 2011 года.

  7. OCR на коленке 2016-02-15

    Когда FineReader и Tesseract не подходят.

  8. Средние зарплаты в резюме 2015-12-11

    Рациональный выбор зарплат для резюме и вакансий. Узнали много интересного о рынке труда в России.

  9. Поиск потенциальных фолловеров 2015-11-29

    Помогает проводить грамотные рекламные кампании в Твитере и наращивать аудиторию.

  10. Поиск по слепку интернета 2015-10-02

    Для случаев, когда обычные поисковики не справляются. Инструкция по работе с архивом Common Crawl.

  11. Список предельных цен на жизненно необходимые лекарства 2015-09-01

    Максимальные цены на ЖНВЛП в московских аптеках. Процесс составления списка представляет отдельный интерес.

  12. Граф связанных пабликов 2015-07-15

    Нужен для поиска конкурентов в социальных сетях.

  13. Анализ звонков в колл-центры 2015-07-01

    Решение на основе SpeechKit для оценки качества работы колл-центров.

Схема сотрудничества устроена так: мы обсуждаем задачу в общих чертах, заключаем NDA, вникаем в задачу глубже, составляем план и назначаем срок, если всё устраивает, заключаем договор и начинаем работу. Длительность итерации не превышает двух недель. Стоимость работ зависит от срока. Звоните, пишите: +7 916 366-80-39, alex@alexkuk.ru.