Исследование | Коробочный продукт | Сервис |
---|---|---|
Результат — отчёт, таблицы, графики, доклад | Программа, работающая в дата-центре заказчика | Решение, работающее у нас в дата-центре. Заказчик использует API. |
Разовая оплата | Разовая оплата | Подписка |
Рекрутинговое агентство получает сотни pdf-документов с резюме в день. HR-специалисты переносят контакты, опыт работы в Excel-таблицы.
Мы разработали инструмент, который принимает на вход текст резюме, извлекает фото, имя кандидата, телефон, почту, должность на прошлом месте работы, желаемую зарплату.
Решение экономит 30 минут рабочего времени HR-специалиста в день.
Заказчик занимается скорингом юридических лиц в России.
Для каждого сайта в зонах .ru и .рф мы находим раздел с контактами и извлекаем ИНН, ОГРН, банковские реквизиты, фактический адрес, телефон, почту, имя директора. Раз в месяц заказчик получает выгрузку 1 000 000 записей.
Телефон и адрес с сайта компании актуальнее, чем в выписке из ЕГРЮЛ.
Суды публикуют решения по уголовным и гражданским делам у себя на сайтах. В России 2300 судов, у каждого свой сайт.
Мы собираем карточки поступивших дел, следим за изменениям, сохраняем текст приговора. Ежедневно заказчик получает выгрузку 100 000 дел с обновлениями, организует поиск по текстам документов.
Заказчик автоматизирует работу с сайтами ФНС и ГАС «Правосудие». Запросы к поиску требуют ввода капчи.
Наш сервис принимает картину с капчей, возвращает текст с кодом. Решение построено на свёрточных нейронных сетях, точность распознавания 95%.
Государственные музеи вносят информацию о своих фондах в общую базу предметов искусства.
В базе 6 000 000 предметов. Стандартного формата для записей нет. Из описания на естественном русском языке мы извлекаем период создания и габариты объекта: «вторая треть xvii в.» → [1630, 1660), «рамка: 10,5х16 см» → [105, 160]. Заказчик использует новые атрибуты для поиска по базе.
При подготовке к судебному заседанию юристы знакомятся с практикой по релевантным делам.
С 2010 года в картотеке Право.ру накопилось 5 000 000 решений по арбитражным делам. Наш инструмент принимает текст документа, извлекает имя судьи, реквизиты сторон, исковые требования, ссылки на нормативные акты, вердикт по делу.
Заказчик организует поиск по отдельным полям, делает подборки практики по судьям, статьям, компаниям-участникам.
Банк собирает информацию о транзакциях: id-клиента, время, сумму, MCC-код. По истории транзакций мы строим портрет клиента: автовладелец, путешественник, есть дети. Банк делает персонализированные предложения по кредитам и вкладам.
Заказчик делает маркетплейс аналог Яндекс.Маркета.
Магазины присылают прайс-листы — список названий товаров и цены. Наше решение объединяет предложения в карточки. Один и тот же товар может называться по-разному: «iPhone X», «айфон десять». И наоборот, названия разных товаров могут отличаться одной буквой: «Dell SeriesJ XN», «Dell SeriesK XN». Мы делим названия на части: артикул, производитель, модель, атрибуты. Приводим всё к нормальной форме: «айфон» → «iphone», «X» → «10», «десять» → «10». Процедура сравнения возвращает вес: 0 — разные товары, 1 — одинаковые.
Заказчик занимает DPI (Deep Packet Inspection), видит весь HTTP-трафик интернет-провайдеров.
В потоке много мусора: рекламные пиксели, загрузка javascript и картинок. Наше решение выделяет содержательные события: загрузка страниц, переходы по ссылкам.
Заказчик использует чистый кликстрим для пользовательской аналитики: определение пола, возраста, интересов.
Заказчик интернет-провайдер обслуживает московские школы.
Мы разработали технологию для классификации веб-страниц. Система анализирует текст, определяет категорию: экстремизм, порнография, наркотики, суицид. Решение работает быстро, использует байесовский классификатор на нграммах, руководствуется реестром ФСЭМ.
Заказчик медиа-холдинг упаковал в коробочный продукт свою внутреннюю систему для вёрстки и публикации новостей.
Мы собрали список потенциальных покупателей: 5000 компаний владельцев новостных сайтов в России и США. Для каждого сайта указана тематика (спорт, политика, финансы), оценка трафика, CMS, почта и телефоны руководителей СМИ. Данные собраны из открытых и закрытых источников: Quantcast, SimilarWeb, BuiltWith, профили в Twitter и LinkedIn.
Заказчик провёл персонализированную коммуникацию с руководителями СМИ.
Заказчик запускает конструктор сайтов аналог Tilda и Readymag.
Из открытых источников через полупубличные интерфейсы мы собрали основные показатели конкурентов: число новых сайтов за 5 лет по месяцам, доход от пользователей на платных тарифах.
Заказчик установил KPI для менеджеров по числу пользователей и выручке.
Заказчик разрабатывает плагины и темы для WordPress.
Мы собрали список всех сайтов на WP в зонах .ru и .com. Через полупубличный интерфейс для каждого определили тему и набор плагинов, динамику числа постов за год.
Заказчик провёл персонализированную коммуникацию с владельцами сайтов.
Заказчик авиаперевозчик проводит рекламную кампанию, покупает места на билбордах.
Мы проанализировали 1 000 000 поездок на такси из 3 аэропортов Москвы. Определили популярные направления. Заказчик оптимально разместил рекламные сообщения.
Заказчик московский ВУЗ размещает рекламу в социальных сетях, рассказывает о себе абитуриентам.
Мы собрали список профилей выпускников московских школ, проанализировали их подписки, для каждого указали вес: 1 — предложение ВУЗа релевантно, 0 — вряд ли заинтересует.
Заказчик настроил таргетинг для рекламных кампаний.
Лаборатория разрабатывает и поддерживает проект Natasha — набор открытых Python-библиотек для обработки естественного русского языка. Качество инструментов сравнимо или выше, чем у других открытых решений.
Объединяет инструменты проекта в одной библиотеке, решает базовые задачи: сегментация на токены и предложения, морфология, лемматизация, синтаксис, извлечение и нормализация именованных сущностей.
Сегментация текста на токены и предложения.
Компактные deep learning модели: морфологический теггер, синтаксический парсер, NER.
Наследие яндексового Томита-парсера. Извлекает структурированную информацию из текстов на русского языке.
Пожалуйста, коротко опишите задачу и оставьте контакты. Мы свяжемся, обсудим варианты решения.
Социальные сети
Собираем данные из ВКонтакте, Twitter, Instagram и LinkedIn. Используем API для разработчиков и полупубличные интерфейсы.