29 апреля 2013, 19:55

Что такое Data Science

Будущее за компаниями и людьми, которые превращают информацию в продукт.

Костя Нагаев

Интернет полон так называемых «data-driven apps» (приложений, работающих с большими объемами информации). Рекламные приложения взаимодействуют с несколькими базами данных и предлагают какие-либо действия (например, обработка платежей по кредитным картам компаниями, банками и т. д.). Но сам процесс использования данных едва ли укладывается в то, что называется «data science». Ценность таких приложений заключается в том, что они увеличивают имеющийся объем информации — создают data product. И происходит это именно благодаря data science.

Одним из первых таких проектов в Сети была база данных CDDB (Compact disc database). Создатели CDDB поняли, что у каждого компакт-диска есть уникальный идентификатор, основанный на точной длине записи каждого трека на CD. Компания собрала информацию о длине треков и совместила ее с базой метаданных об альбомах (названия треков, исполнители, названия альбомов).

Эффективная реклама с кешбэком 100%

Таргетированная реклама, которая работает на тебя!

Размещай ее в различных каналах, находи свою аудиторию и получай кешбэк 100% за запуск рекламы.

Подключи сервис от МегаФона, чтобы привлекать еще больше клиентов.

Узнать больше >>

Реклама. ПАО «МегаФон». ИНН 7812014560. ОГРН 1027809169585. ERID: 2W5zFGNJXGC.

Если вы когда-либо копировали диск с помощью iTunes, то понимаете все достоинства этой системы. Сначала iTunes считывает длину каждого трека и сверяет ее с CDDB, а затем получает в ответ названия треков. Если же вашего диска нет в базе (включая те CD, которые вы записали сами), то вы можете создать описание для неизвестного альбома. Несмотря на то, что это звучит очень просто, технология революционна: CDDB видит музыку как информацию, а не как аудио. Это принципиально отличается от продажи/обмена музыки или анализа музыкальных взглядов (хотя это тоже подходит под определение data product). CDDB возникла благодаря тому, что проблему с музыкой рассмотрели как проблему с информацией.

Множество прорывов в работе с data product совершил Google. Вот несколько примеров:

Произошло понимание того, что поисковая машина способна работать не только с текстом на странице. Одним из первых инструментов, использующих данные вне страницы, стал PageRank — в частности, учитывалось количество ссылок на материал. Отслеживание упоминаний о странице сделало Google гораздо более полезным, а PageRank стал главным ингредиентом для успеха компании.
Проверка орфографии — предлагая поправки к ошибкам и наблюдая за тем, что пользователь делает после этого, Google сделали процесс более точным. Они создали словарь из часто используемых ошибок, правильных вариантов и контекста, в котором они происходят.
Распознавание речи всегда было трудной задачей, но в Google достигли огромных успехов. Создание базы данных из голосов сделало возможной интеграцию голосового поиска в поисковую систему.
Во время эпидемии свиного гриппа в 2009 году Google удалось отследить распространение вируса, основываясь на данных о поисковых запросах по теме.

Google заметил тенденции в распространении эпидемии свиного гриппа примерно за 2 недели до CDC (Центр контроля за заболеваниями) с помощью анализа поиска, проводимого людьми из разных частей страны.

Facebook, Amazon, Twitter, LinkedIN

Но это не единственная компания, которая умеет обращаться с данными. Социальные сети Facebook и Linkedln порой с пугающей точностью предлагают вам в друзья людей, либо знакомых вам, либо с которыми вам нужно завязать знакомство. Amazon сохраняет вашу историю поиска и соотносит то, что вы ищете, с тем, что ищут другие люди, создавая таким образом удивительно подходящие рекомендации. Эти рекомендации являются «data product». Связующая нить всех этих приложений — это то, что данные, полученные от пользователей, имеют особую ценность. Независимо от того, какие это данные — поисковые запросы, образцы голоса или отзывы о товарах — все это обратная связь, способствующая улучшению продукта.

Сейчас нам доступно огромное количество информации. Проблема же заключается не в ее поиске, а в том, что с ней делать. И дело тут не только в компаниях, оперирующих своими или пользовательскими данными. Все чаще используется мэшап из разных источников. Например, можно провести анализ ипотечных выплат в Филадельфии на основе публичного отчета шерифа, использования Yahoo! для конвертирования адресов в долготу и ширину с последующим размещением «штрафов» на карте. Затем сгруппируем их по районам, стоимости, доходам на душу населения и другим социально-экономическим факторам.

Сегодня перед каждой компанией, стартапом, некоммерческой организацией или проектом, желающим привлечь внимание, стоит вопрос — как эффективно использовать не только собственные данные, но и всю информацию, которая доступна. Отличает «data science» от простой статистики целостный подход. Любая информация после обработки может рассказать «свою историю».

Чтобы понять, какие навыки для осуществления этого требуются, рассмотрим цикл жизни данных: откуда они берутся, как используются и куда отправляются.

Поиск данных

Информация повсюду: ваше правительство, веб-сервер, деловые партнеры, даже ваше тело передают ее. Чтобы выяснить, как обстоят дела в издательском бизнесе, в компании O’Reilly совмещают данные Amazon, Nielsen BookScan и собственных продаж. Сайты вроде Infochimos и Factual дают доступ к огромному количеству информации, включая погоду, активность на MySpace и результаты спортивных соревнований. Factual привлекает пользователей к обновлению и улучшению набора данных, который включает в себя все: от эндокринологии до пешеходных тропинок.

Большая часть данных, с которыми мы работаем — прямое следствие Web 2.0 и Закона Мура, применительно к информации. Люди проводят все больше времени онлайн, оставляя информационный след вне зависимости от того, где они были. Мобильные приложения дают даже больше, т. к. многие из них включают в себя геолокацию, видео- или аудио-контент. POS-терминалы и дисконтные карты позволяют узнать все о ваших покупках, не только о тех, которые вы совершаете в сети.

Итак, как же использовать полученные данные? Первым шагом проекта по анализу информации будет доведение ее до состояния, в котором она будет пригодна: data feeds, микроформаты и другие новые технологии позволяют это сделать.

Для приведения данных в порядок может потребоваться «чистка» HTML чем-нибудь вроде Beautiful Soup, исправление орфографических ошибок и т. д. Вероятнее всего, придется иметь дело с огромным количеством источников, которые не будут одного формата. Было бы неплохо составить список необходимых инструментов, но это невозможно, т. к. для того, чтобы довести имеющуюся информацию до необходимого состояния, может потребоваться что угодно (от древних утилит для Unix до языков Perl и Python).

Работа с большими объемами данных

Мы все слышали о «больших» данных. Нефтяные, телекоммуникационные и другие индустрии всегда взаимодействовали с огромным количеством информации. В то же время емкость для хранения продолжает возрастать, а значит, можно с уверенностью сказать, что то, что сегодня называют «большим», завтра станет «средним», а на следующей неделе и вовсе «маленьким».

Самое правдивое определение, которое я слышал: «большие» данные — это когда их размер становится проблемой. Согласно Джеффу Хаммербахеру (@hackingdata), мы пытаемся построить информационные платформы или же информационное пространство, которое будет похоже на обычное хранилище данных. Но оно создастся скорее для понимания данных, чем для традиционных задач анализа и отчетности. Здесь будут все форматы, включая самые беспорядочные, а их изменения будут постоянно отслеживаться.

Большинство организаций, создавших информационные платформы, сочли необходимым выйти за рамки схожих по функциям баз данных, т. к. здесь эта модель неэффективна. Крайне важно заранее создать схему конфликтов между несколькими неструктурированными источниками данных, из которых невозможно вытянуть нужную информацию, не проанализировав ее всю.

Для эффективного хранения больших баз данных есть решение — так называемые NoSQL или Non-Relational databases, в основе которых лежит формирование группы из принципиально разных продуктов. Многие из этих баз данных являются преемниками Google’s BigTable и Amazon’s Dymano и сделаны в угоду гибкости связей, в отказ от абсолютного согласования. И пока на рынке около двух десятков подобных систем, некоторые уже зарекомендовали себя как лидеры:

Cassandra: система разработана в Facebook, использовалась в Twitter, Rackspace, Reddit и других крупных сайтах. «Кассандра» предназначена для высокой производительности, надежности и автоматических ответов. Коммерческая поддержка — Hadoop.
HBase: часть проекта Apache Hadoop, основанная на Google’s BigTable. Подходит для чрезвычайно огромных баз данных (милларды строк, миллионы столбцов), распространяемых через тысячи узлов. Коммерческая поддержка — Hadoop и Cloudera.

Хранение данных — это только часть создания информационной платформы. Данные полезны тогда, когда их можно использовать, а огромные массивы информации усложняют вычисления. Google популяризировал MapReduce, работающий по принципу «разделяй и властвуй» и созданный для отправки чрезвычайно больших проблем в большой вычислительный кластер. На стадии «map» поставленная задача делится на подзадачи, которые разделяются между процессорами; промежуточные результаты собираются вместе для одной цели. Оглядываясь назад, MapReduce видится самым очевидным решением главной проблемы Google — созданию широкого поиска. Его легко пропустить через тысячи процессоров, а затем собрать результаты в единую сеть ответов. Что не так очевидно — MapReduce зарекомендовал себя как сервис широко применимый в решении проблем, связанных с крупными объемами информации (от простого поиска до способных обучаться алгоритмов).

Машинное обучение (Machine learning — англ.) является важным инструментом для ученых, работающих в сфере «data science». Сейчас от мобильных приложений и выбора ожидают все большее использование рекомендаций и создание «рекомендационного движка».

Курс профессора Andrew Ng для студентов Стэнфорда — один из самых популярных в данной области

Диалог с информацией

Стоит изображение тысячи слов или нет, оно определенно стоит тысячи цифр. Основная проблема большинства алгоритмов анализа данных состоит в том, что они генерируют набор чисел. Чтобы понять их значение, и то, что они говорят, необходимо построить график. Визуализация — основа каждого этапа работы с данными. Мартин Уоттенберг, основатель Flowing Media, назвал этот процесс ключевым в подготовке информации.

Заставить данные рассказать свою историю — вопрос не только результата, в него включается установление связей и обращение к другим источникам информации для проверки. Распространяется ли успешная розничная сеть подобно эпидемии, и если да, то ? Несколько лет назад мы не задавались этим вопросом -- не хватало вычислительных мощностей и все данные были заперты внутри своих источников. Сегодня же мы задаем этот вопрос каждый день.

Ученые в сфере данных

Data science требует знаний в совершенно разных областях — от информатики и математики до создания красивого арта. Описывая умения, необходимые для данной сферы, Джефф Хаммербахер сказал:

в любой момент члену команды могло понадобиться создать многоуровневую систему на Python, разработать дизайн, запустить анализ образцов, работать с Hadoop или же с тем, что уже сделали остальные сотрудники в нашей организации...

Где найти таких универсальных сотрудников? DJ Patil, представитель Linkedln, считает, что наиболее подходящие люди занимаются скорее физикой, чем информатикой. У физиков очень хорошая математическая подготовка и вычислительные способности, для них перепрофилироваться легко, так как они привыкли вытаскивать из данных все, что им необходимо. Физики держат в голове общую картину ситуации и думают о глобальных проблемах, а не о частных. Когда вы потратите деньги из гранта на сбор информации, вы не сможете просто выкинуть ее, вам придется вести с ней разговор. И тут понадобится креативность, ведь данные не всегда говорят то, что вам кажется, они хотят сказать. Пригодятся люди, которые могут разбить большие задачи на мелкие части.

Пэтил рассказал, как они в Linkedln решали проблему с сервисом рекомендаций. Этот процесс легко мог потребовать множества времени, вычислительных мощностей и сотрудников, но получилось проще. Началось все с маленькой и простой программы, просматривающей профили и создающей основанные на анализе рекомендации. Например, программа спрашивала, в каком ВУЗе учился пользователь, и объединяла его в группу с другими выпускниками. Со временем база данных стала обрастать все новой и новой информацией, но обрабатывалась она не вся сразу — сначала одни элементы, затем другие.

CDDB — отличный пример того, как это работает. Идентифицировать музыку по потоку аудио — довольно сложная задача (хотя и разрешимая), но в данном случае команда нашла более креативный выход, который принес результат при меньших затратах. Подсчитать длину каждого трека и сверить эту информацию с базой данных проще (фактически, сформировался data product).

Пэтил отмечает, что еще не знает, что из себя должны представлять продукты, созданные из информации, но уверен, что будущее именно за ними и за теми компаниями, которые смогут их создать.

Google, Amazon, Facebook, LinkedIn — все эти гиганты смогли разобраться со своим потоком данных, заставили его работать на и благодаря этому вышли вперед. Следующая волна успешных бизнес-проектов будет скорее всего связана с использованием информации. Навыки по сбору, обработке и анализу уже становятся чрезвычайно важными.

Источник: An O’Reilly Radar Report

Источник картинки на тизере: KDnuggets