Термин «Большие данные», или по-английски «Big Data», сегодня на слуху. С ним связывают будущее таких отраслей, как медицина, градостроительство, промышленность, транспорт, медиа, маркетинг и многих других. Однако далеко не всегда понятно, что под ним подразумевают. Какой объем данных необходим, чтобы называть их «Большими»? Чем они хороши и где подводные камни? Ответить на эти вопросы согласился Антон Лебедев, операционный директор компании DCA (Data-Centric Alliance), специализирующейся на анализе и обработке «Больших Данных» в медиа.
Сейчас очень много говорят о «Больших Данных». Что это такое?
Начать разговор нужно с того, что в последние 5-10 лет количество информации, накопленной в мире относительно различных сфер нашей жизнедеятельности, значительно выросло. По некоторым оценкам, в этот промежуток времени было создано более 90% всех данных на планете. Это информация о пользователях Интернета, которую они выкладывают сами через социальные сети и другие сервисы, соглашаясь на её обработку, данные сотовых операторов и GPS, информация различных датчиков с автомобилей, самолётов, станков на заводах, нефтяных вышках и т.д. Постепенно оцифровывая все сферы своей жизни, человек только начинает осознавать, что в этих «цифровых следах» кроется нечто ценное: понимание, как устроена наша жизнь, если можно так сказать, с высоты птичьего полета. Очевидно, что, найдя правильные пути обработки огромных массивов информации, можно с высокой вероятностью предсказывать то или иное событие и корректировать свою деятельность, чтобы добиваться максимального результата везде – от рекламных кампаний, продающих только то, что нужно конкретному пользователю, до предикторов городского трафика или природных катаклизмов. Иными словами, Big Data – это массивы информации, способы их обработки и сферы применения.
Когда возник термин «Больших Данные» и появилась потребность в обработке такого рода данных?
Существовавшие в прошлом способы обработки информации – базы данных – требуют жесткой структуры. Представьте себе таблицу, в которую нужно внести ФИО, адрес, телефон, день рождения и несколько последних покупок каждого вашего клиента. Ни больше, ни меньше. Это традиционная CRM-система («Customer Relationship Management» в переводе с англ. – «система управления взаимоотношениями с клиентами»), которую используют торговые сети и операторы связи для улучшения качества обслуживания. Но куда тогда девать «чекины» в магазинах, «селфи» и обновления статусов, историю поиска и посещений сайтов, покупательскую активность в течение года, историю передвижения и многое другое? Эта информация обезличена и крайне разнородна – в таблицу такое не занесешь. Этот пример иллюстрирует основное отличие «больших» данных от «малых» – невозможность их структурировать существующими способами. Как только это стало понятно, тогда и заговорили о «Big Data» – 3-5 лет назад.
Вы сказали, что в «малых данных» информация структурирована. В «Больших Данных», получается, информация не структурирована?
Работа с данными – это максимальное их дробление и последующий анализ. Сначала раскладываем всё, что есть, по ячейкам, а потом смотрим, в каких ячейках лежит то, что нужно. Однако большие массивы информации, например, о пользователях Сети, так не обработаешь. Анализ «Big Data» похож на ловлю рыбы сетями: нужен лосось – плывёшь в Норвегию, используешь правильную сеть, опытных рыбаков и вуаля – полная лодка рыбы. При этом не важно, что ещё плавало в море: чтобы поймать лосося, мы не перебирали всех рыб, а использовали оптимальный инструмент для ловли именно этого вида.
Примерно так же и с анализом: есть понимание, что владельцы котят с большей вероятностью купят для них корм. Наша задача – найти этих пользователей в Рунете и показать им рекламный баннер с кормом для котят. Для этого среди 650 000 000 браузеров в России, данные которых у нас есть, мы ищем тех, кто нам напоминает владельца котенка (например, пользователь делал соответствующий запрос в поиске или читает о том, как ухаживать за котятами и так далее). Пользователи собираются в аудиторный сегмент и потом становятся аудиторией рекламной кампании.
Как управляться с таким большим объёмом данных? Вы можете рассказать о технологиях?
Если не углубляться в технические детали, то эти данные складируются в виде логов (файлов, содержащих системную информацию работы сервера, в которых протоколируются все действия пользователя на сайте – прим. автора), раз в определённый промежуток времени обрабатываются с помощью мощного компьютера и структурируются по каким-то «первичным» категориям. Затем они используются в той области знаний, в которой необходимо. При этом многие процессы параллельны – для экономии времени. Среди прочих технологий для обработки больших массивов цифровой информации используются «NoSQL», «Hadoop», «MapReduce».
Какие науки являются подспорьем? Ведь обработкой «Больших Данных» занимаются математики и программисты?
Верно. Ведущие вузы за границей и в России уже запустили программы подготовки так называемых Data Scientists – учёных в области обработки данных. В ближайшие годы они станут самыми востребованными специалистами в IT. Специальность основана на стыке нескольких дисциплин: программирования, анализа, статистики и математики.
То есть, Вы считаете, что направление «Data Science» довольно перспективно?
Да, я в этом уверен.
В каких ещё областях знаний используются технологии «Больших Данных»?
Любая оцифрованная сфера нашей деятельности выиграет, если начнёт активно внедрять технологии «Больших Данных»: банки смогут предсказывать надёжность заёмщика и снижать риски по кредитному портфелю, транспортные компании улучшат логистику и сэкономят на топливе/обслуживании, рекламодатели сократят издержки на маркетинг, медики смогут точнее и раньше предсказывать риск заболевания и начинать лечение раньше.
Сталкиваетесь ли Вы с проблемой нехватки памяти для хранения данных? Будет ли необходимо увеличение вычислительных мощностей?
Безусловно, данные нужно где-то хранить. Объём серверной памяти, который нам требуется, растёт, но это решаемая проблема. С ростом объёма нужны и более мощные инструменты обработки. Но вместе с тем растёт и спрос на наши услуги и решения, поэтому пока вопрос решается расширением парка серверов.
Насколько дорого внедрение технологий для обработки «Больших Данных» в сравнении с традиционными данными?
Эти понятия не стоит сравнивать – общее в них только слово «данные». Индустрия «Big Data» сравнительно молода, нет сложившегося продуктового предложения, да и потребности у разных клиентов различны. Таким образом, цена внедрения определяется всегда индивидуально – по итогам тестового периода. В «DCA», например, работает подход «adaptive data pricing», при котором сначала мы с клиентом тестируем технологию, клиент оценивает, сколько денег она ему экономит, какую прибыль приносит, и после этого мы договариваемся о цене.
Теряем ли мы в точности, когда обрабатываем «Большие Данные»?
Точность в данном случае определяется пользой, которую получил бизнес от наших знаний. В случае с «DCA» стоит говорить об анонимных аудиторных данных. Мы не знаем имён, адресов и телефонов пользователей, но мы знаем их интересы, предпочтения и намерения. Мы можем предсказать с какой вероятностью пользователь купит автомобиль, квартиру или путевку на курорт. Этими знаниями мы и делимся с автодилерами, девелоперами, туроператорами и многими другими.
Чем занимается «Data-Centric Alliance»?
«DCA» располагает крупнейшим в стране массивом обезличенных аудиторных данных: по нашим оценкам, это примерно 65 млн пользователей – 90% Рунета. Мы обрабатываем эту базу, выделяем характерные для разных групп людей характеристики и объединяем похожие в сегменты, которые потом покупают рекламодатели, финансовые институты, ритейл и другие компании.
А что с анонимностью данных?
Для нас анонимность информации очень важна, поэтому информация предоставляется исключительно в обобщённом или анонимном виде. «DCA» – единственная в России компания, безопасность работы с данными в которой подтверждена международным сертификатом «eTrust Privacy Certificate».
Какие перспективы откроют для нас «Большие Данные»?
«Big Data» уже сегодня позволяет принимать более правильные решения: от выдачи кредита в банке до определения места строительства транспортной развязки или поставки продовольствия в большой город. Иными словами, «Большие данные» смогут ответить на многие вопросы о том, как устроена наша жизнь.
Большое спасибо за то, что уделили нам время! Желаем успехов Вам в дальнейшей работе с «Big Data», а также искренне верим в то, что наши читатели заинтересуются данной проблемой и, благодаря этому интервью, больше узнают о колоссальном значении данных в современном, динамично развивающемся мире.
Автор: Надежда Лебедева