Словосочетание Big Data повторило судьбу слова «инновации»: его употребляют как к месту, так и вовсе невпопад, но мало кто действительно понимает, что оно означает. На деле большие данные — то, с чем каждый из нас имеет дело почти каждый день.
Что это такое и как применяется, рассказывает Сергей Ширкин, декан факультетов Аналитики Big Data и Искусственного интеллекта GeekUniversity, образовательного портала GeekBrains.
Ваши данные собирают, но это не должно пугать
Когда мы говорим о Big Data, мы имеем в виду не просто большой объём информации, хотя и это тоже верно. Речь в первую очередь идёт о неструктурированных данных. Это огромный и хаотичный поток информации из разных источников, и, соответственно, возникает проблема с её обработкой и упорядочиванием. Когда упоминают большие данные, имеют в виду различные подходы и методы работы с ними.
Основной источник больших данных сейчас — компании, которые накапливают большое количество информации.
Во-первых, это финансовый сектор, в котором проходит очень много транзакций.
Во-вторых, ретейл. Когда люди делают покупки, участвуют в акциях, пользуются скидками, это даёт большой массив данных.
В-третьих, это диджитал-маркетинг. Чтобы грамотно настраивать таргетированную рекламу, организации собирают данные о том, чем человек интересуется, как ведёт себя в интернете, на какие сайты заходит.
В-четвёртых, это сотовые операторы.
На первый взгляд, то, что так много компаний собирают информацию о вас, выглядит пугающе. Но чаще всего информация о клиенте передаётся обезличенной. Организации не очень интересуются вашими персональными данными.
Речь скорее идёт об ID, который присваивается некой личности в интернете. И это порождает одну из важных проблем больших данных: как из совокупности этих ID вычленить принадлежащие одному человеку.
На первый взгляд, то, что так много компаний собирают информацию о вас, выглядит пугающе. Но чаще всего информация о клиенте передаётся обезличенной. Организации не очень интересуются вашими персональными данными
Скажем, у вас есть телефон, планшет и ноутбук, и с каждого устройства зафиксирована активность. Если на каждом из них вы зарегистрировались с одного и того же аккаунта, понять, что это один человек, легко.
В противном случае подходить к задаче приходится более творчески. Например, сопоставлять пользовательское поведение разных интернет-личностей и предполагать, что двумя устройствами пользуется один человек.
Большие данные могут быть числовыми или текстовыми, реже — картинками, аудио, видео.
Большие данные делают всё более предсказуемым
Сфера применения больших данных огромна. Чаще их используют для прогнозирования — предсказания каких-либо событий, либо для рекомендаций.
Например, если говорить о финансах, с помощью больших данных можно рассчитать, вернёт ли человек кредит. Для прогноза используются различные критерии — брал ли человек кредиты до этого, как выплачивал, какие у него были взаимоотношения с банком, как вели себя люди с похожими поведенческими паттернами.
На их основе строится модель, которая позволяет не просто сказать, вернёт человек кредит или нет, а с какой вероятностью он это сделает. Затем такое значение вероятности преобразовывают в скоринговый балл — чем он выше, тем более благонадежен клиент.
На основе данных о том, как человек ведёт себя в интернете, на какие сайты заходит, что вбивает в поиске и на какие объявления кликает, можно предположить, перейдёт он по рекламной ссылке или нет. Для компании это повышает эффективность рекламы. Но и для человека полезно: ему предлагают то, что действительно нужно.
…строится модель, которая позволяет не просто сказать, вернёт человек кредит или нет, а с какой вероятностью он это сделает
Прогноз можно строить не только для конкретной интернет-личности на основе её поведения. Если условно десять человек демонстрируют одинаковые интересы, делают одинаковый выбор, то велика вероятность, что для одиннадцатого человека, который движется в этом же тренде, выбранный сценарий тоже подойдёт.
Точность прогноза зависит от количества и качества данных — чем их больше, чем они свежее, тем меньше вероятность ошибки. Влияет также территория. Если построить прогноз для России, то его не получится применить во Франции, он не будет работать.
Что касается построения долгосрочных прогнозов, здесь многое зависит от области, так как рынок может меняться. В финансовой сфере речь обычно идёт о двух-трёх годах. Но модели прогнозирования изменяются каждую неделю, а прогноз обновляется каждый день, что даёт возможность получить более точную картину. В то же время случаются неожиданные изменения, которые модели не всегда могут уловить.
Точность прогноза зависит от количества и качества данных — чем их больше, чем они свежее, тем меньше вероятность ошибки. Влияет также территория
С другой стороны, долгосрочные прогнозы сами по себе стабилизируют экономику. Участники рынка, имея на руках сценарии развития, могут избегать резких движений и неоправданных решений.
Большие данные могут формировать картину мира
Об экономике мы уже поговорили, но и в целом для общества это работает. Благодаря анализу данных можно предсказывать поведение больших групп людей. Большие данные позволяют не просто заранее знать, что выберут представители той или иной аудитории, но и прогнозировать, как изменится этот выбор со временем.
Благодаря анализу данных можно предсказывать поведение больших групп людей
И, опять же, как в экономике, есть обратный процесс: за счёт прогнозов поведение аудитории стабилизируется. Например, человек покупает в интернет-магазине какую-то одежду. Рекомендательная система будет предлагать ему вещи по его вкусу, он будет видеть меньше случайных товаров и покупать меньше ненужного.
Однако в некоторых сферах прогноз предпочтений может сыграть злую шутку. Например, новостные сайты будут давать каждому человеку подборку текстов, которые ему с большой вероятностью понравятся. Речь даже может идти не только о темах, но и об определённом угле подачи новостей.
В итоге получится, что разные аудитории будто существуют в параллельных мирах. Есть риск, что это породит конфликты на пустом месте — только из-за несовпадения картинок.
Будущее больших данных зависит от технологий
Большие данные растут экспоненциально, их становится больше и больше, и поэтому возникают проблемы с их обработкой. Так что многое зависит от того, с какой скоростью совершенствуются технологии.
Допустим, квантовые компьютеры смогут решать за секунды задачи, на которые сейчас тратятся часы и дни. Тогда получится быстро тестировать алгоритмы и получать ценные результаты
Кстати, эпоха квантовых вычислений уже началась: в начале 2019 года был выпущен в продажу первый коммерческий квантовый компьютер IBM Q System One.
Препятствием для роста больших данных может стать ужесточение законодательства. Так будет при частых утечках. Поэтому в будущем защита клиентских данных усилится, будут совершенствоваться механизмы безопасности, хранения, обработки и привлекаться новые источники информации.
К тому же, благодаря развитию интернета вещей больший интерес будут представлять данные устройств, а не человека. Возьмём умный холодильник: он сможет сам составлять список покупок на основании того, что покупает семья, и даже делать заказ. Здесь данные привязаны к устройству, а их утечка вряд ли может представлять опасность.
Умный шкаф, например, сам сможет искать скидки на вещи, которые вы постоянно приобретаете. Кстати, благодаря большим данным уже можно покупать всё дешевле, так как информацию о скидках вы получаете мгновенно.
Например, у «Яндекса» есть сервис «Советник», который показывает минимальную цену на вещь в других магазинах. И это выгодно прежде всего клиентам, хотя именно компании-продавцы вкладываются в развитие больших данных.
Поэтому в будущем на плаву останутся организации — не просто продавцы, а IT-компании. Будущее за искусственным интеллектом, и им надо инвестировать именно в него.
Чтобы искусственный интеллект захотел захватить мир, у него должно быть такое желание. Но алгоритм не развивается и собственных стимулов у него нет. Здесь всё зависит от специалистов…
Бояться, что ИИ выйдет из-под контроля, не стоит. Речь идёт об алгоритмах, которые нуждаются в людях. Если их предоставить самим себе, они просто перестанут работать или начнут выдавать результат, близкий к случайному.
Чтобы искусственный интеллект захотел захватить мир, у него должно быть такое желание. Но алгоритм не развивается и собственных стимулов у него нет. Здесь всё зависит от специалистов, которых, к слову, не хватает.
Поэтому, если кто-то сейчас выбирает профессию, то дата-сайентист, аналитик Big Data, инженер данных — перспективный вариант. Во многих сферах целые команды могут быть вытеснены человеком, который умеет программировать, работать с данными и знает основы машинного обучения. Эти знания делают любого специалиста более конкурентоспособным.