Кандидат физико-математических наук, руководитель проекта создания магистерской программы на английском языке Big Data Analytics в НГУ и директор по развитию ООО «Экспасофт» Евгений Павловский рассказывает, что такое большие данные и как их можно использовать.
— Что такое Big Data? Про это много говорят, но не все понимают, в чем смысл.
— Big Data, по-простому, это когда вы собрали о явлении столько данных, что даже начинаете теряться в них, более того, испытываете проблемы с тем, чтобы из этих данных получить что-то разумное. Дело в том, что в последние годы (примерно десять лет) произошёл сдвиг в обществе в понимании ценности цифровых данных.
Стало понятно, что правильно собирая данные, мы можем предсказывать будущее.
Правильно обрабатывая ваше поведение в интернете, можно вам предложить услугу, продукт, и вы с большой вероятностью его купите. На этом, исключительно на этом, зарабатывают такие известные компании, как Facebook, Google, вКонтакте. Это детища именно этого общественного сдвига. Собирая данные о себе, о ходьбе, о пульсе, о сне, вы сможете подобрать индивидуальную диету, понять свой организм и жить с ним в гармонии. Большие данные — большая ценность.
Однако не всё так просто, как кажется. Чтобы из больших данных извлечь пользу, необходимо изучить множество технологий и методологий. В условиях постоянного прироста данных польза, которую может осознать человек, относительно уменьшается. Поэтому и стараются убрать человека из всех возможных цепочек обработки данных — так быстрее. Мы скоро увидим, как машины будут принимать решения за нас и гораздо более эффективно. Например, тот же Яндекс уже прекрасно ориентирует нас на дороге в объезд пробок. Или Google Now подсказывает, когда и куда надо поехать, предварительно проанализировав нашу почту. Сейчас уже действует решение от Google, которое предлагает три варианта ответа на письма. Вы ещё выбираете сейчас, но скоро скажете: «А... сам выбирай ответ, я тебе доверяю, а мне – некогда».
Итак, большие данные — это общественный феномен, означающий обращение человека к цифровым данным как к новому источнику ценности и встраивание человека в систему приёма и передачи данных между машинами.
— Всё-таки насколько большие Big Data?
— В основном их определяют так: «Big Data — это настолько большие данные, что ваши текущие технологии не могут их обработать или извлечь ценность из них». Но это определение — ловушка. Потому что через это определение очень легко вам чего-нибудь продать. Более правильным будет сказать, что Big Data определяются несколькими параметрами: объём, скорость поступления новых данных, разнообразие. Сам по себе объём ничего не говорит: 1Терабайт или 1Петабайт — это ни много, ни мало. Но в совокупности со скоростью и разнообразием это уже будет некоторый неуправляемый актив — как горячие угли в руках — подержать секунду вы их сможете, а потом уже обожжетесь. Так и с данными, записать 1Тб уже не проблема даже на домашних компьютерах. Но если 1Тб поступает вам каждый час, что делать? Какие данные из поступивших сохранять, а какие выбрасывать? А надо ли выбрасывать то, что накопили за 10 лет?
— Как анализ больших данных может помочь бизнесу. Какие задачи решает Big Data?
— Как и любые данные, цифровые служат человеку и машинам, чтобы те могли принять правильное решение. Анализ данных поможет понять основные закономерности в данных и спрогнозировать будущее. Поможет выявить ошибки и обнаружить неожиданные открытия. Например, появились компании, которые дают кредиты людям с плохой кредитной историей. Почему? Как они зарабатывают? Оказывается, они проанализировали данные клиентов и поняли: плохая кредитная история не всегда означает, что заёмщик не возвращает кредит. Напротив, она может означать, что он весьма совестливый и вернёт кредит с опозданием и большими процентами. Компания научилась отделять совсем безнадёжных заёмщиков от не совсем и предлагает последним взять кредит. Таким образом, она заняла нишу, которую ранее никто не замечал. Они просто внимательно проанализировали уже имевшиеся банковские данные.
Итак, какие задачи можно решать с помощью Big Data:
1) прогнозировать, где и когда появится ваш клиент;
2) предлагать эффективные действия, которые удержат/привлекут клиента;
3) открывать новые бизнес-модели для действующего бизнеса;
4) получать новые конкурентные преимущества, используя свои данные, как активы.
— Всегда ли хранение Big Data приводит к получению выгоды? В чем слабости Big Data?
— Конечно, не всегда. Если собирать много данных и не тех, которые приносят пользу, то можно сформировать значительных размеров «помойку». В этом главная слабость и главный вызов Big Data: если собирать данные, соответствующие определённой цели, то в обработке этих данных вы вряд ли сможете решить другие задачи. Прелесть больших данных в том, что вы можете привлечь другие источники данных и получить новую ценность на их связывании.
Например, продажи колбасы зависят от показания термометра на улице. И ещё пример: ваш профиль в социальных сетях сильно коррелирует с вашей кредитоспособностью, и некоторые банки уже выдают кредиты на основе оценки ваших профилей в социальных сетях.
Однако заранее редко известно, какие данные следует собирать, а какие — нет, чтобы решить вашу конкретную проблему. В этом-то и слабость: вы точно знаете, что половина информации бесполезна и вы можете выбросить, но вы не знаете, какая именно это половина.
Даже если о личных данных говорить. Допустим, храним мы по 10Гб фотографий, сделанных за последние 5–7 лет. Какая в этом ценность? Готовы ли мы платить за хранение этих фотографий хотя бы по 100 рублей в месяц? Через пару месяцев крепко задумаемся, а может удалить 90% снимков (не только, чтобы место освободить в облаке, но и чтобы расходы сэкономить). Тут-то и возникает вопрос, какие из фотографий оставить, а какие выбросить. И вы в определённый момент понимаете, что фотографий у вас 18 тысяч и даже за месяц вы их все не пересмотрите. Проблема! Как выбрать лучшие?
Продолжайте платить 100 рублей в месяц или применяйте алгоритм, который любезно сам определит, какие фотографии понадобятся вам в будущем: освежить эмоции, показать внукам или найти НЛО, которую вы как-то на снимке не заметили, а алгоритм — заметил. Это и есть компромисс, на который надо будет пойти с деньгами или искусственным интеллектом за ваше будущее в мире Big Data.