Смотреть миникаст
Евгений Романенко и Олег Брагинский.
– Что скрывается за сочетанием Big Data?
– В моей практике много раз менялись данные: data mining, business intelligence, big data, smart data, acquire data. Big Data – сверхбольшие массивы данных различного уровня структурированности. Скорость накопления высокая, объём значимый, реагировать нужно быстро. Данные приходят в разных форматах: текстовые, цифровые, оценочные, качественные, количественные.
– В Big Data есть понятие «ненужные» данные?
– Сколько людей, столько и мнений. Пока наука не формализована. Есть несколько школ. Я приверженец одной из них. Считаю, что не бывает ненужных данных. В этом деле считаю себя абсолютным цифровым маньяком. Один из подходов – выдумывать новые данные, которые можно вытащить. Например, когда работали для сети АЗС, было много разных данные. Многое было завязано на персонале. Из фотографии каждого сотрудника взял пять цветов цифровой пипеткой. Волосы, кожа, глаза, зубы, губы – данные, которых не было у компании. Большие данные – то, чего нет у компании, но предстоит собрать. В другом кейсе собирали температуру, влажность, освещённость, уровень шума до и после входа в магазин. Как правило, у компании нет BD, если специально этим не занимаются, но есть обычные учётные системы. Возьмём кейс гостиницы W, которая начала терять позиции на Booking и TripAdvisor. Руками выгрузили каждый отзыв, превратив каждый текстовый блок в набор математических понятий. Из текста создали данные – пример неструктурированной информации.
– Big Data – инструмент проверки гипотез, зародившихся в голове? Или перелопачивание данных в поисках новых неочевидных открытий, которые иным образом не получить?
– Это сочетание. Есть два типа людей, работающих с данными:
1. Умные, прозорливые. Строят гипотезы в надежде на работу небольшого процента из них. Иногда получается так, иногда сложнее.
2. Те задачи, которые считаются нерешаемыми, с которыми не справились уже несколько команд, решаю полным перебором. Многие считают безумцем, думают, что это неэффективно. Но не было такого, чтобы полный перебор не дал находок.
– Big Data – аутсорсинговая история? Компания может посчитать целесообразным иметь собственное аналитическое подразделение?
– Крупнейшие компании, с которыми работал, имеют свои отделы. Иногда это 15-20 человек, которые зарабатывают, давая советы до 100 миллионов долларов. Не верю, что сильные люди будут сидеть в таких компаниях. Сильные маркетологи, креативщики, IT-шники, специалисты по BD неминуемо уходят, потому что могут заработать гораздо больше, чем им предлагает зарплата.
– Как понять, какие данные собирать для анализа, какие методы анализа использовать?
– Начинаются гипотезы. Говоря о клиентах, должны думать: «Что ещё можем собрать?». Часто в учётных системах есть только факт покупки. Не знаем предлагали ли товар, кто предлагал. Не видим, кто стоит за чеком – семья из двух человек, из трех; кто был инициатором. Масса параметров. Гипотезы при сборе и дополнении данных крайне важны. Не стоит забывать о целевой функции: «Для чего это делаем?».