У меня есть бизнес. Как Big Data поможет мне больше зарабатывать?
Мысль о том, что Big Data – волшебный ключик для бизнеса, чтобы зарабатывать больше, очень популярна. Редакция AIN.UA решила разобраться, что нужно делать компании, которая решилась внедрить популярную технологию, и как сделать это эффективно.
Материал подготовлен при поддержке «Майкрософт Украина»
Что это значит?
Нативная реклама — материал/серия материалов, которые подготовлены журналистами AIN.UA по редакционным стандартам и были выпущены при поддержке рекламодателя
О чем речь вообще?
У нас была отдельная статья о том, что такое Data Science, в рамках которой мы рассказывали в том числе о больших данных и как они работают. Если коротко, то большие данные – это огромный массив данных, который, при правильной обработке, позволяет обнаружить скрытые закономерности и использовать их для повышения эффективности.

Та информация, которую получает компания после «прогонки» данных через алгоритм анализа, и представляет собой ценность как продукт больших данных. Она должна пройти верификацию аналитиком или специалистом в соответствующей области человеческой деятельности (например, медицине) и дальше может использоваться для изменения процессов в компании, в частности, с целью получения большей прибыли или оптимизации расходов.

Как это работает?
Когда мы говорим о «больших данных», то подразумеваем не столько массив статистики (например, каждого третьего числа месяца в магазине N в обеденное время лучше всего продаются редька и духи), сколько метод обработки этой статистики. Традиционные технологии также могут «переваривать» большие объемы информации, но чем больше данных, тем медленнее они с ними справляются. При одних и тех же затратах эффективность работы традиционных алгоритмов ниже в разы. Например, при росте объема данных в два раза, скорость обработки падает в четыре раза.

Один из стандартных подходов в обработке больших данных подразумевает две вещи: распараллеливание процесса и использование распределенного файлового хранилища. Это позволяет сохранять линейную зависимость между объемом информации и скоростью ее обработки. Например, при росте базы в два раза для сохранения скорости нужно подключить в два раза больше серверов.

Для визуализации работы алгоритма обработки больших данных MapReduce, специалисты в этой области любят использовать эту схему.

Схема MapReduce
Алгоритм MapReduce состоит из двух функций: Map и Reduce. Функция Map разбивает все входящие данные на маленькие кусочки, которые могут быть проанализированы независимо друг от друга. Когда данные разбиты, запускается функция Reduce, которая анализирует каждый независимый кусочек и потом собирает все это вместе. Так и находятся скрытые закономерности в данных.
Чем такие данные могут быть полезны?
В мире уже есть достаточно кейсов того, как большие данные позволяют работать эффективнее.

Так, Microsoft совместно с Siemens разработали «умный» рентген-аппарат. Он делает снимок и отправляет его для анализа одновременно в облако и врачу. В облаке есть система анализа снимков на базе искусственного интеллекта, которая обрабатывает полученное изображение и постоянно обучается (machine learning). Врач и система параллельно ставят диагноз, если есть большие расхождения, врач получает уведомление о необходимости перепроверить диагноз. Иногда бывает так, что система приняла неправильное решение, но часто она помогает увидеть скрытые вещи, которые человек не заметил.

В недавнем расследовании британских властей относительно коррупции в Rolls-Royce также применялись алгоритмы обработки больших данных. Робот ACE британского стартапа Ravn помог следователям проанализировать 30 млн документов, что значительно ускорило процесс и сократило расходы на рутинный человеческий труд. Едва или кто-то из живых людей смог анализировать по 600 000 документов в день, да и делать это с минимальной погрешностью.

Компания Kodisoft в своих интерактивных столах использует технологии обработки больших данных, изучая таким образом предпочтения клиентов и выдавая им более точную рекомендацию.

Или, например, AgroMonitor, один из украинских стартапов в области сельского хозяйства, на основании данных с полей анализирует, при каких затратах на обработку поля получается оптимальный результат. Например, если посадка сотни мешков картошки дает урожай в две сотни, а пары сотен – в три, то что для фермера выгоднее в итоге в абсолютных цифрах.


Еще один агро-стартап из нашей страны, Forland, собирает в своем ПО всю статистику о полях – какие культуры выращивались, какой давали урожай, сколько техники и других материальных ценностей было задействовано, какая погода при этом была. Большая база таких данных, во-первых, позволяет любому агроному, получившему статистику поля, начать работу уже не с нуля, а с хорошей базой, с другой – по мере сбора новых и новых данных выявлять скрытые закономерности.

В ритейле и дистрибуции большие данные позволяют выявлять взаимосвязи между спросом на определенные группы товаров и погодой или мероприятиями вокруг и более эффективнее пополнять запасы. Над таким продуктом также работает как минимум одна украинская компания.

Для каждого бизнеса или даже рода деятельности профит от больших данных свой. Ключевой момент – Big Data позволяет действовать прицельно и высвобождать человеческие ресурсы для более сложной и креативной работы. Например, аналитику, который изучает показатели бизнеса, благодаря внедрению машинных алгоритмов обработки не нужно заниматься рутиной – ручным подсчетом – он может брать в работу сразу готовые, подсчитанные машиной результаты. Специалистам, чья работа требует повышенной внимательности (медикам, юристам), машинные алгоритмы могут служить инструментом подстраховки и обращать их внимание только на те случаи, которые выделяются из общей массы результатов.

Я тоже хочу зарабатывать больше с Big Data! C чего начать?
С правильной постановки цели и сбора данных.

«Зарабатывать с помощью больших данных» — это не цель. Целью может быть оптимизация какой-то статьи расходов, повышение прибыли, увеличение продаж – в зависимости от того, чем занимается ваша компания и какие в ней есть больные места.

Даже если вы не можете пока определиться с целью, данные есть смысл собирать все равно. Ведь когда задача будет ясна, алгоритмам все равно потребуется «скармливать» для анализа информацию, а ее должно быть как можно больше. Кроме того, место для хранения данных сегодня – одна из самых маленьких статей расходов, в отличие от систем анализа данных. В том же Azure недавно в очередной раз снизились цены до нескольких центов за гигабайт, поэтому сбор данных не ударит сильно по кошельку.


Что дальше – кто должен ими заниматься?

В идеале в компании должно быть два человека, которые занимаются сбором и анализом данных (может быть и один, но, по сути, задачи две). С одной стороны – это аналитик, который построит машинную модель обучения или правильно распишет хотя бы на бумажке, какие данные и каким образом надо анализировать. С другой стороны – инженер, который знает, как данные строить. Дальше – им в помощь одна из существующих платформ для работы с большими данными. Свои решения есть у Microsoft, Google, Amazon, IBM.

Хорошо, как выбрать платформу?
Технически одно и то же решение для работы с большими данными можно реализовать на всех существующих платформах. Выбор зависит от того, насколько гибкая система вам нужна и насколько вы готовы тратить ресурсы на настройку и поддержку. Так, Microsoft дает на выбор предварительно сконфигурированное решение, которое обладает меньшей гибкостью, или инструменты для самостоятельной настройки системы (кстати, работе с большими данными и интернетом вещей будет посвящен вебинар 23 февраля). Другие системы предлагают только второй вариант взаимодействия. Разницу между двумя подходами можно объяснить на примере пиццы.

Если вам захотелось сделать пиццу, вы можете пойти двумя путями: купить все ингредиенты, замесить тесто самостоятельно, затем сделать корж и начинку, или купить полуфабрикат и заниматься только начинкой. В первом случае у вас будет максимальная свобода выбора размеров, формы и т.д., но вся ответственность за результат ляжет на ваши плечи и увеличится время производства. Если у вас хороший опыт в полном цикле производства, то скорее всего у вас получится, хотя вы потратите больше усилий и времени. Если нет, то может получится, может нет, но если нет, то разбираться в проблемах придется самостоятельно.


Если вы выбираете работу с полуфабрикатом, то по сути, управлять сможете только начинкой, но избавите себя от головной боли относительно всего остального процесса, и если основа не будет соответствовать заявленным характеристикам, то исправлять это придется не вам.

То есть грубо говоря, использование предварительно сконфигурированных решений сокращает время до запуска работы до нескольких минут, избавляет от необходимости поддерживать работоспособность системы. Самостоятельная конфигурация требует большей квалификации, большего времени на запуск и расходов на техническую поддержку, но полностью развязывает руки относительно того, как работает система.

Поэтому по сути, выбор должен решать в плоскости того, сколько сил вы готовы потратить на то, чтобы начать работать с большими данными.

Узнать больше о Big Data и понять, как создать такое решение с помощью технологий Microsoft, можно на вебинаре Tomasz Kopacz Big Data and IoT solutions architectures, который пройдет 23 февраля с 15:00 до 16:00.


© 1999—2017 AIN.UA
[email protected]
Made on
Tilda