Действительно ли наука о данных — это наука?
- Информация о материале
- Категория: ИТ статьи
- Опубликовано: 18.05.2019, 14:32
- Автор: HelpDesk
- Просмотров: 1062
Наука — это интеллектуальная и практическая деятельность, направленная на систематическое изучение устройства и поведения физического мира посредством наблюдений и экспериментов.
Наука базируется на законах, таких как законы физики, термодинамики, математики, электромагнетизма, аэродинамики, электричества (например, закон Ома), законы Ньютона и законы химии. Благодаря этим законам ученые могут понять, почему определенные действия ведут именно к тем, а не другим последствиям. Во многих дисциплинах важно (а иногда жизненно важно), чтобы ученые (и инженеры) знали, почему что-то должно произойти:
в фармацевтике специалистам необходимо понимать, как различные химические элементы могут образовывать соединения, влияющие на человеческий организм;
в машиностроении инженерам необходимо знать, как различные материалы и конструктивные решения могут выдержать вес 40-этажного здания;
в электротехнике инженерам необходимо понимать, сколько требуется кабелей, какого типа и как они должны быть соединены, чтобы обеспечить электроэнергией здания или транспортные средства.
Еще раз скажу, что люди руководствуются законами, на которых базируются эти дисциплины. Именно благодаря их наличию можно понять, к какому результату приведет тот или иной выбор, то или иное действие.
Большие данные и смерть «почему»
В опубликованной в 2006 году статье в Wired под названием «Конец теории: поток данных делает научный метод устаревшим» Крис Андерсон (Chris Anderson) ставит под сомнение научную природу науки о данных. Суть статьи в том, что большие массивы данных дают представление о поведении человека без необходимости проведения сложного статистического моделирования, как правило, необходимого при использовании выборочных наборов данных. Больше всего у меня в памяти отложилась следующая цитата:
«Google завоевала рынок рекламы всего лишь с помощью прикладной математики. Компания не стремилась вникнуть в культуру и правила рекламы. Она просто сделала ставку на то, что более качественные данные и более качественные инструменты анализа способны вывести ее в лидеры. Так и получилось».
Огромные массивы детальной информации и мощные инструменты анализа позволяют понимать, что именно ведет к необходимому результату, без необходимости понимать, почему так происходит. Возможно, когда дело касается человеческого поведения, нет таких законов, которые можно было бы использовать для понимания (или систематизации) совершаемых человеком действий в определенных условиях. На самом деле мы уже знаем, что люди склонны совершать нелогичные поступки.
Тем не менее, в некоторых случаях, я полагаю, науке о данных предстоит в большей степени быть похожей на другие науки.
Интернет вещей и рождение «почему»
Интернет вещей (IoT) заставит организации разобраться, почему те или иные события ведут к определенным последствиям, и систематизировать эти зависимости. Например, для производителей будет иметь решающее значение понимание того, почему определенные детали в продукции чаще всего становятся причиной поломок. Выстроить связь помогут ответы на следующие вопросы:
Была ли поломка вызвана материалами, использованными при создании продукта?
Была ли поломка вызвана конструкцией детали?
Была ли поломка вызвана неправильной эксплуатацией детали?
Была ли поломка вызвана неправильной установкой детали?
Была ли поломка вызвана неправильным обслуживанием детали?
По мере развития IoT мы все чаще будем становиться свидетелями взаимодействия аналитики и физики. Познакомьтесь с концептом цифровых двойников (digital twins) и узнайте, как его используют организации.
Цифровой двойник — это цифровая модель машины: от реактивного двигателя до электровоза. Такая цифровая копия может использоваться для развития, создания новых бизнесов и моделей обслуживания с помощью Промышленного Интернета.
Цифровые двойники — это оцифрованные спутники физических активов, которые могут служить самым разным целям. Цифровые двойники создаются с помощью датчиков, установленных на физические машины. Они считывают и передают информацию о состоянии машины, режиме ее работы и местоположении в реальном времени.
По мере слияния физики и IoT специалисты по обработке данных все больше будут походить на обычных ученых. Поскольку цифровой мир будет вести себя согласно законам, лежащим в основе дисциплин, таких как физика, аэродинамика, химия и электричество.
Наука о данных и цена ошибки
Еще один драйвер роста IoT — высокая цена ошибки. В прогнозировании действий человека ошибки (ложные срабатывания и ложные отрицания) почти не наносят вреда. Это касается, например, тех ситуаций, когда необходимо предугадать, на какую рекламу человек отреагирует или когда ваши клиенты порекомендуют вас своим друзьям.
Однако в мире IoT цена такой ошибки может привести к крайне негативным или даже катастрофическим последствиям (финансовым потерям, судебным искам и расходам на урегулирование ущерба). Организации не могут позволить себе, чтобы самолеты падали, автономные автомобили въезжали в людей, а фармацевтические препараты случайно убивали пациентов.
Заключение
Сложилось так, что в больших данных не возникало необходимости анализировать и понимать, по каким причинам происходят те или иные события. Поскольку в большинстве случаев большие данные используются организациями для того, чтобы предсказывать поведение потребителей (отторжение, покупка, обман, кража, жалоба, апселл). Тогда как потери, обусловленные ложными срабатываниями или ложными отрицаниями, были относительно небольшими по сравнению с финансовой выгодой.
И хотя нет законов, которые бы диктовали поведение человека, в мире IoT, где организации используют аналитику (машинное обучение и искусственный интеллект) с физическими продуктами, мы увидим, что наука о данных выходит за рамки просто «науки о данных». В IoT группы специалистов по обработке данных должны включать инженеров и ученых, представляющих естественные науки. Только с ними команда сможет проанализировать и понять, почему происходит именно то, что происходит. В противном случае последствия могут быть катастрофическими.
Автор статьи — руководитель направления компании Dell EMC по продаже OEM/IoT-решений в России и СНГ.