партнерский материал

Data Science — это вообще работает?

9 карточек
14:54, 23 декабря 2016
1.Для начала объясните, что такое Data Science?
2.А чем занимаются ученые из этой сферы?
3.А зачем это вообще нужно?
4.И когда этим начали пользоваться?
5.Но решения все равно ведь принимают люди?
6.А как это применяется в банковской сфере?
7.Какими навыками нужно обладать, чтобы работать с большими данными?
8.А как устроены такие конкурсы?
9.А в России такие конкурсы проходят?

Партнерский материал. Что это такое?

1

Для начала объясните, что такое Data Science?

Вообще говоря, Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России).

2

А чем занимаются ученые из этой сферы?

Во-первых, программированием, математическими моделями и статистикой. Но не только. Для них очень важно разбираться в том, что происходит в предметной области (например, в финансовых процессах, биоинформатике, банковском деле или даже в компьютерной игре), чтобы отвечать на реальные вопросы: какие риски сопровождают ту или иную компанию, какие наборы генов соответствуют определенному заболеванию, как распознать мошеннические транзакции или какое поведение людей соответствует игрокам, которых надо забанить.

3

А зачем это вообще нужно?

В первую очередь, благодаря анализу больших данных получается эффективнее принимать решения. Это, например, показали последние избирательные кампании в США: c помощью алгоритмов на основе массива данных можно улавливать настроения аудитории и точнее таргетировать рекламные сообщения (что, вероятно, продемонстрировала команда Дональда Трампа в ходе предвыборной кампании).

Пользу от анализа данных можно извлечь во всех более-менее прикладных областях, где есть достаточно данных. К примеру, в медицине алгоритмы позволяют более качественно диагностировать заболевания и назначать план лечения. Управление персоналом можно улучшить, если алгоритмы помогут заранее выявить, что в коллективе начались проблемы с коммуникацией.

4

И когда этим начали пользоваться?

Недавно. С ростом и объема данных, и вычислительных мощностей  стало возможно эффективнее решать старые задачи. Многие из используемых сегодня алгоритмов известны не один десяток лет, просто они стали актуальнее и работоспособнее. Для алгоритмов машинного обучения требуется огромный объем информации. Распознавание изображений с большей точностью, чем на это способен человек, более точные переводчики и прогноз погоды, появившиеся в последнее время, — все это похоже на космическую ракету, к которой, наконец, нашли подходящее топливо.

5

Но решения все равно ведь принимают люди?

Сейчас в основном да. Но вообще при достаточной технической подкованности уже сейчас можно автоматизировать принятие простых решений — там, где есть понятные, исполняемые правила. Например, системы кибербезопасности сегодня почти целиком работают на алгоритмах машинного обучения, принимая решения, отправлять ли письмо в спам или блокировать ли сомнительную транзакцию. Разумеется, они делают это на основе уже имеющихся данных.

Следующий этап использования Data Science — автоматизация принятия более сложных решений или создание умного ассистента. Примерно так сейчас работают навигаторы, но можно еще вспомнить Т9 на старых телефонах, который обучался нашим фразам и подстраивался. Следом идет уже автоматизация цепочек задач или даже конкретных профессий.

6

А как это применяется в банковской сфере?

В первую очередь это так называемый кредитный скоринг, то есть оценка надежности заемщика для принятия решения о выдаче кредита. Он учитывает не только образование, стаж работы и среднюю зарплату, но еще несколько десятков показательных факторов. Еще одна важная функция — борьба с мошенничеством с кредитными картами. Алгоритм каждый день прорабатывает через себя десятки миллионов транзакций и принимает по ним решения.

Data Science применяется и для других финансовых услуг. Например, исходя из истории путешествий и обращений за медицинской помощью клиента, можно определить вероятность страхового случая и, как следствие, стоимость страховки для него.

В Сбербанке, с которым мы написали эти карточки, помимо этого разрабатывают решения на анализе данных для персональных финансовых ассистентов, а также для распознавания вопросов и ответов в службу поддержки на основе анализа текста.

7

Какими навыками нужно обладать, чтобы работать с большими данными?

Все как мы писали: нужно знать немного программирования, уметь анализировать данные и интерпретировать результаты. А с практикой в Data Science нет проблем — в мире есть множество платформ по онлайн-конкурсам с реальными задачами, где можно в любой момент попытать свои силы: например, в обработке текста, ботоводстве или обучении нейросети распознавать котов на фотографиях.

8

А как устроены такие конкурсы?

Очень просто: компания придумывает задачу на основе тех, которые возникают у нее на практике. После этого она обрабатывает данные и выкладывает их на такие платформы: часть в открытый доступ для построения моделей, а часть — оставляет себе на проверку. Математики и программисты соревнуются друг с другом за то, кто лучше научится сам и научит свои алгоритмы справляться с задачей прогнозирования скрытой части данных. Самые успешные решения могут затем претворяться в жизнь.

9

А в России такие конкурсы проходят?

Да, Сбербанк поддерживает мероприятия, в которых соревнуются специалисты разного уровня — от новичков до профессионалов. Например, в ноябре Сбербанк провел самый крупный в СНГ конкурс по решению ряда банковских задач в области анализа данных — Sberbank Data Science Journey, участники которого соревновались в анализе хоть и анонимизированных (банковская тайна), но реальных данных о транзакциях клиентов. Такие конкурсы будут проходить регулярно и являются отличным входом в специальность.

Партнерский материал. Что это такое?