Data Science — это вообще работает?
1.
Для начала объясните, что такое Data Science?
2.
А чем занимаются ученые из этой сферы?
3.
А зачем это вообще нужно?
4.
И когда этим начали пользоваться?
5.
Но решения все равно ведь принимают люди?
6.
А как это применяется в банковской сфере?
7.
Какими навыками нужно обладать, чтобы работать с большими данными?
8.
А как устроены такие конкурсы?
9.
А в России такие конкурсы проходят?
Для начала объясните, что такое Data Science?
Вообще говоря, Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России).
А чем занимаются ученые из этой сферы?
Во-первых, программированием, математическими моделями и статистикой. Но не только. Для них очень важно разбираться в том, что происходит в предметной области (например, в финансовых процессах, биоинформатике, банковском деле или даже в компьютерной игре), чтобы отвечать на реальные вопросы: какие риски сопровождают ту или иную компанию, какие наборы генов соответствуют определенному заболеванию, как распознать мошеннические транзакции или какое поведение людей соответствует игрокам, которых надо забанить.
А зачем это вообще нужно?
В первую очередь, благодаря анализу больших данных получается эффективнее принимать решения. Это, например, показали последние избирательные кампании в США: c помощью алгоритмов на основе массива данных можно улавливать настроения аудитории и точнее таргетировать рекламные сообщения (что, вероятно, продемонстрировала команда Дональда Трампа в ходе предвыборной кампании).
Пользу от анализа данных можно извлечь во всех более-менее прикладных областях, где есть достаточно данных. К примеру, в медицине алгоритмы позволяют более качественно диагностировать заболевания и назначать план лечения. Управление персоналом можно улучшить, если алгоритмы помогут заранее выявить, что в коллективе начались проблемы с коммуникацией.
И когда этим начали пользоваться?
Недавно. С ростом и объема данных, и вычислительных мощностей стало возможно эффективнее решать старые задачи. Многие из используемых сегодня алгоритмов известны не один десяток лет, просто они стали актуальнее и работоспособнее. Для алгоритмов машинного обучения требуется огромный объем информации. Распознавание изображений с большей точностью, чем на это способен человек, более точные переводчики и прогноз погоды, появившиеся в последнее время, — все это похоже на космическую ракету, к которой, наконец, нашли подходящее топливо.
Но решения все равно ведь принимают люди?
Сейчас в основном да. Но вообще при достаточной технической подкованности уже сейчас можно автоматизировать принятие простых решений — там, где есть понятные, исполняемые правила. Например, системы кибербезопасности сегодня почти целиком работают на алгоритмах машинного обучения, принимая решения, отправлять ли письмо в спам или блокировать ли сомнительную транзакцию. Разумеется, они делают это на основе уже имеющихся данных.
Следующий этап использования Data Science — автоматизация принятия более сложных решений или создание умного ассистента. Примерно так сейчас работают навигаторы, но можно еще вспомнить Т9 на старых телефонах, который обучался нашим фразам и подстраивался. Следом идет уже автоматизация цепочек задач или даже конкретных профессий.
А как это применяется в банковской сфере?
В первую очередь это так называемый кредитный скоринг, то есть оценка надежности заемщика для принятия решения о выдаче кредита. Он учитывает не только образование, стаж работы и среднюю зарплату, но еще несколько десятков показательных факторов. Еще одна важная функция — борьба с мошенничеством с кредитными картами. Алгоритм каждый день прорабатывает через себя десятки миллионов транзакций и принимает по ним решения.
Data Science применяется и для других финансовых услуг. Например, исходя из истории путешествий и обращений за медицинской помощью клиента, можно определить вероятность страхового случая и, как следствие, стоимость страховки для него.
В Сбербанке, с которым мы написали эти карточки, помимо этого разрабатывают решения на анализе данных для персональных финансовых ассистентов, а также для распознавания вопросов и ответов в службу поддержки на основе анализа текста.
Какими навыками нужно обладать, чтобы работать с большими данными?
Все как мы писали: нужно знать немного программирования, уметь анализировать данные и интерпретировать результаты. А с практикой в Data Science нет проблем — в мире есть множество платформ по онлайн-конкурсам с реальными задачами, где можно в любой момент попытать свои силы: например, в обработке текста, ботоводстве или обучении нейросети распознавать котов на фотографиях.
А как устроены такие конкурсы?
Очень просто: компания придумывает задачу на основе тех, которые возникают у нее на практике. После этого она обрабатывает данные и выкладывает их на такие платформы: часть в открытый доступ для построения моделей, а часть — оставляет себе на проверку. Математики и программисты соревнуются друг с другом за то, кто лучше научится сам и научит свои алгоритмы справляться с задачей прогнозирования скрытой части данных. Самые успешные решения могут затем претворяться в жизнь.
А в России такие конкурсы проходят?
Да, Сбербанк поддерживает мероприятия, в которых соревнуются специалисты разного уровня — от новичков до профессионалов. Например, в ноябре Сбербанк провел самый крупный в СНГ конкурс по решению ряда банковских задач в области анализа данных — Sberbank Data Science Journey, участники которого соревновались в анализе хоть и анонимизированных (банковская тайна), но реальных данных о транзакциях клиентов. Такие конкурсы будут проходить регулярно и являются отличным входом в специальность.