Чем занимается Data Scientist

С развитием IT-индустрии появились новые профессии и значительно преобразовались традиционные. Например, раньше аналитика ассоциировалась исключительно с продажами, теперь прогнозирование и оценка данных востребованы практически везде. Информации настолько много, что потребовалось создание отдельной научной дисциплины – Data Science.

Что такое наука о данных? Кто такой Data Scientist и как им стать?

История Data Science

Еще в середине двадцатого века был виден потенциал цифровых технологий: благодаря им удобно не только складировать информацию, но и качественно к ней обращаться. Знания, заложенные в цифру, легче обработать, проанализировать и передать в другие области науки. Поэтому в 1966 году появляется «Комитет по данным для науки и техники» (CODATA), который был призван дисциплинировать сбор, хранение, поиск и критическую оценку научных данных.

Несмотря на то, что Data Science – раздел информатики, изначально в основе лежали не компьютерные технологии, а методы сбора данных. Хотя ученые и пытались сделать упор на цифровые ресурсы, технические устройства и интерфейсные технологии оставляли желать лучшего. Научный мир понимал, что за Data Science будущее, но на тот момент ответвление не могло стать полноценным направлением науки.

В 1974 году выходит книга легендарного ученого-информатика Петера Наура, в которой он не просто употреблял термин «Data Science», но и давал точное объяснение науки: это изучение жизненного цикла цифровых данных – от преобразования информации в электронный вид до ее представления другим областям науки.

И популярность Data Science только росла. 80-90-е выделились огромными прорывами в области компьютерных комплектующих, интернет-технологий и программного обеспечения. Хранить данные в электронном виде стало не просто удобно, но и выгодно. Компании переходили на электронные базы и активно продвигали услуги через интернет.

В 1990 году понятие «Data Science» обретает второе дыхание. Технологии придуманы, данные выложены – а дальше что? Кто будет разгребать завалы информации? Должны появляться специалисты, умеющие создавать структуры и алгоритмы. Поэтому Комитет активно дорабатывал науку и выделял наилучшие методы обработки данных.

Наконец, в начале «нулевых» все научное общество признало Data Science отдельной наукой и назначило CODATA ее предводителем. С тех пор группа ученых каждые четыре года обновляет стандарты работы с данными.

Big Data

В начале 2010 появляется термин «Big Data», то есть «большие данные». Информации в сети стало настолько много, что огромные массивы знаний стали называть просто «Big». Однако чем больше данных, тем сложнее их обрабатывать и анализировать. К счастью, и инструментов разрабатывалось не меньше: это и языки программирования, и специальное ПО (как серверное, так и десктопное), и новые формулы вычислений, и искусственный интеллект.

Естественно, специалист обязан в них досконально разбираться. Если на заре становления Data Science скорее напоминала энтузиазм отдельных ученых, то сегодня это сложные познания, требующие глубокого понимания.

Итак, мы подобрались к Data Scientist. Кто он такой, чем занимается и кто может стать им?

Профессия Data Scientist

Интернет и базы данных – это большие объемы неструктурированной информации, «вываленной» в сеть. И каждая компания хочет выделить и оценить конкретные данные; например, институт эпидемиологии желает получить отчет о развитии конкретного вируса, маркетинговое агентство – вычислить современные тренды, а Министерство образования сопоставить успеваемость в прошлом и текущем десятилетии.

Получается, перед Data Scientist ставится задача собрать и проанализировать информацию, а в некоторых случаях дать прогноз. Естественно, без компьютерных технологий структурировать массивы данных не получится. Но не думайте, что Data Scientist просто ищет информацию и складывает ее в правильной последовательности.

Современная наука о данных работает с алгоритмами, заменяющими людей, чат-ботами, искусственным интеллектом и так далее. Дата-сайентист должен обладать навыками программирования, так как он сам пишет нужные алгоритмы.

Не стоит путать дата-ученого с бизнес-аналитиком; последний чаще опирается на коммерческие цели, а не на техническую часть. Простой пример: интернет-магазин желает улучшить свой сервис. Для оценки продаж, лояльности покупателей и конкурентов руководитель приглашает бизнес-аналитика, который советует нарастить производство, снизить цены или поменять подход по продвижению услуг. А Data Scientist составит список технических огрехов и способов их устранить; помимо теории, он на практике способен изменить алгоритмы оформления заказа или переписать чат-бота.

Data Scientist востребован везде, где есть данные, подверженные структуризации и алгоритмизации:

  • Бизнес. Например, специалист может написать алгоритм, упрощающий сбор статистических данных.
  • Банковские системы. Выдача онлайн-кредитов, оформление заявок на вклады и прочие банковские услуги регулируются алгоритмами, написанными дата-сайентистом.
  • Транспорт. Построение оптимального маршрута, написание алгоритма выявления пробок.
  • IT. Боты, поисковые системы, искусственный интеллект.
  • Промышленность. Прогнозирование сбоев в работе или нехватки сырья.
  • Медицина. Современные медицинские приборы предполагают автоматические диагнозы на основе симптомов. Алгоритмы анализа помогают врачам индивидуально работать с пациентами и назначать наиболее эффективное лечение.
  • Другие области науки. Генетика и биоинженерия не обходятся без Data Science.

Областей применения Data Science очень много, поэтому профессия крайне востребована. Если до сих пор не совсем понятно, чем занимается Data Scientist, то вот базовая последовательность его действий при получении конкретной задачи:

  1. Получение технического задания от заказчика.
  2. Специалист оценивает задачу и пробует выполнить заказ методом машинного обучения.
  3. Дата-сайентист ищет дополнительные данные и критерии оценки, так как главное – эффективность модели.
  4. После этого он приступает к программированию и тренировке алгоритма.
  5. Когда модель будет готова, он испытывает ее на предмет выполнения задачи; подключаются другие специалисты, например риск-менеджеры.
  6. Если все работает как нужно, алгоритм внедряется в производство.
  7. После введения модели в эксплуатацию Data Scientist следит за процессами, по необходимости дорабатывая или улучшая алгоритм.

На данный момент это одна из самых высокооплачиваемых и перспективных вакансий в мире. В России Data Scientist уровня senior зарабатывает до 300 000 тыс. в месяц.

Как стать дата-сайентистом

Стать специалистом непросто. Если вы явный гуманитарий, будет еще сложнее. Но упорство и усидчивость способны преодолеть любые преграды.

Для начала выучите основы математики. Вы должны знать такие понятия, как дифференциал, определитель матрицы и производная. Придется потратить достаточно времени на теорию и заучивание формул, однако главная цель не зазубрить информацию, а научиться свободно в ней ориентироваться.

Требуются познания и в области статистики. В нее включается как теория, так и практика (в том числе программное обеспечение).

И наконец – Python и машинное обучение. Этот язык программирования способен освоить даже новичок, так как он отличается от того же C++ более простым синтаксисом. Однако основы машинного обучения могут занять больше времени. Дата-сайентист должен не просто знать теорию, но и уметь применять знания на практике.

Конечно, перечисленные выше требования всего лишь тезисы. Профессия очень разносторонняя и требует специализированных навыков. И все же результат стоит усилий: зарплаты постоянно растут, а «титул» Data Scientist дает сразу +100 к уважению в обществе.

Массивы информации постоянно растут, поэтому профессия крайне востребована. Если вы всерьез решите окунуться в мир данных и искусственного интеллекта – добро пожаловать в Data Science! 

Межтекстовые Отзывы
Посмотреть все комментарии
guest