Data science с нуля: подробный гайд для начинающих

Что изучает Data Science

Каждый день человечество генерирует примерно 2,5 квинтиллиона байт различных данных. Они создаются буквально при каждом клике и пролистывании страницы, не говоря уже о просмотре видео и фотографий в онлайн-сервисах и соцсетях.

Наука о данных появилась задолго до того, как их объемы превысили все мыслимые прогнозы. Отсчет принято вести с 1966 года, когда в мире появился Комитет по данным для науки и техники — CODATA. Его создали в рамках Международного совета по науке, который ставил своей целью сбор, оценку, хранение и поиск важнейших данных для решения научных и технических задач. В составе комитета работают ученые, профессора крупных университетов и представители академий наук из нескольких стран, включая Россию.

Сам термин Data Science вошел в обиход в середине 1970-х с подачи датского ученого-информатика Петера Наура. Согласно его определению, эта дисциплина изучает жизненный цикл цифровых данных от появления до использования в других областях знаний. Однако со временем это определение стало более широким и гибким.

Data Science (DS) — междисциплинарная область на стыке статистики, математики, системного анализа и машинного обучения, которая охватывает все этапы работы с данными. Она предполагает исследование и анализ сверхбольших массивов информации и ориентирована в первую очередь на получение практических результатов.

В 2010-х годах объемы данных по экспоненте. Свою роль сыграл целый ряд факторов — от повсеместного распространения мобильного интернета и популярности соцсетей до всеобщей оцифровки сервисов и процессов. В итоге профессия дата-сайентиста быстро превратилась в одну из самых популярных и востребованных. Еще в 2012 году позицию дата-сайентиста журналисты назвали самой привлекательной работой XXI века (The Sexiest Job of the XXI Century).

Объем данных, созданных, собранных и потребленных во всем мире с 2010 по 2024 год (в зеттабайтах)

(Фото: Statista)

Развитие Data Science шло вместе с внедрением технологий Big Data и анализа данных. И хотя эти области часто пересекаются, их не следует путать между собой. Все они предполагают понимание больших массивов информации. Но если аналитика данных отвечает на вопросы о прошлом (например, об изменениях в поведениях клиентов какого-либо интернет-сервиса за последние несколько лет), то Data Science в буквальном смысле смотрит в будущее. Специалисты по DS на основе больших данных могут создавать модели, которые предсказывают, что случится завтра. В том числе и предсказывать спрос на те или иные товары и услуги.

Что учить

Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:

Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат.анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.

Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций.
Каждый data scientist немного программист. При этом именно python является стандартом де-факто для нашей сферы. Вероятно, этот язык занял своё положение благодаря тому, что он очень простой и логичный. Если вы программировали на чём угодно, и слова «цикл» или «if-then-else» вас не пугают, то вам не будет очень сложно освоить Пайтон. Если вы никогда не программировали, но считаете, что структурное и математическое мышление — ваш конёк, с программированием у вас не будет проблем

Даже если вы «конченный гуманитарий», освоить Python значительно легче, чем выучить многие иностранные языки (но, внимание! для людей без предыдущего опыта программирования обучаться ему эффективнее по-другому, не так, как для тех, кто уже имеет опыт программирования) 

Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL

Английский необходим!

Как минимум, технический английский, на уровне чтения документации и профессиональных книг, — абсолютная необходимость. В этой сфере особенно: всё слишком быстро меняется. На русский язык все важные книги просто не будут успевать переводить, а многие критически важные библиотеки — даже и не будут пытаться. Поэтому, пока вы не способны читать упомянутые книги в оригинале, у вас вряд ли получится эффективно изучать data science. Хорошая новость: техническая терминология намного уже нормального разговорного языка и слэнга. Поэтому выучить английский на необходимом уровне не так уж и сложно. К тому же, знания языка могут пригодиться во многих других сферах, и даже в отпуске.

Как стать Data Scientist с нуля?

Давайте разберемся, с чего начать обучение профессии, и как можно стать специалистом по анализу данных.

  1. Первый способ – поступить в профильный вуз и параллельно освоить необходимые языки программирования и инструменты визуализации. Есть несколько вузов, выпускники которых особенно ценятся среди работодателей.
  2. Второй способ – пойти на курсы, где вы изучите математическую базу и получите практические навыки. Если у вас уже есть техническое образование, пусть даже не связанное с Data Scientist, это оптимальный вариант. Если технического образования нет, то найти первую работу будет сложнее. Вам могут помочь курсы, где есть программы помощи с трудоустройством.
  3. Часто в профессию переходят аналитики данных и Python-разработчики. Сфера активно растет, поэтому людей привлекают высокие зарплаты и перспективы.

Также освоить профессию Data Scientist можно через интернет. Многие люди, которые ищут, с чего начать карьеру в этой сфере, выбирают данный путь. Есть несколько онлайн-университетов, где можно пройти обучение:

Название курса и ссылка на него

Описание

Профессия Data Scientist в Skillbox

Курс в университете Skillbox. Подходит новичкам и людям без опыта работы в IT. Вы изучите теорию (анализ данных, Machine Learning, статистика, теория вероятностей, функции, работа с производными и многое другое), научитесь программировать на Python и языке R, изучите библиотеки Pandas, NumPy и Matplotlib, работу с базами данных. Сможете создавать рекомендательные системы, применять нейронные сети для решения задач, визуализировать данные. Включает практические задания. На защите диплома присутствуют работодатели.

Обучение Data Scientist в Нетологии (уровень – с нуля)

Курс походит людям, которые хотят сменить текущую профессию на Data Scientist. Включает программу помощи с трудоустройством. Изучают математику для анализа данных, построение моделей, управление data-проектами, Python, базы данных, обработку естественного языка (NLP) и многое другое. Объема полученных знаний хватит для старта в карьере. Преподаватели – сотрудники крупных ИТ и финансовых компаний.

В интернете есть бесплатные курсы по Data Scientist. Если вы думаете, подойдет или нет вам эта профессия, то можете посмотреть данные уроки и получить более полное представление и описание данной работы:

  • Анализ данных на Python в задачах и примерах
  • Курс по библиотеке Pandas
  • Курс по машинному обучению для новичков
  • Бесплатный курс по базам данных MySQL
  • Работа с Google Таблицами для начинающих

Жизненный цикл Data Science

Ниже приведен краткий обзор основных этапов жизненного цикла, который позволяет ответить на вопрос о том, что такое Data Science?:

Жизненный цикл Data Science

Фаза 1 — Открытие: перед началом проекта важно понять различные спецификации, требования, приоритеты и необходимый бюджет. Вы должны обладать способностью задавать правильные вопросы

Здесь вы оцениваете, есть ли у вас необходимые ресурсы с точки зрения людей, технологии, времени и данных для поддержки проекта. На этом этапе вам также необходимо создать бизнес-задачу и сформулировать первоначальные гипотезы (IH) для тестирования.
Фаза 2 — Подготовка данных: на этом этапе вам нужна аналитическая «песочница», в которой вы можете выполнять аналитику на протяжении всего проекта. Перед моделированием вам необходимо исследовать и предварительно обработать данные. Кроме того, вы будете выполнять ETLT (extract, transform, load and transform), чтобы получить данные в песочнице. Давайте посмотрим на порядок статистического анализа ниже.

Статистический анализ

Вы можете использовать R для очистки, преобразования и визуализации данных. Это поможет вам выявить выбросы и установить связь между переменными. После того, как вы очистили и подготовили данные, пришло время сделать исследовательскую аналитику. Давайте посмотрим, как вы можете этого достичь.

Фаза 3 — Планирование модели: Здесь вы определяете методы и техники для выявления отношений между переменными. Эти отношения задают основу для алгоритмов, которые вы будете реализовывать на следующем этапе. Вы будете применять Explorative Data Analytics (EDA), используя различные статистические формулы и инструменты визуализации.

Давайте посмотрим на различные инструменты планирования модели.

Курсы или халява?

Выбор между платными курсами и самостоятельным обучением – это индивидуальное решение для каждого. В случае с наукой о данных, есть очень весомые аргументы «за» и «против» каждого варианта. Так, курсы стоят дорого – выше средней цены по современным профессиям, но вместе с тем, они дают возможность учится у практикующих специалистов, которые смогут на понятных примерах объяснить сложные темы.

С другой стороны, много профессиональной информации есть в открытом доступе, и чтобы ее изучить не нужно тратить сотни тысяч рублей. Но остается вопрос – а сможете ли вы разобраться самостоятельно? Чтобы принять взвешенное решение, советуем изучить нашу статью о плюсах и минусах каждого формата обучения: Дистанционное обучение: плюсы и минусы, возможности и преимущества онлайн-обучения

Вакансии и зарплата, перспективы профессии

Эта профессия достаточно молодая, но уже востребована на рынке. Количество данных растет в геометрической прогрессии и требует нестандартного подхода к обработке. Традиционное машинное обучение не срабатывает, нужен совершенно другой подход.

Специалистов разного уровня недостаточно, спрос на их услуги очень высок

Но важно понимать, что выйти на достойную оплату труда за несколько месяцев для Data scientist невозможно. Но для старта в профессии достаточно иметь отличную математическую базу, навыки программирование и знать алгоритмы

В зависимости от уровня знаний и опыта работы зарплата специалиста будет следующая:

Квалификация (уровень знаний)

Опыт работы и зарплата

Junior

Опыт работы до 1 года. Специалисты этого уровня уже знают базовые модели и могут их адаптировать для решения конкретной задачи. Умеют визуализировать данные. Зарплата специалиста 60 000 – 120 000 рублей.

Middle

Опыт работы 1-3 года. Специалисты этого уровня уже могут обучать прототипы и подбирать модель под конкретную задачу. Они хорошо понимают потребности бизнеса и могут быстро решить задачу. Зарплата специалиста 150 000 – 180 000 рублей.

Senior

Опыт работы от 3-х лет. Специалист такого уровня уже может управлять командой, быть связующим звеном между исполнителями и бизнесом. Он хорошо разбирается в распределенных вычислениях, может быстро обучить прототип на незнакомых данных для оценки эффективности новой идеи. Зарплата специалиста 180 000 – 270 000 руб.

Самые свежие вакансии с кратким описанием требований к кандидату

Итак, начинающий специалист может рассчитывать на зарплату от 60 000 рублей. Востребованность и высокую оплату подтверждают следующие вырезки только с одного сайта с вакансиями:

Направления развития в профессии

Data scientist всегда работает в команде, состоящей из аналитиков и инженеров данных. Каждый специалист занимается только одним направлением:

  • Data engineer – инженер данных, отвечает за создание и поддержку инфраструктуры, обеспечивая сбор, хранение и управление потоками данных в реальном времени.
  • Chief data officer – директор по данным, управляет жизненным циклом данных так, чтобы каждый специалист получал нужную информацию в подходящем виде и приемлемом качестве. Контролирует работу других специалистов.
  • Data mining – аналитик данных, который обрабатывает исходные данные и предоставляет их в компактном виде.
  • Text mining – аналитик текстов, который обрабатывает и разделяет тексты на категории, извлекая информацию и обрабатывая изменения.

Сферы применения Data scientist

В настоящее время формирование и обработка баз данных есть в любой сфере деятельности. В реальной жизни специалист может найти применение своих знаний в следующих отраслях:

Отрасль

Пояснения

Производство

Необходимо мониторить текущие процессы и находить причины возникновения брака. Предлагать варианты оптимизации и улучшения качества продукции. Планировать различные эксперименты и предлагать новые виды продукции.

Энергетика

Основные задачи специалиста состоят в прогнозировании объемов потребления и цен на электроэнергию. Он может провести диагностику объектов и рассчитать оптимальные тарифы. Предложит оптимизировать режим потребления электроэнергии, подготовит заявки на почасовое потребление.

Ритейл

Необходимо прогнозировать спрос и цены, отток или увеличение количества клиентов. Анализировать предпочтения потребителей. Оптимизировать склады и логистику для увеличения эффективности.

Финансы

Оценивать риски и резервные фонды. Отслеживать мошенничество и возможные риски неисполненных кредитных обязательств. Построение инвестиционных моделей входит в задачи специалиста.

Хорошие конференции и митапы

International Conference on Big Data and its Applications (ICBDA)

  • Самая серьезная конференция по Big Data на русском языке/li>
  • Участвуют представители бизнеса, научные сотрудники, ученые и создатели новых технологий
  • Включает соревнования, научный семинар, выставку
  • Крупнейшая международная конференция, которая сегодня проводится в крупнейших технологических центрах, таких как Сан-Хосе,Нью-Йорк, Лондон и другие
  • Все звезды и все новинки — здесь
  • Кроме конференции проводятся воркшопы и обучение, возможно также онлайн-участие
  • Ежегодный фестиваль и IT-форум, посвященный анализу данных, проходящий в Москве
  • Для профессионалов в области Big Data и новичков в этой сфере
  • Большие данные, искусственный интеллект, глубинное обучение, множество бизнес-кейсов
  • Ежегодная конференция по Data Science, проходящая раз в год в Москве
  • Для разработчиков, инженеров, исследователей
  • Кейсы, на примере которых наглядно показывается, почему не стоит забивать гвозди микроскопом
  • Одно из самых крупных и живых сообществ по анализу данных в рунете
  • В основе — групповой чат Slack
  • Здесь можно проконсультироваться, узнать о новых технологиях, найти работу и найти data scientist’а
  • Группа, посвященная митапам по Data Science в Москве
  • Анонсы встреч, лекций, мастер-классов, выступлений, обсуждений — все на тему Data Science
  • Для людей, занимающихся и интересующихся анализом, визуализацией данных и майнингом

№1. Профессия Data Scientist PRO

Платформа обучения: Образовательный онлайн-сервис Skillbox.

Кому подойдет: Новичкам, решившим с нуля освоить Python и SQL, научиться собирать и анализировать данные и выбрать профессию в IT-сфере. Даже у тех, кто ранее не связывался с программированием, появится шанс пройти стажировку еще во время обучения.

Программистам, мечтающим вновь подтянуть математику и статистику, настроиться на аналитическое и алгоритмическое мышление, научиться выявлять потребности бизнеса, применять Python и повысить заработную плату.

Аналитикам с опытам, заинтересованным в смене специальности: даже новички научатся писать эффективный код на Python, разбираться в математике и иных тонкостях, связанных с аналитикой данных.

Длительность курса: Зависит от выбранной специальности. Доступно обучение по профессиям Machine Learning, «Дата-инженер» и «Аналитик данных». Каждый студент пройдет более 15 онлайн-курсов и преодолеет более 100 часов практических испытаний.

Сертификат или диплом: Да, диплом о профессиональной переподготовке государственного образца по выбранной специальности. Выдается студентам и электронный сертификат, закрепляемый в личном кабинете.

Трудоустройство: Гарантированная помощь с трудоустройством и прохождением стажировки в качестве Junior-специалиста. Дополнительно предусмотрены консультации, связанные с оформлением портфолио.

Стоимость курса: Рассрочка без первого взноса с ежемесячным платежом от 5 900 рублей. Без скидки – от 9 834 рублей.

Чему научитесь:

  • Анализировать объемную информацию, создавать модели прогнозирования в бизнесе, медицине, промышленности;
  • Обучать нейронные сети, подготавливать аналитические системы и рекомендательные сервисы;
  • Развиваться в сфере обработке естественного языка или Computer Vision;
  • Разворачивать инфраструктуру для организации сбора и обработки данных;
  • Генерировать отказоустойчивые системы для работы с Big Data;
  • Писать код на Python, оформлять SQL-запросы, искать и исправлять ошибки;
  • Собирать и анализировать информацию, выискивать закономерности, строить гипотезы.

Как проходит обучение: Основа учебного курса – вебинары, транслируемые в режиме реального времени или добавляемые в личный кабинет в записи. После каждого занятия – практические испытания, разбираемые вместе с наставником. Финальный этап – обязательная защита диплома.

Преподаватели: Авторы профессии – Кирилл Шмидт и Юлдуз Фаттахова. Дополнительно лекции ведут действующие специалисты в рамках Data Engineer и Machine Learning, а вместе с тем – программисты и студенты-выпускники Skillbox.

Преимущества курса:

  1. Скидки для студентов Skillbox, оплата обучения в рассрочку, возможность не платить за первые 3 месяца доступа к лекциям, практическим испытаниям и дополнительным материалам;
  2. Наличие индивидуальной карьерной консультации, сосредоточенной вокруг подготовки резюме и оформления портфолио, прохождения собеседований и поиска вакансий;
  3. Доступ к бонусным курсам: «Карьера разработчика: трудоустройство и развитие», «Система контроля версий Git», «Английский для IT-специалистов»;
  4. Год обучения английскому языку вместе с онлайн-школой «КЭСПА» в подарок: предложение включает 4 индивидуальные сессии с преподавателем по 25 минут;
  5. Возможность выбрать подходящую специальность на основе пройденного материала и добраться до позиции Middle;
  6. Серия обязательных дипломных проектов, проверяющих знания и способных дополнить портфолио и стать дополнительным аргументом при трудоустройстве;
  7. Шанс зарегистрироваться и стать частью платформы Kaggle, публикующей задания для отработки навыков на реальных рабочих кейсах;
  8. Курс адаптирован под новичков, совмещающих обучение – с работой или учебой: для прохождения заданий достаточно от 3 до 7 часов в неделю;
  9. Почти круглосуточная помощь от кураторов, преподавателей и координаторов.

Чем отличается аналитик Big Data от исследователя данных

На первый взгляд может показаться, что Data Scientist ничем не отличается от Data Analyst, ведь их рабочие обязанности и профессиональные компетенции частично пересекаются. Однако, это не совсем взаимозаменяемые специальности. При значительном сходстве, отличия между ними также весьма существенные:

  • по инструментарию – аналитик чаще всего работает с ETL-хранилищами и витринами данных, тогда как исследователь взаимодействует с Big Data системами хранения и обработки информации (стек Apache Hadoop, NoSQL-базы данных и т.д.), а также статистическими пакетами (R-studio, Matlab и пр.);
  • по методам исследований – Data Analyst чаще использует методы системного анализа и бизнес-аналитики, тогда как Data Scientist, в основном, работает с математическими средствами Computer Science (модели и алгоритмы машинного обучения, а также другие разделы искусственного интеллекта);
  • по зарплате – на рынке труда Data Scientist стоит чуть выше, чем Data Analyst (100-200 т.р. против 80-150 т.р., по данным рекрутингового портала HeadHunter в августе 2019 г.). Возможно, это связано с более высоким порогом входа в профессию: исследователь по данным обладает навыками программирования, тогда как Data Analyst, в основном, работает с уже готовыми SQL/ETL-средствами.

На практике в некоторых компаниях всю работу по данным, включая бизнес-аналитику и построение моделей Machine Learning выполняет один и тот же человек. Однако, в связи с популярностью T-модели компетенций ИТ-специалиста, при наличии широкого круга профессиональных знаний и умений предполагается экспертная концентрация в узкой предметной области. Поэтому сегодня все больше компаний стремятся разделять обязанности Data Analyst и Data Scientist, а также инженера по данным (Data Engineer) и администратора Big Data, о чем мы расскажем в следующих статьях.

Data Scientist – одна из самых востребованных профессий на современном ИТ-рынке

В области Big Data ученому по данным пригодятся практические знания по облачным вычислениям и инструментам машинного обучения. Эти и другие вопросы по исследованию данных мы рассматриваем на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

  • PYML: Машинное обучение на Python
  • DPREP: Подготовка данных для Data Mining
  • DSML: Машинное обучение в R
  • DSAV: Анализ данных и визуализация в R
  • AZURE: Машинное обучение на Microsoft Azure

Смотреть расписание
Записаться на курс

🥇 №1. Профессия Data Scientist от Skillbox

После прохождения этого курса ты освоишь 2 специальности и получишь 1.5 года реального стажа в Data Science.

Кому подойдёт:

  • Новичкам в IT. Чтобы получить базовые навыки программирования, аналитики и математики. 
  • Программистам. Для улучшения своих знаний и навыков в Python и R. 
  • Аналитикам. После обучения ты научишься ставить гипотезы, кодить на Python и R, а также повысишь свою квалификацию. 

Чему научат:

  • Навыкам в аналитике.
  • Базовым знаниям по математике для DS.
  • Работе с языками Python и R.
  • Методам визуализации данных.
  • Взаимодействию с базами данных.
  • Использованию нейронных сетей и построению рекомендательных систем.

Сколько длится: 18 месяцев.

Цена: 232 500 рублей без скидки, 116 250 рублей со скидкой

Data Scientist – технические навыки

Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.

Драйверы профессии

  • автоматизация производственных и управ­ленческих процессов
  • рост объёмов данных, доступных для анализа
  • развитие концепции открытых данных

Какие задачи будет решать Data Scientist

  • сбор больших массивов структурированных и неструктурированных данных (количественных, текстовых, графических и др.) и их преобразование в удобный формат
  • анализ данных с помощью методов математической статистики, моделирования и других аналитических методов (машинное обучение, текстовая аналитика и др.) в целях повышения эффективности управленческих решений
  • превращение инсайтов (выявленных нео­чевидных закономерностей) в конкретные решения для бизнеса/науки/общества
  • сотрудничество с ИТ-подразделениями и управленцами
  • визуализация данных

Какие знания и навыки у него будут

  • умение структурировать и интегрировать разнородные источники данных
  • умение применять методы системного анализа при постановке задач
  • продвинутый уровень цифровых навыков
  • навыки программирования и работы с базами данных
  • знание методов дискретной математики, математической статистики, машинного обучения и компьютерной лингвистики
  • способность разрабатывать математические модели выявления зависимостей, распознавания образов, прогнозирования и принятия решений
  • презентационные навыки

Программирование

Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.

По данным Towardsdatascience

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector