Какое программное обеспечение предпочитают специалисты по анализу данных

Обновлено: 17.05.2024

Data Science является одним из наиболее перспективных и востребованных направлений в 2021 году, но эта должность требует от специалиста серьезной технической подготовки и большой базы знаний. Мы составили список лучших онлайн-курсов по Data Science, которые помогут освоить профессию новичку.

ТОП-5 лучших онлайн-курсов по DS

1. Профессия Data Scientist в SkillFactory

Длительность: 2 года;

Формат: лекции, интерактивные задачи, проверочные тесты, тренажеры, наглядные кейсы;

Документ об окончании: сертификат.

Программа

  1. Основы. Python, БД, предварительная обработка данных, очистка данных, а также развертывательный анализ. Выгрузка из разных источников данных. Визуализация. Проверка статистических гипотез.
  2. Математика / машинное обучение.
  3. Специализация на выбор слушателей: ML, NLP, CV.

Чему научитесь

  1. Использовать Пайтон для работы с алгоритмами.
  2. Получать и анализировать данные из API / WEB-источников.
  3. Визуализировать данные (Tableau).
  4. Делать модели при помощи deep или machine learning для решения конкретных задач.
  5. Строить ML- или математические модели.
  6. Использовать алгоритмы для создания рекомендательных сетей.

Преимущества

  • Обучаться можно с нуля – курс рассчитан на новичков без глубоких познаний в математике.
  • Развитие Soft Skills.
  • Разнообразные форматы обучения, которые не позволят заскучать, акцент на прикладных навыках.
  • Консультации с экспертами, которые помогут разобраться со сложными вопросами, провести работу над ошибками.
  • Карьерная поддержка в конце обучения, помощь в подготовке к собеседованию от HR-специалистов, возможность попасть на стажировку в компанию партнеров.
  • Скидки и рассрочки.
  • Дружное профессиональное сообщество в Slack.

Недостатки

Вся информация

2. Факультет искусственного интеллекта в GeekBrains

Длительность: 2 года;

Формат: вебинары, видео лекции в записи, практика;

Документ об окончании: диплом о переподготовке (гособразца).

Программа

  1. Программирование: Линукс и серверы, Python, библиотеки, БД.
  2. Статистические исследования, сбор данных, матанализ, выборочная статистика, дисперсионный анализ.
  3. Углубленная математика.
  4. Machine learning, рекомендательные системы.
  5. Нейронные сети, PyTorch.
  6. Искусственный интеллект: компьютерное зрение, а также обработка естественного языка.

Чему научитесь

  • Соревноваться в Data Mining – интеллектуальный анализ данных (Kaggle).
  • Прогностическое моделирование спроса и цен.
  • Что такие сегментация, классификация, а также кластеризация клиентских баз.
  • Строить скоринговые модели.
  • Формировать и автоматизировать отчеты, а также рутинные задачи по data analytics.
  • Делать рекомендательные системы.
  • Освоите обширный инструментарий (Python, Tensorflow, Keras, PyTorch, Scrapy, MongoDB, Numpy, Pandas, Matplotlib, Scikit-learn, Seaborn, Hadoop, spaCy, Jupyter, SQL, Linux, PyCharm, Beautiful soup, OpenCV, Docker, Git, GitHub.

Преимущества

  • Лояльная оплата: рассрочки, выгодные скидки, отсроченный платеж.
  • Карьерная помощь.
  • Много дополнительных курсов для расширения компетенций выпускника, повышения его эффективности и прокачки гибких навыков.
  • Диплом государственного образца.
  • Поддержка менторов во время обучения, общение с одногруппниками в чате.

Недостатки

Вся информация

3. Data Scientist в Нетологии

Длительность: 11 месяцев;

Формат: вебинары + очные лекции;

Документ об окончании: государственного образца.

Программа

  1. Работа с данными: где их искать, и как находить между ними взаимосвязи.
  2. Python, основы описательной статистики, статистический анализ.
  3. Feature Engineering, а также предобработка данных.
  4. Построение моделей (с учителем и без, ансамбли). Подбор метрик, оценка качества модели.
  5. Машинное зрение, распознавание изображений.
  6. Машинное обучение и его основные сферы применения.

Советуем изучить подробную программу на странице описания курса.

Чему научитесь

  • Профессионально работать с БД
  • Понимать синтаксис и кодить на Пайтоне.
  • Строить модели.
  • Использовать математику по специальности.
  • Освоите основные техники машинного зрения, такие как извлечение признаков, поиск по картинкам, сегментирование.
  • Использовать machine learning для оптимизации бизнеса и потребностей заказчика.

Преимущества

  • Программа трудоустройства.
  • Диплом о переподготовке.
  • Больше 10 кейсов в портфолио.
  • Сопровождение кураторов.
  • Скидки, рассрочка.
  • Дипломный проект, а также итоговый хакатон для подтверждения знаний.

Недостатки

Вся информация

4. Профессия Data Scientist в Skillbox

Длительность: 2 года;

Формат: онлайн-лекции + практические ДЗ;

Документ об окончании: только диплом образовательной платформы.

Кому: для тех кто хочет стать профи.

Программа

  1. Вводный курс: изучение Python, необходимая математическая база, базовый уровень аналитики, ML, основы статистики, теория вероятностей, deep learning.
  2. Специализация: мидл уровень аналитики/ML.
  3. Бонусы: английский, а также универсальные знания для разработчика.

Чему научитесь

  • Программировать на Python / R.
  • Профессионально работать с визуализацией.
  • Применять БД и библиотеки.
  • Нейросетям (Tensorflow, Keras), будете применять их на конкретных задачах.
  • Делать рекомендательные системы.

Преимущества

Недостатки

  • Стоимость.
  • Не выдается диплом государственного образца.

Вся информация

5. Профессия: Data Scientist в ProductStar

Длительность: полгода;

Формат: видео уроки и ДЗ;

Документ об окончании: цифровой сертификат.

Программа

  1. Данные.
  2. Python.
  3. Machine Learning – основные модели.
  4. Нейронные сети, NLP.
  5. Рекомендательные системы.

Чему научитесь

  • Работать с БД, библиотеками.
  • Использовать Пайтон для качественного анализа.
  • Выстраивать модели машинного обучения.
  • Применять математику для потребностей дата сайенс.

Преимущества

  • Карьерная поддержка.
  • Поддержка наставников.
  • Индивидуальный график обучения.
  • Рассрочка.

Недостатки

  • Курс длится всего полгода.
  • Не выдается диплом государственного образца.

Вся информация

6. Machine Learning с нуля до Middle в Otus

Длительность: год;

Формат: вебинары и практика;

Документ об окончании: диплом гособразца.

Программа

  1. Python, математика, основные модели машинного обучения.
  2. Изучение продвинутых моделей ML, выполнение полного пайплайна работ, создание портфолио.
  3. Интенсив AWS.

Чему научитесь

  1. Сможете использовать Пайтон для потребностей data science.
  2. Сможете освежить знания по математике и будете использовать ее для создания моделей.
  3. Построите основные статистические модели ML.
  4. Научитесь выполнять полный спектр работ от подготовки датасета до подготовки к продакшену.

Преимущества

  • Помощь на этапе трудоустройства.
  • Консультации персонального наставника.
  • Диплом государственного образца.
  • Акцент на практических знаниях.

Недостатки

Вся информация

7. Как стать специалистом по Data Science в Яндекс.Практикум

Длительность: 8 месяцев;

Формат: онлайн-тренажер и практические задания;

Документ об окончании: диплом о дополнительном образовании.

Программа

  1. Основы Пайтон и анализа данных.
  2. Исследовательский и статистический анализ.
  3. Machine learning.
  4. Обучение с учителем – supervised (регрессия, кластеризация, классификация), как тестировать гипотезы.
  5. Математическая база
  6. Извлечение и основные системы хранения данных.
  7. Компьютерное зрение.
  8. Обучение без учителя (unsupervised).

Более детальная программа – на странице описания курса.

Чему научитесь

  • Изучите язык Python и смогут использовать его в профессии.
  • Сможете работать с базами данных (Scikit-Learn, фреймворком XGBoost, Jupyter Notebook, SQL).
  • Подтянете знания по математике.
  • Сможете обучиться основным сферам применения машинного обучения и выполните несколько проектов для портфолио.

Преимущества

  • Несколько проектов в портфолио.
  • Курс разработан ведущими специалистами Яндекса.
  • Первый модуль курса можно пройти бесплатно, остальная часть материала – платно.
  • Поддержка наставников.
  • Есть рассрочка.
  • Помощь в поиске работы.
  • Диплом государственного образца.

Недостатки

Вся информация

8. Data Science academy в SF Education

Длительность: 6 мес.;

Формат: видеоуроки, вебинары, тренажеры, симуляторы;

Документ об окончании: удостоверение о повышении квалификации.

Программа

Чему научитесь

  • Писать код на самых актуальных для дата сайнс языках – Python , R.
  • Разберетесь, как использовать инструменты анализа для потребностей бизнеса.
  • Презентовать результаты своих исследований при помощи современных методов визуализации.

Преимущества

  • Акцент на практических навыках, тренировка студентов в работе над реальными рабочими ситуациями.
  • Диплом государственного образца.
  • Лояльная оплата: скидки, рассрочка, кешбек от банков-партнеров.

Недостатки

  • Достаточно высокая цена без скидки.
  • Короткий курс для такой сложной специальности.

Вся информация

9. Специалист по Data Science, машинному обучению и искусственному интеллекту в Специалист.ру

Длительность: около 6 месяцев;

Формат: онлайн или очно;

Документ об окончании: гособразца.

Программа

  1. Основы работы с Big Data.
  2. Введение в статистику.
  3. Microsoft Excel .
  4. Анализ и визуализация данных.
  5. Анализ данных на SQL.
  6. Программирование R.
  7. Программирование Python.
  8. Data Science: Инструменты и технологии.
  9. Data Science: Применение машинного обучения.

Чему научитесь

  • Находить практическое применение для знаний по описательной статистике.
  • Делать из разнородных данных понятные отчеты, графики и диаграммы.
  • Использовать базы данных для анализа и создания отчетов.
  • Использовать big data и ML для анализа.

Преимущества

  • Диплом государственного образца.
  • Рассрочка.
  • Можно проходить курс по частям.
  • Карьерные консультации в ходе обучения.

Недостатки

Вся информация

10. Курс по математике для Data Science в SkillFactory

Длительность: 8 недель;

Формат: лекции и практика;

Документ об окончании: сертификат.

Программа

  1. Линейная алгебра.
  2. Математический анализ.
  3. Статистические методы и теория вероятностей, основные типы распределений, корреляции.
  4. Временные ряды и другие математические методы.

Чему научитесь

Подтянете свою математическую базу, которая необходима для полноценного освоения машинного обучения, сможете глубже погрузиться в специализацию.

Преимущества

  • Рассрочка, скидки.
  • Можно учиться в удобное время.
  • Курс дает не просто структурированную математическую базу с абстрактными примерами, а рассказывает, как использовать эти знания в дата сайнс.

Недостатки

  • Не выдается диплом государственного образца.
  • Узконаправленный курс, который не дает комплексные знания в профессии.

Вся информация

11. Основы математики для Data Science в Skillbox

Длительность: 4 месяца;

Формат: видеоуроки и ДЗ;

Документ об окончании: диплом центра.

Программа

  1. Базовые математические объекты, байесовские методы.
  2. Функции переменных.
  3. Векторы, матрицы, градиент.
  4. Интерполяция, полиномы.
  5. Функции нескольких переменных.
  6. Линейные уравнения.

Чему научитесь

  • Разбираться в математических терминах и понимать сложные статьи по Дата Сайнс.
  • Научитесь работать с функциями и переменными, будете использовать их в решении практических задач.
  • Узнаете математические основы машинного обучения для эффективного прогнозирования.
  • Научитесь использовать Пайтон для решения сложных математических задач.

Преимущества

  • Можно учиться в удобное время.
  • Основательная программа обучения, которая позволит заполнить пробелы в математике.
  • Проверки, разбор домашних заданий от лекторов.
  • Рассрочка, скидки на обучение.

Недостатки

  • Не выдается диплом государственного образца.
  • Курс не дает комплексных знаний по профессии.

Вся информация

12. Математика для Data Science в Otus

Длительность: 6 месяцев;

Формат: вебинары и практические ДЗ;

Документ об окончании: сертификат.

Программа

  1. Линейная алгебра
  2. Матанализ
  3. Математическая статистика

Чему научитесь

Освоите математический аппарат, который позволит достичь уровня мидл в области Data Science.

Преимущества

  • Не только теория, но и примеры использования математики на реальных кейсах и инсайтах преподавателей. Кроме того, преподаватель проверяет и дает обратную связь по практическим заданиям, можно задавать вопросы напрямую.
  • Основательный и достаточно длительный курс.
  • Рассрочка.

Недостатки

  • Не дает комплексных знаний.
  • Без диплома государственного образца.

Вся информация

13. Data Science: будущее для каждого в Нетологии

Длительность: 3 дня;

Формат: онлайн;

Документ об окончании: нет.

Программа

  1. DS – будущее для каждого.
  2. Базовые навыки.
  3. Как найти работу.

Чему научитесь

  • Узнаете основные направления в сфере работы с данными.
  • Поймете, какими навыками и инструментами должен владеть специалист, что должен уметь.
  • Как начать карьеру в профессии и сколько времени нужно потратить на обучение.

Преимущества

  • Бесплатно.
  • Отличный курс знакомство, который расскажет о специальности и поможет понять, подходит ли она вам.

Недостатки

  • Не дает профильных профессиональных знаний.
  • Нет документов о повышении квалификации.

Вся информация

Бесплатные курсы

14. Введение в Data Science и машинное обучение от Stepik

Длительность: 30 уроков и 9 часов video;

Формат: лекции, тестирование, интерактивные задачи;

Документ об окончании: сертификат института биоинформатики.

Программа

  1. Вводный модуль.
  2. Решающие деревья.
  3. Random Forest, нейронные сети.
  4. Stepik ML contest.

Чему научитесь

  • Основным терминам и инструментам дата сайнс.
  • Узнаете, как работать с деревьями решений и нейронными сетями.
  • Познакомитесь с популярными библиотеками и базами данных (Pandas и Scikit-learn).

Преимущества

  • Бесплатно.
  • Дает хорошую базу для новичков и понимание профессии.
  • Длительность курса без ограничений: можно учиться в своем темпе, доступ к курсу по запросу – сразу после регистрации.

Недостатки

  • Недостаточно знаний, чтобы претендовать на вакансию.
  • Нет документа государственного образца.

Вся информация

15. Профессиональная сертификация 'Наука о данных IBM' на Coursera

Длительность: около 11 месяцев;

Формат: онлайн;

Документ об окончании: сертификат.

Программа

  1. Основы науки о данных.
  2. Основные инструменты Дата Сайнс.
  3. Методология.
  4. Python для анализа данных.
  5. Базы данных.
  6. Анализ данных.
  7. Визуализация, Tableau, Power Bi.
  8. Машинное обучение.

Чему научитесь

  • Что такое наука о данных, различные виды деятельности специалиста по данным.
  • Развивать практические навыки с помощью инструментов, языков и библиотек, используемых профессиональными специалистами по данным.
  • Импортировать и очищать наборы данных, анализировать и визуализировать данные.
  • Использовать инструменты: Jupyter, GitHub, R Studio.

Преимущества

  • Бесплатно.
  • Курс создан при поддержке IBM.
  • Дает хорошую базу знаний для начинающего специалиста.

Недостатки

  • Нет помощи с трудоустройством.
  • Нужно знать английский для прохождения курса.

Вся информация

Резюмируя

Профессию data scientist (в других вариациях data engineer или analyst) неоднократно называли самой заманчивой профессией 21-го века. И по последней статистике Linkedin она по-прежнему входит в подборку наиболее востребованных и высокооплачиваемых специальностей в мире. Конечно, у нее есть свои плюсы и минусы, но нельзя отрицать, что это компетенция будущего, которая высоко ценится работодателями. Нейросети, ИИ (artificial intelligence), технологии машинного обучения сегодня используются всеми передовыми компаниями мира – такими как Google, Facebook, YouTube. Средние зарплаты таких специалистов в России достигают 200 тыс. рублей, а опытные senior специалисты (у которых около 5 лет опыта) могут зарабатывать и 500 тысяч в месяц.

Тем, кто хочет вливаться в профессиональное комьюнити, рекомендуем площадку Open Data Science – это сайт самого масштабного международного сообщества. Всем новичкам будет полезно прочесть этот самоучитель. Он поможет разобраться, чем именно занимается data scientist, что должен знать специалист, и где доступно можно получить эти знания. А благодаря проекту Colab вы сможете потренироваться писать код на Пайтон прямо в браузере без дополнительной настройки.

Советую также обратить внимание на эти варианты: лучшие предложения по обучению аналитике данных

Обязанности аналитика данных

Обычно Data Analyst работают с массивами данных, решая следующий перечень задач:

  1. Сбор информации.
  2. Подготовка полученных сведений к проведению анализа (сортировка, фильтрация, выборка).
  3. Нахождение закономерностей.
  4. Визуализация данных, упрощение понимания важных тенденций и составление выводов.
  5. Составление гипотез для улучшения определенных показателей.

знания необходимые Data analyst

Решение перечисленных задач способствует достижению основной цели – получение из кучи необработанных данных ценных сведений. Это нужно для принятия верных управленческих решений.

Иногда в круг обязанностей Data Analyst входит моделирование данных, т. е. аналитику придется разрабатывать и тестировать модели машинного обучения. Но обычно эта задача перекладывается либо на Data Scientist (ученый по данным), либо в случае детального разделения труда – на отдельного специалиста, занимающегося исключительно машинным обучением.

В большинстве случаев на плечи Data Analyst ложится анализ бизнес-процессов с учетом потоков корпоративных данных. Соответственно, аналитику придется решать задачи, связанные с BI — Business Intelligence, а также оптимизировать производственные процессы.

Личные качества

Чтобы успешно справляться с профессиональными обязанностями, нужно обладать следующими качествами:

  1. Комфортно чувствовать себя в одиночестве и любить тишину. Работа требует взаимодействия с компьютером, а не с другими людьми. Аналитику, если только он не возглавляет подразделение, приходится мало общаться с коллегами, а с клиентами обычно и вовсе не нужно контактировать. Поскольку рабочий день состоит в обработке данных и проведении времени за монитором, то лицам, которые не могут без общения, профессия Data Analyst не подойдет.
  2. Логика. Нужно уметь мыслить логически, чтобы структурировать получаемую информацию и находить закономерности в потоках данных. Это поможет докопаться до истины в большинстве случаев.
  3. Терпение и усидчивость. Анализ данных нельзя отнести к творческим профессиям, т. к. работа требует монотонного повторения рутинных действий по сбору, анализу и оценке информации. Для понимания ее сути стоит провести аналогию с пазлами. Если нравится часами сидеть, собирая общую целостную картину из разрозненных и кажущихся поначалу бессмысленных деталей, то это работа для вас.
  4. Концентрация ума и скрупулезность. Аналитик зачастую оперирует точными параметрами: цифры, алгоритмы, данные. При составлении запросов ему нужно допускать как можно меньшее количество ошибок из-за невнимательности, поэтому он должен быть педантичным и с легкостью выдерживать умственное напряжение, необходимое для спокойной вдумчивой работы.

Что должен знать и уметь Data Analyst

Ключевыми навыками выступают:

  1. Понимание специфики предметной области. Чтобы демонстрировать высокий показатель эффективности труда, аналитик данных должен погружаться в выбранную сферу, понимая и учитывая ее особенности при обработке информации и составлении выводов.
  2. Владение средствами и методами Data Mining – интеллектуального анализа информации.
  3. Знание языков программирования (Python, SQL, R), чтобы писать запросы к реляционным и не реляционным базам данным.
  4. Умение управлять хранилищами ETL и аналитическими системами BL.
  5. Визуализация информации при помощи витрин данных Tableu, Qlick View, Power BI.
  6. Умение использовать инфраструктуру Apache Hadoop.
  7. Понимание математики в части статистики, дискретной математики и теории вероятностей.
  8. Знание системного анализа, включающего понимание методов анализа бизнес-процессов, проектного менеджмента, управления качеством.

Востребованность профессии и перспективы работы

Востребованность профессии Data Analyst

Динамика популярности запросов по специальности Data Analyst в Google

Профессия Data Analyst сейчас востребована и ее популярность со временем только растет, ведь для эффективного развития бизнеса важно собирать и изучать данные о клиентах и конкурентах.

Сделав упор на изучение языков программирования и повысив собственный уровень квалификации, можно переключиться на более востребованные направления. Чаще всего они престижны и, соответственно, лучше оплачиваются: работа с большими объемами информации (Big Data Analyst), моделирование данных, составление прогнозов и т. д.

Аналитику необязательно работать в офисе. Он может работать удаленно или на фрилансе. Для этого потребуется лишь ноутбук или стационарный компьютер, доступ к Сети и базам данных.

Сколько зарабатывают Data Analyst в России

Размер заработной платы напрямую зависит от престижности компании и места ее расположения, но аналитику данных, как и большинству IT-профессий, при выборе удаленного режима работы можно не обращать внимание на географические ограничения. В этом случае жители регионов вполне могут рассчитывать на высокую зарплату, характерную для крупных городов или даже других стран.

Типичные вакансии Data Analyst для Москвы выглядят следующим образом:

Зарплата и вакансии Data Analyst в Москва

Средний показатель заработной платы в регионах колеблется в пределах 60-65 тыс. руб.

Средний показатель заработной платы Data Analyst в регионах
Сколько зарабатывают Data Analyst в США

Для сравнения приведем средний уровень заработной платы в США, т. к. со сносными знаниями английского языка не составит большого труда воспользоваться забугорными биржами фриланса, чтобы найти работу в компаниях Соединенных Штатов или их филиалах в других западных странах.

Заработная плата Junior Data Analyst в год:

Зарплата unior Data Analyst в США

Почти $70 тыс. в год – это чуть более $5,8 тыс. в месяц. В рублях — около 375 000. Немало!

Заработная плата Senior Data Analyst в год:

Зарплата Senior Data Analyst в США

В пересчете на месяц Senior Data Analyst получает $8,9 тыс. — от 550 до 600 тысяч рублей.

Средняя зарплата на рынке труда США при этом составляет примерно $2,9 тыс. (190 000 рублей), т. е. младший и старший аналитик данных получает весьма хорошую заработную плату даже по меркам Соединенных Штатов!

Как стать аналитиком данных

Традиционно для IT-профессий, у человека, желающего освоить одну из них, есть три очевидных пути, каждый из которых обладает своими особенностями:

  1. Самоучка. Благодаря интернету не составит труда найти литературу и видеоматериалы, позволяющие изучить различные аспекты работы аналитика данных. Но на фоне единственного преимущества в том, что этот способ бесплатный, у него есть множество недостатков, связанных с отсутствием систематичности, сложностью с оценкой актуальности усваиваемой информации, невозможностью впоследствии доказать получение специальных знаний и пр.
  2. ВУЗ. Если поступить в высшее учебное заведение, то в этом случае можно получить весь необходимый объем знаний. Проблема в том, что информации будет слишком много, т. к. первые 2-3 года студентам дают множество дисциплин, напрямую не связанных с выбранной профессией. То есть программа обучения сильно растягивается по времени, а стоимость этого самого обучения совсем не маленькая. Причем в вузах обычно мало практики, а лишь пустая теория, да компетентность отдельных преподавателей порой под большим вопросом.
  3. Курсы – идеальный баланс между самообучением и вузом. С одной стороны, обучение происходит в довольно короткие сроки и стоит значительно дешевле, чем в вузе. С другой стороны, студент последовательно получает весь необходимый ему объем знаний и тут же усваивает их на практике, работая над реальными проектами, а по окончании получает сертификат, с которым не составит труда найти хорошую работу.

Хотите пойти по пути курсов? Хорошее решение. Вот подборка лучших образовательных программ

Познакомившись со спецификой работы аналитика данных и путей освоения этой профессии, напишите в комментариях, чем вам нравится или не нравится Data Analyst и какой путь ее освоения вы бы выбрали для себя?

Аналитик данных – специалист по сбору, обработке и интерпретации информации. Его работа помогает принимать решения в управлении, бизнесе и науке. Подобные специалисты обычно работают в компаниях, где практикуется data-driven подход (решения принимаются с учетом полученных данных и их анализа).

Аналитика данных требуется любому проекту. Сбор и анализ данных одинаково актуален для игр, обучения, медицины и медиа. Соответственно везде, где есть возможность сохранять сведения о продукте и поведении ЦА, требуется аналитик данных.

Переходи и подписывайся прямо сейчас:

Сегодня вы узнаете, кто такой аналитик данных, какие у него обязанности и зарплата. Какие навыки и знания нужны, чтобы начать работать в этой области, и где их получить.

Аналитик данных – кто это такой и чем занимается

Аналитик данных – специалист, который занимается анализом информации и ее интерпретацией. То есть в список его задач входит сбор цифровых данных, их анализ, визуализация и трактовка. Главная цель специалиста по анализу больших данных – извлечь из полученных данных выгоду (структурировать, проверить гипотезы, отыскать закономерности и сформировать четкий вывод). Это поможет руководителю принять правильные решения по управлению компанией.

Все аналитики делятся на системных аналитиков и бизнес-аналитиков. Последние являются узконаправленными специалистами, которые отслеживают отдельные бизнес-процессы. Например, инвестиционный, финансовый аналитик или специалист по рискам.

Системные аналитики трудятся в сфере IT – это digital-аналитики. Одним из популярных направлений считается Data Scientist. Оно включает в себя следующие профессии: Data Analyst, Big Data Analyst, Deep learning, Data Engineer, Machine learning. Data Scientist – эксперт по работе с большим массивом данных, который используя технические навыки и статистику, решает сложные задачи. Это отчасти трендспоттер, компьютерный ученый и математик.

Чем он может быть полезен компании? Например, планируется открытие кафе. Есть данные о стоимости аренды в разных районах, местонахождении других кафе и городском транспорте. В таком случае Data Scientist может выяснить, где целесообразнее всего открыть кафе.

Еще один пример. Оператор мобильной связи собрался добавить новый тариф. Дата-сайентист получает от компании базу данных и сведения о поведении клиентов, после чего подсчитывает потенциальный объем рынка и экономику нового тарифа. Таким образом, Data Scientist снижает риски и определяет будущую стратегию.

Грань между системными и бизнес-аналитиками размыта. Все системы аналитики данных нужны для улучшения, что возможно лишь благодаря автоматизации процессов. Однако при выборе между этими двумя направлениями цифровая сфера перспективнее. Аналитика данных на Python и других языках программирования дает возможность обрабатывать огромные объемы, быстрее анализировать информацию за счет автоматизации рутинных процессов.

Обязанности и требования аналитика данных

Аналитика – специфическая сфера, где от работников требуется определенный набор личностных качеств и знаний.

Обычно алгоритм работы специалиста по анализу больших данных выглядит так:

  1. Сбор информации. Изучение политики работы с данными, целей и стратегии компании.
  2. Ознакомление с параметрами набора. Речь идет о типах данных и видах их сортировки.
  3. Предварительная обработка информации со структурированием и исправлением ошибок.
  4. Анализ данных и решение поставленной задачи.
  5. Формирование вывода.
  6. Визуализация результата для подтверждения/опровержения гипотезы и принятия решения.

Знания, необходимые системному аналитику:

  • Инструменты доступа и обработки данных, электронные таблицы (SQL, СУБД, хранилища данных, ETL).
  • Языки программирования: R, SAS, C++, Python.
  • BI-аналитика, аналитика данных, Data Scientist.
  • Статистика и математика (высшая математика, математическая логика, линейная алгебра, теория вероятности и др.).
  • Машинное и глубокое обучение – умение настроить или обучить с нуля нейросеть.
  • Data Engineering – организация получения, хранения и доступа к информации.
  • Data Science в продакшн. Знание инструментов для поиска лучшего в каждом отдельном случае. Это может быть внедрение SQL-запросов или машинного обучения, построение базы данных.

Обязанности и требования аналитика данных

В таблице показаны скиллы аналитика начального и продвинутого уровня.

Начальный уровень Продвинутый уровень
Абстрактное мышление и развитый эмоциональный интеллект. Сбор и анализ требований клиента к отчетам.
Умение создавать прототипы. Получение, редактирование и визуализация информации.
Знание основ статистики и математических методов. Интерпретация данных с обоснованными выводами.
Выявление взаимосвязи событий и причин в метриках. Разработка требований к аналитическим инструментам, курирование их внедрения.
Предоставление рекомендаций бизнесу. Проведение А/Б тестов и исследований для принятия стратегического решения.

Вакансии и зарплата специалиста по анализу данных

Зарплата аналитика данных зависит от вашего опыта, объема работы и ее места. В России новичкам платят в среднем от 65 тысяч рублей в месяц. Опытные специалисты могут рассчитывать на сумму от 115 до 275 тысяч рублей.

Вакансии и зарплата специалиста по анализу данных

Аналитики данных требуются в маркетинге, банках, IT/Телекоме и еще 25 профобластях. Есть вакансии с разным графиком работы и типом занятости (в том числе для проектной работы и стажировки). Можно найти работу в других европейских странах и США (с дальнейшим переездом).

Сколько зарабатывает аналитик данных в России

  • В офисе. Классическая схема с официальным оформлением и получением социальных гарантий в виде больничного и ежегодного оплачиваемого отпуска. Главный минус – привязка к определенному городу. В регионах заработная плата ниже.
  • Удаленно. Часто это официальная работа на полный день, просто вне офиса. Специалист может стать сотрудником крупной компании, даже будучи жителем небольшого города или поселка.
  • Фриланс. Это проектная работа с оплатой конкретного результата. Предполагает самостоятельный поиск клиентов и заказов на биржах, сайтах по поиску работы. Опытные аналитики обычно создают сайты-визитки и дают рекламу о своих услугах на разных площадках.
  • Переезд. Работа в зарубежных компаниях считается более престижной и высокооплачиваемой. Главное – ваш опыт и умение свободно писать и говорить на иностранном языке (уровень от B2).

Где учиться

Для самостоятельного обучения с нуля используйте книги. Сначала изучите математический анализ, математическую статистику. Затем прочитайте учебники о дискретной математике, изучите программирование на Python.

Где учиться, если вы хотите получить информацию в полном объеме и быстро войти в профессию? Обратите внимание на специальные курсы!

Нетология

Цена: 190 000 рублей. Подробнее >>>

Skillbox

Курс рассчитан на самостоятельное обучение, которое в среднем занимает около года.

Стоимость – 3900 рублей в месяц. При этом первый платеж необходимо сделать лишь после 6 месяцев обучения, можно взять кредит до трех лет. Подробнее >>>

Яндекс.Практикум

Вводный курс с 20 часами обучения – бесплатный. Цена продолжения обучения – 65 тысяч рублей за шесть месяцев. После платного обучения вы получите соответствующий сертификат.

Заключение

Ежедневный прирост объема информации делает профессию аналитик данных одной из самых актуальных. Это востребованная, высокооплачиваемая специальность. Ее суть заключается в сборе, обработке информации, проверки гипотез и формировании рекомендаций для компании-заказчика.

Вы можете стать системным или бизнес-аналитиком, работать в офисе, удаленно или на фрилансе. Для входа в профессию нужно знать высшую математику, языки программирования, статистику и бизнес-процессы. Получить необходимые навыки можно с помощью книг или специализированных курсов.


Photo by NASA on Unsplash

План состоит из трех частей (технические навыки, теория, практика) и полностью построен на бесплатных материалах. Для тех, кто всё же готов немного инвестировать в самообразование, прикреплены ссылки на курсы, которые ускорят процесс.

Технические навыки

— Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.

Основы Python

В сети масса бесплатных вводных курсов, но лично я считаю, что лучшие — это курсы Codecademy: в них много практических заданий, все они выполняются в браузере.

Предлагаю пройти вот этот вводный курс по Python. Здесь изложены основы синтаксиса, функции, поток управления, циклы, модули и классы.

Python и анализ данных

Далее нужно очень хорошо разобраться с тем, как Python используют в анализе данных.

  1. Для начала пройдите хотя бы бесплатную часть материалов по анализу данных на dataquest.io. Этот ресурс предлагает полноценные учебные программы по подготовке дата-аналитиков, дата-сайентистов и дата-инженеров.
  2. Очень много контента, особенно по анализу данных, находится в бесплатном доступе, но если вы захотите выучиться побыстрее и не пожалеете денег, то очень рекомендую оформить подписку на несколько месяцев. Этот курс заложит прочный фундамент для дальнейшего изучения DS. Я прошла программу для дата-сайентистов за полгода. Цены у Dataquest в диапазоне от $24,5 до $49 в месяц в зависимости от того, на какой срок покупать подписку (годовая — дешевле).

Python и машинное обучение

  1. По возможности не скупитесь на полный курс по DS на Dataquest: он даст вам крепкую базу по использованию Python в машинном обучении. В противном случае есть множество бесплатных источников. Начинайте со scikit-learn — это, пожалуй, самая популярная ML-библиотека для Python.
  2. Ещё мне повезло попасть на двухдневный воркшоп Андреаса Мюллера, одного из ключевых разработчиков scikit-learn. Материал того курса (и не только) он целиком выложил на GitHub. Здесь есть наглядная графика, конспекты и заметки, над которыми можно поработать самостоятельно, что я вам настоятельно рекомендую.
  3. Стоит ознакомиться с некоторыми туториалами из документации scikit-learn, после чего уже можно попробовать делать настоящие ML-приложения и разбираться с тем, как устроены ML-модели (но об этом позже).

SQL — обязательный навык для дата-сайентиста, так как одним из ключевых процессов моделирования данных является, прежде всего, их извлечение. В большинстве случаев вам будет нужно уметь запускать SQL-запросы к базам данных.

Вот пара бесплатных ресурсов для тех, кто решил не брать полный курс на Dataquest.

    есть на Codecademy. Он очень удобный, кодить нужно не выходя из браузера.
  1. Тем, кто интересуется облачными базами данных и отправкой запросов в них, рекомендую заглянуть на Google Cloud BigQuery. Здесь есть пробная версия (можно потренироваться бесплатно), доступ к обширному массиву публичных датасетов и толковая документация.

Не ограничивайтесь Python: дата-сайентисту очень полезно владеть языком R, поэтому советую пройти вводный курс ещё и по нему.

Бесплатный вариант есть на Codecademy. Стоит отметить, что эта площадка тоже предлагает комплексную программу по подготовке дата-сайентистов, но только по подписке на тариф Pro. Стоит она от $15,99 до $ 31,99 в месяц — смотря на сколько месяцев вперёд платить. Лично мне курс Dataquest показался гораздо более содержательным, хотя здесь может получиться немного дешевле, если вы предпочитаете заниматься по одной платформе.

Разработка программного обеспечения

Дата-сайентисту будет нелишним освоить навыки и лучшие практики разработки софта: это улучшит читабельность вашего кода, и его будет проще дополнять — как вам самим, так и другим. Кроме того, чтобы выкатывать модели в продакшн, нужно научиться генерировать качественный, хорошо проверенный код и работать с такими инструментами, как системы контроля версий.

В помощь вам — два ресурса:

    охватывает руководство PEP 8, которое описывает общепринятый стиль оформления кода на Python, документацию, и ещё в нём очень сильная часть про объектно-ориентированное программирование. — о том, как вносить вклад в разработку scikit-learn. Здесь здорово разобраны лучшие подходы и принципы, которые на самом деле универсальны и применимы не только к этой библиотеке. Затрагивается GitHub, юнит-тестирование и отладка кода, причём всё рассмотрено в контексте DS.

Глубокое обучение

Самое лучшее и развёрнутое введение в глубокое обучение дают авторы fast.ai — этот ресурс тоже бесплатный, и на нём совершенно нет рекламы.

Курс включает введение в машинное обучение, практические аспекты глубокого обучения, вычислительную линейную алгебру, а также введение в обработку естественного языка с акцентом на программирование. Все курсы на этом сайте объединяет прикладной подход, поэтому очень советую не проходить мимо.


Photo by Chris Liverani on Unsplash

Теория

По ходу изучения технических моментов вам неизбежно будет встречаться теория, которая стоит за кодом.

Призываю вас учить теорию без отрыва от практики.

Например, я изучаю код, чтобы научиться применять какую-то технику (скажем, метод k-средних, KMeans), а когда она сработает, начинаю глубже разбираться с понятиями, которые с ней связаны (например, с инертностью, Inertia).

  1. Все сопутствующие алгоритмам математические термины есть в той же документации scikit-learn.
  2. Ниже я перечислю главное, что нужно изучить из теории вместе с прикладными аспектами. Почти по всем этим вещам есть бесплатные уроки на khan academy. Во время регистрации или в профиле можно выбрать нужные вам дисциплины, и сайт выдаст пошаговый план по каждому предмету.

Математика

Математический анализ (Calculus)

В этом разделе математики рассматривается связь между функцией и её производной, из-за которой изменение одной переменной величины приводит к изменению другой. Матанализ позволяет, например, выявлять паттерны, понимать, как функция меняется с течением времени.

В машинном обучении матанализ помогает оптимизировать производительность алгоритмов. Один из примеров — метод градиентного спуска. Он состоит в том, что при обучении по одному изменяют весовые коэффициенты нейросети для поиска минимального значения функции потерь.

Что нужно знать.

  • Геометрический смысл (Geometric definition)
  • Вычисление производной функции (Calculating the derivative of a function)
  • Нелинейные функции (Nonlinear functions)

Цепное правило (или Правило дифференцирования сложной функции, Chain rule)

  • Сложные функции (Composite functions)
  • Производные сложных функций (Composite function derivatives)
  • Множественные функции (Multiple functions)
  • Частные производные (Partial derivatives)
  • Производные по направлению (Directional derivatives)
  • Интегралы (Integrals)

Линейную алгебру (Linear Algebra)

Многие распространённые инструменты машинного обучения, в том числе XGBOOST, для хранения входных данных и обработки данных используют матрицы. Матрицы, наряду с векторными пространствами и линейными уравнениями, изучает линейная алгебра. Уверенное знание этого раздела математики очень важно для понимания механизма многих методов машинного обучения.

Что нужно знать

Векторы и пространства (Vectors and spaces)

  • Векторы (Vectors)
  • Линейные комбинации (Linear combinations)
  • Линейная зависимость и независимость (Linear dependence and independence)
  • Скалярное произведение и векторное произведение (Vector dot and cross products)

Матричные преобразования (Matrix transformations)

  • Функции и линейные преобразования (Functions and linear transformations)
  • Умножение матриц (Matrix multiplication)
  • Обратные функции (Inverse functions)
  • Транспонирование матрицы (Transpose of a matrix)

Статистика

Что нужно знать

  • Описание выборки данных (How to summarise a sample of data)
  • Типы распределений (Different types of distributions)
  • Асимметрия, эксцесс, меры центральной тенденции, например среднее арифметическое, медиана, мода (Skewness, kurtosis, central tendency, e.g. mean, median, mode)
  • Меры зависимости и взаимосвязь переменных величин, например корреляция и ковариация (Measures of dependence, and relationships between variables such as correlation and covariance)

Планирование эксперимента (Experiment design)

  • Проверка гипотез (Hypothesis testing)
  • Семплирование (Sampling)
  • Тесты на статистическую значимость (Significance tests)
  • Случайность (Randomness)
  • Вероятность (Probability)
  • Доверительные интервалы и статистический вывод по двум выборкам (Confidence intervals and two-sample inference)

Машинное обучение (Machine learning)

  • Вывод о наклоне линии регрессии (Inference about slope)
  • Линейная и нелинейная регрессия (Linear and non-linear regression)
  • Классификация (Classification)


Photo by Carlos Muza on Unsplash

Практика

Kaggle

Конкурсы по машинному обучению — отличная возможность потренироваться создавать модели. Там есть доступ к множеству датасетов, предназначенных для решения отдельных задач. По турнирной таблице можно сравнивать свои успехи с другими участниками. А ещё по результатам вам будет видно, в каких темах у вас пробелы и что нужно подтянуть.

Помимо Kaggle, есть разные другие платформы, где можно попробовать свои силы. Например Analytics Vidhya и DrivenData.

ML-репозиторий UCI

UCI Machine Learning Repository — огромный клад публичных датасетов, которые можно использовать в домашних ML-проектах. Создайте портфолио на GitHub и размещайте проекты в нём. Оно будет не только демонстрировать ваши способности и достижения, но и в дальнейшем может помочь найти работу.

Вклад в Open Source

Практические ресурсы хорошо разнообразят книги по Data Science из этого списка. Все можно найти в открытых источниках.

Читайте также: