КАРТА КОМПЕТЕНЦИЙ
DATA SCIENCE
Какими компетенциями обладают современные исследователи данных? Что надо знать и что нужно уметь, чтобы добиться успеха в data science? Это вообще реально?

Ниже мы написали краткий гайд по тому, в чем нужно разбираться современному дата-исследователю. Выберите несколько наиболее интересных для себя направлений и начните в них развиваться, не забывая о смежных знаниях и новых трендах.
БАЗОВЫЙ УРОВЕНЬ
МАТЕМАТИКА И СТАТИСТИКА
Гистограммы
Случайные величины
Основные типы распределений
Характеристика типов распределений
Математическое ожидание и дисперсия случайной величины
Процентили и квартили
Корреляция
Р-значение
Доверительный интервал
ДАННЫЕ И
БАЗЫ ДАННЫХ
Реляционная алгебра
Реляционные БД
Типы связей между таблицами в БД
OLAP и многомерные БД
ETL
SQL и NoSQL
Регулярные выражения
Основные типы данных
Основные форматы данных
ВИЗУАЛИЗАЦИЯ И КОММУНИКАЦИЯ
Визуализация данных
Инструменты визуальной аналитики
Библиотеки для визуализации данных
Мастерство презентации и сторителлинга
Основные виды диаграмм
Цветовое кодирование
Шрифты
Дашборды
SOFT SKILLS
Интерес к данным
Отсутствие страха перед решением проблем
Hacker mindset
Проактивность и креативность
Отслеживание глобальных трендов
Умение работать в команде
Знание английского
ПРОДВИНУТЫЙ УРОВЕНЬ
ОБРАБОТКА ТЕКСТА
ОБРАБОТКА БОЛЬШИХ ДАННЫХ
Для легкого старта начните прямо сейчас

1
Гистограмма
Гистограмма - это столбчатая диаграмма, которая показывает частоту повторяемости значений. Это отправная точка для проведения анализа набора данных.

→ Описание графика гистограммы на Википедии
→ Процесс создания гистограммы в Microsoft Excel на сайте Microsoft
Случайные величины
Случайной величиной называется величина, которая в результате опыта может принять то или иное значение, причем неизвестно заранее, какое именно.

→ Описание и примеры случайных величин
Основные типы распределений
Распределение вероятностей - это закон, описывающий значения случайной величины и вероятности их появления. Распределение вероятностей описывает то, каким, по нашему мнению, может оказаться каждый из результатов случайного события. Форм может быть много, но размер всегда один: вероятности всегда сводятся к 1.

→ Краткое разъяснение основных типов распределений с гистограммами
→ Подробное описание разных типов распределений для интересующихся
Характеристика
распределений
СРЕДНЕЕ, МЕДИАНА, СРЕДНЕКВАДРАТИЧНОЕ ОТКЛОНЕНИЕ

  • Среднее значение вычисляется как сумма всех значений из распределения, разделенная на число этих значений.
  • Медиана распределения - это значение, которое при сортировке распределения отображается в середине списка. Если количество значений является четным, медиана вычисляется как среднее двух значений, расположенных в середине списка.
  • Среднеквадратичное отклонение - это показатель рассеивания значений случайной величины относительно её математического ожидания (среднего арифметического). Иными словами, насколько рассеянным является распределение вероятностей вокруг своего центра.

→ Среднее арифметическое
→ Медиана в статистике
→ Среднеквадратичное отклонение
Математическое ожидание и дисперсия случайной величины
Каждая случайная величина полностью определяется своей функцией распределения.
В то же время при решении практических задач достаточно знать несколько числовых параметров, которые позволяют представить основные особенности случайной величины в сжатой форме. К таким величинам относятся в первую очередь математическое ожидание и дисперсия.

Математическое ожидание - число, вокруг которого сосредоточены значения случайной величины.
Дисперсия выборки - показатель того, насколько рассеянным является распределение вероятностей вокруг своего центра. Дисперсия характеризует меру разброса случайной величины около ее математического ожидания.

→ Подробно про математическое ожидание и дисперсию
Процентили и квартили
Процентиль - одна из числовых характеристик распределения вероятностей.
N-й процентиль - это такое значение, ниже которого расположено N процентов наблюдений какой-либо переменной.
Следовательно, 30-й процентиль (или 3-й дециль) - это значение, ниже которого расположено 30% результатов наблюдений; 50-й процентиль называется медианой, а 25-й и 75-й процентили - нижним и верхним квартилями соответственно.

→ Описание процентилей и квартилей
Корреляция
Корреляция или корреляционная зависимость - статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

→ Подробнее про корреляцию на Википедии
Р-значение
Р-значение (или p-value) это величина, используемая при тестировании статистических гипотез. P-значения используются для определения того, подпадают ли результаты эксперимента в диапазон значений, нормальный для наблюдаемой величины. Обычно если P-значение для набора данных меньше, чем заранее определенное число (например 0,05), то придется отклонить "нулевую гипотезу" эксперимента. Другими словами, переменные в эксперименте не оказывают достаточного эффекта на результаты.

→ Как посчитать р-значение
Доверительный интервал
Доверительные интервалы используются, чтобы указать, насколько надежно приблизительное значение. Иными словами, он является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента).

→ Подробнее про расчет и применение доверительных интервалов

2
Реляционная алгебра
Реляционная алгебра - набор операций над данными, а точнее над отношениями данных. Первоначальный набор из 8 операций был предложен Эдгаром Коддом в 1970-е годы - именно они стали основной логики работы баз данных.

→ Основы реляционный алгебры на Хабрахабре
→ Реляционная алгебра на Wikipedia
Реляционные БД
Реляционная база данных представляет собой множество связанных между собой таблиц, каждая из которых содержит информацию об объектах. Каждая строка таблицы описывает один объект, а столбцы - характеристики объекта.

→ Описание реляционных БД в Научной библиотеке
Типы связей между таблицами
Операции соединения таблицы БД с другими таблицами используются для того, чтобы получить из них недостающие данные. Есть несколько основных типов связей, каждый из которых в результате возвращает разные "сочетания" данных.

→ Объяснение типов связей SQL
→ Описание типов связей на Хабрахабре
OLAP и многомерные БД
OLAP (On-Line Analytical Processing) является ключевым компонентом построения и применения хранилищ данных. Эта технология основана на построении многомерных наборов данных - OLAP-кубов, оси которого содержат параметры, а ячейки - зависящие от них агрегатные данные.

Приложения с OLAP-функциональностью должны предоставлять пользователю результаты анализа за приемлемое время, осуществлять логический и статистический анализ, поддерживать многопользовательский доступ к данным и осуществлять многомерное представление данных.

→ Введение в OLAP и многомерные базы данных на сайте olap.ru
ETL
Извлечение, преобразование и загрузка данных, известные среди специалистов по базам данных под аббревиатурой ETL – это основные этапы переноса информации из одного приложения в другое.

→ Подробное описание работы с ETL на сайте olap.ru
SQL и NoSQL
SQL - язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных. Наиболее распространенная форма взаимодействия с реляционными БД.

NoSQL - термин, обозначающий ряд подходов, направленных на реализацию БД, в корне отличающихся от реляционных БД. В таких базах не используется язык SQL, и их внутренние структуры не регламентированы. В NoSQL базах используются агрегаты данных. Это позволяет повысить скорость запроса и чтения информации. NoSQL системы чаще используются для обработки Больших данных.

→ Учебник по SQL на sql-tutorial.ru
→ Преимущества и недостатки NoSQL
Регулярные выражения
Регулярные выражения - мощный способ поиска символов и замены для строк. Имеют широкий спектр применения. У регулярных выражений довольно большой и сложной для новичка синтаксис, поэтому начните с малого. А еще проверяйте себя в онлайн-инструментах чек-апа регулярок.

→ Учебник по регулярным выражениям на Викиучебнике
Основные типы данных
Понятие типов данных - неотъемлемая часть работы с данными, которая позволяет работать и выполнять операции над имеющиеся информацией унифицировано. Благодаря единым правилам обработки типов данных, программы знают как стоит обращаться с текстом, как с числами, а как с датами - и в зависимости от типа данных использовать те или иные функции.

→ Описание типов данных на Википедии
Основные форматы данных
Формат данных определяет структуру и форму файла, в которой хранятся данные. Формат данных может быть нацелен на человека (.xlsx), а может - на компьютер и машинную обработку (.json). Важно понимать какой формат данных соответствует вашим целям.



3
Визуализация данных
Визуализация данных - это тот мостик, что соединяет специалистов по data science с менеджерами, которые далеки от технической части анализа данных. Это основной и самый эффективный способ донести до аудитории свои наблюдения, гипотезы, выводы. Лучше один раз увидеть.
Инструменты визуальной аналитики
Инструменты визуальной аналитики (BI) позволяют даже новичку создать простую и понятную диаграмму на основе своих данных на несколько минут. Tableau, Power BI, QlikSense - используйте подобные инструменты для подготовки своих данных к презентации.
Библиотеки для визуализации данных
Для любителей программирования доступно множество библиотек, позволяющих работать с данными, кодом и диаграммами. Библиотеки для визуализации данных открывают дорогу нестандартным и сложным по структуре визуализациям данных, которых невозможно добиться средствами Excel и BI-продуктов.
Мастерство презентации и сториттелинга
Изучите советы от гуру презентаций, посмотрите вебинары и how-to по составлению отличных и минималистичных слайдов, вдохновитесь такими знаковыми фигурами сторителлинга как Ханс Рослинг, научитесь владеть инструментами Powerpoint и Keynote.
Основные типы диаграмм
Базовых типов диаграмм немного, но их нужно знать для того, чтобы ориентироваться в пространстве визуализации. Иначе, вас не поймет ваша аудитория.
Цветовое кодирование
Цветовое кодированое - это те палитры и оттенки цвета, которые вы используете в своих диаграммах и в презентациях данных в целом. Бездумный выбор цвета может свести на нет все ваши усилия по контакту со зрителем.
Шрифты
Шрифт - это то, каким языком "заговорят" ваши выводы и аннотации. Надо уметь различать основные семейства шрифтов и те обстоятельства, в которых их надо использовать.
Дашборды
Дашборд - составной экран из нескольких диаграмм с заголовками, подписями и всей необходимой для работы с информацией. Цель дашборда - рассказать данные за несколько секунд. Один взгляд. Готовый вывод.
Наполнение следует...

Даже путь в тысячу ли начинается с первого шага
Лао-цзы
DATA YOGA CLUB