Подготовка данных к статистической обработке, описательные статистики

«Если достаточно долго мучить данные, они признаются [в чем угодно]», 
– Рональд Х. Коуз

Введение

Если вы хотите превратить большой объем цифровых данных в форму удобную для восприятия и обсуждения, то Вам необходим описательный анализ данных. Мы подготовили для Вас серию статей, посвященных процессу анализа данных. В них мы расскажем о базовых принципах построения практического проекта по анализу данных.

Анализ данных в современном мире

Данные собирают все — от студента, который пишет диссертацию до компаний-монополистов с миллионной клиентской базой. Мы помогаем сделать так, чтобы собранная информация работала на Вас - приносила пользу и прибыль.

Анализ данных полезно использовать в любой сфере деятельности, однако, за время нашей работы, нам удалось отметить области с наиболее высоким спросом на аналитику данных:

  • Медицина и психология (научные работы)
  • Маркетинг
  • E-commerce
  • Страхование
  • Производство
  • Сфера оказания услуг
  • Ритейл

Развитие идет полным ходом, количество накопленной информации продолжает расти. Исследования требуют сложной обработки большого количества данных. Мало просто собрать данные - их обязательно нужно использовать, например, чтобы проверить гипотезы, выявить связи или построить прогнозы.

Анализ данных — это междисциплинарная область знаний, находящаяся на стыке математики и информационных технологий. Анализ позволяет преобразовать данные в выводы, полезные для принятия решений и построения дальнейших планов.

Виды анализа данных

Существуют разные варианты типов/видов анализа данных. Мы выделяем 3 вида анализа данных, за которыми к нам чаще всего обращаются клиенты:

  • Описательный анализ
  • Диагностический анализ
  • Предиктивный анализ

Каждый из этих анализов начинается с подготовки данных для дальнейшей обработки и завершается обзором результатов. Все три типа анализа отличаются уровнем сложности работы с информацией и степенью человеческого участия.

В этой статье мы поговорим об описательном анализе данных.

Подготовка исходных данных к обработке

Прежде чем мы перейдем к описательным статистикам, поговорим о важном этапе подготовки статистических данных - обеспечение качества. Прежде, чем приступать к любому виду анализа, необходимо убедиться, что в данных нет ошибок или пропусков, что данные полные, без дубликатов, корректно организованы и годятся для дальнейшего анализа.

Чаще всего, мы получаем данные в строках и столбцах в форме таблицы, но не всегда эти данные корректно организованы для дальнейших манипуляций. Ошибки в данных влекут за собой недостоверные результаты, неправильная структура данных - увеличивает срок выполнения задачи. Поэтому, на первом этапе любого анализа, мы проверяем исходные данные на корректность, при необходимости исправляем ошибки, структурируем данные.

Исходные данные - преобразованные данные

Описательные статистики

Как мы писали выше, первым, наиболее простым типом анализа данных является описательный анализ (= он же описательные статистики).

Описательные статистики — это краткая и информативная характеристика данных в виде графиков, таблиц и числовых выражений. Важно отметить, что выбор статистических методов для анализа данных определяет тип переменных.

Тип переменных

Для количественных данных выполняется проверка на нормальность, а в качестве описательных статистик рассчитываются средние ± средние квадратические отклонения; медиана и квартили; минимальные и максимальные значения в выборке.

Для качественных показателей рассчитываются частоты встречаемости.

Описательные статистики

Описательный анализ отвечает на вопрос “Что произошло?” Это может быть:

  • характеристика пациентов

в выборке 34% здоровых и 66% больных человек

  • портрет клиентов

13% женщин и 87% мужчин, средний возраст которых - 35 лет

  • сводка по клиентам

всего за год - 92 клиента, из них: 25 (27%) обратились повторно, а 67 (73%) – не вернулись.

Описательные статистики данных включают в себя:

  • Тест на нормальность распределения

Первым делом при обработке данных необходимо их проверить на нормальность распределения, это позволит правильно выбрать дальнейшие методы обработки данных для получения достоверных результатов. Для нормального распределения применяются параметрические методы, для ненормального распределения - непараметрические методы.

Существует множество тестов для проверки нормальности распределения. Среди часто используемых можно отметить:

  • Критерий Шапиро-Уилка
  • Критерий хи-квадрат
  • Критерий Колмогорова-Смирнова

Если вероятность случайного отличия мала (Р – значение меньше 0,05), то отличие признается достоверным (не случайным) - распределение признака не является нормальным.

Проверка нормальности распределения

  • Анализ показателей центра распределения

Определение среднего или наиболее типичного значения для совокупности данных.

Среднее, мода, медиана

  • Оценка разброса данных в совокупности

Степень индивидуальных отклонений от центральной тенденции, изменчивость данных (среднее квадратическое отклонение, квартильный размах).

Однородность выборки

  • Частотный анализ

Оценка частоты встречаемости признака.

Частотный анализ
  • Визуализация данных

Гистограммы распределения, диаграммы частот.

Таким образом, описательные статистики позволяют представить данные более осмысленно, что упрощает их интерпретацию.

О том как выявить различия признаков между группами, проверить наличие связи между показателями, выявить однородные группы и построить статистическую модель, мы расскажем в следующих статьях.

О проекте BIRDYX

Мы оказываем помощь в статистических расчетах. Чтобы заказать качественный анализ данных свяжитесь с нами одним из удобных способов, чтобы обсудить детали:

WhatsApp: +7 (919) 882-93-67

Telegram: birdyx_ru

E-mail: mail@birdyx.ru

Мы растем, развиваемся, постоянно работаем над автоматизацией аналитических процессов, чтобы предоставлять Вам качественную аналитику оперативно и по доступной цене.