Акция!
В ноябре скидка 50% на Смарт-коммуникации при покупке WhatsApp для бизнеса.
Реклама ООО «Колтач Солюшнс»
ИНН 7703388936
erid: 2VtzqxRbFoi
Дисперсия в статистике: что это и как вычислить Что такое дисперсия в статистике. Какая формула для расчета дисперсии в статистике. Как рассчитать дисперсию в Excel. Когда нужно применять дисперсию в статистике. Взаимосвязь дисперсии с другими показателями. Что такое дисперсия в статистике и формула ее расчета
Средняя оценка Общее количество оценок 0
19 августа 2024
Нет времени читать?
Отправить статью на почту
Главная | Блог | Темы | Бизнес | Что такое дисперсия в статистике и формула ее расчета

Что такое дисперсия в статистике и формула ее расчета

19 августа 2024
14 мин на чтение
5 710
Что такое дисперсия в статистике и формула ее расчета
author__photo

Дисперсия ― один из главных показателей в аналитике. Она показывает статистику того, насколько данные отклоняются от среднего значения. Если результаты близки к середине, то дисперсия низкая, а если отдалены ― высокая. Чем выше дисперсия, тем больше непредсказуемости и рисков для бизнеса. 

Рассмотрим пример. Возьмем две группы студентов. После экзамена по статистике студенты первой группы получили или 4, или 5 баллов. А студенты второй группы подготовились хуже, поэтому у них больший разбег: от 3 до 5. Хотя средний балл может быть одинаковым, во второй группе дисперсия выше, потому что разброс между низшим и высшим показателями больше.

Точки, вокруг которых считают разбег ― это среднее из общего массива показателей. А массив — это все, что нас окружает: ответы на тест, суммы продаж, стоимость инвестиций. Чтобы не анализировать интернет-магазин от руки на бумаге или в Excel, крупный и малый бизнес следит за статистикой в одном окне с помощью сквозной аналитики. Она покажет путь взаимодействия с клиентом и поможет понять, какие у компании слабые места.

Сквозная аналитика
Оценивайте эффективность всех рекламных кампаний в одном окне от клика до ROI
Вкладывайте в ту рекламу, которая приводит клиентов
Подробнее

Когда нужно применять дисперсию

С дисперсией работают:

  • ученые (химики, физики, биологи); 
  • статистики и аналитики;
  • инвесторы и трейдеры;
  • инженеры. 

Еще показатель применяют в бизнесе. Дисперсия поможет:

  • понять, насколько предсказуемо себя ведет ряд данных;
  • оценить финансовые риски;
  • спрогнозировать риски рекламной кампании;
  • увидеть риски инвестиций, их прибыльность или убыточность;
  • понять разброс выручки среди конкурентов и сравнить компанию с ними.

Дисперсия очень похожа на стандартное отклонение. Но его формула проще, поэтому возникает вопрос, нужна ли дисперсия. В этом случае один показатель можно вычислить, исходя из второго. Дисперсия удобнее для статистики и при работе с регрессией. 

Плюс дисперсии в том, что она учитывает любые колебания: как в плюс, так и в минус. Квадраты отклонений — это мы разберем в формуле ниже — не могут равняться 0, поэтому создается видимость стабильности.

Но есть и минусы: если результаты далеки от среднего значения, возведение в квадрат сильно исказит данные. Если у пользователя нет опыта работы с дисперсией, он может неверно интерпретировать признак. 

Формула дисперсии

Основная формула дисперсии выглядит так:

На первый взгляд это кажется сложным. На практике, чтобы вычислить дисперсию, хватит и школьных знаний. Рассмотрим еще один пример.

Допустим, мы хотим проанализировать семь точек с кофе. У нас есть такие данные:

Цена на кофеКоличество проданных единиц
15015
17020
18030
14025
16040
15010
27518

Для расчета дисперсии понадобится:

  1. Найти среднюю цену. То есть среднее значение (X̄). Для этого сложим цены и поделим на общее число данных (количество строк в таблице):

(150 + 170 + 180 + 140 + 160 + 150 + 275) / 7 = 175

  1. Узнать разницу между каждым значением и средним показателем (X̄). На отрицательные значения не обращаем внимания.
Цена на кофеРазница Х – X̄
150-25
170-5
1805
140-35
160-15
150-25
275100
  1. Возвести каждую величину в квадрат. Это уберет минусы и усилит отклонения.
Разница Х – X̄Показатель в квадрате ((X – X̄)²)
-25625
-525
525
-351225
-15225
-25625
10010 000
  1. Вычислить сумму показателей в квадрате:

625 + 25 + 25 + 1225 + 225 + 625 + 10 000 = 12 750

  1. Найти дисперсию. Для этого разделим сумму показателей в квадрате на общее количество данных:

12 750 / 7 = 1821,4

Дисперсия продаж кофейных точек — 1821,4 (в квадратных рублях).

Еще дисперсию рассчитывают для выборки. Разброс будет выше, и это логично, ведь мы не можем проанализировать данные всех кофеен в городе. 

Для расчета по случайной выборке выполняют те же действия, кроме последнего. Но делитель будет не 7, а 6. То есть во внимание принимают только шесть показателей. Общая формула выглядит так:

Рассчитаем:

12 750 / 6 = 2 125 (квадратных рубля).

Вот еще один пример работы с дисперсией в сфере финансов. Исходные данные такие:

  • Доходность акций компании «Глобус» — 12% в первый год, 25% во второй и -7% в третий.
  • Разница между каждым доходом и средним показателем составит: 10% (12 + 25 – 7) / 3.
  • Разница между каждой доходностью и средним показателем: 2%, 15%, -17% соответственно.
  • При возведении данных в квадрат получаем: 0,4%, 2,25%, 2,89%.
  • При сложении квадратов дисперсии получаем: 5,54%.

Так как это не все данные, а только выборка, мы будем делить квадрат дисперсии на сумму показателей минус один. То есть мы получим 2,77% или 0,0277 (2,77% / 100%). Когда мы извлечем квадратный корень из дисперсии, то получим 0,166. То есть отклонение доходности — 16,6%.

Вручную посчитать большие массивы данных невозможно. Для этого отлично подойдет Excel. 

Расчет дисперсии в Excel

В Excel для расчета дисперсии используют две формулы: 

  • ДИСП.Г ― по общей или генеральной совокупности данных (программа охватывает весь массив данных для исследования);
  • ДИСП.В ― по выборке (берет выборочную совокупность чисел, которая характеризует разброс данных). 

Начнем с формулы ДИСП.Г. Можно отобрать ячейки от 1 до 255. Чтобы вычислить показатель для диапазона данных, следуйте инструкции:

  1. Определите диапазон данных и ячейку, где будет рассчитана дисперсия. 
  2. Введите в ячейку формулу: «=ДИСП.Г», дальше — выберите диапазон для расчета и нажмите Enter.
  3. Формулу также рассчитывают через вставку функции. Это удобно, если нужно выделить несколько диапазонов сразу.

Генеральная дисперсия показывает, как далеко показатели выборки разбросаны вокруг среднего значения. Если дисперсия равна нулю, то все данные одинаковые. Это можно проверить так:

Когда к информации сложно получить доступ или невозможно проанализировать массив данных из-за его объема, выбирают расчет дисперсии по выборке. Чтобы скорректировать погрешности, в знаменателе ориентируются не на количество наблюдений «N», а на 1 меньше. То есть «N-1». 

Для расчета показателя в Excel подойдет формула «ДИСП.В». 

Параметр несмещенной выборочной дисперсии действительно получился выше, чем в генеральной. Но если мы увеличим выборку, к примеру, до 100 или до 200, то разница между ними будет несущественна.

Взаимосвязь дисперсии с другими статистическими показателями

Саму по себе дисперсию не используют — это вспомогательный показатель. Его рассчитывают, чтобы узнать коэффициент корреляции или для проверки гипотез. Разберем подробнее каждый из параметров, с которым ее используют:

  • Стандартное отклонение. Если возвести его в квадрат, получится дисперсия. Иногда показатель отклонения полезнее и понятнее, чем дисперсия. Почему? Мы удаляем корень вместе с единицами измерения, и таким образом сравниваем разные показатели. Например, если изменения в Х на 2 единицы влекут за собой изменения в Y на 4 единицы, то можно установить взаимосвязь между ними. Это актуально, даже если X измеряется в рублях, а Y — в килограммах. В Excel среднее квадратичное отклонение рассчитывают по формуле «СТАНДОТКЛОН.Г».
  • Коэффициент вариации или относительное стандартное отклонение (СТАНДОТКЛОН.В). Как правило, его используют в процентном выражении. Так сравнивают однородность данных. Его часто используют в химии для точности анализа. В статистике принято считать, что результат меньше 10% — это низкий разброс показателей. От 10 до 20% ― среднее рассеивание, а от 20% до 33% ― значительное. Но это не значит, что если число выше 33%, то нужно паниковать. Границы выставлены для общего сравнения. 
  • Коэффициент осцилляции. Его рассчитывают как отношение разбега вариации к среднему числу. Размах вариации ― разница между наивысшим и наинизшим показателями. Единой формулы в Excel нет, поэтому используют комбинацию нескольких формул: =МАКС()-МИН()/СРЗНАЧ(). Коэффициент параметра показывает разбег вариации относительно среднего значения. Другими словами, если условная средняя ― 50, то осцилляция покажет, насколько далеки от этого числа остальные показатели. 

Если использовать все эти функции в совокупности, то понять и разброс, и однородность данных проще. 

Заключение

  • Дисперсия показывает разброс между числами в диапазоне данных. Чем меньше показатель, тем выше определенность. Инвесторы и финансисты используют дисперсию, чтобы оценить риски и прибыльность компании.
  • Дисперсию по генеральной совокупности рассчитывают из всего диапазона чисел. Если нет возможности изучить все элементы, то разброс точнее покажет дисперсия по выборке. Он окажется выше, но показатель будет ближе к истине. Чем больше диапазон данных, тем менее значительным становится разрыв между генеральной и выборочной параметрами.
  • Дисперсия никогда не применяют как самостоятельный параметр. Ее используют вместе со среднеквадратичным отклонением, коэффициентом вариации и осцилляции.
Редактор блога Calltouch
Нет времени читать?
Оцените
Поделитесь с друзьями
Лучшие маркетинговые практики — каждый месяц в дайджесте Calltouch
Подписывайтесь сейчас и получите 13 чек-листов маркетолога
Нравится наш блог?
Давайте дружить!
Медиакит
Хотите получить актуальную подборку кейсов?
Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900р.
[contact-form-7 404 "Not Found"]

Повышаем конверсию на каждом этапе воронки

Чтобы клиент шел по своему пути точно к цели, маркетологу нужны информация и сервисы – свои на каждом этапе. Инструменты Calltouch могут закрыть все потребности маркетинга на пути клиента.

У нас тут cookies…
На сайте используются файлы cookies. Продолжая использование сайта, вы соглашаетесь с этим. Подробности об обработке ваших данных — в политике использования файлов cookie.
Вставить формулу как
Блок
Строка
Дополнительные настройки
Цвет формулы
Цвет текста
#333333
Используйте LaTeX для набора формулы
Предпросмотр
\({}\)
Формула не набрана
Вставить