Акция!
У ИИ есть сердце. Скидка 50% на подключение в феврале
Реклама ООО «Колтач Солюшнс»
ИНН 7703388936
erid: 2Vtzqwc3YAY
Регрессионный анализ: метод и его задачи Что такое регрессионный анализ, какие у него основные задачи. Виды регрессионного анализа: линейный, множественный и корреляционно-регрессионный анализ. Разбираем на примерах, как сделать регрессионный анализ. Метод регрессионного анализа
Средняя оценка Общее количество оценок 0
6 февраля 2025
Нет времени читать?
Отправить статью на почту
Главная | Блог | Полезные статьи | Метод регрессионного анализа

Метод регрессионного анализа

6 февраля 2025
18 мин на чтение
232
Метод регрессионного анализа
author__photo

Регрессионный анализ нужен, чтобы по изменениям независимых переменных предсказать изменения зависимой величины. Например, мы можем предсказать, как изменится цена на гречку в мае 2024 по динамике цен за 2023 год.

Методами регрессионного анализа пользуются:

  • Инженеры по машинному обучению.
  • Финансисты, чтобы определить платежеспособность компаний.
  • Бизнес-аналитики, чтобы оценить, какая рекламная кампания сработала лучше, и что нужно сделать, чтобы повысить средний чек.
  • Ученые разных специальностей: математики и физики — для проверки гипотез; биологи — чтобы понять, насколько высока вероятность, что заболеваемость станет массовой.
  • Социологи и экономисты, например, чтобы разобраться, какие факторы влияют на ВВП, безработицу и инфляцию.
  • Инвесторы, чтобы понять, какие акции вырастут в цене, а какие — станут убыточными.

В математике регрессия — это движение назад, отход. В анализе и статистике регрессией называют связь зависимой переменной с одной или несколькими независимыми. 

Пример: Петру Степановичу нужно разобраться, почему в его овощном киоске стали хуже продаваться арбузы. Для этого ему потребуется собрать переменные (Х), которые влияют на продажу. Это могут быть цены конкурентов и стоимость, которую установил сам Петр Степанович, а еще — число покупателей в месяц. Здесь на помощь приходит регрессионный анализ. Он покажет, какая именно переменная влияет на его продажи сильнее других. Так Петр Степанович поймет, что нужно изменить в работе. Например, снизить цену или увеличить количество рабочих дней в месяц.

То есть, регрессионный анализ — это ряд методов из статистики, с помощью которых исследуют отношение переменных и прогнозируют результаты. Зависимость результирующей переменной и предикторов (переменных данных) описывают таким уравнением:

 Y=a+b*X

В формуле: 

  • a ― константа;
  • b ― угол наклона прямой; 
  • X ― значение переменной (предиктор).

Зависимой переменной может быть, к примеру, сумма выручки от продажи пылесоса. Независимыми переменными выступают:

  • изменение цены на товар;
  • цены на этот же продукт у конкурентов;
  • количество посетителей сайта.

Регрессионный анализ используют вместе с корреляционным. Прежде чем приступить к определению уровня зависимости, сначала нужно понять, связаны ли X и Y вообще. Если корреляционный анализ показывает, что да, то регрессионный покажет тесноту связи. 

Пример: есть две переменные, которые влияют на прибыль — расходы на налоги и расходы на логистику. Если расходы на налоги увеличились на 2%, то прибыль падает на 5%. Если расходы на логистику увеличились на 2%, то прибыль падает на 7%. Затраты на логистику влияют на прибыль сильнее. Это значит, что теснота связи у них крепче.

Все, кто прямо или косвенно связан с прогнозами, используют регрессионный анализ. Маркетологам и аналитикам часто приходится сращивать одно с другим, чтобы понять, почему один клиент дошел до покупки, а другой — нет, а еще — прогнозировать события и тестировать маркетинговые гипотезы. Поэтому им проще работать со специализированным ПО, которое вычисляет события и показывает, где не сработала воронка продаж. Например со сквозной аналитикой от Calltouch.

Сквозная аналитика
Оценивайте эффективность всех рекламных кампаний в одном окне от клика до ROI
Вкладывайте в ту рекламу, которая приводит клиентов
Подробнее

Главные задачи регрессионного анализа

Цель регрессионного анализа ― дать четкий прогноз, какое будет значение у результирующей переменной на базе собранного массива данных. Вернемся к примеру с Петром Степановичем и его овощным киоском. Он воспользовался уравнением регрессией, чтобы понять, в какую сторону меняются продажи арбузов. Для него массив данных — это собранная статистика по количеству посетителей магазина, по динамике цен конкурентов и динамике своих цен. Цель Петра Степановича все та же — выяснить, какой из этих факторов влияет на продажи сильнее.

Отсюда и задачи анализа:

  • определить, как сильно между собой связаны показатели;
  • оценить значимость параметров для вычисления;
  • проверить гипотезу;
  • восстановить неизвестные значения переменных.

Регрессионный анализ устанавливает только количественную взаимосвязь. Причинно-следственную цепочку он строить не может: рассчитать, почему клиент не купил товар, нельзя, но узнать, повысит ли инфографика продажи, можно.

Виды регрессионного анализа

В основном исследователи используют линейную и логистическую регрессии. Они проще в построении и интерпретации. Но в регрессии есть гораздо больше методов, и у каждого свои особенности:

  • Простая линейная регрессия ― здесь присутствует один влияющий фактор.
  • Множественная регрессия ― задействованы несколько переменных.
  • Логистическая регрессия ― она используется в статистике и определяет исход события: «успех» или «неудача».
  • Полиномиальная ― это один из видов линейной регрессии. Ее используют в статистике, когда нужно описать сложную зависимость. 
  • Пошаговый регрессионный анализ ― метод, при котором переменные добавляются или удаляются на каждому этапе анализа. Он помогает найти факторы, которые больше других влияют на то, что мы пытаемся предсказать.
  • Гребневая регрессия ― это вид регрессии, который используют, когда есть зависимость между несколькими переменными и эта зависимость мешает модели правильно работать на практике. Речь идет о машинном обучении.
  • Лассо-регрессия ― вид, который нужен, чтобы упростить модели и отбор переменных. Широко применяется в обучении ИИ.

Дальше подробнее разберем наиболее распространенные виды регрессии. 

Линейный регрессионный анализ

В простой линейной регрессии есть только одна независимая переменная и одна зависимая. Математический вид их взаимосвязи: 

Y = a + bX

В формуле:

  • а ― свободный показатель, то есть сдвиг по оси;
  • b ― угловой коэффициент, он показывает линию наклона (снижается или растет, показывает угол наклона);
  • y ― выходные данные;
  • x ― входные данные.

Как она работает? Предположим, у нас есть несколько точек на графике. К примеру, цена на гречку. В разные месяцы она была разной, поэтому на графике виден небольшой разброс. Цель регрессии ― подобрать такую прямую, которая максимально точно описывает положение точек. Некоторые точки будут отдалены от прямой. Это нормально: регрессия используется для того, чтобы найти «усредненную» связь между данными, которую будет проще анализировать для прогноза событий. Линейная регрессия — самый простой вид «усреднения»: это среднее арифметическое местоположения точек на графике.

Линейную регрессию применяют, чтобы:

  • решить, какую скидку поставить на товар;
  • узнать, какой из регионов будет более прибыльным в текущем году;
  • чтобы определить цены на доллар, нефть, газ.

Множественный регрессионный анализ

Множественная регрессия ― это статистическое уравнение. Оно описывает связь нескольких независимых переменных. График множественной регрессии:

Формула выглядит так:

Y = a + b1 x1 + b2 x2 + b3 x3

Цель множественной регрессии ― понять, какой из факторов оказывает наибольшее влияние на результат. А еще — как на этот результат влияют все факторы в совокупности.

К примеру, на чистую прибыль интернет-магазина влияют:

  • валовый доход;
  • расходы на закупку товаров;
  • расходы на зарплату и налоги;
  • прочие издержки.

Эти параметры возьмем как независимые переменные (x1, x2, x3, x4). Множественный регрессионный анализ покажет:

  • как расходы на закупку товаров влияют на зарплату и налоги;
  • как прочие издержки (к примеру, штрафы, логистика) влияют на валовый доход;
  • как каждый из переменных факторов скажется на чистой прибыли.

Простыми словами, регрессия отвечает на вопрос: «На сколько нужно сократить расходы, чтобы увеличилась прибыль?» или «Какая статья расходов влияет больше других на чистую прибыль?» Возможно, валовая выручка ― это самая влиятельная переменная. А возможно, если уменьшить расходы на закупку, то затраты на логистику возрастут, а значит, доставлять продукцию будет невыгодно.

Корреляционно-регрессионный анализ

Корреляционный анализ помогает вычислить прочность связи между предикторами и результирующей переменной. Корреляция может быть положительной, отрицательной или нулевой. Графики при этом выглядят так:

В большинстве случаев используют метод линейной корреляции Пирсона. Вот как выглядит формула:

Показатель «r» всегда находится в диапазоне от -1 до 1. Разберем 3 случая корреляции:

  • Положительная, где r = 1. Это идеальная корреляция ― две переменные напрямую зависят от друг друга. Как «расходы на оплату труда» и «оклад сотрудника». Чем выше оклад, тем выше ФОТ.
  • Нулевая, где r = 0. Связь между переменными отсутствует. Рост человека никак не влияет на его умственные способности.
  • Отрицательная, где r = -1. Между двумя переменными обратная зависимость. Чем выше расходы, тем ниже чистая прибыль. Распространенный пример в обычной жизни ― корреляция между спросом и ценой. Чем дороже автомобили, тем меньше людей их покупает. 

Что нужно, чтобы установить корреляцию:

  • Подобрать две переменные. Они обязательно должны быть количественными.
  • Собрать статистику по переменным. Алгоритмы должны искать зависимость, поэтому чем больше точек для анализа, тем лучше.
  • Выбрать коэффициент корреляции. Коэффициент Пирсона ― самый распространенный, но не единственный вариант. Есть еще коэффициент Спирмана и Кендалла. Их чаще используют для ранжирования.
  • Рассчитать показатель удобным способом. Это может быть Excel, специализированное ПО или Python.

Идеальная корреляция — от 0,8 до 1. Показатель от 0 до 0,29 означает, что связь очень слабая.

Корреляционный анализ быстро рассчитывают, и его просто интерпретировать. Но он не показывает причинно-следственную связь и не умеет давать результаты от вычисления сложных связей. 

Как сделать регрессионный анализ в Excel

Для начала кратко разберем этапы регрессионного анализа. Они общие для любого методы вычисления:

  1. Определите задачу. Вы четко должны понимать, что ищете. Сформулируйте гипотезу. Например, вы думаете, что зарплата и текучесть кадров связаны.
  2. Определите X и Y. Что на что влияет? Текучесть кадров на зарплату или наоборот?
  3. Соберите статистику за период. Модель должна оценить плотность взаимосвязи. Чем больше точек, тем точнее данные.
  4. Определите тип регрессии: линейная, множественная или логистическая.
  5. Рассчитайте показатель.
  6. Интерпретируйте результаты.

Теперь перейдем к расчету в Excel. Сначала нужно подключить пакет анализа к программе. Для этого:

  1. Зайдите в «Файл» ― «Параметры» ― «Надстройки».
  2. Найдите «Пакет анализа».
  3. Нажмите «Ок». После этого во вкладке «Данные» появится окно «Анализ данных».

Работать будем с линейным типом регрессии. Возьмем такой пример: нам нужно рассчитать, как расходы на логистику, штрафы и брак влияют на прибыль. Рассчитывать будем на простых числах, чтобы было понятнее. 

В примере Y ― прибыль, а влияющий фактор ― это расходы (Х). Для расчета откройте окно «Анализ данных» и выберите «Регрессия». Далее:

  1. Выделите диапазон для Y и X. Остальные поля заполнять не нужно. Нажмите «Ок».
  2. Автоматически появится второй лист, где будут все расчеты.
  3. Теперь можно интерпретировать.

Для нас главный показатель ― R-квадрат. Это коэффициент детерминации. То есть коэффициент зависимости одной величины от другой. У нас он получился приблизительно 0,848 или 84,8%. Результаты говорят о том, что математическая модель качественная. Затраты оказывают сильное влияние на прибыль. 

Коэффициент 12308,85 показывает, чему бы равнялся Y, если бы все Х были равны 0. То есть на прибыль влияют не только расходы, но других параметров в модели нет.

Знак «–» в коэффициенте переменной Х1 означает, что корреляция отрицательная. Чем ниже расходы, тем выше прибыль.

Заключение

Коротко о главном:

  • Регрессионный анализ используют, чтобы математически рассчитать силу связи переменных.
  • Методами регрессионного анализа пользуются во многих нишах, где нужно сделать прогноз: машинное обучение, экономика, инвестиции, социальные исследования.
  • Простейший тип регрессионного анализа ― линейный. Линейная регрессия показывает, как один показатель меняется в зависимости от другого. К примеру, как зарплата отражается на текучести кадров или как спрос влияет на цену. Допускаются только количественные показатели.
  • Чтобы вычислить прочность взаимосвязи между несколькими переменными используют корреляционно-регрессионный анализ.
Старший редактор Calltouch
Нет времени читать?
Оцените
Поделитесь с друзьями
Лучшие маркетинговые практики — каждый месяц в дайджесте Calltouch
Подписывайтесь сейчас и получите 13 чек-листов маркетолога
Нравится наш блог?
Давайте дружить!
Медиакит
Хотите получить актуальную подборку кейсов?
Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900р.
[contact-form-7 404 "Not Found"]

Повышаем конверсию на каждом этапе воронки

Чтобы клиент шел по своему пути точно к цели, маркетологу нужны информация и сервисы – свои на каждом этапе. Инструменты Calltouch могут закрыть все потребности маркетинга на пути клиента.

У нас тут cookies…
На сайте используются файлы cookies. Продолжая использование сайта, вы соглашаетесь с этим. Подробности об обработке ваших данных — в политике использования файлов cookie.
Вставить формулу как
Блок
Строка
Дополнительные настройки
Цвет формулы
Цвет текста
#333333
Используйте LaTeX для набора формулы
Предпросмотр
\({}\)
Формула не набрана
Вставить