Главная | Блог | Полезные статьи | Метод регрессионного анализаМетод регрессионного анализа 6 февраля 2025 18 мин на чтение 1 742 Нина ОпалькоСтарший редактор Calltouch Содержание Нет времени читать? Регрессионный анализ нужен, чтобы по изменениям независимых переменных предсказать изменения зависимой величины. Например, мы можем предсказать, как изменится цена на гречку в мае 2024 по динамике цен за 2023 год.Методами регрессионного анализа пользуются:Инженеры по машинному обучению.Финансисты, чтобы определить платежеспособность компаний.Бизнес-аналитики, чтобы оценить, какая рекламная кампания сработала лучше, и что нужно сделать, чтобы повысить средний чек.Ученые разных специальностей: математики и физики — для проверки гипотез; биологи — чтобы понять, насколько высока вероятность, что заболеваемость станет массовой.Социологи и экономисты, например, чтобы разобраться, какие факторы влияют на ВВП, безработицу и инфляцию.Инвесторы, чтобы понять, какие акции вырастут в цене, а какие — станут убыточными.В математике регрессия — это движение назад, отход. В анализе и статистике регрессией называют связь зависимой переменной с одной или несколькими независимыми. Пример: Петру Степановичу нужно разобраться, почему в его овощном киоске стали хуже продаваться арбузы. Для этого ему потребуется собрать переменные (Х), которые влияют на продажу. Это могут быть цены конкурентов и стоимость, которую установил сам Петр Степанович, а еще — число покупателей в месяц. Здесь на помощь приходит регрессионный анализ. Он покажет, какая именно переменная влияет на его продажи сильнее других. Так Петр Степанович поймет, что нужно изменить в работе. Например, снизить цену или увеличить количество рабочих дней в месяц.То есть, регрессионный анализ — это ряд методов из статистики, с помощью которых исследуют отношение переменных и прогнозируют результаты. Зависимость результирующей переменной и предикторов (переменных данных) описывают таким уравнением: Y=a+b*XВ формуле: a ― константа;b ― угол наклона прямой; X ― значение переменной (предиктор).Зависимой переменной может быть, к примеру, сумма выручки от продажи пылесоса. Независимыми переменными выступают:изменение цены на товар;цены на этот же продукт у конкурентов;количество посетителей сайта.Регрессионный анализ используют вместе с корреляционным. Прежде чем приступить к определению уровня зависимости, сначала нужно понять, связаны ли X и Y вообще. Если корреляционный анализ показывает, что да, то регрессионный покажет тесноту связи. Пример: есть две переменные, которые влияют на прибыль — расходы на налоги и расходы на логистику. Если расходы на налоги увеличились на 2%, то прибыль падает на 5%. Если расходы на логистику увеличились на 2%, то прибыль падает на 7%. Затраты на логистику влияют на прибыль сильнее. Это значит, что теснота связи у них крепче.Все, кто прямо или косвенно связан с прогнозами, используют регрессионный анализ. Маркетологам и аналитикам часто приходится сращивать одно с другим, чтобы понять, почему один клиент дошел до покупки, а другой — нет, а еще — прогнозировать события и тестировать маркетинговые гипотезы. Поэтому им проще работать со специализированным ПО, которое вычисляет события и показывает, где не сработала воронка продаж. Например со сквозной аналитикой от Calltouch. Сквозная аналитикаОценивайте эффективность всех рекламных кампаний в одном окне от клика до ROIВкладывайте в ту рекламу, которая приводит клиентов ПодробнееГлавные задачи регрессионного анализаЦель регрессионного анализа ― дать четкий прогноз, какое будет значение у результирующей переменной на базе собранного массива данных. Вернемся к примеру с Петром Степановичем и его овощным киоском. Он воспользовался уравнением регрессией, чтобы понять, в какую сторону меняются продажи арбузов. Для него массив данных — это собранная статистика по количеству посетителей магазина, по динамике цен конкурентов и динамике своих цен. Цель Петра Степановича все та же — выяснить, какой из этих факторов влияет на продажи сильнее.Отсюда и задачи анализа:определить, как сильно между собой связаны показатели;оценить значимость параметров для вычисления;проверить гипотезу;восстановить неизвестные значения переменных.Регрессионный анализ устанавливает только количественную взаимосвязь. Причинно-следственную цепочку он строить не может: рассчитать, почему клиент не купил товар, нельзя, но узнать, повысит ли инфографика продажи, можно.Виды регрессионного анализаВ основном исследователи используют линейную и логистическую регрессии. Они проще в построении и интерпретации. Но в регрессии есть гораздо больше методов, и у каждого свои особенности:Простая линейная регрессия ― здесь присутствует один влияющий фактор.Множественная регрессия ― задействованы несколько переменных.Логистическая регрессия ― она используется в статистике и определяет исход события: «успех» или «неудача».Полиномиальная ― это один из видов линейной регрессии. Ее используют в статистике, когда нужно описать сложную зависимость. Пошаговый регрессионный анализ ― метод, при котором переменные добавляются или удаляются на каждому этапе анализа. Он помогает найти факторы, которые больше других влияют на то, что мы пытаемся предсказать.Гребневая регрессия ― это вид регрессии, который используют, когда есть зависимость между несколькими переменными и эта зависимость мешает модели правильно работать на практике. Речь идет о машинном обучении.Лассо-регрессия ― вид, который нужен, чтобы упростить модели и отбор переменных. Широко применяется в обучении ИИ.Дальше подробнее разберем наиболее распространенные виды регрессии. Линейный регрессионный анализВ простой линейной регрессии есть только одна независимая переменная и одна зависимая. Математический вид их взаимосвязи: Y = a + bXВ формуле:а ― свободный показатель, то есть сдвиг по оси;b ― угловой коэффициент, он показывает линию наклона (снижается или растет, показывает угол наклона);y ― выходные данные;x ― входные данные.Как она работает? Предположим, у нас есть несколько точек на графике. К примеру, цена на гречку. В разные месяцы она была разной, поэтому на графике виден небольшой разброс. Цель регрессии ― подобрать такую прямую, которая максимально точно описывает положение точек. Некоторые точки будут отдалены от прямой. Это нормально: регрессия используется для того, чтобы найти «усредненную» связь между данными, которую будет проще анализировать для прогноза событий. Линейная регрессия — самый простой вид «усреднения»: это среднее арифметическое местоположения точек на графике.Линейную регрессию применяют, чтобы:решить, какую скидку поставить на товар;узнать, какой из регионов будет более прибыльным в текущем году;чтобы определить цены на доллар, нефть, газ.Множественный регрессионный анализМножественная регрессия ― это статистическое уравнение. Оно описывает связь нескольких независимых переменных. График множественной регрессии:Формула выглядит так:Y = a + b1 x1 + b2 x2 + b3 x3Цель множественной регрессии ― понять, какой из факторов оказывает наибольшее влияние на результат. А еще — как на этот результат влияют все факторы в совокупности.К примеру, на чистую прибыль интернет-магазина влияют:валовый доход;расходы на закупку товаров;расходы на зарплату и налоги;прочие издержки.Эти параметры возьмем как независимые переменные (x1, x2, x3, x4). Множественный регрессионный анализ покажет:как расходы на закупку товаров влияют на зарплату и налоги;как прочие издержки (к примеру, штрафы, логистика) влияют на валовый доход;как каждый из переменных факторов скажется на чистой прибыли.Простыми словами, регрессия отвечает на вопрос: «На сколько нужно сократить расходы, чтобы увеличилась прибыль?» или «Какая статья расходов влияет больше других на чистую прибыль?» Возможно, валовая выручка ― это самая влиятельная переменная. А возможно, если уменьшить расходы на закупку, то затраты на логистику возрастут, а значит, доставлять продукцию будет невыгодно.Корреляционно-регрессионный анализКорреляционный анализ помогает вычислить прочность связи между предикторами и результирующей переменной. Корреляция может быть положительной, отрицательной или нулевой. Графики при этом выглядят так:В большинстве случаев используют метод линейной корреляции Пирсона. Вот как выглядит формула:Показатель «r» всегда находится в диапазоне от -1 до 1. Разберем 3 случая корреляции:Положительная, где r = 1. Это идеальная корреляция ― две переменные напрямую зависят от друг друга. Как «расходы на оплату труда» и «оклад сотрудника». Чем выше оклад, тем выше ФОТ.Нулевая, где r = 0. Связь между переменными отсутствует. Рост человека никак не влияет на его умственные способности.Отрицательная, где r = -1. Между двумя переменными обратная зависимость. Чем выше расходы, тем ниже чистая прибыль. Распространенный пример в обычной жизни ― корреляция между спросом и ценой. Чем дороже автомобили, тем меньше людей их покупает. Что нужно, чтобы установить корреляцию:Подобрать две переменные. Они обязательно должны быть количественными.Собрать статистику по переменным. Алгоритмы должны искать зависимость, поэтому чем больше точек для анализа, тем лучше.Выбрать коэффициент корреляции. Коэффициент Пирсона ― самый распространенный, но не единственный вариант. Есть еще коэффициент Спирмана и Кендалла. Их чаще используют для ранжирования.Рассчитать показатель удобным способом. Это может быть Excel, специализированное ПО или Python.Идеальная корреляция — от 0,8 до 1. Показатель от 0 до 0,29 означает, что связь очень слабая.Корреляционный анализ быстро рассчитывают, и его просто интерпретировать. Но он не показывает причинно-следственную связь и не умеет давать результаты от вычисления сложных связей. Как сделать регрессионный анализ в ExcelДля начала кратко разберем этапы регрессионного анализа. Они общие для любого методы вычисления:Определите задачу. Вы четко должны понимать, что ищете. Сформулируйте гипотезу. Например, вы думаете, что зарплата и текучесть кадров связаны.Определите X и Y. Что на что влияет? Текучесть кадров на зарплату или наоборот?Соберите статистику за период. Модель должна оценить плотность взаимосвязи. Чем больше точек, тем точнее данные.Определите тип регрессии: линейная, множественная или логистическая.Рассчитайте показатель.Интерпретируйте результаты.Теперь перейдем к расчету в Excel. Сначала нужно подключить пакет анализа к программе. Для этого:Зайдите в «Файл» ― «Параметры» ― «Надстройки».Найдите «Пакет анализа».Нажмите «Ок». После этого во вкладке «Данные» появится окно «Анализ данных».Работать будем с линейным типом регрессии. Возьмем такой пример: нам нужно рассчитать, как расходы на логистику, штрафы и брак влияют на прибыль. Рассчитывать будем на простых числах, чтобы было понятнее. В примере Y ― прибыль, а влияющий фактор ― это расходы (Х). Для расчета откройте окно «Анализ данных» и выберите «Регрессия». Далее:Выделите диапазон для Y и X. Остальные поля заполнять не нужно. Нажмите «Ок».Автоматически появится второй лист, где будут все расчеты. Теперь можно интерпретировать.Для нас главный показатель ― R-квадрат. Это коэффициент детерминации. То есть коэффициент зависимости одной величины от другой. У нас он получился приблизительно 0,848 или 84,8%. Результаты говорят о том, что математическая модель качественная. Затраты оказывают сильное влияние на прибыль. Коэффициент 12308,85 показывает, чему бы равнялся Y, если бы все Х были равны 0. То есть на прибыль влияют не только расходы, но других параметров в модели нет.Знак «–» в коэффициенте переменной Х1 означает, что корреляция отрицательная. Чем ниже расходы, тем выше прибыль.ЗаключениеКоротко о главном:Регрессионный анализ используют, чтобы математически рассчитать силу связи переменных.Методами регрессионного анализа пользуются во многих нишах, где нужно сделать прогноз: машинное обучение, экономика, инвестиции, социальные исследования.Простейший тип регрессионного анализа ― линейный. Линейная регрессия показывает, как один показатель меняется в зависимости от другого. К примеру, как зарплата отражается на текучести кадров или как спрос влияет на цену. Допускаются только количественные показатели.Чтобы вычислить прочность взаимосвязи между несколькими переменными используют корреляционно-регрессионный анализ. Нина ОпалькоСтарший редактор Calltouch