Главная | Блог | Полезные статьи | Метод регрессионного анализаМетод регрессионного анализа 6 февраля 2025 18 мин на чтение 232 Нина ОпалькоСтарший редактор Calltouch Содержание Нет времени читать? Регрессионный анализ нужен, чтобы по изменениям независимых переменных предсказать изменения зависимой величины. Например, мы можем предсказать, как изменится цена на гречку в мае 2024 по динамике цен за 2023 год.Методами регрессионного анализа пользуются:Инженеры по машинному обучению.Финансисты, чтобы определить платежеспособность компаний.Бизнес-аналитики, чтобы оценить, какая рекламная кампания сработала лучше, и что нужно сделать, чтобы повысить средний чек.Ученые разных специальностей: математики и физики — для проверки гипотез; биологи — чтобы понять, насколько высока вероятность, что заболеваемость станет массовой.Социологи и экономисты, например, чтобы разобраться, какие факторы влияют на ВВП, безработицу и инфляцию.Инвесторы, чтобы понять, какие акции вырастут в цене, а какие — станут убыточными.В математике регрессия — это движение назад, отход. В анализе и статистике регрессией называют связь зависимой переменной с одной или несколькими независимыми. Пример: Петру Степановичу нужно разобраться, почему в его овощном киоске стали хуже продаваться арбузы. Для этого ему потребуется собрать переменные (Х), которые влияют на продажу. Это могут быть цены конкурентов и стоимость, которую установил сам Петр Степанович, а еще — число покупателей в месяц. Здесь на помощь приходит регрессионный анализ. Он покажет, какая именно переменная влияет на его продажи сильнее других. Так Петр Степанович поймет, что нужно изменить в работе. Например, снизить цену или увеличить количество рабочих дней в месяц.То есть, регрессионный анализ — это ряд методов из статистики, с помощью которых исследуют отношение переменных и прогнозируют результаты. Зависимость результирующей переменной и предикторов (переменных данных) описывают таким уравнением: Y=a+b*XВ формуле: a ― константа;b ― угол наклона прямой; X ― значение переменной (предиктор).Зависимой переменной может быть, к примеру, сумма выручки от продажи пылесоса. Независимыми переменными выступают:изменение цены на товар;цены на этот же продукт у конкурентов;количество посетителей сайта.Регрессионный анализ используют вместе с корреляционным. Прежде чем приступить к определению уровня зависимости, сначала нужно понять, связаны ли X и Y вообще. Если корреляционный анализ показывает, что да, то регрессионный покажет тесноту связи. Пример: есть две переменные, которые влияют на прибыль — расходы на налоги и расходы на логистику. Если расходы на налоги увеличились на 2%, то прибыль падает на 5%. Если расходы на логистику увеличились на 2%, то прибыль падает на 7%. Затраты на логистику влияют на прибыль сильнее. Это значит, что теснота связи у них крепче.Все, кто прямо или косвенно связан с прогнозами, используют регрессионный анализ. Маркетологам и аналитикам часто приходится сращивать одно с другим, чтобы понять, почему один клиент дошел до покупки, а другой — нет, а еще — прогнозировать события и тестировать маркетинговые гипотезы. Поэтому им проще работать со специализированным ПО, которое вычисляет события и показывает, где не сработала воронка продаж. Например со сквозной аналитикой от Calltouch. Сквозная аналитикаОценивайте эффективность всех рекламных кампаний в одном окне от клика до ROIВкладывайте в ту рекламу, которая приводит клиентов ПодробнееГлавные задачи регрессионного анализаЦель регрессионного анализа ― дать четкий прогноз, какое будет значение у результирующей переменной на базе собранного массива данных. Вернемся к примеру с Петром Степановичем и его овощным киоском. Он воспользовался уравнением регрессией, чтобы понять, в какую сторону меняются продажи арбузов. Для него массив данных — это собранная статистика по количеству посетителей магазина, по динамике цен конкурентов и динамике своих цен. Цель Петра Степановича все та же — выяснить, какой из этих факторов влияет на продажи сильнее.Отсюда и задачи анализа:определить, как сильно между собой связаны показатели;оценить значимость параметров для вычисления;проверить гипотезу;восстановить неизвестные значения переменных.Регрессионный анализ устанавливает только количественную взаимосвязь. Причинно-следственную цепочку он строить не может: рассчитать, почему клиент не купил товар, нельзя, но узнать, повысит ли инфографика продажи, можно.Виды регрессионного анализаВ основном исследователи используют линейную и логистическую регрессии. Они проще в построении и интерпретации. Но в регрессии есть гораздо больше методов, и у каждого свои особенности:Простая линейная регрессия ― здесь присутствует один влияющий фактор.Множественная регрессия ― задействованы несколько переменных.Логистическая регрессия ― она используется в статистике и определяет исход события: «успех» или «неудача».Полиномиальная ― это один из видов линейной регрессии. Ее используют в статистике, когда нужно описать сложную зависимость. Пошаговый регрессионный анализ ― метод, при котором переменные добавляются или удаляются на каждому этапе анализа. Он помогает найти факторы, которые больше других влияют на то, что мы пытаемся предсказать.Гребневая регрессия ― это вид регрессии, который используют, когда есть зависимость между несколькими переменными и эта зависимость мешает модели правильно работать на практике. Речь идет о машинном обучении.Лассо-регрессия ― вид, который нужен, чтобы упростить модели и отбор переменных. Широко применяется в обучении ИИ.Дальше подробнее разберем наиболее распространенные виды регрессии. Линейный регрессионный анализВ простой линейной регрессии есть только одна независимая переменная и одна зависимая. Математический вид их взаимосвязи: Y = a + bXВ формуле:а ― свободный показатель, то есть сдвиг по оси;b ― угловой коэффициент, он показывает линию наклона (снижается или растет, показывает угол наклона);y ― выходные данные;x ― входные данные.Как она работает? Предположим, у нас есть несколько точек на графике. К примеру, цена на гречку. В разные месяцы она была разной, поэтому на графике виден небольшой разброс. Цель регрессии ― подобрать такую прямую, которая максимально точно описывает положение точек. Некоторые точки будут отдалены от прямой. Это нормально: регрессия используется для того, чтобы найти «усредненную» связь между данными, которую будет проще анализировать для прогноза событий. Линейная регрессия — самый простой вид «усреднения»: это среднее арифметическое местоположения точек на графике.Линейную регрессию применяют, чтобы:решить, какую скидку поставить на товар;узнать, какой из регионов будет более прибыльным в текущем году;чтобы определить цены на доллар, нефть, газ.Множественный регрессионный анализМножественная регрессия ― это статистическое уравнение. Оно описывает связь нескольких независимых переменных. График множественной регрессии:Формула выглядит так:Y = a + b1 x1 + b2 x2 + b3 x3Цель множественной регрессии ― понять, какой из факторов оказывает наибольшее влияние на результат. А еще — как на этот результат влияют все факторы в совокупности.К примеру, на чистую прибыль интернет-магазина влияют:валовый доход;расходы на закупку товаров;расходы на зарплату и налоги;прочие издержки.Эти параметры возьмем как независимые переменные (x1, x2, x3, x4). Множественный регрессионный анализ покажет:как расходы на закупку товаров влияют на зарплату и налоги;как прочие издержки (к примеру, штрафы, логистика) влияют на валовый доход;как каждый из переменных факторов скажется на чистой прибыли.Простыми словами, регрессия отвечает на вопрос: «На сколько нужно сократить расходы, чтобы увеличилась прибыль?» или «Какая статья расходов влияет больше других на чистую прибыль?» Возможно, валовая выручка ― это самая влиятельная переменная. А возможно, если уменьшить расходы на закупку, то затраты на логистику возрастут, а значит, доставлять продукцию будет невыгодно.Корреляционно-регрессионный анализКорреляционный анализ помогает вычислить прочность связи между предикторами и результирующей переменной. Корреляция может быть положительной, отрицательной или нулевой. Графики при этом выглядят так:В большинстве случаев используют метод линейной корреляции Пирсона. Вот как выглядит формула:Показатель «r» всегда находится в диапазоне от -1 до 1. Разберем 3 случая корреляции:Положительная, где r = 1. Это идеальная корреляция ― две переменные напрямую зависят от друг друга. Как «расходы на оплату труда» и «оклад сотрудника». Чем выше оклад, тем выше ФОТ.Нулевая, где r = 0. Связь между переменными отсутствует. Рост человека никак не влияет на его умственные способности.Отрицательная, где r = -1. Между двумя переменными обратная зависимость. Чем выше расходы, тем ниже чистая прибыль. Распространенный пример в обычной жизни ― корреляция между спросом и ценой. Чем дороже автомобили, тем меньше людей их покупает. Что нужно, чтобы установить корреляцию:Подобрать две переменные. Они обязательно должны быть количественными.Собрать статистику по переменным. Алгоритмы должны искать зависимость, поэтому чем больше точек для анализа, тем лучше.Выбрать коэффициент корреляции. Коэффициент Пирсона ― самый распространенный, но не единственный вариант. Есть еще коэффициент Спирмана и Кендалла. Их чаще используют для ранжирования.Рассчитать показатель удобным способом. Это может быть Excel, специализированное ПО или Python.Идеальная корреляция — от 0,8 до 1. Показатель от 0 до 0,29 означает, что связь очень слабая.Корреляционный анализ быстро рассчитывают, и его просто интерпретировать. Но он не показывает причинно-следственную связь и не умеет давать результаты от вычисления сложных связей. Как сделать регрессионный анализ в ExcelДля начала кратко разберем этапы регрессионного анализа. Они общие для любого методы вычисления:Определите задачу. Вы четко должны понимать, что ищете. Сформулируйте гипотезу. Например, вы думаете, что зарплата и текучесть кадров связаны.Определите X и Y. Что на что влияет? Текучесть кадров на зарплату или наоборот?Соберите статистику за период. Модель должна оценить плотность взаимосвязи. Чем больше точек, тем точнее данные.Определите тип регрессии: линейная, множественная или логистическая.Рассчитайте показатель.Интерпретируйте результаты.Теперь перейдем к расчету в Excel. Сначала нужно подключить пакет анализа к программе. Для этого:Зайдите в «Файл» ― «Параметры» ― «Надстройки».Найдите «Пакет анализа».Нажмите «Ок». После этого во вкладке «Данные» появится окно «Анализ данных».Работать будем с линейным типом регрессии. Возьмем такой пример: нам нужно рассчитать, как расходы на логистику, штрафы и брак влияют на прибыль. Рассчитывать будем на простых числах, чтобы было понятнее. В примере Y ― прибыль, а влияющий фактор ― это расходы (Х). Для расчета откройте окно «Анализ данных» и выберите «Регрессия». Далее:Выделите диапазон для Y и X. Остальные поля заполнять не нужно. Нажмите «Ок».Автоматически появится второй лист, где будут все расчеты. Теперь можно интерпретировать.Для нас главный показатель ― R-квадрат. Это коэффициент детерминации. То есть коэффициент зависимости одной величины от другой. У нас он получился приблизительно 0,848 или 84,8%. Результаты говорят о том, что математическая модель качественная. Затраты оказывают сильное влияние на прибыль. Коэффициент 12308,85 показывает, чему бы равнялся Y, если бы все Х были равны 0. То есть на прибыль влияют не только расходы, но других параметров в модели нет.Знак «–» в коэффициенте переменной Х1 означает, что корреляция отрицательная. Чем ниже расходы, тем выше прибыль.ЗаключениеКоротко о главном:Регрессионный анализ используют, чтобы математически рассчитать силу связи переменных.Методами регрессионного анализа пользуются во многих нишах, где нужно сделать прогноз: машинное обучение, экономика, инвестиции, социальные исследования.Простейший тип регрессионного анализа ― линейный. Линейная регрессия показывает, как один показатель меняется в зависимости от другого. К примеру, как зарплата отражается на текучести кадров или как спрос влияет на цену. Допускаются только количественные показатели.Чтобы вычислить прочность взаимосвязи между несколькими переменными используют корреляционно-регрессионный анализ. Нина ОпалькоСтарший редактор Calltouch