Метод корреляционно-регрессионного анализа

Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа :

Метод корреляционно-регрессионного анализа

Корреляционно-регрессионный анализ – это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения.

Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету.

Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка.

Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно.

Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат).

Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1.

Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа.

Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  • Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  • Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  • Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.
  • Коэффициент ранговой корреляции Спирмана

    Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

    Корреляционно-регрессионный анализ: пример

    Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

    Данный тип анализа имеет следующие преимущества:

    • Непараметрическая форма отношений между исследуемыми величинами.
    • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

    Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

    Проблемы применения

    В основе корреляционно-регрессионного анализа лежат следующие предположения:

    • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
    • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
    • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
    • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

    Зависимость и причинно-следственная связь

    Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями.

    Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы.

    Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

    Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной.

    Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы.

    Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

    Зачем использовать регрессионный анализ?

    Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром.

    Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи.

    В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  • Выбор правильной модели с помощью метода наименьших квадратов.
  • Выведение уравнения, описывающего влияние изменения независимой переменной на другую.
  • Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

    Линейная и множественная регрессия

    Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии.

    Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков.

    Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

    Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

    • Зависимость между независимой и влияющими на нее характеристиками является линейной.
    • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
    • Гомоскедастичность и нормальность рядов чисел.

    Применение корреляционно-регрессионного анализа

    Существует три основных случая использования данного метода:

  • Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  • Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  • Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.
  • Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.

    Корреляционно-регрессионный анализ: области применения, основные этапы :

    Метод корреляционно-регрессионного анализа

    Понятие корреляционно-регрессионного анализа подразумевает проведение ряда операций, а именно: определение тесноты связи, ее направления и установление уравнения, описывающего форму связи. Этот вид анализа содержит две отдельные составляющие: корреляционный и регрессионный анализ.

    Значение и основные этапы процесса корреляционно-регрессионного анализа экономических явлений

    Корреляционно-регрессионный анализ – это один из способов решения задач и поиска информации.

    Он позволяет определить совместное влияние множества взаимосвязанных и единовременно действующих признаков, а также отдельное влияние каждого признака на экономическое явление (процесс).

    Благодаря этому типу анализа можно оценить степень взаимосвязи между несколькими признаками, между признаками и полученным результатом, а также смоделировать уравнение регрессии, описывающие форму взаимосвязи.

    Этапы анализа

    Корреляционно-регрессионный анализ экономических процессов разделяется на несколько этапов:

  • Определение аргументов и предварительная обработка условной информации.
  • Определение тесноты и формы взаимосвязи между несколькими признаками.
  • Моделирование представленного экономического процесса и анализ полученной модели.
  • Применение конечных результатов для усовершенствования планирования и менеджмента модели.
  • Статистическую однородность информации можно определить с помощью двух приемов. Для начала необходимо определить и откинуть значение факторов, резко отличающихся от всех величин. Потом осуществляется статистическое исследование однородности с помощью проверки независимости выборки и ее принадлежности к единственной совокупности с нормальным распределением.

    Модель регрессии определяется через метод наименьших квадратов, благодаря которому обеспечивается самое лучшее приближение оценки результата, определенного через уравнение регрессии, к его факторам.

    Корреляционно-регрессионный анализ: параметры созданной модели

    Самыми главными факторами, определяющими характеристики модели, принято считать:

    • Коэффициенты парной корреляции (демонстрируют силу взаимосвязи двух факторов).
    • Коэффициент множественной корреляции (определяет взаимосвязь результата и факторов).
    • Коэффициенты частной детерминации (показывают влияние вариации аргумента на вариацию искомого признака).
    • Коэффициент множественной детерминации (показывает удельный вес всех аргументов на вариацию искомого признака).
    • Частные коэффициенты эластичности (характеризуют влияние факторов на результат, выраженное в едином масштабе в процентах).

    Цель анализа

    Основные задачи корреляционно-регрессионного анализа – это выявление факторов, существенно влияющих на экономический результат явления или процесса, и использование полученной информации для усовершенствования планирования экономического процесса или явления.

    Параметрические методы анализа

    Все производственные процессы находятся в тесной взаимосвязи.

    Эта взаимосвязь бывает стохастической (результат зависит от множества факторов) и функциональной (результат изменяться на такую же величину, как и фактор).

    Стохастическая зависимость чаще всего имеет корреляционный характер, то есть значению фактора одновременно соответствует несколько значений результата, имеющих абсолютно разные направления.

    Корреляционная решетка

    Корреляционная взаимосвязь может иметь один или несколько факторов-признаков, обладать положительной или отрицательной направленностью, быть прямолинейной или криволинейной (в зависимости от выражения). Определить, к какому именно типу относится связь, можно с помощью корреляционной решетки. Ее строят в пределах прямоугольных осей координат.

    Частоты, размещенные близко к диагоналям, свидетельствуют о высокой взаимосвязи признаков.

    Частоты, размещенные близко к диагонали, проходящей через левый нижний и правый верхний углы, говорят о положительном направлении, а проходящие через верхний левый и правый нижний угол – о противоположном направлении.

    Частоты, расположенные в форме дуги, свидетельствуют о криволинейной взаимосвязи, а беспорядочно разбросанные – об отсутствии взаимосвязи вообще.

    Основной метод корреляционного анализа – это линейный коэффициент корреляции. Он может принимать значение от -1 до +1. Чем ближе значение к 1, тем сильнее связь между фактором и результатом. Положительные значения говорят о прямой взаимосвязи, а отрицательные – об обратной. Коэффициент принимает значение «ноль» в том случае, если между признаками отсутствует взаимосвязь.

    Непараметрические методы анализа

    Ряд методов позволяет оценить взаимосвязь явлений без количественного выражения признака и, соответственно, параметров распределения. Их называют непараметрическими. Среди них выделяют:

    • Коэффициент ранговой корреляции Кендалла (определяет взаимосвязь количественных и качественных значений показателей, в случае если они подлежат ранжированию).
    • Коэффициент ранговой корреляции Спирмена (присваивает ранги каждому аргументу и результату, на основе которых определяются разности и вычисляется показатель).
    • Коэффициент корреляции знаков Фехнера (определяет количество совпадений и несовпадений отклонений аргументов и результатов от их среднего значения).
    • Еще один немаловажный метод корреляционно-регрессионного анализа — Метод наименьших квадратов, позволяющий определить аналитическое выражение взаимосвязи результативного признака и его фактора. Он заключается в построении системы уравнений и определении параметров этих уравнений.

    Корреляционно-регрессионный анализ: пример

    В статистике и экономике применяются самые разнообразные виды и объекты анализа. Статистические методы анализа направлены на изучение повторяющихся процессов, для того чтобы составить длительные прогнозы поведения экономических явлений.

    Например, для того чтобы проанализировать социально-экономическое развитие территории, необходимо изучить показатели уровня жизни населения.

    Корреляционно-регрессионный анализ в статистике позволяет создать уравнение регрессии и определить коэффициенты корреляции, демонстрирующие взаимосвязь между уровнем жизни и развитием территории.

    Уровень жизни определяется доходами, а основной источник доходов – зарплата. В таком случае фактором выступает уровень зарплаты, а результатом — численность населения с невысокими доходами.

    Программное обеспечение анализа

    Для облегчения расчетов можно проводить корреляционный анализ в Excel. В данной программе существует ряд инструментов, помогающих облегчить расчеты.

    Среди них функция «Корреляция», позволяющая сформировать матрицу из коэффициентов и разных параметров. Она изображается в форме таблицы. В качестве столбцов и строк используются корреляционные коэффициенты.

    На основе полученных данных таблицы необходимо будет провести корреляционный анализ. Пример последовательности проведения анализа:

  • В команде «Сервис» выбрать пункт «Анализ данных».
  • В качестве инструмента анализа выбрать пункт «Корреляция».
  • В появившемся окне в строке «Входной интервал» указать диапазон анализируемых данных, выбрать пункт «Группировка» в строке «Параметры вывода», ввести диапазон вывода результатов и нажать «ОК».
  • В результате получится корреляционная матрица, расположенная в диапазоне вывода. Внутри будет указан коэффициент линейной корреляции, оценивающий тесноту и форму связи между показателями.

    Проведение анализа в Excel

    В MS Excel используется функция «Корреляция» для того, чтобы провести корреляционно-регрессионный анализ. Пример расчета коэффициентов рассмотрим далее. Эта функция формирует матрицу с коэффициентами тесноты взаимосвязи между разными параметрами. В итоге формируется квадратная таблица, содержащая коэффициенты корреляции на пересечении строк и столбцов.

    Для проведения анализа необходимо будет выполнить ряд определенных действий:

  • Открыть команду «Сервис», а в ней пункт «Анализ данных».
  • В появившемся окне указать в перечне «Инструменты анализа» пункт «Корреляция».
  • В раскрывшемся окне «Корреляция» указать входной интервал в виде диапазона ячеек, содержащих анализируемую информацию (он должен быть не менее двух столбцов), поставить галочку в пункте «Группировка», а в поле «Параметры вывода» выбрать верхнюю левую ячейку, где будет начинаться корреляционная матрица.
  • Нажать на кнопку ОК.
  • В результате вычислений появится квадратная таблица с коэффициентами корреляции.

    Регрессионный анализ в MS Excel

    Для того чтобы вычислить уравнение линейной регрессии, описывающие взаимосвязь между факторами и результатом, в MS Excel применяется статистическая функция «Линейн». Для того чтобы ее использовать, необходимо:

  • Выделить пустую область, в которую будут выведены результаты анализа.
  • Открыть «Мастер функций», в нем найти категорию «Статистические», а в ней функцию «Линейн» и нажать ОК.
  • В поле «Известные значения у» ввести диапазон анализируемых результатов, в поле «Известные значения х» – диапазон анализируемых факторов.
  • В поле «Константа» указывается присутствие свободного члена уравнения (1 – да, 0 – нет), а в поле «Статистика» – необходимость вывода дополнительных сведений (1 – появится дополнительная информация, 0 – появятся только оценки параметров). По умолчанию можно указывать в обоих полях 1.
  • Нажать кнопку ОК.
  • Вверху ранее выделенной области появится начальный элемент таблицы. Для того чтобы раскрыть все данные, необходимо нажать F2, а потом одновременно комбинацию клавиш Ctrl + Shift + Enter.

    В итоге регрессионная информация будет изображаться в качестве таблицы из двух столбцов и пяти строк:

    Столбец 1
    Столбец 2

    Строка 1
    Коэффициент b
    Коэффициент a

    Строка 2
    Среднеквадратическое отклонение b
    Среднеквадратическое отклонение a

    Строка 3
    Коэффициент детерминации
    Среднеквадратическое отклонение y

    Строка 4
    F-статистика
    Число степеней свободы

    Строка 5
    Регрессионная сумма квадратов
    Остаточная сумма квадратов

    Полученные результаты необходимо подставить в линейное уравнение регрессии, которое выглядит следующим образом: y = a + bx. В качестве коэффициента a подставляется значение из ячейки на пересечении строки 1 и столбца 2. В качестве коэффициента b – значение на пересечение строки 1 и столбца 1.

    Коэффициент детерминации говорит о том, какая часть результата объясняется с помощью исследуемого фактора. Оставшаяся часть результатов определяется факторами, неучтенными в линейной модели.

    Корреляционно-регрессионный анализ в Excel: инструкция выполнения

    Метод корреляционно-регрессионного анализа

    Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

    Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

    Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

    Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

    Регрессия бывает:

    • линейной (у = а + bx);
    • параболической (y = a + bx + cx2);
    • экспоненциальной (y = a * exp(bx));
    • степенной (y = a*x^b);
    • гиперболической (y = b/x + a);
    • логарифмической (y = b * 1n(x) + a);
    • показательной (y = a * b^x).

    Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

    Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

    Модель линейной регрессии имеет следующий вид:

    У = а0 + а1х1 +…+акхк.

    Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

    В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

    В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

    Активируем мощный аналитический инструмент:

  • Нажимаем кнопку «Офис» и переходим на вкладку «Параметры Excel». «Надстройки».
  • Внизу, под выпадающим списком, в поле «Управление» будет надпись «Надстройки Excel» (если ее нет, нажмите на флажок справа и выберите). И кнопка «Перейти». Жмем.
  • Открывается список доступных надстроек. Выбираем «Пакет анализа» и нажимаем ОК.
  • После активации надстройка будет доступна на вкладке «Данные».

    Теперь займемся непосредственно регрессионным анализом.

  • Открываем меню инструмента «Анализ данных». Выбираем «Регрессия».
  • Откроется меню для выбора входных значений и параметров вывода (где отобразить результат). В полях для исходных данных указываем диапазон описываемого параметра (У) и влияющего на него фактора (Х). Остальное можно и не заполнять.
  • После нажатия ОК, программа отобразит расчеты на новом листе (можно выбрать интервал для отображения на текущем листе или назначить вывод в новую книгу).
  • В первую очередь обращаем внимание на R-квадрат и коэффициенты.

    R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

    Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

    Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.

    

    Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

    Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

    Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

    Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

    Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

    Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

    Ставим курсор в любую ячейку и нажимаем кнопку fx.

  • В категории «Статистические» выбираем функцию КОРРЕЛ.
  • Аргумент «Массив 1» — первый диапазон значений – время работы станка: А2:А14.
  • Аргумент «Массив 2» — второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.
  • Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

    Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

    Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

    Корреляционно-регрессионный анализ

    На практике эти две методики часто применяются вместе.

    Пример:

  • Строим корреляционное поле: «Вставка» — «Диаграмма» — «Точечная диаграмма» (дает сравнивать пары). Диапазон значений – все числовые данные таблицы.
  • Щелкаем левой кнопкой мыши по любой точке на диаграмме. Потом правой. В открывшемся меню выбираем «Добавить линию тренда».
  • Назначаем параметры для линии. Тип – «Линейная». Внизу – «Показать уравнение на диаграмме».
  • Жмем «Закрыть».
  • Теперь стали видны и данные регрессионного анализа.

    Корреляционно-регрессионный анализ

    Метод корреляционно-регрессионного анализа

    Сохрани ссылку в одной из сетей:

    Корреляционно-регрессионный анализ

    Изучение корреляционных связей сводится в основном к решению следующих задач:

    • выявление наличия (или отсутствия) корреляционной связи между изучаемыми признаками. Эта задача может быть решена на основе параллельного сопоставления (сравнения) значений х и у у п единиц совокупности;

    • измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов. Эта часть исследования именуется корреляционным анализом;

    • определение уравнения регрессии — математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных — факторных признаков. Эта часть исследования именуется регрессионным анализом.

    Последовательность рассмотрения перечисленных задач, естественно, может меняться в каждом конкретном исследовании.

    Общий термин «корреляционно-регрессионный анализ»подразумевает всестороннее исследование корреляционных связей, в том числе нахождение уравнений регрессии, измерение тесноты и направления связи, а также определение возможных ошибок, как параметров уравнений регрессии, так и показателей тесноты связи.

    Измерить корреляционную связь между признаками х и у и найти форму этой связи, ее аналитическое выражение (математическую модель) — две важные, неразрывные и дополняющие друг друга задачи корреляционно-регрессионного анализа. Найти уравнение регрессии — значит по эмпирическим (фактическим) данным математически описать изменения взаимно коррелируемых величин.

    Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как связь средней величины результативного признака у со значениями факторного признака х.

    Уравнение регрессии можно также назвать теоретической линией регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими, обычно обозначаются(читается: «игрек, выравненный по х») и рассматриваются как функция от х, т.е. ух = f(x).

    Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, — одна из основных задач регрессионного анализа.

    Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.

    Для аналитической связи между х и у могут использоваться сле­дующие простые виды уравнений:

    а) yх = a+a1 x (прямая);

    б) ух = а + а1 х + а2x2 (парабола 2-го порядка);

    в) ух= a0 + a1 * 1/x(гипербола);

    г) ух = а0 а1x(показательная функция);

    д) yx=a + a1 lgx(логарифмическая функция) и др.

    Обычно зависимость, выражаемую уравнением прямой, называют линейной(или прямолинейной),а все остальные — криволинейными.

    Выбрав тип функции, по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака ухбыли бы максимально близки к эмпирическим данным.

    Существует несколько методов нахождения параметров уравнения регрессии. Наиболее часто используется метод наименьших квадратов (МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака ух должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.

    (минимизируются квадраты отклонений, поскольку).

    Если данное требование соблюдается, легко определить, при каких значениях а, а1, и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной.

    Линейная зависимость — наиболее часто используемая форма связи между двумя коррелируемыми признаками, и выражается она при парной корреляции уравнением прямой:

    ух = а + а1х.

    Гипотеза именно о линейной зависимости между х и у выдвигается в том случае, если результативный и факторный признаки возрастают (или убывают) примерно одинаково.

    Параметры аи а1, отыскиваются по МНК следующим образом.

    Согласно требованию МНК при линейной зависимости в формуле вместозаписываем его конкретное выражение: а + а1х . Тогда

    Дальнейшее решение сводится к задаче на экстремум, т.е. к определению того, при каком значении аи а1, функция двух переменных Sможет достигнуть минимума. Для этого надо найти частные производные Sпо аи а1, приравнять их к нулю и после элементарных преобразова­ний решить систему двух уравнений с двумя неизвестными.

    Найдем частные производные:

    Сократив каждое уравнение на (-2), раскрыв скобки и перенеся члены с х в одну сторону, а с у — в другую, получим:

    Эта система называется системой нормальных уравненийМНК для линейного уравнения регрессии.

    Для решения системы по эмпирическим (наблюдаемым) данным определяется число единиц наблюдения п, и входящие в систему суммы. Подставив вычисленные суммы в систему нормальных уравнений, находятся параметры искомой прямой (линейного уравнения регрессии).

    Пример. Рассчитать параметры уравнения регрессии между экспортом х и валовым внутренним продуктом у за последние девять лет по следующим данным:

    Таблица 5. Расчетная таблица для нахождения параметров уравнения регрессии.


    Экспорт,млн. руб.х
    ВВП,млн. руб.у
    Расчетные показатели

    х2
    ху

    123456789

    418,4

    523,5

    579,3

    821

    2084,6

    3218,9

    3298,9

    3800,1

    4599,3

    1428,5

    2007,8

    2342,5

    2629,6

    4823,2

    7305,6

    8943,6

    10834,2

    13304,7

    175058,56

    274052,25

    335588,49

    674041

    4345557,16

    10361317,2

    10882741,2

    14440760

    21153560,5

    597684,4

    1051083,3

    1357010,25

    2158901,6

    10054442,72

    23515995,84

    29504042,04

    41171043,42

    61192306,71

    1409,301

    1685,477

    1832,105

    2467,229

    5787,642

    8768,287

    8978,506

    10295,53

    12395,62

    Сумма

    Параметры уравнения регрессии найдем, решив систему нормальных равнений, предварительно подставив в нее необходимые суммы, рассчитанные в таблице:

    Решением данной системы будет: а= 309,85, а1=2,628. Отсюда искомое уравнение регрессии:.

    Подставляя в данное уравнение последовательно значения х, находим теоретические (выравненные) значения результативного признака у, которые показывают, каким теоретически должен быть объем валового выпуска продукции при данной стоимости основных фондов хi (при прочих равных условиях для всех предприятий).

    Параметр а1 в уравнении линейной регрессии называется коэффициентом регрессии, который показывает, на сколько (в абсолютном выражении) изменяется значение результативного признака у при изменении факторного признака х на единицу.

    Процесс корреляционно-регрессионного анализа экономических явлений в сельском хозяйстве

    Метод корреляционно-регрессионного анализа

    В общественном производстве все процессы находятся в тесной зависимости. Различают функ­циональную и стохастическую взаимосвязь признаков.

    Под функциональными понимают такие взаи­мосвязи, при которых величина результативного признака изменяется на одну и ту же величину, с изменением факториальных признаков. Такого рода зависимости, встречающиеся в экономике, изу­чаются с помощью индексного приема.

    В социально-экономических явлениях преобладают стохасти­ческие взаимосвязи, когда результативный признак зависит от значений признаков-факторов (напри­мер, продуктивность скота зависит от породы, уровня кормления, ухода, содержания и др.).

    Причем эти связи часто носят корреляционный характер, т.е. одному значению изучаемого признака-фактора может соответствовать много значений результативного признака, варьирующих в различных на­правлениях.

    Корреляционные связи бывают однофакторные и многофакторные (по количеству признаков связи); положительные и отрицательные (по направленности); прямолинейные и криволинейные (по аналитическому выражению) [1-4].

    Характер корреляционной связи определяют с помощью корреляционной решетки, построенной в прямоугольных осях координат.

    Если частоты распределяются ближе к диагонали, то между признаками будет обнаружена вы­сокая связь.

    Размещение частот близко к диагонали, пересекающей решетку с левого нижнего в пра­вый верхний угол, свидетельствует о положительной направленности, а с верхнего левого в правый нижний угол — об отрицательной.

    Дугообразное размещение частот в решетке характеризует криво­линейную связь, а беспорядочное — отсутствие связи.

    Значение и основные этапы процесса корреляционно-регрессионного анализа экономических явлений

    Корреляционный и регрессионный анализ позволяет решать такие задачи, которые пока другими методами выполнить нельзя, например, определение совместного и раздельного влияния многих вза­имно связанных и одновременно действующих факторов на какой-то процесс или явление.

    С помо­щью корреляционно-регрессионного анализа можно оценить силу связи между отдельными фактора­ми (факторными признаками), между факторами и результативным явлением или процессом (результа­тивным признаком) и подобрать уравнение регрессии, которое определяет форму данной связи [5-8].

    Процесс корреляционно-регрессионного анализа экономических явлений состоит из следующих этапов: 1) выбор факторов-аргументов и предварительная обработка статистических данных;

    1)   оценка тесноты связи между отдельными признаками и выявление формы связи; 3) разработка модели изучаемого экономического явления и ее анализ; 4) использование результатов анализа для со­вершенствования планирования и управления данным явлением.

    Во избежание ложных корреляций отбор факторов-аргументов, влияющих на данный экономи­ческий процесс или явление, должен производиться компетентными работниками — специалистами в данной области экономики.

    Проверка статистической однородности данных осуществляется в два приема. Сначала выявля­ются и исключаются значения признаков, резко отличающихся от всей совокупности. Затем прово­дится математико-статистическое исследование однородности данных путем проверки независимо­сти выборок и их принадлежности к единой, нормально распределенной генеральной совокупности.

    Разработка регрессионной модели изучаемого экономического процесса или явления осуществ­ляется на основе метода наименьших квадратов, согласно которому обеспечивается наилучшее при­ближение оценок результативного признака, рассчитанных по уравнению регрессии, к их фактиче­ским значениям.

    При разработке регрессионной модели следует избегать автокорреляции и мультиколлинеарно­сти переменных. Автокорреляция может иметь место в тех случаях, когда наблюдения производятся за определенные периоды и существует связь между последующими и предыдущими данными. В этом случае нарушается принцип статистической независимости данных.

    Наиболее простым спо­собом исключения автокорреляции является включение фактора времени в модель в виде самостоя­тельной переменной. Мультиколлинеарность имеет место при наличии линейной зависимости между некоторыми переменными.

    Мультиколлинеарность можно ликвидировать за счет расширения исход­ной информации, изъятия из модели одного из коррелирующих между собой факторов или путем введения искусственной ортогональности [9-11].

    Важнейшими параметрами, характеризующими регрессионную модель, являются [12-15]:

    а)    коэффициенты парной корреляции, которые определяют силу связи между двумя признака­ми;

    б)    коэффициент множественной корреляции, который определяет связь результативного при­знака с совокупностью факторных признаков;

    в)  коэффициенты частной детерминации, которые определяют влияние вариации каждого фак­торного признака в отдельности на вариацию результативного признака;

    г)  коэффициент множественной детерминации, который определяет удельный вес совместного влияния всех включенных в модель факторных признаков на вариацию результативного признака;

    д)  частные коэффициенты эластичности, которые определяют влияние отдельных факторных признаков на результативный признак в едином масштабе в процентах.

    Результаты корреляционно-регрессионного анализа позволяют выявить факторы, оказывающие существенное влияние на исследуемый экономический процесс или явление.

    Они могут также быть использованы для разработки норм и нормативов, для нахождения передовых коллективов, изучения и распространения их опыта, а также для других целей, направленных на совершенствование плани­рования и управления экономическими процессами.

    Измерение тесноты связи между результатом и признаками-факторами

    Для измерения тесноты связи между результатом и признаками-факторами используются коэф­фициенты: корреляции линейной (r), корреляционного отношения (^), ассоциации (ra), взаимной со­пряженности (rc), корреляции рангов (rp), множественной (гм), индекса корреляций (Ir), регрессии (R). Коэффициент линейной корреляции — показатель, отображающий направление и меру тесноты связи между признаками при прямолинейных (или близких к ним) взаимозависимостях. Он колеблется в пределах от ±0 до ±1. Знак «+» означает прямую, а знак «-» — обратную связь.

    На практике плохая связь характеризуется коэффициентом корреляции от ±0,16 до ±0,20, сла­бая — от ±0,21 до ±0,30, умеренная — от ±0,31 до ±0,40, средняя — от ±0,41 до ±0,60, высокая —    от ±0,61 до ±0,80 , очень высокая — от ±0,81 до ±0,90 , полная связь — от ±0,91 до ±1,0 . При малых выборках наиболее часто коэффициент линейной корреляции (г) исчисляют по фор­муле

    Расчет парных коэффициентов корреляции — трудоемкий процесс и осуществляется, как прави­ло, на ЭВМ.

    На основе парных коэффициентов корреляции составляется уравнение множественной регрессии между результативным и факторными признаками в стандартизованном масштабе.

    Стандартизованным называется такой масштаб измерения, при котором все фактические значе­ния коррелируемых показателей заменяются расчетными по формуле

    где хі — значение i-й переменной в натуральном масштабе.

    На практике приходится встречаться не только с прямолинейными, но и с криволинейными за­висимостями (например, размер фермы и затраты на производство единицы продукции; урожай и осадки, урожай и внесение минеральных и органических удобрений и др.). Криволинейные зависи­мости принимают формы гиперболы, параболы, логарифмических кривых и т.д.

    Для криволинейных зависимостей корреляционное отношение (^) является наиболее точным измерителем тесноты связи между признаками. Формула его исчисления

    где — межгрупповая дисперсия результативного признака по фактическому; о2у — общая дис­персия результативного признака.

    Тесноту связи между двумя признаками можно определить и с помощью коэффициента корре­ляции рангов [16; 227, 228]. В этом случае взаимосвязанные признаки размещаются по ранжиру ос­новного признака, их количественные величины расцениваются в рангах (порядковых величинах ранжира). Затем определяется разность рангов (d), которая возводится в квадрат. Коэффициент ран­гов определяется по формуле

    где d — разность между рангами изучаемых признаков; п — число наблюдений.

    Используя коэффициент рангов, установим зависимость между количеством коров на ферме и себестоимостью молока (табл. 2).

    Коэффициент свидетельствует о полной связи между концентрацией коров на фермах и себе­стоимостью молока — связь обратная.

    Определение коэффициента корреляции рангов упрощает расчеты.

    Применение регрессионных моделей для экономико-статистического анализа изучаемых явлений

    В процессе корреляционно-регрессионного анализа используют уравнения прямой, параболы, гиперболы, показательной кривой и др. Выбор уравнения регрессии должен быть теоретически и ло­гически обоснован с учетом социально-экономической сущности изучаемого явления, процесса.

    В ходе теоретического обоснования необходимо выяснить механизм взаимосвязи результатив­ного признака и признаков-факторов с учетом сущности явления.

    В процессе выбора модели уравнения учитывают также характер динамического ряда. Уравне­ние прямой используют, когда на протяжении изучаемого периода сохраняется более или менее ста­бильный абсолютный прирост явления.

    При зигзагообразном возрастающем изменении динамиче­ского ряда без стабильного его роста и снижения применяют уравнение параболы.

    При отрицатель­ной направленности и изменении динамических рядов по зигзагообразной снижающейся, а затем по повышающейся кривой, без стабильного ее снижения и роста, используют уравнение гиперболы или показательной кривой.

    Анализ показывает, что нельзя повсеместно и во всех случаях применять один и тот же вид ана­литического уравнения.

    Обычно при аналитическом выравнивании ряда динамики на базе регресси­онных моделей подбирается аналитическая функция (кривая), наиболее точно характеризующая за­кономерность развития данного явления или процесса во времени.

    Найденная функция позволяет по­лучить выравненные значения уровней ряда динамики (его теоретические оценки), т.е. те уровни, ко­торые наблюдались бы, если бы динамика явления или процесса полностью совпадала с выбранной кривой (линией регрессии).

    Для расчета параметров кривой используют метод наименьших квадратов, который требует, чтобы сумма квадратов отклонений значений, лежащих на линии регрессии (теоретических оценок уровней), от фактических значений уровней была минимальной, т.е. чтобы соблюдалось условие

    Эмпирический ряд, несмотря на колебания, отображает тенденцию роста урожайности.

    Для установления прогноза урожайности используем уравнение прямой yt = a + bt. Параметры прямой определяются по формулам (2) и (3). Для исчисления параметров находим необходимые ве­личины в таблице 3.

    Таблица 3

    Исчисление необходимых величин для отыскания параметров уравнения прямой

    Годы

    Порядковый номер года, t

    Фактическая урожайность зерновых yt, ц/га

    Произведение порядко­вого номера года на урожайность, ytt

    Квадрат

    порядкового

    л

    номера t

    2000

    1

    19,2

    19,2

    1

    2001

    2

    21,5

    43,0

    4

    2002

    3

    20,5

    61,5

    9

    2003

    4

    18,5

    74,0

    16

    2004

    5

    23,0

    115,0

    25

    2005

    6

    23,4

    140,4

    36

    2006

    7

    25,4

    177,8

    49

    2007

    8

    21,2

    169,6

    64

    2008

    9

    29,0

    261,0

    81

    2009

    10

    27,4

    274,0

    100

    2010

    11

    20,4

    224,4

    121

    2011

    12

    27,9

    334,8

    144

    Е

    78

    277,4

    1894,7

    650

    Параметр а показывает постоянную исходную урожайность зерновых культур для данного ряда.

    Параметр b характеризует среднюю прибавку урожайности зерновых за год. Следовательно, расчетный уровень урожайности в 2011 г. должен равняться

    Расхождение с фактической урожайностью составляет 4,6 %, что характеризует обоснованность расчетных параметров.

    Метод наименьших квадратов может быть использован при вычислении параметров уравнений регрессии криволинейной формы. В этом случае приходится сначала функцию «линеаризовать».

    В практике криволинейного выравнивания широко распространены два вида линеаризации: с помо­щью натуральных логарифмов (ln) и обратных преобразований ^j .

    Так, экспоненциальную кривую yt = аЬ можно превратить в линейную логарифмированием, в результате которого получаем уравне­ние ln yt=lna + lnbt.

    Заменив lnyt выражением у', lna — выражением а' и lnb — выражением b', по­лучаем линеаризованную функциюу'= а'+ b't. В этом уравнении значения а' и b' могут быть найдены на основе приведенных выше формул (2) и (3). Затем вычисляем значение у' по формуле (1) и с по­мощью антилогарифмов находим значение у.

    Список литературы

    1    Гришин А.Ф., Кочерова Е.В. Статистические модели: построение, оценка, анализ: Учеб. пособие. — М.: Финансы и статистика, 2005. — 416 с.

    2    Рыжова В.В., Кузнецова Л.А. Математические методы в анализе хозяйственной деятельности предприятий. — М.: Финансы, 1970. — 88 с.

    3     Федосеев В.В., Гармаш А.Н., Дайитбегов Д.М., Орлова И.В., Половников В.А. Экономико-математические методы и прикладные модели: Учеб. пособие.-М.:ЮНИТИ,1999.-391 с.

    4    Ричард Томас. Количественные методы анализа хозяйственной деятельности: Пер. с англ. — М.: Изд-во «Дело и Сервис», 1999. — 432 с.

    5     Чавкин А.М. Методы и модели рационального управления в рыночной экономике: разработка управленческих реше­ний: Учеб. пособие. — М.: Финансы и статистика, 2001. — 320 с.

    6       Терехов Л.Л., Куценко В.А., Сиднев С.П. Экономико-математические методы и модели в планировании и управлении.—  Киев: Вища шк., 1984. — 231 с.

    7      Шикин Е.В., Чхартишвили А.Г. Математические методы и модели в управлении: Учеб. пособие. — М.: Дело, 2000.—  440 с.

    8      Эренберг А. Анализ и интерпретация статистических данных: Пер. с англ. — М.: Финансы и статистика, 1981. — 406 с.

    9      Замков О.О., Толстопятенко А.В., Черемных Ю.Н. Математические методы в экономике: Учебник. — М.: МГУ им. М.В. Ломоносова, Изд-во «ДИС», 1997. — 368 с.

    10   Кейн Э. Экономическая статистика и эконометрия. Введение в количественный экономический анализ. Вып. 2: Пер. с англ. — М.: Статистика, 1977. — 232 с.

    11  ДемиденкоЕ.З. Линейная и нелинейная регрессии. — М.: Финансы и статистика, 1981. — 302 с.

    12   ЕлисееваИ.И., Курышева С.В., Костеева Т.В., Бабаева И.В., Михайлов Б.А. Эконометрика: Учебник. — М.: Финансы и статистика, 2001. — 344 с.

    13   Ларионов А.И., Юрченко Т.И., Новоселов А.Л. Экономико-математические методы в планировании: Учебник. — М.: Высш. шк., 1991. — 240 с.

    14   Шелобаев С.И. Математические методы и модели в экономике, финансах, бизнесе: Учеб. пособие. — М.: ЮНИТИ- ДАНА, 2000. — 367 с.

    15   Карасев А.И., Кремер Н.Ш., Савельева Т.И. Математические методы и модели в планировании: Учеб. пособие. — М.: Экономика, 1987. — 240 с.

    16   Венецкий И.Г., Венецкая В.И. Основные математико-статистические понятия и формулы в экономическом анализе.—  М.: Статистика, 1974. — 280 с.

    Фамилия автора: А.А.Нургалиева

    Добавить комментарий

    Ваш адрес email не будет опубликован.