Flatik.ru

Перейти на главную страницу

Поиск по ключевым словам:

страница 1
Простая линейная регрессия

Простая линейная регрессия 1

Задание 1. Выполните простой регрессионный анализ с участием независимой переменной Трев и зависимой переменной Тест 2

Представление результатов 2

Анализ криволинейных зависимостей 2

Оценка криволинейности 2

Задание 2. Выполните проверку зависимости на квадратичность (Quadratic). 3

Представление результатов 3

Задание 3. Создайте новую переменную Трев2 и включите ее в регрессионный анализ в качестве независимой. 4

Представление результатов 4

Терминология, используемая при выводе 4





Простая линейная регрессия


Команды подменю Regression (Регрессия) позволяют выполнять простой и множественный регрессионный анализ.

Имея информацию об одной характеристике объекта, можно пытаться на основе этой информации делать выводы о другой его характеристике, связанной с исходной. Например, зная рост человека, можно попытаться оценить его возможный вес: рост человека 214 см, с определенной вероятностью можно прогнозировать, что его вес человека превысит 91 кг.

Примеры пар связанных между собой величин:


  • коэффициент интеллекта (IQ) и академическая успеваемость,

  • число сокращений мышц ног в секунду и скорость бега,

  • калорийность пищи и вес,

  • симпатия к человеку и желание оказать ему помощь и т. д.

Метод линейной регрессии не может дать абсолютно достоверного результата, но позволяет ответить на вопрос о связи переменных, а также по заданному значению одной переменной рассчитать наиболее вероятное значение другой переменной.

Для выполнения заданий загрузите файл exam.sav. Файл содержит 10-балльную оценку тревожности (нервной возбудимости) 36 студентов и количество решенных ими зачетных тестовых задний (из 20 возможных).

Гипотеза о линейности отношения этих двух переменных говорит о том, что чем выше нервная возбудимость студента, тем выше его результативность (например, потому, что спокойных студентов меньше волнуют их знания, а тревожные студенты проводят больше времени за подготовкой к зачету).

Зависимой переменной (критерий) выступает переменная Тест, независимой (предиктор) – переменная Трев. В задании нужно спрогнозировать значения переменной Тест по известным значениям переменной Трев, используя уравнение регрессии.

Уравнение регрессии формируется на основе общего уравнения, связывающего фактическую успеваемость студента и нервную возбудимость:

Тест истина = константа + коэффициент * Трев + Остаток.

Тест истина – переменная, отражающая реальный результат выполнения тестового задания,

константа – некоторая константа,

коэффициент – регрессионный коэффициент при значении оценки тревожности,

остаток (Residual) – статистики, оценивающие долю дисперсии зависимой переменной, не обусловленную влиянием независимых переменных.

Прогнозируемое значение будет отличаться от истинного значения. Разница показывает, что рассчитываемые результаты экзамена никогда не бывают абсолютно точными, и чтобы получить истинный результат, необходимо ввести в уравнение член, равный разности прогнозируемого и реального значений – Остаток:



Реальное значение = Прогнозируемое значение + Остаток.

Помимо нервной возбудимости, на результаты зачетного тестирования влияют другие факторы, для учета которых выполняется регрессионный анализ, учитывающий и влияние нескольких факторов.

При проведении регрессного анализа с помощью команд подменю Regression (Регрессия) вычисляются величины:

R – коэффициент корреляции, характеризует связь между значениями зависимой и независимой переменных,

р – уровень значимости (определяется для рассчитанного значения множественного коэффициента корреляции R). р < 0,05 – значимая корреляция переменных, и р > 0,05 – вероятность случайности результата слишком высока, в этом случае связь между переменными слабая или не обнаружена.

R2 – коэффициент R2 характеризует долю дисперсии одной переменной, обусловленной воздействием другой переменной.

В-величины (Константа и коэффициент уравнения регрессии) – характеризуют связь между значениями переменных Трев и Тест.

Задание 1. Выполните простой регрессионный анализ с участием независимой переменной Трев и зависимой переменной Тест


  1. Загрузите файл exam.sav

  2. Analyze (Анализ) RegressionLinear (РегрессияЛинейная регрессия) окно Linear Regression (Линейная регрессия)

Файл exam.sav содержит только две переменные, то список в левой части окна отображает два имени: Трев и Тест.

  1. Для проведения регрессионного анализа поместите переменные:

  • Тест в поле Dependent (Зависимая переменная),

  • Трев – в список Independent(s) (Независимые переменные)

  • щелкните на кнопке ОК  окно вывода.

Программа SPSS вычислит величины R, R2, F и соответствующие им р-уровни, В-коэффициенты (коэффициенты и константы уравнения регрессии), а также стандартизированные р-коэффициенты, характеризующие степень зависимости между значениями исследуемых переменных.

Представление результатов


Результатом выполнения простого регрессионного анализа являются отчетные таблицы:

  • Сводка для модели

  • Дисперсионный анализ

  • Коэффициенты

Из данных таблиц видно, что между переменными Тест и Трев имеется значимая линейная связь, значит с увеличением нервной возбудимости (тревожности) студента количество выполненных им тестовых заданий на зачете также имеет тенденцию к увеличению.

В результате применения линейного регрессионного анализа константа оказалась равной 9,3114, а коэффициент регрессии 0,6751



Тест истина =9,3114 + 0,6751 * Трев

Для переменных Трев и Тест значение R = 0,546, a R2 = 0,298. Это означает, что 29,8 % дисперсии переменной тест объясняется влиянием независимой переменной Трев.

Уравнение для прогноза результата зачетного тестирования выглядит следующим образом:

Тест истина = Тест прогноз + Остаток

Тест прогноз=9,3114+0,6751*Трев.

Анализ криволинейных зависимостей

Оценка криволинейности


Гипотеза о том, что увеличение тревожности перед экзаменом всегда улучшает результат студента, вызывает сомнения. При низкой тревожности результаты экзамена должны быть низкими, т.к. излишнее спокойствие снижает потребность студента в подготовке.

С увеличением тревожности результат до определенного момента должен улучшаться, однако слишком тревожные студенты вряд ли способны сконцентрироваться и показать хороший результат. Поэтому наилучших показателей должны добиваться те студенты, чей уровень тревожности является промежуточным.

При регрессионном анализе, вне зависимости от того, является он множественным или простым, соотношение между зависимой и независимой переменными считается линейным.

В задании 1 видна значительная корреляция между, переменными Трев и Тест (R =0,546, р<0,001), но возможная ошибка прогноза велика R2 =0,298 (т.е. только 29,8 % дисперсии переменной Тест объясняется влияние переменной Трев).

Можно предположить, что если изменить вид общего уравнения (например, включить в него квадрат переменной Трев), то прогнозируемые значения будут ближе к реальным.

Для наглядности можно построить диаграмму: вертикальная ось – значения переменной Тест, горизонтальная – переменной Трев. Из графика видно, что зависимость между переменными не является линейной: имеется выраженный максимум, а при движении к краям диаграммы наблюдается убывание значений переменной Тест.

Достоверно установить характер отношений между переменными только графической интерпретацией невозможно. Необходимо применить статистические критерии.

Задание 2. Выполните проверку зависимости на квадратичность (Quadratic).





  1. Загрузите файл exam.sav

  2. Analyze (Анализ)RegressionCurve Estimation(Регрессия Оценка криволинейности)окно Curve Estimation (Оценка криволинейности)

По умолчанию в диалоговом окне установлены три флажка:

  • Include constant in equation (Включить константу в уравнение)

  • Plot Models (Модели диаграмм),

  • Linear (Линейная зависимость), обеспечивающий проверку гипотезы о прямолинейности и включение в диаграмму прямой линии.

В группе Models (Модели) помимо флажка Linear (Линейная зависимость) имеются множество других флажков, позволяющих проводить проверки на соответствие изучаемого распределения видам кривых и включать эти кривые в диаграмму.

  1. Выделите переменную Тест и переместите переменную в список Dependent(s) (Зависимые переменные).

  2. Выделите переменную Трев и переместите переменную в список Independent (Независимая переменная) и установите флажок Quadratic (Квадратичная зависимость)ОКокно вывода.

Представление результатов

После выполнения анализа криволинейной зависимости результаты будут представлены: таблица Результаты оценки криволинейности и Диаграмма рассеивания оценки криволинейности, по которой можно оценить, насколько близка к линейной или квадратичной зависимость между значениями переменных.

На диаграмму помимо линейной и квадратичной зависимостей нанесен разброс данных файла.

В таблицу Результаты оценки криволинейности включены значения коэффициентов В регрессии (b0, b1, b2), поэтому не сложно составить линейное и квадратичное уравнения регрессии для прогнозируемых значений. Константа и коэффициенты уравнений указаны в последних трех столбцах таблицы результатов таблицы.

Для линейной регрессии уравнение имеет вид

Тест прогноз = 9,3114 + 0,6751 * Трев


Уравнение для квадратичной регрессии выглядит следующим образом:

Тест прогноз = 0,1615 + 4,4896 *Трев - 0,3381 * (Трев)2.

Из таблицы видно, что в случае линейной регрессии величина R2 (столбец квадрат в таблице выводимых результатов) равна 0,298, т. е. 29,8 % дисперсий переменной Тест обусловлено воздействием со стороны переменной Трев.

В тоже время для квадратичной регрессии, которая учитывает и линейную, и криволинейную связи, R2 = 0,675, т. е. она обусловливает 67,5 % дисперсии перемени Тест.

Малый р-уровень для обоих уравнений свидетельствует об очень высокой статистической достоверности полученных результатов.

Вывод: квадратичная регрессия описывает отношения между переменными Тест и Трев более адекватно, чем линейная.

При составлении квадратного уравнения регрессии SPSS вычисляет новую переменную, значения которой равны квадратам соответствующих значений перепой Трев.

Из школьного курса алгебры, квадратичная зависимость графически имеет вид параболы – кривой с двумя ветвями, которые могут быть направлены вверх, если коэффициент при квадратном члене положительный, или вниз, если коэффициент при квадратном члене отрицательный. Поскольку квадратное уравнение имеет не только квадратный, но и положительный линейный член, изображаемый в виде возрастающей наклонной прямой, конец левой ветви параболы расположен ниже, чем конец правой ветви.
Для включения в анализ регрессии квадрата переменной Трев, нужно создать переменную Трев2, содержащую квадраты значений переменной Трев, затем указать ее в качестве независимой переменной. Создание новой переменной начинается с диалогового окна Compute Variable (Вычисление переменной).

Задание 3. Создайте новую переменную Трев2 и включите ее в регрессионный анализ в качестве независимой.





  1. Загрузите файл exam.sav

  2. Transform (Преобразование)Compute (Вычислить)окно Compute Variable (Вычисление переменной).

  3. В поле Target Variable (Целевая переменная) введите имя Трев2.

  4. Выделите переменную Треввведите ее в поле Numeric Expression (Выражение).

  5. Далее за именем переменной в поле Numeric Expression (Выражение) нажмите кнопку с изображением 2 звездочек (**) или введите две звездочки с клавиатуры, затем введите цифру 2 ОК, окно редактора данных.

  6. AnalyzeRegression Linear окно Linear Regression для очистки окна нажмите Reset (Сброс).

  7. Выделите переменную Тест и переместите ее в поле Dependent (Зависимая переменная).

  8. Выделите переменную Трев и переместите ее в список Independent(s) (Независимые переменные).

  9. Повторите предыдущее действие для переменной Трев2ОК, окно вывода

Представление результатов


После выполнения регрессионного анализа криволинейной зависимости результаты будут представлены диаграммой зависимостей и сводкой модели с оценками параметров.

Отчеты представлены в виде таблиц:



  • Сводка для модели

  • Дисперсионный анализ

  • Коэффициенты3

Термины, используемые в приведенных результатах, имеют тот же смысл, что и в отчете к заданию 2. Коэффициент корреляции (R2= 0,675) зависимой переменной Тест с независимыми переменными Трев и Трев2 в данном случае означает, что 67,5 % дисперсии переменной Тест обусловлено влиянием со стороны переменных Трев и Трев2.

Значения F-критерия и соответствующие значимости (для F и t) говорят о сильном воздействии на зависимую переменную как обеих независимых переменных, так и каждой переменной в отдельности.

Значения β для нелинейных отношений не ограничиваются диапазоном от -1 до 1. В столбце В таблицы Коэффициенты приведены коэффициенты уравнения регрессии.

Сравните эти коэффициенты с коэффициентами уравнения для квадратичной регрессии.



Терминология, используемая при выводе


R – в анализе участвовала единственная независимая переменная, эта величина равна коэффициенту корреляции (r) между переменными Тест и Трев.

R Square (R2) – квадрат величины R, равный доле дисперсии переменной Тест, обусловленной воздействием переменной Трев.

Adjusted R Square (Скорректированный R2) – скорректированная величина R2, которая использовалась в расчетах, на практике оказывается несколько завышенной. Скорректированная величина R2 менее формальна и ближе к реальным результатам.

Std. Error (Стд. ошибка оценки) – в таблице Model Summary (Сводка для модели) это стандартное отклонение оценок значений зависимой переменной Тест.

Regression (Регрессия) – статистики, оценивающие долю дисперсии зависимой переменной, обусловленную влиянием независимых переменных.

Residual (Остаток) – статистики, оценивающие долю дисперсии зависимой переменной, не обусловленную влиянием независимых переменных.

df (ст. св.) – число степеней свободы, для регрессии оно равно числу независимых переменных. Для остатка – равно разности размера выборки и числа степеней свободы регрессии, уменьшенной на единицу (36 - 1 - 1 = 34).

Sum of Squares (Сумма квадратов) – для регрессии это сумма квадратов между группами; для остатка – сумма квадратов внутри групп.

Mean Square (Средний квадрат) – отношение суммы квадратов к числу степеней свободы.

F – значение /-критерия, отношение среднего квадрата для регрессии к среднему квадрату для остатка.

Sig. (Знч.) – величина р-уровня значимости, вероятность случайности полученного результата.

В – коэффициент и константа линейного уравнения регрессии: Тест прогноз=-9,311+0,675(трев).

Std. Error (Стд. ошибка) – стандартная ошибка, в таблице Coefficients (Коэффициенты) это характеристика стабильности коэффициента В, равная стандартному отклонению коэффициентов В, рассчитанных для большого числа выборок из генеральной совокупности.

eta (Бета) – стандартизованный коэффициент регрессии (β). Представляет собой коэффициент В для стандартизованных значений переменной Трев. Для нелинейных отношений эта величина всегда лежит в диапазоне от -1,0 до 1,0, а для криволинейных отношений может выходить за границы этого диапазона.

t – отношение коэффициента В к его стандартной ошибке.

Простая линейная регрессия

Задание Выполните простой регрессионный анализ с участием независимой переменной Трев и зависимой переменной Тест 2

109.32kb.

06 10 2014
1 стр.


Лекция №14 Множественная линейная регрессия

Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Уравнение множественной регрессии может

58.65kb.

06 10 2014
1 стр.


Программа дисциплины линейная алгебра Цикл ен. Ф. Специальность : 010400 Физика

Рабочая программа дисциплины "Линейная алгебра" предназначена для студентов 1 курса

154.32kb.

15 10 2014
1 стр.


С. 110-112. Физиологическая возрастная регрессия как основа функциональных состояний, связанных с измененными состояниями сознания

Физиологическая возрастная регрессия как основа функциональных состояний, связанных с измененными состояниями сознания

47.82kb.

06 10 2014
1 стр.


Тема 15. Регрессия, это инструмент статистики, на субъективность которого информатики могут сваливать все свои ошибки

Регрессия, это инструмент статистики, на субъективность которого информатики могут сваливать все свои ошибки

109.48kb.

06 10 2014
1 стр.


Лекция жоспары: Гетероскедастикалылық жұмсарту әдістері

Ендеше біз регрессия теңдеуінің параметрлерін бағалау дәлірек мәніне ие боламыз: Теңдеудің оң және сол жақтарын бөлеміз, сонда

19.95kb.

23 09 2014
1 стр.


Дисциплина Финансовая математика

Укажите формулу расчета наращенной суммы, когда применяется простая процентная ставка, дискретно изменяющаяся во времени

55.39kb.

06 10 2014
1 стр.


Программа наименование дисциплины Линейная алгебра

Эконометрика, Математический анализ, Микроэкономика, Макроэкономика, Дифференциальные и разностные уравнения, Дискретные математические модели, Методы оптимальных решений

205.54kb.

18 12 2014
1 стр.