Перейти на главную страницу
Рассматривая зависимости между признаками, необходимо выделить прежде всего две категории зависимости: 1) функциональные и 2) корреляционные.
При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции.
Для двух переменных Х и У теоретический коэффициент корреляции определяется следующим образом:
Для оценки значимости коэффициента корреляции применяется t-критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле:
К-ты парной корреляции исп-ся для измерения силы линейных связей различных пар признаков из их множества. Получают матрицу к-в парной корреляции R
Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном коррелицон. анализе рассматриваются 2 задачи:
Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причин связей. Корреляция непосредственно не выявляет причинных связей между параметрами, но устанавливает численное значение этих связей и достоверность суждений об их наличии.
Для двух переменных Х и У теоретический коэффициент корреляции определяется следующим образом:
Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменными и обладает следующими основными свойствами. Коэффициент корреляции принимает значение в интервале (-1, +1). Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения. В практических расчетах к-т корреляции генеральной совокупности обычно неизвестен. По результатам выборки м.б. найдена его его точечная оценка – выборочн. к-т корреляции r, к-й является случайной величиной (т.к. выборочная совокупность переменных Х и У случайна):
Для оценки значимости коэффициента корреляции применяется t-критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле:
Вычисленное по этой формуле значение tпабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы.
Если tмабл > tкр, то полученное значение коэффициента корреляции признается значимым (т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). Отсюда делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.
Если значение rу х близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем убывать.
Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества т признаков п наблюдений получают матрицу коэффициентов парной корреляции R:
Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном коррелицон. анализе рассматриваются 2 задачи:
Линейная модель парной регрессии есть: у=а0+а1х+
а1 - коэф-т регрессии, показывающий, как изменится у при изменении х на единицу
а0 - это свободный член, расчетная величина, содержания нет.
- это остаточная компонента, т.е. случайная величина, независимая, нормально распределенная, мат ожид = 0 и постоянной дисперсией.
В матричной форме модель имеет вид:
Y=XA+ε
Где Y– вектор-столбец размерности (nx1) наблюдаемых значений зависимой переменной; Х– матрица размерности (nx2) наблюдаемых значений факторных признаков. Дополнительный фактор х0 вводится для вычисления свободного члена; А– вектор-столбец размерности (2х1) неизвестных, подлежащих оценке коэффициентов регрессии; ε– вектор-столбец размерности (nх1) ошибок наблюдений
Параметры модели находятся с использованием МНК. Подсчитывается сумма квадратов ошибок наблюдений.
Классический подход к оцениванию параметров линейной регрессии основан на метода наименьших квадратов. МНК позволяет получить такие оценки параметров а и Ь, при которых сумма квадратов отклонений фактических значений результативного признака (у) от расчетных (теоретических) ух минимальна:
Иными словами, из свего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной: , следовательно,
Чтобы найти минимум ф-ции , надо вычислить частные производные по кажд. из параметров а и b и приравнять их к нулю. Обозначим
через S, тогда:
;
Преобразуя эту формулу, получим следующую систему нормальных уравнений для оценки параметров а и b:
Решая эту систему нормальных уравнений либо методом последовательного исключения переменных, либо методом определителей, найдем искомые оценки параметров а и b. .
Построение линейной регрессии сводится к оценке ее параметров а и b. Оценки параметров линейной регрессии м.б. найдены разными способами. Можно обратиться к полю корреляции и, выбрав на графике две точки, провести через них прямую линию. Далее по графику можно определить значения параметров. Параметр а определим как точку пересечения линии регрессии с осью оу, а параметр b оценим, исходя из угла наклона линии регрессии, как dу/dх, где dу — приращение результата у, а dх — приращение фактора х, т. е.
Классический подход к оцениванию параметров линейной регрессии основан на метода наименьших квадратов. МНК позволяет получить такие оценки параметров а и Ь, при которых сумма квадратов отклонений фактических значений результативного признака (у) от расчетных (теоретических) ух минимальна:
Иными словами, из свего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной: , следовательно,
Чтобы найти минимум ф-ции , надо вычислить частные производные по кажд. из параметров а и b и приравнять их к нулю. Обозначим
через S, тогда:
;
Преобразуя эту формулу, получим следующую систему нормальных уравнений для оценки параметров а и b:
Решая эту систему нормальных уравнений либо методом последовательного исключения переменных, либо методом определителей, найдем искомые оценки параметров а и b. .
Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков – εi. При построении уравнения регрессии мы можем разбить значение у в каждом наблюдении на 2 составляющие: . Остаток представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученное расчетным путем:
. Если εi=0, то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции у=а0+а1х) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак у полностью обусловлен влиянием фактора х. На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т.е. отклонения эмпирических данных от теоретических (
). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.
для оценки качества регрессионных моделей используют также к-т множественной корреляции: . Данный коэффициент является универсальным, т.к. он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. Коэффициент множественной корреляции, возведенный в квадрат, называется к-том детерминации:
. Он показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т.е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов. Чем ближе он к 1, тем выше качество модели.
Для проверки значимости модели регрессии используется F-критерий Фишера,
Для проверки значимости модели регрессии используется F-критерий Фишера. Если расчетное значение с t1=k и t2=(n-k-1) степенями свободы, где k– количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.
Регрессионные модели м.б. использованы для прогнозирования возможных ожидаемых значений зависимой переменной. Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии ожидаемой величины фактора х. данный прогноз называется точечным. Значение независимой переменной хпрогн не должно значительно отличаться от входящих в исследуемую выборку, по которой вычислено уравнение регрессии. Вероятность точечного прогноза теоретически равна 0. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большой надежностью. Доверительный интервалы зависят от стандартной ошибки, удаления хпрогн от своего среднего значения, количества наблюдений и уровня значимости прогноза. Определим доверительный интервал прогноза:
Величину отклонения от линии регрессии () вычисляют по формуле:
В качестве меры точности модели применяют среднюю относительную ошибку:
Этот показатель показывает, на сколько в среднем расчетные значения для линейной модели отличаются от фактических значений.
Уравнение гиперболической модели имеет вид:
Проведем линеаризацию модели путем замены . В результате получим линейное уравнение:
Рассчитаем его параметры:
Получим следующее уравнение гиперболической модели:
Далее проверяет качество модели (индекс корреляции, к-т детерминации, F-критерий Фишера, средняя относительная ошибка).
Уравнение степенной модели имеет вид: Для построения этой модели необходимо произвести линеаризацию переменных. Для этого произведем логарифмирование обеих частей уравнения: lg
=lg a + b lg x
Обозначим Y= lg, X= lg x, A= lg a
Тогда уравнение примет вид: Y=A+bX – линейное уравнение регрессии.
Определим коэффициенты уравнения по след формулам:
Перейдем к исходным переменным х и у, выполнив потенцирование данного уравнения:
Получим уравнение степенной модели регрессии:
Далее проверяет качество модели (индекс корреляции, к-т детерминации, F-критерий Фишера, средняя относительная ошибка).
Уравнение показательной модели имеет вид:
Для построения этой модели необходимо произвести линеаризацию переменных. Для этого произведем логарифмирование обеих частей уравнения:
lg=lg a + x lg b
Обозначим Y= lg, B= lg b, A= lg a
Получим линейное уравнение: Y=A+Вх.
Рассчитаем его параметры:
Перейдем к исходным переменным х и у, выполнив потенцирование данного уравнения:
Далее проверяет качество модели (индекс корреляции, к-т детерминации, F-критерий Фишера, средняя относительная ошибка).
Линейная модель множественной регрессии. У=а0+а1х1+ а2х2+…+ аmхm+e
Параметры определяются с помощью методов наименьших квадратов.
Для этого проведем все рассуждения в матричной форме. Введем следующие матричные обозначения:
где У вектор n значений результативного показателя.
Х – матрица n значений m независимых переменных; а матрица параметров
У=Х∙а+ε.
Итак, метод наименьших квадратов требует мин-ии суммы квадратов отклонений исходных модели значений
Далее:
Из матричной алгебры известно, что , тогда:
1 – это есть матрица размерностью 1Х1, т.е. число-скаляр, а скаляр при трансформировании не меняется, поэтому
Согласно условию экстремума S по а =0
;
2ХТY+2aXTX=0
XTY=aXTX
Для погашения а умножим обе части этого уравнения на (ХТХ)-1, тогда
а= (XTХ)-1∙XTY
Решение задачи нахождения матицы, а возможно лишь в том случае, если строки и столбцы матрицы Х линейно независимы.
Рассматривая зависимости между признаками, необходимо выделить прежде всего две категории зависимости: 1 функциональные и 2 корреляционные
23 09 2014
3 стр.
При этом наибольшие значения завихренности достигаются в вихревых нитях. Исходя из полученных решений, вычислена парная корреляционная функция. Показано, что она подчиняется закону
18 12 2014
6 стр.
Структурно-функциональная организация палеоамигдалы: фундаментальные закономерности и прикладные аспекты
09 09 2014
5 стр.
Фабри-Перо. С "толстым" интерферометром (d~10 см) при идеальной настройке и хороших зеркалах можно получить а~10-5 нм, что будет соответствовать частотному интервалу ~108 c Мож
07 10 2014
1 стр.
Как бороться против зависимости – с помощью лекарств или с помощью психотерапии? В амстердамской Клинике Йеллинек дневное лечение алкогольной зависимости при необходимости сочетает
14 10 2014
1 стр.
Интерлейкинемия в зависимости от гликемического профиля пациентов с артериальной гипертензией
11 09 2014
1 стр.
«человек», в древние времена всегда подразумевали «мозг», так как только мозг обладает свойством изменения генетического или хромосомного набора в зависимости от образа жизни, кото
09 10 2014
1 стр.
Точка 1 движется согласно уравнениям (м), а точка 2 согласно уравнениям (м). Записать зависимости. По характеру зависимости и определить тип движения. Встретятся ли эти точки, если
02 10 2014
1 стр.