Где применяется метод наименьших квадратов. Метод наименьших квадратов в Excel. Регрессионный анализ Уравнение прямой методом наименьших квадратов
3. Аппроксимация функций с помощью метода
наименьших квадратов
Метод наименьших квадратов применяется при обработке результатов эксперимента для аппроксимации (приближения) экспериментальных данных аналитической формулой. Конкретный вид формулы выбирается, как правило, из физических соображений. Такими формулами могут быть:
и другие.
Сущность метода наименьших квадратов состоит в следующем. Пусть результаты измерений представлены таблицей:
Таблица 4 |
||||
x n |
||||
y n |
(3.1) |
где f - известная функция, a 0 , a 1 , …, a m - неизвестные постоянные параметры, значения которых надо найти. В методе наименьших квадратов приближение функции (3.1) к экспериментальной зависимости считается наилучшим, если выполняется условие
(3.2) |
то есть сумм a квадратов отклонений искомой аналитической функции от экспериментальной зависимости должна быть минимальна .
Заметим, что функция Q называется невязкой.
Так как невязка
то она имеет минимум. Необходимым условием минимума функции нескольких переменных является равенство нулю всех частных производных этой функции по параметрам. Таким образом, отыскание наилучших значений параметров аппроксимирующей функции (3.1), то есть таких их значений, при которых Q = Q (a 0 , a 1 , …, a m ) минимальна, сводится к решению системы уравнений:
(3.3) |
Методу наименьших квадратов можно дать следующее геометрическое истолкование: среди бесконечного семейства линий данного вида отыскивается одна линия, для которой сумма квадратов разностей ординат экспериментальных точек и соответствующих им ординат точек, найденных по уравнению этой линии, будет наименьшей.
Нахождение параметров линейной функции
Пусть экспериментальные данные надо представить линейной функцией:
Требуется подобрать такие значения a и b , для которых функция
(3.4) |
будет минимальной. Необходимые условия минимума функции (3.4) сводятся к системе уравнений:
|
После преобразований получаем систему двух линейных уравнений с двумя неизвестными:
|
(3.5) |
решая которую , находим искомые значения параметров a и b .
Нахождение параметров квадратичной функции
Если аппроксимирующей функцией является квадратичная зависимость
то её параметры a , b , c находят из условия минимума функции:
(3.6) |
Условия минимума функции (3.6) сводятся к системе уравнений:
|
После преобразований получаем систему трёх линейных уравнений с тремя неизвестными:
|
(3.7) |
при решении которой находим искомые значения параметров a , b и c .
Пример . Пусть в результате эксперимента получена следующая таблица значений x и y :
Таблица 5 |
||||||||
y i |
0,705 |
0,495 |
0,426 |
0,357 |
0,368 |
0,406 |
0,549 |
0,768 |
Требуется аппроксимировать экспериментальные данные линейной и квадратичной функциями.
Решение. Отыскание параметров аппроксимирующих функций сводится к решению систем линейных уравнений (3.5) и (3.7). Для решения задачи воспользуемся процессором электронных таблиц Excel .
1. Сначала сцепим листы 1 и 2. Занесём экспериментальные значения x i и y i в столбцы А и В, начиная со второй строки (в первой строке поместим заголовки столбцов). Затем для этих столбцов вычислим суммы и поместим их в десятой строке.
В столбцах C – G разместим соответственно вычисление и суммирование
2. Расцепим листы.Дальнейшие вычисления проведём аналогичным образом для линейной зависимости на Листе 1и для квадратичной зависимости на Листе 2.
3. Под полученной таблицей сформируем матрицу коэффициентов и вектор-столбец свободных членов. Решим систему линейных уравнений по следующему алгоритму:
Для вычисления обратной матрицы и перемножения матриц воспользуемся Мастером функций и функциями МОБР и МУМНОЖ .
4. В блоке ячеек H2: H 9 на основе полученных коэффициентов вычислим значенияаппроксимирующего полинома y i выч ., в блоке I 2: I 9 – отклонения D y i = y i эксп . - y i выч .,в столбце J – невязку:
Полученные таблицы и построенные с помощью Мастера диаграмм графики приведёны на рисунках6, 7, 8.
Рис. 6. Таблица вычисления коэффициентов линейной функции,
аппроксимирующей экспериментальные данные.
Рис. 7. Таблица вычисления коэффициентов квадратичной функции,
аппроксимирующей экспериментальные данные.
Рис. 8. Графическое представление результатов аппроксимации
экспериментальных данных линейной и квадратичной функциями.
Ответ. Аппроксимировали экспериментальные данные линейной зависимостью y = 0,07881 x + 0,442262 c невязкой Q = 0,165167 и квадратичной зависимостью y = 3,115476 x 2 – 5,2175 x + 2,529631 c невязкой Q = 0,002103 .
Задания. Аппроксимировать функцию, заданную таблично, линейной и квадратичной функциями.
Таблица 6 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№0 |
x |
0,1 |
0,2 |
0,3 |
0,4 |
0,5 |
0,6 |
0,7 |
0,8 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
y |
3,030 |
3,142 |
3,358 |
3,463 |
3,772 |
3,251 |
3,170 |
3,665 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 1 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3,314 |
3,278 |
3,262 |
3,292 |
3,332 |
3,397 |
3,487 |
3,563 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 2 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1,045 |
1,162 |
1,264 |
1,172 |
1,070 |
0,898 |
0,656 |
0,344 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 3 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6,715 |
6,735 |
6,750 |
6,741 |
6,645 |
6,639 |
6,647 |
6,612 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 4 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2,325 |
2,515 |
2,638 |
2,700 |
2,696 |
2,626 |
2,491 |
2,291 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 5 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1.752 |
1,762 |
1,777 |
1,797 |
1,821 |
1,850 |
1,884 |
1,944 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 6 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1,924 |
1,710 |
1,525 |
1,370 |
1,264 |
1,190 |
1,148 |
1,127 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 7 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1,025 |
1,144 |
1,336 |
1,419 |
1,479 |
1,530 |
1,568 |
1,248 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 8 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5,785 |
5,685 |
5,605 |
5,545 |
5,505 |
5,480 |
5,495 |
5,510 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
№ 9 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4,052 |
4,092 |
4,152 |
4,234 |
4,338 |
4,468 |
4,599 |
Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель y x =a+bx, необходимо определить конкретные значения коэффициентов модели. При различных значениях а и b можно построить бесконечное число зависимостей вида y x =a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов. Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов. Обозначим: Y i - значение, вычисленное по уравнению Y i =a+bx i . y i - измеренное значение, ε i =y i -Y i - разность между измеренными и вычисленными по уравнению значениям, ε i =y i -a-bx i . В методе наименьших квадратов требуется, чтобы ε i , разность между измеренными y i и вычисленными по уравнению значениям Y i , была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей: Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы: (2) Если разделить обе части нормальных уравнений на n, то получим: Учитывая, что (3) Получим , отсюда , подставляя значение a в первое уравнение, получим: При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии и вычисляют по формуле: Полученная прямая является оценкой для теоретической линии регрессии. Имеем: Итак, является уравнением линейной регрессии. Регрессия может быть прямой (b>0) и обратной (b Пример 1. Результаты измерения величин X и Y даны в таблице:
Предполагая, что между X и Y существует линейная зависимость y=a+bx, способом наименьших квадратов определить коэффициенты a и b. Решение. Здесь n=5 и нормальная система (2) имеет вид Решая эту систему, получим: b=0.425, a=1.175. Поэтому y=1.175+0.425x. Пример 2. Имеется выборка из 10 наблюдений экономических показателей (X) и (Y).
Требуется найти выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X. Решение. 1. Проведем упорядочивание данных по значениям x i и y i . Получаем новую таблицу:
Для упрощения вычислений составим расчетную таблицу, в которую занесем необходимые численные значения.
Согласно формуле (4), вычисляем коэффициента регрессии а по формуле (5) Таким образом, выборочное уравнение регрессии имеет вид y=-59.34+1.3804x.
На рис.4 видно, как располагаются наблюдаемые значения относительно линии регрессии. Для численной оценки отклонений y i от Y i , где y i наблюдаемые, а Y i определяемые регрессией значения, составим таблицу:
Значения Y i вычислены согласно уравнению регрессии. Заметное отклонение некоторых наблюдаемых значений от линии регрессии объясняется малым числом наблюдений. При исследовании степени линейной зависимости Y от X число наблюдений учитывается. Сила зависимости определяется величиной коэффициента корреляции. Приблизим функцию многочленом 2-ой степени. Для этого вычислим коэффициенты нормальной системы уравнений: , , Составим нормальную систему наименьших квадратов, которая имеет вид: Решение системы легко находится:, , . Таким образом, многочлен 2-ой степени найден: . Теоретическая справка Вернуться на страницу <Введение в вычислительную математику. Примеры> Пример 2 . Нахождение оптимальной степени многочлена. Вернуться на страницу <Введение в вычислительную математику. Примеры> Пример 3 . Вывод нормальной системы уравнений для нахождения параметров эмпирической зависимости. Выведем систему уравнений для определения коэффициентов и функции , осуществляющей среднеквадратичную аппроксимацию заданной функции по точкам. Составим функцию и запишем для нее необходимое условие экстремума: Тогда нормальная система примет вид: Получили линейную систему уравнений относительно неизвестных параметров и, которая легко решается. Теоретическая справка Вернуться на страницу <Введение в вычислительную математику. Примеры> Пример. Экспериментальные данные о значениях переменных х
и у
приведены в таблице. В результате их выравнивания получена функция Используя метод наименьших квадратов , аппроксимировать эти данные линейной зависимостью y=ax+b (найти параметры а и b ). Выяснить, какая из двух линий лучше (в смысле метода наименьших квадратов) выравнивает экспериментальные данные. Сделать чертеж. Суть метода наименьших квадратов (МНК).Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b принимает наименьшее значение. То есть, при данных а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов. Таким образом, решение примера сводится к нахождению экстремума функции двух переменных. Вывод формул для нахождения коэффициентов.Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменным а
и b
, приравниваем эти производные к нулю. Решаем полученную систему уравнений любым методом (например методом подстановки
или методом Крамера) и получаем формулы для нахождения коэффициентов по методу наименьших квадратов (МНК). При данных а и b функция принимает наименьшее значение. Доказательство этого факта приведено ниже по тексту в конце страницы. Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы , , , и параметр n — количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a . Пришло время вспомнить про исходый пример. Решение. В нашем примере n=5
. Заполняем таблицу для удобства вычисления сумм, которые входят в формулы искомых коэффициентов. Значения в четвертой строке таблицы получены умножением значений 2-ой строки на значения 3-ей строки для каждого номера i . Значения в пятой строке таблицы получены возведением в квадрат значений 2-ой строки для каждого номера i . Значения последнего столбца таблицы – это суммы значений по строкам. Используем формулы метода наименьших квадратов для нахождения коэффициентов а
и b
. Подставляем в них соответствующие значения из последнего столбца таблицы: Следовательно, y = 0.165x+2.184 — искомая аппроксимирующая прямая. Осталось выяснить какая из линий y = 0.165x+2.184 или лучше аппроксимирует исходные данные, то есть произвести оценку методом наименьших квадратов. Оценка погрешности метода наименьших квадратов.Для этого требуется вычислить суммы квадратов отклонений исходных данных от этих линий и , меньшее значение соответствует линии, которая лучше в смысле метода наименьших квадратов аппроксимирует исходные данные. Так как , то прямая y = 0.165x+2.184 лучше приближает исходные данные. Графическая иллюстрация метода наименьших квадратов (мнк).На графиках все прекрасно видно. Красная линия – это найденная прямая y = 0.165x+2.184 , синяя линия – это , розовые точки – это исходные данные. Для чего это нужно, к чему все эти аппроксимации? Я лично использую для решения задач сглаживания данных, задач интерполяции и экстраполяции (в исходном примере могли бы попросить найти занчение наблюдаемой величины y при x=3 или при x=6 по методу МНК). Но подробнее поговорим об этом позже в другом разделе сайта. К началу страницы Доказательство. Чтобы при найденных а и b функция принимала наименьшее значение, необходимо чтобы в этой точке матрица квадратичной формы дифференциала второго порядка для функции была положительно определенной. Покажем это. Дифференциал второго порядка имеет вид: То есть Следовательно, матрица квадратичной формы имеет вид Покажем, что матрица положительно определенная. Для этого нужно, чтобы угловые миноры были положительными. Угловой минор первого порядка . Неравенство строгое, так как точки несовпадающие. В дальнейшем это будем подразумевать. Угловой минор второго порядка Докажем, что методом математической индукции. Вывод : найденные значения а и b соответствуют наименьшему значению функции , следовательно, являются искомыми параметрами для метода наименьших квадратов. Некогда разбираться? К началу страницы Разработка прогноза с помощью метода наименьших квадратов. Пример решения задачиЭкстраполяция — это метод научного исследования, который основан на распространении прошлых и настоящих тенденций, закономерностей, связей на будущее развитие объекта прогнозирования. К методам экстраполяции относятся метод скользящей средней, метод экспоненциального сглаживания, метод наименьших квадратов. Сущность метода наименьших квадратов состоит в минимизации суммы квадратических отклонений между наблюдаемыми и расчетными величинами. Расчетные величины находятся по подобранному уравнению – уравнению регрессии. Чем меньше расстояние между фактическими значениями и расчетными, тем более точен прогноз, построенный на основе уравнения регрессии. Теоретический анализ сущности изучаемого явления, изменение которого отображается временным рядом, служит основой для выбора кривой. Иногда принимаются во внимание соображения о характере роста уровней ряда. Так, если рост выпуска продукции ожидается в арифметической прогрессии, то сглаживание производится по прямой. Если же оказывается, что рост идет в геометрической прогрессии, то сглаживание надо производить по показательной функции. Рабочая формула метода наименьших квадратов : У t+1 = а*Х + b , где t + 1 – прогнозный период; Уt+1 – прогнозируемый показатель; a и b — коэффициенты; Х — условное обозначение времени. Расчет коэффициентов a и b осуществляется по следующим формулам: где, Уф – фактические значения ряда динамики; n – число уровней временного ряда; Сглаживание временных рядов методом наименьших квадратов служит для отражения закономерности развития изучаемого явления. В аналитическом выражении тренда время рассматривается как независимая переменная, а уровни ряда выступают как функция этой независимой переменной. Развитие явления зависит не от того, сколько лет прошло с отправного момента, а от того, какие факторы влияли на его развитие, в каком направлении и с какой интенсивностью. Отсюда ясно, что развитие явления во времени выступает как результат действия этих факторов. Правильно установить тип кривой, тип аналитической зависимости от времени – одна из самых сложных задач предпрогнозного анализа . Подбор вида функции, описывающей тренд, параметры которой определяются методом наименьших квадратов, производится в большинстве случаев эмпирически, путем построения ряда функций и сравнения их между собой по величине среднеквадратической ошибки, вычисляемой по формуле: где Уф – фактические значения ряда динамики; Ур – расчетные (сглаженные) значения ряда динамики; n – число уровней временного ряда; р – число параметров, определяемых в формулах, описывающих тренд (тенденцию развития). Недостатки метода наименьших квадратов :
Пример применения метода наименьших квадратов для разработки прогнозаЗадача . Имеются данные, характеризующие уровень безработицы в регионе, %
Решение методом наименьших квадратов Для решения составим таблицу, в которой будем производить необходимые расчеты: ε = 28,63/10 = 2,86% точность прогноза высокая. Вывод : Сравнивая результаты, полученные при расчетах методом скользящей средней , методом экспоненциального сглаживания и методом наименьших квадратов, можно сказать, что средняя относительная ошибка при расчетах методом экспоненциального сглаживания попадает в пределы 20-50%. Это значит, что точность прогноза в данном случае является лишь удовлетворительной. В первом и третьем случае точность прогноза является высокой, поскольку средняя относительная ошибка менее 10%. Но метод скользящих средних позволил получить более достоверные результаты (прогноз на ноябрь – 1,52%, прогноз на декабрь – 1,53%, прогноз на январь – 1,49%), так как средняя относительная ошибка при использовании этого метода наименьшая – 1,13%. Метод наименьших квадратовДругие статьи по данной теме:Список использованных источников
Программа МНКВведите данныеДанные и аппроксимация y = a + b·xi
- номер экспериментальной точки; Данные и аппроксимация y = k·x
Кликните по графику, Инструкция пользователя онлайн-программы МНК.В поле данных введите на каждой отдельной строке значения `x` и `y` в одной экспериментальной точке. Значения должны отделяться пробельным символом (пробелом или знаком табуляции). Третьим значением может быть вес точки `w`. Если вес точки не указан, то он приравнивается единице. В подавляющем большинстве случаев веса экспериментальных точек неизвестны или не вычисляются, т.е. все экспериментальные данные считаются равнозначными. Иногда веса в исследуемом интервале значений совершенно точно не равнозначны и даже могут быть вычислены теоретически. Например, в спектрофотометрии веса можно вычислить по простым формулам, правда в основном этим все пренебрегают для уменьшения трудозатрат. Данные можно вставить через буфер обмена из электронной таблицы офисных пакетов, например Excel из Майкрософт Офиса или Calc из Оупен Офиса. Для этого в электронной таблице выделите диапазон копируемых данных, скопируйте в буфер обмена и вставьте данные в поле данных на этой странице. Для расчета по методу наименьших квадратов необходимо не менее двух точек для определения двух коэффициентов `b` - тангенса угла наклона прямой и `a` - значения, отсекаемого прямой на оси `y`. Для оценки погрешности расчитываемых коэффициентов регресии нужно задать количество экспериментальных точек больше двух. Метод наименьших квадратов (МНК).Чем больше количество экспериментальных точек, тем более точна статистическая оценка коэффицинетов (за счет снижения коэффицинета Стьюдента) и тем более близка оценка к оценке генеральной выборки. Получение значений в каждой экспериментальной точке часто сопряжено со значительными трудозатратами, поэтому часто проводят компромиссное число экспериментов, которые дает удобоваримую оценку и не привеодит к чрезмерным трудо затратам. Как правило число экспериментах точек для линейной МНК зависимости с двумя коэффицинетами выбирает в районе 5-7 точек. Краткая теория метода наименьших квадратов для линейной зависимостиДопустим у нас имеется набор экспериментальных данных в виде пар значений [`y_i`, `x_i`], где `i` - номер одного эксперементального измерения от 1 до `n`; `y_i` - значение измеренной величины в точке `i`; `x_i` - значение задаваемого нами параметра в точке `i`. В качестве примера можно рассмотреть действие закона Ома. Изменяя напряжение (разность потенциалов) между участками электрической цепи, мы замеряем величину тока, проходящего по этому участку. Физика нам дает зависимость, найденную экспериментально: `I = U / R`, В этом случае `y_i` у нас имеряемая величина тока, а `x_i` - значение напряжения. В качестве другого примера рассмотрим поглощение света раствором вещества в растворе. Химия дает нам формулу: `A = ε l C`, В этом случае `y_i` у нас имеряемая величина отптической плотности `A`, а `x_i` - значение концентрации вещества, которое мы задаем. Мы будем рассматривать случай, когда относительная погрешность в задании `x_i` значительно меньше, относительной погрешности измерения `y_i`. Так же мы будем предполагать, что все измеренные величины `y_i` случайные и нормально распределенные, т.е. подчиняются нормальному закону распределения. В случае линейной зависимости `y` от `x`, мы можем написать теоретическую зависимость: С геометрической точки зрения, коэффициент `b` обозначает тангенс угла наклона линии к оси `x`, а коэффициент `a` - значение `y` в точке пересечения линии с осью `y` (при `x = 0`). Нахождение параметров линии регресии.В эксперименте измеренные значения `y_i` не могут точно лечь на теоеретическую прямую из-за ошибок измерения, всегда присущих реальной жизни. Поэтому линейное уравнение, нужно представить системой уравнений: Зависимость (1) так же называют регрессией , т.е. зависимостью двух величин друг от друга со статистической значимостью. Задачей восстановления зависимости является нахождение коэффициентов `a` и `b` по экспериментальным точкам [`y_i`, `x_i`]. Для нахождения коэффициентов `a` и `b` обычно используется метод наименьших квадратов (МНК). Он является частным случаем принципа максимального правдоподобия. Перепишем (1) в виде `ε_i = y_i — a — b x_i`. Тогда сумма квадратов ошибок будет Принципом МНК (метода наименьших квадратов) является минимизация суммы (2) относительно параметров `a` и `b` . Минимум достигается, когда частные производные от суммы (2) по коэффициентам `a` и `b` равны нулю: Раскрывая производные, получаем систему из двух уравнений с двумя неизвестными: Раскрываем скобки и переносим независящие от искомых коэффициентов суммы в другую половину, получим систему линейных уравнений: Решая, полученную систему, находим формулы для коэффициентов `a` и `b`: `a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1) `b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.2) Эти формулы имеют решения, когда `n > 1` (линию можно построить не менее чем по 2-м точкам) и когда детерминант `D = n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2 != 0`, т.е. когда точки `x_i` в эксперименте различаются (т.е. когда линия не вертикальна). Оценка погрешностей коэффициентов линии регресииДля более точной оценки погрешности вычисления коэффициентов `a` и `b` желательно большое количество экспериментальных точек. При `n = 2`, оценить погрешность коэффициентов невозможно, т.к. аппроксимирующая линия будет однозначно проходить через две точки. Погрешность случайной величины `V` определяется законом накопления ошибок
Распишем закон накопления ошибок для погрешности коэффициентов `a` и `b` `S_y^2 = S_(y_i)^2` - погрешность (дисперсия, квадрат стандартного отклонения) в измерении `y` в предположении, что погрешность однородна для всех значений `y`. Подставляя в полученные выражения формулы для расчета `a` и `b` получим `S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1)^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1) `S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac(n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D)` (4.2) В большинстве реальных экспериментов значение `Sy` не измеряется. Для этого нужно проводить несколько паралельных измерений (опытов) в одной или нескольких точках плана, что увеличивает время (и возможно стоимость) эксперимента. Поэтому обычно полагают, что отклонение `y` от линии регрессии можно считать случайным. Оценку дисперсии `y` в этом случае, считают по формуле. `S_y^2 = S_(y, ост)^2 = frac(sum_(i=1)^n (y_i — a — b x_i)^2) (n-2)`. Делитель `n-2` появляется потому, что у нас снизилось число степеней свободы из-за расчета двух коэффициентов по этой же выборке экспериментальных данных. Такую оценку еще называют остаточной дисперсией относительно линии регрессии `S_(y, ост)^2`. Оценка значимости коэффициентов проводится по критерию Стьюдента `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)` Если рассчитанные критерии `t_a`, `t_b` меньше табличных критериев `t(P, n-2)`, то считается, что соответсвующий коэффициент не значимо отличается от нуля с заданной вероятностью `P`. Для оценки качества описания линейной зависимости, можно сравнить `S_(y, ост)^2` и `S_(bar y)` относительно среднего с использованием критерия Фишера. `S_(bar y) = frac(sum_(i=1)^n (y_i — bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i — (sum_(i=1)^n y_i) /n)^2) (n-1)` - выборочная оценка дисперсии `y` относительно среднего. Для оценки эффективности уравнения регресии для описания зависимости расчитывают коэффициент Фишера Если `F > F(P, n-1, n-2)`, считается статистически значимым с вероятностью `P` различие между описанием зависимости `y = f(x)` с помощью уравенения регресии и описанием с помощью среднего. Т.е. регрессия лучше описывает зависимость, чем разброс `y` относительно среднего. Кликните по графику, Метод наименьших квадратов. Под методом наименьших квадратов понимается определение неизвестных параметров a, b, c, принятой функциональной зависимостиПод методом наименьших квадратов понимается определение неизвестных параметров a, b, c,… принятой функциональной зависимости y = f(x,a,b,c,…) , которые обеспечивали бы минимум среднего квадрата (дисперсии) ошибки , (24) где x i , y i – совокупность пар чисел, полученных из эксперимента. Так как условием экстремума функции нескольких переменных является условие равенства нулю ее частных производных, то параметры a, b, c,… определяются из системы уравнений: ; ; ; … (25) Необходимо помнить, что метод наименьших квадратов применяется для подбора параметров после того, как вид функции y = f(x) определен. Если из теоретических соображений нельзя сделать никаких выводов о том, какой должна быть эмпирическая формула, то приходится руководствоваться наглядными представлениями, прежде всего графическим изображением наблюденных данных. На практике чаще всего ограничиваются следующими видами функций: 1) линейная ; 2) квадратичная a . (см. рисунок). Требуется найти уравнение прямой Чем меньше числа по абсолютной величине, тем лучше подобрана прямая (2). В качестве характеристики точности подбора прямой (2) можно принять сумму квадратов Условия минимума S будут
Уравнения (6) и (7) можно записать в таком виде:
Из уравнений (8) и (9) легко найти a и b по опытным значениям x i и y i . Прямая (2), определяемая уравнениями (8) и (9), называется прямой, полученной по методу наименьших квадратов (этим названием подчеркивается то, что сумма квадратов S имеет минимум). Уравнения (8) и (9), из которых определяется прямая (2), называются нормальными уравнениями. Можно указать простой и общий способ составления нормальных уравнений. Используя опытные точки (1) и уравнение (2), можно записать систему уравнений для a и b
Умножим левую и правую части каждого из этих уравнений на коэффициент при первой неизвестной a (т.е. на x 1 , x 2 , ..., x n) и сложим полученные уравнения, в результате получится первое нормальное уравнение (8). Умножим левую и правую части каждого из этих уравнений на коэффициент при второй неизвестной b, т.е. на 1, и сложим полученные уравнения, в результате получится второе нормальное уравнение (9). Этот способ получения нормальных уравнений является общим: он пригоден, например, и для функции есть величина постоянная и ее нужно определить по опытным данным (1). Систему уравнений для k можно записать: Найти прямую (2) по методу наименьших квадратов. Решение. Находим: x i =21, y i =46,3, x i 2 =91, x i y i =179,1. Записываем уравнения (8) и (9) Отсюда находим Оценка точности метода наименьших квадратовДадим оценку точности метода для линейного случая, когда имеет место уравнение (2). Пусть опытные значения x i являются точными, а опытные значения y i имеют случайные ошибки с одинаковой дисперсией для всех i. Введем обозначение
Тогда решения уравнений (8) и (9) можно представить в виде
Уравнения (20) и (23) дают оценку точности коэффициентов, определенных по уравнениям (8) и (9). Заметим, что коэффициенты a и b коррелированы. Путем простых преобразований находим их корреляционный момент. Отсюда находим 0,072 при x=1 и 6, 0,041 при x=3,5. ЛитератураШор. Я. Б. Статистические методы анализа и контроля качества и надежности. М.:Госэнергоиздат, 1962, с. 552, С. 92-98. Настоящая книга предназначается для широкого круга инженеров (научно-исследовательских институтов, конструкторских бюро, полигонов и заводов), занимающихся определением качества и надежности радиоэлектронной аппаратуры и других массовых изделий промышленности (машиностроения, приборостроения, артиллерийской и т.п.). В книге дается приложение методов математической статистики к вопросам обработки и оценки результатов испытаний, при которых определяются качество и надежность испытываемых изделий. Для удобства читателей приводятся необходимые сведения из математической статистики, а также большое число вспомогательных математических таблиц, облегчающих проведение необходимых расчетов. Изложение иллюстрируется большим числом примеров, взятых из области радиоэлектроники и артиллерийской техники. |