Метод наименьших квадратов онлайн

Метод наименьших квадратов (МНК).


Пример.

Экспериментальные данные о значениях переменных х и у приведены в таблице.

В результате их выравнивания получена функция

Используя метод наименьших квадратов , аппроксимировать эти данные линейной зависимостью y=ax+b (найти параметры а и b). Выяснить, какая из двух линий лучше (в смысле метода наименьших квадратов) выравнивает экспериментальные данные. Сделать чертеж.


Суть метода наименьших квадратов (МНК).

Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b принимает наименьшее значение. То есть, при данных а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов.

Таким образом, решение примера сводится к нахождению экстремума функции двух переменных.

Вывод формул для нахождения коэффициентов.

Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменным а и b, приравниваем эти производные к нулю.

Решаем полученную систему уравнений любым методом (например методом подстановки или методом Крамера) и получаем формулы для нахождения коэффициентов по методу наименьших квадратов (МНК).

При данных а и b функция принимает наименьшее значение. Доказательство этого факта приведено ниже по тексту в конце страницы .

Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы , , , и параметр n — количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a.

Пришло время вспомнить про исходый пример.

Решение.

В нашем примере n=5 . Заполняем таблицу для удобства вычисления сумм, которые входят в формулы искомых коэффициентов.

Значения в четвертой строке таблицы получены умножением значений 2-ой строки на значения 3-ей строки для каждого номера i .

Значения в пятой строке таблицы получены возведением в квадрат значений 2-ой строки для каждого номера i .

Значения последнего столбца таблицы – это суммы значений по строкам.

Используем формулы метода наименьших квадратов для нахождения коэффициентов а и b. Подставляем в них соответствующие значения из последнего столбца таблицы:

Следовательно, y = 0.165x+2.184 — искомая аппроксимирующая прямая.

Осталось выяснить какая из линий y = 0.165x+2.184 или лучше аппроксимирует исходные данные, то есть произвести оценку методом наименьших квадратов.

Оценка погрешности метода наименьших квадратов.

Для этого требуется вычислить суммы квадратов отклонений исходных данных от этих линий и , меньшее значение соответствует линии, которая лучше в смысле метода наименьших квадратов аппроксимирует исходные данные.

Так как , то прямая y = 0.165x+2.184 лучше приближает исходные данные.

Графическая иллюстрация метода наименьших квадратов (мнк).


На графиках все прекрасно видно. Красная линия – это найденная прямая y = 0.165x+2.184, синяя линия – это , розовые точки – это исходные данные.

Для чего это нужно, к чему все эти аппроксимации?

Я лично использую для решения задач сглаживания данных, задач интерполяции и экстраполяции (в исходном примере могли бы попросить найти занчение наблюдаемой величины y при x=3 или при x=6 по методу МНК). Но подробнее поговорим об этом позже в другом разделе сайта.

К началу страницы

Доказательство.

Чтобы при найденных а и b функция принимала наименьшее значение, необходимо чтобы в этой точке матрица квадратичной формы дифференциала второго порядка для функции была положительно определенной. Покажем это.

Дифференциал второго порядка имеет вид:

То есть

Следовательно, матрица квадратичной формы имеет вид

причем значения элементов не зависят от а и b .

Покажем, что матрица положительно определенная. Для этого нужно, чтобы угловые миноры были положительными.

Угловой минор первого порядка . Неравенство строгое, так как точки несовпадающие. В дальнейшем это будем подразумевать.

Угловой минор второго порядка

Докажем, что методом математической индукции.

  1. Проверим справедливость неравенства для любого значения n, например для n=2.

    Получили верное неравенство для любых несовпадающих значений и .

  2. Предполагаем, что неравенство верное для n.

    — верное.

  3. Докажем, что неравенство верное для n+1.

    То есть, нужно доказать, что исходя из предположения что — верное.

    Поехали.

    Выражение в фигурных скобках положительно по предположению пункта 2), а остальные слагаемые положительны, так как представляют собой квадраты чисел. Этим доказательство завершено.

Вывод : найденные значения а и b соответствуют наименьшему значению функции , следовательно, являются искомыми параметрами для метода наименьших квадратов.

Некогда разбираться?

Закажите решение

Профиль автора статьи в Google+

К началу страницы

Разработка прогноза с помощью метода наименьших квадратов. Пример решения задачи

Экстраполяция — это метод научного исследования, который основан на распространении прошлых и настоящих тенденций, закономерностей, связей на будущее развитие объекта прогнозирования. К методам экстраполяции относятся метод скользящей средней, метод экспоненциального сглаживания, метод наименьших квадратов.

Сущность метода наименьших квадратов состоит в минимизации суммы квадратических отклонений между наблюдаемыми и расчетными величинами. Расчетные величины находятся по подобранному уравнению – уравнению регрессии. Чем меньше расстояние между фактическими значениями и расчетными, тем более точен прогноз, построенный на основе уравнения регрессии.

Теоретический анализ сущности изучаемого явления, изменение которого отображается временным рядом, служит основой для выбора кривой. Иногда принимаются во внимание соображения о характере роста уровней ряда. Так, если рост выпуска продукции ожидается в арифметической прогрессии, то сглаживание производится по прямой. Если же оказывается, что рост идет в геометрической прогрессии, то сглаживание надо производить по показательной функции.

Рабочая формула метода наименьших квадратов: У t+1 = а*Х + b, где t + 1 – прогнозный период; Уt+1 – прогнозируемый показатель; a и b — коэффициенты; Х — условное обозначение времени.

Расчет коэффициентов a и b осуществляется по следующим формулам:

где, Уф – фактические значения ряда динамики; n – число уровней временного ряда;

Сглаживание временных рядов методом наименьших квадратов служит для отражения закономерности развития изучаемого явления. В аналитическом выражении тренда время рассматривается как независимая переменная, а уровни ряда выступают как функция этой независимой переменной.

Развитие явления зависит не от того, сколько лет прошло с отправного момента, а от того, какие факторы влияли на его развитие, в каком направлении и с какой интенсивностью. Отсюда ясно, что развитие явления во времени выступает как результат действия этих факторов.

Правильно установить тип кривой, тип аналитической зависимости от времени – одна из самых сложных задач предпрогнозного анализа.

Подбор вида функции, описывающей тренд, параметры которой определяются методом наименьших квадратов, производится в большинстве случаев эмпирически, путем построения ряда функций и сравнения их между собой по величине среднеквадратической ошибки, вычисляемой по формуле:

где Уф – фактические значения ряда динамики; Ур – расчетные (сглаженные) значения ряда динамики; n – число уровней временного ряда; р – число параметров, определяемых в формулах, описывающих тренд (тенденцию развития).

Недостатки метода наименьших квадратов:

  • при попытке описать изучаемое экономическое явление с помощью математического уравнения, прогноз будет точен для небольшого периода времени и уравнение регрессии следует пересчитывать по мере поступления новой информации;
  • сложность подбора уравнения регрессии, которая разрешима при использовании типовых компьютерных программ.

Пример применения метода наименьших квадратов для разработки прогноза

Задача. Имеются данные, характеризующие уровень безработицы в регионе, %

Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь
2,99 2,66 2,63 2,56 2,40 2,22 1,97 1,72 1,56 1,42
  • Постройте прогноз уровня безработицы в регионе на ноябрь, декабрь, январь месяцы, используя методы: скользящей средней, экспоненциального сглаживания, наименьших квадратов.
  • Рассчитайте ошибки полученных прогнозов при использовании каждого метода.
  • Сравните полученные результаты, сделайте выводы.

Решение методом наименьших квадратов

Для решения составим таблицу, в которой будем производить необходимые расчеты:

Определим условное обозначение времени как последовательную нумерацию периодов базы прогноза (графа 3). Рассчитаем графы 4 и 5. Расчетные значения ряда Ур определим по формуле У t+1 = а*Х + b, где t + 1 – прогнозный период; Уt+1 – прогнозируемый показатель; a и b — коэффициенты; Х — условное обозначение времени.

Коэффициенты a и b определим по следующим формулам:

где, Уф – фактические значения ряда динамики; n – число уровней временного ряда.
а = [107,55 – (55*22,13)/10] / [385 – 552/10] = — 0,17
b = 22,13/10 – (-0,17)*55/10 = 3,15

Далее определяем прогнозное значение:
У ноябрь = -0,17*11 + 3,15 = 1,28
У декабрь = -0,17*12 + 3,15 = 1,11
У январь = -0,17*12 + 3,15 = 0,94

Рассчитываем среднюю относительную ошибку по формуле:

ε = 28,63/10 = 2,86% < 10% - точность прогноза высокая.

Вывод: Сравнивая результаты, полученные при расчетах методом скользящей средней, методом экспоненциального сглаживания и методом наименьших квадратов, можно сказать, что средняя относительная ошибка при расчетах методом экспоненциального сглаживания попадает в пределы 20-50%. Это значит, что точность прогноза в данном случае является лишь удовлетворительной.

В первом и третьем случае точность прогноза является высокой, поскольку средняя относительная ошибка менее 10%. Но метод скользящих средних позволил получить более достоверные результаты (прогноз на ноябрь – 1,52%, прогноз на декабрь – 1,53%, прогноз на январь – 1,49%), так как средняя относительная ошибка при использовании этого метода наименьшая – 1,13%.

Другие статьи по данной теме:

Список использованных источников

  1. Научно-методические рекомендации по вопросам диагностики социальных рисков и прогнозирования вызовов, угроз и социальных последствий. Российский государственный социальный университет. Москва. 2010;
  2. Владимирова Л.П. Прогнозирование и планирование в условиях рынка: Учеб. пособие. М.: Издательский Дом «Дашков и Ко», 2001;
  3. Новикова Н.В., Поздеева О.Г. Прогнозирование национальной экономики: Учебно-методическое пособие. Екатеринбург: Изд-во Урал. гос. экон. ун-та, 2007;
  4. Слуцкин Л.Н. Курс МБА по прогнозированию в бизнесе. М.: Альпина Бизнес Букс, 2006.

Сущность метода наименьших квадратов заключается в отыскании параметров модели тренда, которая лучше всего описывает тенденцию развития какого-либо случайного явления во времени или в пространстве (тренд – это линия, которая и характеризует тенденцию этого развития). Задача метода наименьших квадратов (МНК) сводится к нахождению не просто какой-то модели тренда, а к нахождению лучшей или оптимальной модели. Эта модель будет оптимальной, если сумма квадратических отклонений между наблюдаемыми фактическими величинами и соответствующими им расчетными величинами тренда будет минимальной (наименьшей):

                                                        (9.1)

где  — квадратичное отклонение между наблюдаемой фактической величиной

  и соответствующей ей расчетной величиной тренда,

 — фактическое (наблюдаемое) значение изучаемого явления,

 — расчетное значение модели тренда,

  — число наблюдений за изучаемым  явлением.

МНК самостоятельно применяется довольно редко. Как правило, чаще всего его используют лишь в качестве необходимого технического приема при корреляционных исследованиях.Следует помнить, что информационной основой МНК может быть только достоверный статистический ряд, причем число наблюдений не должно быть меньше 4-х, иначе, сглаживающие процедуры МНК могут потерять здравый смысл.

Инструментарий МНК сводится к следующим процедурам:

Первая процедура. Выясняется, существует ли вообще какая-либо тенденция изменения результативного признака при изменении выбранного фактора-аргумента, или другими словами, есть ли связь между «у» и «х».

Вторая процедура. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать  эту тенденцию.

Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.

Пример. Допустим, мы имеем информацию о средней урожайности подсолнечника по исследуемому хозяйству (табл. 9.1).

Таблица 9.1

Номер наблюдения

1

2

3

4

5

6

7

8

9

10

Годы

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

Урожайность, ц/га

14,2

15,6

17,5

14,5

15,3

17,0

16,6

17,5

15,0

17,7

Поскольку уровень технологии при производстве подсолнечника в нашей стране за последние 10 лет практически не изменился, значит, по всей видимости, колебания урожайности в анализируемый период очень сильно зависели от колебания погодно-климатических условий. Действительно ли это так?

Первая процедура МНК. Проверяется гипотеза о существовании тенденции изменения урожайности подсолнечника в зависимости от изменения погодно-климатических условий за анализируемые 10 лет.

В данном примере за «y» целесообразно принять урожайность подсолнечника, а за «x» – номер наблюдаемого года в анализируемом периоде. Проверку гипотезы о существовании какой-либо взаимосвязи между «x» и «y» можно выполнить двумя способами: вручную и при помощи компьютерных программ. Конечно, при наличии компьютерной техники данная проблема решается сама собой. Но, чтобы лучше понять инструментарий МНК целесообразно выполнить проверку гипотезы о существовании связи между «x» и «y» вручную, когда под рукой находятся только ручка и обыкновенный калькулятор. В таких случаях гипотезу о существовании тенденции лучше всего проверить визуальным способом по расположению графического изображения анализируемого ряда динамики — корреляционного поля:

Корреляционное поле в нашем примере расположено вокруг медленно возрастающей линии. Это уже само по себе говорит о существовании определенной тенденции в изменении урожайности подсолнечника. Нельзя говорить о наличии какой-либо тенденции лишь тогда, когда корреляционное поле похоже на круг, окружность, строго вертикальное или строго горизонтальное облако, или же состоит из хаотично разбросанных точек. Во всех остальных случаях следует подтвердить гипотезу о существовании взаимосвязи между «x» и «y», и продолжить исследования.

Вторая процедура МНК. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать тенденцию изменения урожайности подсолнечника за анализируемый период.

При наличии компьютерной техники подбор оптимального тренда происходит автоматически. При «ручной» обработке выбор оптимальной функции осуществляется, как правило, визуальным способом – по расположению корреляционного поля. То есть, по виду графика подбирается уравнение линии, которая лучше всего подходит к эмпирическому тренду (к фактической траектории).

Как известно, в природе существует огромное разнообразие функциональных зависимостей, поэтому визуальным способом проанализировать даже незначительную их часть — крайне затруднительно.

К счастью, в реальной экономической практике большинство взаимосвязей достаточно точно могут быть описаны или параболой, или гиперболой, или же прямой  линией. В связи с этим, при «ручном» варианте подбора лучшей функции, можно ограничиться только  этими  тремя моделями.

Прямая:

 

Гипербола:

 

Парабола второго порядка: :

Нетрудно заметить, что в нашем примере лучше всего тенденцию изменения урожайности подсолнечника за анализируемые 10 лет характеризует прямая линия, поэтому уравнением регрессии будет уравнение прямой.

Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.

Нахождение значений параметров уравнения регрессии, в нашем случае параметров  и , является сердцевиной МНК. Данный процесс сводится к решению системы нормальных уравнений.

                                                  (9.2)

Эта система уравнений довольно легко решается методом Гаусса. Напомним, что в результате решения, в нашем примере, находятся значения параметров  и . Таким образом, найденное уравнение регрессии будет иметь следующий вид:

В линейном уравнении параметр  – коэффициент регрессии указывает, на сколько единиц в среднем изменится  с изменением  на единицу. Он имеет единицу измерения результативного признака. В случае прямой связи  – величина положительная, а при обратном – отрицательная. Параметр  – свободный член уравнения регрессии, то есть это значениепри . Если  не получает нулевых значений, этот параметр имеет лишь расчетное назначение.

Приведем также системы нормальных уравнений для отыскивания параметров нелинейных уравнений.

Таблица 9.2

 

Форма связи

Уравнение связи

Система нормальных уравнений

параболическая

гиперболическая

 

Следует помнить, что при изменении хотя бы одного значения входных данных (пары значенийили одного из них) все коэффициенты изменят в общем случае свои значения, потому что они полностью определяются входными данными. Поэтому при повторной аппроксимации с несколькими измененными данными будет получена другая аппроксимирующая функция с другими коэффициентами.

Сущность метода наименьших квадратов.

Метод наименьших квадратов (МНК) — метод оценки параметров модели на основании экспериментальных данных, содержащих случайные ошибки. В основе метода лежат следующие рассуждения: при замене точного (неизвестного) параметра модели приблизительным значением необходимо минимизировать разницу между экспериментальными данными и теоретическими (вычисленными при помощи предложенной модели).

Это позволяет рассчитать параметры модели с помощью МНК с минимальной погрешностью.

Мерой разницы в методе наименьших квадратов служит сумма квадратов отклонений действительных (экспериментальных) значений от теоретических. Выбираются такие значения параметров модели, при которых сумма квадратов разностей будет наименьшей – отсюда название метода:

где Y – теоретическое значение измеряемой величины,

y – экспериментальное.

При этом полученные с помощью МНК параметры модели являются наиболее вероятными.

Пример. На практике этот метод наиболее часто (и наиболее просто) используется в случае линейной зависимости, т.е. когда

y = kx

 

Рис.

4. Сущность МНК.

 

Линейная зависимость очень широко распространена в физике. И даже когда зависимость нелинейная, обычно стараются строить график так, чтобы получить прямую линию. Например, если предполагают, что показатель преломления стекла n связан с длиной λ световой волны соотношением n = a + b/λ2, то на графике строят зависимость n от λ-2.

Рассмотрим зависимость y = kx(прямая, проходящая через начало координат). Составим величину φ – сумму квадратов отклонений наших точек от прямой

.

Величина φ всегда положительна и оказывается тем меньше, чем ближе к прямой лежат наши точки. Метод наименьших квадратов утверждает, что для k следует выбирать такое значение, при котором φ имеет минимум


или
(19)

Вычисление показывает, что среднеквадратичная ошибка определения величины k равна при этом

, (20)
где – n число измерений.

 

Предыдущая24252627282930313233343536373839Следующая


Дата добавления: 2015-11-12; просмотров: 670;


ПОСМОТРЕТЬ ЕЩЕ:

Сущность метода наименьших квадратов.

Метод наименьших квадратов (МНК) — метод оценки параметров модели на основании экспериментальных данных, содержащих случайные ошибки. В основе метода лежат следующие рассуждения: при замене точного (неизвестного) параметра модели приблизительным значением необходимо минимизировать разницу между экспериментальными данными и теоретическими (вычисленными при помощи предложенной модели). Это позволяет рассчитать параметры модели с помощью МНК с минимальной погрешностью.

Мерой разницы в методе наименьших квадратов служит сумма квадратов отклонений действительных (экспериментальных) значений от теоретических.

Выбираются такие значения параметров модели, при которых сумма квадратов разностей будет наименьшей – отсюда название метода:

где Y – теоретическое значение измеряемой величины,

y – экспериментальное.

При этом полученные с помощью МНК параметры модели являются наиболее вероятными.

Пример. На практике этот метод наиболее часто (и наиболее просто) используется в случае линейной зависимости, т.е. когда

y = kx

 

Рис. 4. Сущность МНК.

 

Линейная зависимость очень широко распространена в физике. И даже когда зависимость нелинейная, обычно стараются строить график так, чтобы получить прямую линию. Например, если предполагают, что показатель преломления стекла n связан с длиной λ световой волны соотношением n = a + b/λ2, то на графике строят зависимость n от λ-2.

Рассмотрим зависимость y = kx(прямая, проходящая через начало координат). Составим величину φ – сумму квадратов отклонений наших точек от прямой

.

Величина φ всегда положительна и оказывается тем меньше, чем ближе к прямой лежат наши точки. Метод наименьших квадратов утверждает, что для k следует выбирать такое значение, при котором φ имеет минимум


или
(19)

Вычисление показывает, что среднеквадратичная ошибка определения величины k равна при этом

, (20)
где – n число измерений.

 

Предыдущая24252627282930313233343536373839Следующая


Дата добавления: 2015-11-12; просмотров: 669;


ПОСМОТРЕТЬ ЕЩЕ:

Добавить комментарий

Закрыть меню