Робастный это: робастность в статистике

Многие «наилучшие» оценки в статистике (например, наиболее распространенная на практике оценка среднего значения случайной величины ) обладают тем дефектом, что они являются наилучшими лишь в случае, если выборка наблюдений получена из нормально распределённой совокупности данных и быстро теряют свои оптимальные свойства по мере отклонения распределения от нормального, то есть являются неустойчивыми к отклонениям от нормального распределения. В качестве характеристики устойчивости оценки можно предложить понятие робастности.

Определение робастности оценки.Пусть случайная величина Х имеет плотность распределения вероятностей , где вид функции f известен, а q — неизвестный параметр (может быть величиной векторной). Оценка параметра производится по n наблюдениям х12,…,хn. В классической статистике качество оценки определяется её дисперсией Df , вычисленной в предположении, что выборка получена из генеральной совокупности с плотностью распределения вероятностей .

Определим понятие e-окрестности распределения f:

где 0<e<1, а h(x) – произвольная плотность распределения вероятностей.

Назовём оценку робастной, если для неё имеет место . То есть робастная оценка – это такая оценка, которая в наихудшем случае (когда достигается ) имеет наименьшую дисперсию. Нахождение робастной оценки отвечает решению, как говорят в математике, минимаксной задачи. Минимаксное значение есть гарантированный верхний порог дисперсии оценки для любого распределения f из e-окрестности.

Минимаксная стратегия широко распространена в таком разделе теории операций как теория игр.

Rencontres Du Film Court Antananarivo

В определённом смысле робастная процедура – это «игра» исследователя с природой.

Робастная оценка среднего значения.Если параметр q играет роль центра распределения (среднего значения), то f(x,q)=f(x-q). Робастная оценка параметра q в этом случае находится по n наблюдениям х12,…,хn решением следующей задачи:

Если f(x,q) – плотность вероятностей нормального распределения, то:

, (8.29)

Робастная оценка в этом случае представляет собой некий гибрид оценки средней арифметической ( ) и выборочной медианы (med{xi}). Она совмещает в себе эффективность первой оценки и устойчивость второй. Их соотношение определяется величиной степени засорения e (0<e<1) через величину к=к(e). Если e®0 (к®¥), то оценка близка к среднему арифметическому. Если e®1 (к®0) , то оценка близка к выборочной медиане.

Робастная оценка имеет вид:

где — вариационный ряд выборочных значений; m=[an], a=a(k(e))=a(e). Значения a=a(e) можно найти в таблице 2 [ 6 ].

 

Таблица 2.

Значения уровня урезания a=a(e)

e 0.001 0.005 0.01 0.05 0.10 0. 20 0.30 0.40 0.50 0.80
a 0.004 0.015 0.026 0.081 0.127 0.194 0.247 0.291 0.332 0.436 0.5

 

 

Робастная регрессия. Уравнение регрессии, получаемое методом наименьших квадратов, имеет существенный дефект, заключающийся в том, что при наличии грубых ошибок в данных оценки его коэффициентов сильно искажаются, то есть являются неустойчивыми к отклонениям от обычного предположения в регрессионном анализе, что ошибки x в модели регрессии y=a+b1x1+…+bpxp+x имеют нормальное распределение.

Коэффициенты робастной регрессии вычисляются решением задачи:

где r(t) имеет вид (8.29).

 

 

⇐ Предыдущая19202122232425262728Следующая ⇒


Дата добавления: 2014-11-25; Просмотров: 534; Нарушение авторских прав?;




Missing or Broken Files

When you get a 404 error be sure to check the URL that you are attempting to use in your browser.This tells the server what resource it should attempt to request.

http://example.com/example/Example/help.html

In this example the file must be in public_html/example/Example/

Notice that the CaSe is important in this example.

Доставка синих ромашек в Москве (Antananarivo)

On platforms that enforce case-sensitivity example and Example are not the same locations.

For addon domains, the file must be in public_html/addondomain.com/example/Example/ and the names are case-sensitive.

Broken Image

When you have a missing image on your site you may see a box on your page with with a red X where the image is missing. Right click on the X and choose Properties. The properties will tell you the path and file name that cannot be found.

This varies by browser, if you do not see a box on your page with a red X try right clicking on the page, then select View Page Info, and goto the Media Tab.

http://example.com/cgi-sys/images/banner.PNG

In this example the image file must be in public_html/cgi-sys/images/

Notice that the CaSe is important in this example. On platforms that enforce case-sensitivity PNG and png are not the same locations.

Многие «наилучшие» оценки в статистике (например, наиболее распространенная на практике оценка среднего значения случайной величины ) обладают тем дефектом, что они являются наилучшими лишь в случае, если выборка наблюдений получена из нормально распределённой совокупности данных и быстро теряют свои оптимальные свойства по мере отклонения распределения от нормального, то есть являются неустойчивыми к отклонениям от нормального распределения.

antananarivo — профиль | СПЛЕТНИК

В качестве характеристики устойчивости оценки можно предложить понятие робастности.

Определение робастности оценки.Пусть случайная величина Х имеет плотность распределения вероятностей , где вид функции f известен, а q — неизвестный параметр (может быть величиной векторной). Оценка параметра производится по n наблюдениям х12,…,хn. В классической статистике качество оценки определяется её дисперсией Df , вычисленной в предположении, что выборка получена из генеральной совокупности с плотностью распределения вероятностей .

Определим понятие e-окрестности распределения f:

где 0<e<1, а h(x) – произвольная плотность распределения вероятностей.

Назовём оценку робастной, если для неё имеет место . То есть робастная оценка – это такая оценка, которая в наихудшем случае (когда достигается ) имеет наименьшую дисперсию.

Нахождение робастной оценки отвечает решению, как говорят в математике, минимаксной задачи. Минимаксное значение есть гарантированный верхний порог дисперсии оценки для любого распределения f из e-окрестности.

Минимаксная стратегия широко распространена в таком разделе теории операций как теория игр. В определённом смысле робастная процедура – это «игра» исследователя с природой.

Робастная оценка среднего значения.Если параметр q играет роль центра распределения (среднего значения), то f(x,q)=f(x-q). Робастная оценка параметра q в этом случае находится по n наблюдениям х12,…,хn решением следующей задачи:

Если f(x,q) – плотность вероятностей нормального распределения, то:

, (8.29)

Робастная оценка в этом случае представляет собой некий гибрид оценки средней арифметической ( ) и выборочной медианы (med{xi}). Она совмещает в себе эффективность первой оценки и устойчивость второй. Их соотношение определяется величиной степени засорения e (0<e<1) через величину к=к(e). Если e®0 (к®¥), то оценка близка к среднему арифметическому. Если e®1 (к®0) , то оценка близка к выборочной медиане.

Робастная оценка имеет вид:

где — вариационный ряд выборочных значений; m=[an], a=a(k(e))=a(e). Значения a=a(e) можно найти в таблице 2 [ 6 ].

 

Таблица 2.

Значения уровня урезания a=a(e)

e 0.001 0.005 0.01 0.05 0.10 0. 20 0.30 0.40 0.50 0.80
a 0.004 0.015 0.026 0.081 0.127 0.194 0.247 0.291 0.332 0.436 0.5

 

 

Робастная регрессия. Уравнение регрессии, получаемое методом наименьших квадратов, имеет существенный дефект, заключающийся в том, что при наличии грубых ошибок в данных оценки его коэффициентов сильно искажаются, то есть являются неустойчивыми к отклонениям от обычного предположения в регрессионном анализе, что ошибки x в модели регрессии y=a+b1x1+…+bpxp+x имеют нормальное распределение.

Коэффициенты робастной регрессии вычисляются решением задачи:

где r(t) имеет вид (8.29).

 

 

⇐ Предыдущая19202122232425262728Следующая ⇒


Дата добавления: 2014-11-25; Просмотров: 533; Нарушение авторских прав?;




Сразу хочу извиниться, про робастные эстиматоры я узнал из англоязычной литературы, поэтому некоторые термины являются прямой калькой с английских, вполне может быть, что в русскоязычной литературе тема о робастных оценках имеет какие то свои устойчивые обороты.

Во время учебы в университете курс статистики, который нам читали (а это было больше, чем 15 лет назад), был самый что ни на есть типичный: введение через теорию вероятностей и часто встречающиеся распределения. Больше в голове с тех пор про этот семестровый курс ничего не осталось. Мне кажется, что в курсе статистической физики многое дается много лучше. Уже значительно позже жизнь столкнула меня с медицинской физикой, где статистические методы являются одним из основных инструментов анализа данных, полученных, например, с помощью ЯМР томографии. Тут то я первый раз и встретил термин robust statistics и robust estimators. Сразу оговорюсь, я покажу только простые примеры применения робастных эстиматоров и дам ссылки на литературу, интересующиеся легко смогут углубить и расширить свои знания использую список литературы в конце этой заметки. Давайте разберем самый простой пример наиболее часто встречающийся, чтобы продемонстрировать надежную оценку в какой либо выборке. Предположим, что студент Вася сидит на физическом практикуме и записывает показания некоего прибора:

4.5
4.1
5.2
5.5
3.9
4.3
5.7
6.0
45
47

Прибор работает не так чтобы очень точно плюс к этому Вася отвлекается на разговоры с соседкой по практикуму Леной. Как результат в последних двух записях Василий не ставит десятичную точку и, вуаля, – мы имеет проблему.

Шаг первый, мы упорядочиваем нашу выборку по возрастанию и вычисляем среднее значение

mean = 13.12

Сразу видно, что среднее значение далеко от реального среднего благодаря двум последним выбросам (outliers), попавшим в выборку. Самый простой способ оценить среднее неучитывая влияние выбросов – это медиана

median = 5.35

Таким образом, самый простой робастный эстиматор – это медиана, действительно, мы можем видеть, что до 50% данных можно “загрязнить” разного рода выбросами, но оценка медианы не изменится. На этом простом примере можно ввести сразу несколько понятий: что такое робастность в статистике (устойчивость оценок по отношению к выбросам в данных), насколько используемый эстиматор является робастным (как сильно можно “загрязнить” данные без существенного изменения полученных оценок) [1]. Можно ли улучшить медианную оценку? Безусловно можно ввести еще более надежный эстиматор известный как абсолютное отклонение от медианы (median absolute deviation or MAD)

MAD = median(|xi-median[xj]|)

в случае нормального распределения вводят численный фактор перед MAD, позволяющий сохранить оценку без изменений. Как несложно заметить устойчивость MAD так же является 50%.

Огромное практическое применение робастные эстиматоры нашли в линейных регрессиях. В случае линейной зависимости (x,y) часто надо получить хорошо обусловленные оценки такой зависимости (часто в случае мультивариативной регрессии)

y = Bx +E ,

где B уже может представлять собой матрицу коэффициентов, Е некий шум, портящий наши измерения, и x набор параметров (вектор), который мы собственно и хотим оценить, используя измерянные значения y (вектор). Самый простой и всем известный способ это сделать – это метод наименьших квадратов (МНК) [2]. В принципе, очень легко убедиться, что МНК робастным эстиматором не является и его робастная надежность равна 0%, т.к. даже один выброс может существенно изменить оценку. Один из самых математических красивых трюков, позволяющий улучшить оценку, называется least trimmed squares или метод “урезанных” квадратов (МУК). Его идея заключается в тривиальной модификации оригинального МНК, в которой урезают число используемых оценок, т.е.:

оригинальный МНК

МУК

где r_i это уже упорядоченные ошибки оценок (y – O(x)), т.е. r_1<r_2<…<r_N. Опять же можно легко убедиться, что минимальный урезающий фактор, который позволяет проводить надежную оценку h = N/2+p (p число независимых переменных плюс один), т.е. надежность робастной оценки опять может быть почти 50%. Собственно, с МУК все довольно просто, исключая один нетривиальный вопрос связанный с выбором h. Первый пристрелочный способ выбора можно характеризовать, как “на глазок”. Если выборка, где мы проводим регрессию не очень большая, то число выбросов можно прикинуть и урезающий фактор выбрать попробовав несколько близких значений, тем более если с уменьшеним/увеличением оценка не меняется. Однако, существуют и более строгие критерии выбора [3,4], которые, к сожалению, ведут к заметному увеличение времени счета даже в случае линейных регрессий.

Кратно перечислим другие известные эстиматоры, которые часто используются в литературе [1]:

1) least median squares (метод медианных квадратов)

2) M-, R-, S-, Q- estimators, эстиматоры основанные на некоторой оценочной функции (к примеру, МНК тоже может быть назван М-эстиматором), и
различных вариациях оценки ошибок (моменты, срезающие гиперплоскости и тд).
3) Эстиматоры для нелинейных регрессий [5]

Пункт два в этом списке является несколько неточным, потому что в одну кучу для удобства собраны многие довольно разные по своей природе эстиматоры.

В качестве простого, но очень интересного приложения робастных оценок приведем робастную оценку диффузионного тензора в ЯМР томографии [6].

В ЯМР томографии одним из интересных приложений являются диффузионные измерения на молекулах воды, которые подвержены броуновскому движению в головном мозгу. Однако, благодаря различным ограничениям (движение вдоль нейроволокон, в дендридах, внутри и вне клеток и тд) имеют разные параметры диффузии. Производя измерения в шести различных направлениях (диффузионный тензор является положительно определенным, т.е. нам нужно узнать только 6 его элементов), мы можем востановить сам тензор, через известную модель спада сигнала. Пространственные направления кодируются градиентными катушками в импульсной последовательности. Мы можем представить диффузионный тензор, как эллипсоид, получить изображение нейронных нитей в мозгу (см. например diffusion MRI в wiki

). Нити представляют собой упорядоченные тензоры, которые аппроксимируются некой кривой (через всем известный метод Рунге-Кутта). Даный подход носит название streamline [7].

Однако измерения подобного рода являются наиболее богатыми на различного рода артефакты (по сравнению с другими видами изображений) из-за биения сердца, распираторного движения грудной клетки, движения головы во время измерений, разных тиков, дрожанию стола из-за часто переключающихся магнитных градиентов и тд. Таким образом, востановленный диффузионный тензор может иметь заметные отклонения от настоящих значений и, как следствие, неверное направление в случае его ярко выраженной анизотропии. Это не позволяет использовать полученные треки нервных волокон, как надежный источник информации об устройстве нервных связей или планировать хирургические операции. В действительности, подход основанный на диффузионном тензоре не используется для востановления изображения нервных волокон, поэтому большинству пациентов можно пока не волноваться.

Математическая теория робастных эстиматоров является довольно интересной, т.к. во многих случаях основывается на уже известных подходах (это означает, что большинство строгой и сухой теории уже известно), но имеет дополнительные свойства позволяющие значительно дополнить и улучшить оценочные результаты.

Антананариву

Если вернуться к уже упомянотому МНК, то введение весовых множителей позволяет получить робастные оценки в случае линейной регрессии. Следующий шаг изменение весовых множителей введением итераций в оценках, в итоге мы получим известный iteratively reweighted least squares approach [2].

Надеюсь читатели, незнакомые с робастной статистикой, получили некоторое представление о робастных эстиматорах, а знакомые – увидели интересные приложения своим знаниям.

Литература

1. Rousseeuw PJ, Leroy AM, Robust regression and outlier detection. Wiley, 2003.
2. Bjoerck A, Numerical methods for least squares problems. SIAM, 1996.
3. Agullo, J. New algorithm for computing the least trimmed squares regression estimator. Computational statistics & data analysis 36 (2001) 425-439.
4. Hofmann M, Gatu C, Kontoghiorghes EJ. An exact least trimmed squares algorithm for a range of coverage values. Journal of computational and graphical statistics 19 (2010) 191-204.
5. Motulsky HJ, Brown RE. Detecting outliers when fitting data with nonlinear regression – a new method based on robust nonlinear regression and the false discovery rate. BMC Bioinfromatics 7 (2006) 123.
6. Change LC, Jones DK, Pierpaoli C. RESTORE: Robust estimation of tensors by oulier rejection. Magnetic Resonance in Medicine 53 (2005) 1088-1085.
7. Jones DK, Diffusion MRI: Theory, Methods and Applications. Oxford University Press, 2010.

ссылка на оригинал статьи http://habrahabr.ru/post/174705/

Робастность  — свойство статистического метода , характеризующее независимость влияния на результат исследования различного рода выбросов , устойчивости к помехам. Робастный метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки .

На практике наличие в выборках даже небольшого числа резко выделяющихся наблюдений способно сильно повлиять на результат исследования, например, метод наименьших квадратов и метод максимального правдоподобия подвержены такого рода искажениям и значения, получаемые в результате исследования, могут перестать нести в себе какой-либо смысл.

Доставка синих ромашек в Москве (Antananarivo)

Для исключения влияния таких помех используются различные подходы для снижения влияния «плохих» наблюдений , либо полного их исключения. Основная задача робастных методов — отличить «плохое» наблюдение от «хорошего», притом даже самый простой из подходов — субъективный  — может принести значительную пользу, однако для мотивированной отбраковки все же исследователями применяются методы, имеющие в своей основе некие строгие математические обоснования. Этот процесс представляет собой весьма нетривиальную задачу для статистика и определяет собой одно из направлений статистической науки .

Добавить комментарий

Закрыть меню