Учебная работа. Реферат: Современное состояние математического и программного обеспечения квантильно-регрессионных мод
Современное состояние математического и программного обеспечения квантильно-регрессионных моделей
Львович И.Я., Минакова О.В.
Квантильная регрессияобширно применяемый статистический способ в эконометрике, в денежных и биомедицинских исследовательских работах, при исследовании окружающей среды и остальных прикладных областях. В связи с возникновение новейших вычислительных процедур, высокопроизводительных алгоритмов актуальность ее примнения будет лишь расти.
Квантильная регрессиядостаточно «древний» статистический способ, упоминание этого термина в математической статистике датируется еще 19 веком. Почти во всем его «забвение» соединено с широкой распространенностью способа меньших квадратов, и как следствие преобладающие применение линейной регрессии. Ставшее на данный момент традиционным определение квантильной регрессии было введено Коенкером и Бассетом в 1978, как расширение понятия порядковых квантилей либо процентилей в локальных моделях к общему классу линейных моделей в каких условные квантили имели линейную форму.
По аналогии с нахождением условного среднего из подборки размера n, которое можно разглядывать как решение задачки минимизации остаточной суммы квадратов: , m – выборочное среднее, оцениваемое по данной выборке, то поиск медианы быть может осуществлен как минимизация суммы абсолютных остатков.
Если для медианы отрицательные и положительные остатки равны, т.е. симметричны относительное нее, то для квантилей они должны лежать в пропорции t к (1-t), т.е. асимметрично. Как следует, отрицательные и положительные остатки имеют разный вес, зависящий от порядка квантили t. Так положительные остатки имеют вес t, а отрицательные – (t-1), и их сумма обязана стремиться к нулю.
Таковым образом, нахождение квантили q данного порядка t можно разглядывать как поиск аргумента минимума специальной мотивированной функции:
,
где – контрольная функция, обеспечивающая t-баланс наблюдаемых значений и данная в виде:
.
Иллюстрация определения данной функции представлена на рисунке.
По аналогии с регрессионным анализом можно перейти к определению квантильно-регрессионных функций , любая из которых представляет собой некую регрессию условной квантили . Тогда построение квантильно-регрессионных моделей можно разглядывать как задачку оценки характеристик функций и отыскивать решение минимизацией:
(1)
Решение представленной минимизационной препядствия, когда – линейная функция с неведомыми параметрами, отлично осуществляется способами линейного программирования.
А именно, линейная квантильно-регрессионная модель (Buchinsky? 1998) задается либо ,
где b – неведомый вектор регрессионных характеристик, оценивается как решение минимизационной задачки:
– неведомый вектор ошибок, так что условная квантиль порядка t от его значений равна нулю.
На практике обширное распространение получило оценивание квантильной регрессии способом наибольшего правдоподобия. Но для его использования нужно, чтоб априорно была популярная функция распределения, потому 1-ый подход к построению квантильно-регрессионных моделей базируется на выборе пригодного теоретического распределения и комбинирование подбора характеристик распределения с способами выравнивания для вычисления условных квантильных функций. Этот подход, базирующийся на оценке характеристик «известного» распределения получил заглавие параметрический.
Самый узнаваемый параметрический способ – LMS, основанный на трансформации начальных значений наблюдений к нормальному. Коул и Грин (Cole and Green, 1992) предложили применять трансформацию Бокса-Кокса к начальным измерениям для получения нормальности трансформированных значений. Так как было принято предположение о нормальности распределения, то использовались оценки наибольшего правдоподобия для характеристик среднего (М) и СКО (S), как достаточных для описания этого распределения и доп параметра трансформации (L).
В начальной работе [] выравнивание всех 3-х функций, описывающих модель выполнялось раздельно при помощи сплайнов и выбор модели сводился к подбору рационального числа узлов каждой из 3-х функций. В предстоящем использовались разные модификации, так Yee (1998) предложил оценивать все три функции вместе вектором сплайнов [0].
В качестве кандидатуры нормальному распределению предлагалось применять t-распредление Стьюдента [], гамма-распредление []. В работе [0] предлагается применять степенное экспоненциальное распределение Box-Tiao либо общих ошибок [Ошибка! Источник ссылки не найден.
], которое является общим вариантом задания разных одномодальных распределений от обычного до равномерного, для данных, имеющих очень большенный эксцесс опосля использования трансформации Бокса-Кокса.
Имеется огромное количество вариацией этого подхода, направленные как на усложнение трансформации, так и трансформации к остальным видам распределений, соответствующим для определенной прикладной задачки.
При отсутствии априорной инфы о форме распределения предложены непараметрические квантильно-регрессионные модели. А именно, дискуссируется вопросец о использовании ядерного оценивания функции условного распределения и получение условной квантили воззванием данной функции. Решая вычислительную делему воззвания оцененной функции условного распределения Yu and Jones (1998) употребляли двойную ядерную аппроксимацию, как минимизацию [Ошибка! Источник ссылки не найден.
]:
,
где n=n(х) – оценка квантильной регрессии,
К – ядро с данной шириной окна h.
Соответственная функция реализована Yu для пакета S-PLUS, разработанный метод гарантирует сходимость.
Наибольшее количество реализаций квантильной регрессии на нынешний денек в особом статистическом ПО – SAS, в каком реализованы – симплекс-алгоритм (Koenker and d’Orey, 1993), метод с внутренней точкой (interior
Реализация LMS-метода выполнена в специальной прикладном ПО lmsqreg, разработанном Коулом и Паном (T.G. Cole&Pan), имеется публикации как начального FORTRAN-текста, так и ее S-PLUS код Кери (Carey) на HTTP://biosun1.harvard.edu/`carey/.
Огромное количество работ Коенкера (Koenker) по оценке линейной квантильной регрессии представлено в свойства отрытого кода на языке R (HTTP://cran.r-project.org) и в виде функции на языке S для пакета S-PLUS (HTTP://econ.uiuc.edu/roger).
Спец статистический пакет STATA имеет команду «qreg» для оценки квантильной регрессии. библиотека подпрограмм, реализующих команды STATA повсевременно расширяется и пользовательские версии доступны на HTTP:/jstor.org.
В особом математическом ПО XploRe имеется возможность оценки характеристик квантильной функции и ряд сервисных процедур по проверке гипотез и построения графиков.
Также известны особые прикладные реализации неких алгоритмов квантильной регрессии – пакет VGAM, разработанный T.W.Yee (HTTP://www.stat.auckland.ac.nz), реализующий LMS-метод, оценку квантилей при начальном палитра распределении значений и модификация трансформации Бокса-Кокса для положительных и отрицательных значений.
и GLMS-проект
Ввиду значимой вычислительной трудности квантильной регрессии самым первым подходом к получению функций условных квантилей было соединение эмпирических квантилей ровненькой линией «на глаз», т.е. применение неформализованного выравнивания.
Применение подхода на базе выравнивания подразумевает, что для всякого фиксированного значения переменной осуществляется подборка соответственных значений зависимой переменной , по которой рассчитывается выборочная квантиль данного порядка. Упорядоченные по фиксированным значениям квантили 1-го и такого же порядка интерполируются гладкой непрерывной функцией. Так как схожая задачка решается в два шага:
1) расчет эмпрического квантиля данного порядка по выборке;
2) выравнивание огромного количества эмпирических квантилей по независящей переменной, зафиксированной для всякого рассчитанного квантиля.
То соответственный подход принято считать двухступенчатым.
На нынешний денек более известна реализация двухступечатого подхода при обработке исследовательских работ Южноамериканского центра по контролю за питанием (CDC) для построения справочных диаграмм развития малышей. Для измеренных значений были получены начальные сглаженные кривые избранных основных процентилей и на втором шаге получены характеристики, которые были применены для построения финишных сглаженных кривых и доп процентилей. В качестве сглаживающих функций были применены полиномиальная 5-й степени, локально взвешенная регрессия(locally weighted regression). Подгонка модели, основывалась на минимизации остаточного среднего квадрата ошибок (RMSE), коэффициента детерминации (R2). Подробное описание вычислительных процедур можно отыскать на HTTP://www.cdc.gov/growthcharts.
В работе [Ошибка! Источник ссылки не найден.
] представлена двухступенчатая процедура с внедрением способа k-ближайших соседей для вычисления квантильных функций и ядерной выравнивание для финишных квантильных регрессий.
Эти ступени просто могут быть реализованы в любом статистическом и математическом ПО , так как решение 2-ух задач – вычисления квантилей и выравнивание могут производиться раздельно. На нынешний денек фактически все статистические пакеты и электрические таблицы имеют интегрированные функции вычисления квантилей данного порядка либо процентилей, и владеют широким диапазоном разных процедур выравнивания, которые могут использованы к разным типам данным, а именно выборочным квантилям.
Литература.
1.
Buchinsky M. Quantile regression, Box-Cox transformation model, and U.S. wage structure, 1963-1987. – J.Econometr. – 1995. – V. 65 – P. 109-154.
2. Cizek P. Quantile Regression/ XploRe Application Guide, ed. by W. Härdle, Z. Hlavka, and S. Klinke. – Springer, Berlin. – 2003:– P. 19–48.
3. Cole TJ Smoothing reference centile curves: the LMS method and penalized likelihood/ TJ Cole, PJ. Green//Statistics in Medicine.– 1992. –Vol. 11. –P. 1305-1319
4. Guo S, Roche AF, Baumgartner RN, et al. Kernel regression for smoothing percentile curves: reference data for calf and subscapular skinfold thicknesses in Mexican Americans. American Journal of Clinical Nutrition 1990; 51: 908S-916S
5. He X. Quantile curves without crossing./American Statistician. – 1997. – V. 51. – P. 186-192.
6. Koenker R. Quantile smoothing splines.//R. Koenker, Ng, P., Portnoy, S. –Biometrika, –1994, V.81. – P. 673-680.
7.Koenker
R. Quantile Regression/ R. Koenker, K. F. Hallock //Journal of Economic Perspectives – 2001. – Vol. 15. – P. 143–156.
8. Rigby RA Generalized additive models for location, scale and shape./ RA Rigby, DM Stasinopoulos//Journal of the Royal Statistical Society, Series C – Applied Statistics. –Vol. 54. –P. 507–544.
9. Rigby RA. Smooth centile curves for skew and kurtotic data modelled using the Box-Cox power exponential distribution./ RA Rigby, DM Stasinopoulos// Statistics in Medicine. – 2004. – V. 23. – P.3053–3076.
10. Yee T.W. On an alternative solution to the Vector spline problem. – Journal of the Royal Statistical Society, Series B, Methodological – V. 60. – P. 183-188.
11. Yu. K. Quantile regression using RJMCMC algoritm// Comput. Statist. Data Anal. – 2002. V.40. – P.303–315.
12. Hjort NL, Walker SG (2009). Quantile pyramids for Bayesian nonparametrics. The Annalsof Statistics, 37: 105{131
]]>