Каталог статей
Как выбрать форму регрессионного уравнения
Многие наши клиенты, которые обращаются к нам за обработкой статистических данных для диссертаций, в частности, за услугами по построению регрессионных моделей, спрашивают, какой вид, какую форму будет иметь прогнозное, регрессионное уравнение. Такие вопросы звучат по-разному. Например, клиенты ссылаются на некоторые публикации, где была выбрана распространенная модель линейной регрессии и, очевидно, ждут такого же результата. Другие заказчики, напротив, просят построить сложную, нестандартную модель, учитывающую все независимые параметры и дающую минимальную ошибку. Все эти требования вполне понятны и объяснимы.
Линейная регрессия
Давайте посмотрим, как же все-таки на самом деле осуществляется выбор модели. В первую очередь поговорим о линейной модели. У неё есть минусы и плюсы. С одной стороны, это самый простой вид регрессии, который легко строится и также легко интерпретируется. Коэффициенты модели показывают, насколько и в каком направлении связаны независимая и зависимые переменные. Однако очевидный минус такой модели — большие отклонения от исходных данных, которые, как правило, распределены по какой-либо более изощренной кривой и никак не хотят укладываться на одну прямую линию.
Иные виды регрессионных моделей
Существует большое число моделей регрессии разного вида. Начиная, от также вполне распространенных экспоненциальных, полиномиальных, степенных, гиперболических, заканчивая изощренными аддитивными моделями, которые могут представлять собой разные сложные функции на разных участках области данных.
Ограничения регрессионного анализа
Нужно понимать, что построение регрессионного уравнения — задача изначально, имеющая свои ограничения. Основное ограничение — первоначальный набор данных. Мы знаем о данных только то, что прогнозируемая величина принимает определенные значения в заданных точках, а пытаемся предсказать, каковы ее значения на всей области.
Вид модели и метод наименьших квадратов
Например, если мы оцениваем качество модели распространенным методом наименьших квадратов по формуле RSS = sum (yi — f(xi))2, то для уменьшения RSS подойдут любые функции f(x), которые принимают значения yi в точках xi. При этом во всех остальных точках они в принципе могут принимать какие угодно значения.
Далее, исследователь уже самостоятельно выбирает, какую форму уравнения лучше задать именно в данном контексте. И в принципе выбор регрессионного уравнения — это фактически выбор накладываемых на функцию ограничений. При этом решений у этой задачи может быть множество.