Каталог статей

Ограничения классификации методом ближайших соседей — 2 часть

Статистические расчеты для диссертаций

В этой статье мы продолжим разговор о методе ближайших соседей, как наиболее часто употребимом для решения задач классификации и регрессии. В прошлой статье мы уже разобрали часть отрицательных сторон данного метода, которые делают его неприменимым в ряде случаев. Сейчас мы продолжим эту тему. Так вы узнаете, как мы проверяем выборки перед тем, как осуществлять статистическую обработку данных для диссертаций.

Объем обучающей выборки для метода ближайших соседей

Зададимся вопросом: каков все-таки должен быть объем обучающей выборки, чтобы метод был применим и результативен. Плотность распределения случайных величин в обучающей выборке в предыдущем примере с равномерным распределением пропорциональна N1/p. Соответственно, для обеспечения той же плотности распределения при увеличении количества независимых показателей, например, с 3 до 10, количество объектов в обучающей выборке должно быть увеличено путем возведения в степень 10/3. Например, если изначально в выборке было 100 объектов, то их должно стать более 4,5 млн. Далеко не каждая реальная выборка обладает таким объемом.

Ошибка прогноза

Предположим теперь, что закон распределения прогнозируемой величины нам известен: y=f(x) и мы пользуемся методом 1 ближайшего соседа, чтобы предсказать значение y0 в некоторой точке x0. Пусть множество точек обучающей выборки — T.

Ошибку можно вычислить следующим образом:

EPE(x0) = ET(f(x0)-y0)2) = ET(f(x0)-ET(y0)+ET(y0)-y0)2) = (ET(y0)-f(x0))2 + ET(y0-ET(y0))2) + 2 * (ET(y0)-f(x0))  * ET(ET(y0)-y0)) = ДисперсияT(y0) + Смещение2(y0) = VarT(y0) + bias2(y0).

Это известная формула разложения ошибки. В случае, когда точки обучающей выборки распределены равномерно в некотором объеме, при большом количество независимых показателей (то есть при большой размерности) и малом количестве объектов в выборке, bias растет. В прошлой статье мы показали, что если объем распределения выборки — многомерный шар с центром в начале координат, большинство точек выборки будет отстоять от начала координат более чем на 0,5, если измерений более 10, а выборка менее 1 000 наблюдений. Это сильно увеличивает полученную нами величину ошибки.

Существует много других примеров, когда при малых выборках и больших измерениях, ошибка достаточно велика.

Как избежать проблемы многофакторности в регрессионном анализе

Несмотря на достаточно большие смещения линейная модель при определенных ограничениях применима и при больших измерениях. Предположим, что реальный закон распределения прогнозируемой величины нам известен, и он имеет следующий вид:

y = f(x) + e, где f(x) — линейная функция вида XTb, при этом дополнительно предположим, что ошибка имеет нормальный закон распределения N(0,sigma2), а предсказанное нами y= x0Tb + sumi (x(XTX)−1 x0 * ei).

Пусть прогнозируемая нами линейная зависимость имеет вид h(x).

В этой ситуации

EPE(x0) = ET( (h(x0) — y0)2 ) = ET(h(x0)2 — 2*h(x0)* y0+ y02) = ET( (h(x0) — ET(h(x0)) )2 + ET(h(x0))2— 2*h(x0)* f(x0)+ ET( y0-f(x0) )2 + f(x0)2 = Varianceh + bias2(y0) + noisey0.

Учитывая закон распределения ошибки, который мы предположили для e, 

EPE(x0) = Ex0(XTX)−1 x0 * sigma+ 0 + sigma2.

Если дополнительно предположить, что E(X) = 0, то (trace — это след матрицы):

EPE(x0) = trace[Cov(X)−1Cov(x0)] * sigma2/N + sigma2 = sigma2* p/N + sigma2 где — количество независимых показателей.

Соответственно, если количество данных в выборке растет быстрее чем размерность выборки, то есть количество независимых показателей, или если дисперсия реальной модели мала, тогда даже при больших количествах независимых показателей модель вполне применима, но лишь с учетом всех ограничений, сделанных нами в рассуждении.

При использовании любого метода обращайте, пожалуйста, внимание на размер обучающей выборки, количество параметров и форму распределения и оценивайте возможность применения тех или иных методов. Если у вас возникают трудности с проведением статистической обработки для вашей диссертации, напишите нам.