Каталог статей

О преимуществах статистических методов в науке и некоторых особенностях их применения

Регрессионная модель в медицине

В нашей компании вы можете заказать статистические исследования для медицинских или социологических диссертаций, маркетинговых исследований и иных целей. В качестве примера приведем небольшую часть одного из наших исследований.

Для чего нужны статистические методы в науке

Статистические методы дают широкие возможности ученым для исследования свойств и взаимосвязей объектов. Они позволяют классифицировать объекты, группировать их, строить модели, предсказывающие те или иные свойства объекта по известным признакам, анализировать степень взаимосвязи между различными свойствами объектов. Использование статистических методов в любом исследовании позволяет получать новые научные результаты, которые впоследствии могут быть применимы на практике.
Однако, несмотря на распространенность информации о таких методах и даже готового программного обеспечения, позволяющего легко применять методики к реальным данным, очень важно использовать их грамотно, профессионально. Любой статистический метод имеет ряд ограничений и допущений, которые необходимо тщательно проверять перед их применением.
Кроме того, любой статистический метод имеет свои погрешности и уровни значимости, которые в лучшем случае стремятся к 100%, однако в целом их не достигают. Интерпретация результатов и оценка полученной модели всегда должны учитывать эти показатели. Именно поэтому мы настоятельно рекомендуем вам не осуществлять расчетов самостоятельно и обратиться к нам за помощью в статистической обработке данных. А в этой статье мы покажем вам один из весьма полезных статистических методов и ключевые нюансы его использования на практике.

Пример построения регрессионной модели по диагностике рака почки

В качестве примера, приведем способ построения регрессионной модели, которая в зависимости от имеющихся данных анализов пациента идентифицирует его принадлежность к группе пациентов с тем или иным диагнозом. Безусловно, окончательный диагноз пациенту может поставить только доктор, в данной статье мы говорим о математической модели, которая носит вспомогательный характер.
Исходные данные для построения модели (обучающая выборка) содержали данные иммуноферментного анализа концентраций биомаркеров в крови и моче пациентов, а также среднегеометрические размеры новообразований, диагностированные с помощью метода МРТ. Для каждого из пациентов был известен его диагноз, который мог быть: норма, доброкачественное образование, рак почки стадия Т1, Т2а, Т2b, Т3.
Учитывая, что возможные диагнозы пациентов можно ранжировать по степени ухудшения, в данной ситуации вполне удобно было применить статистический метод – порядковую регрессию. Такая модель заложена в программном пакете SPSS. Она строит регрессионную модель, которая по количественным и порядковым независимым переменным (предикторам) определяет значение порядковой зависимой переменной, в данном случае диагноз пациента.
Основной показатель, характеризующий качество регрессионной модели, – это R-квадрат. Для порядковой регрессии он вычисляется по трем методикам: Кокса и Снелла, Нейджелкерка и McFadden. Чем ближе его значение к 100, тем точнее и качественнее модель. Он показывает, какую долю разброса значений зависимой переменной можно объяснить за счет использованных независимых переменных.

Модель с использованием всех предикторов

Наличие большого числа показателей нередко вызывает у исследователей желание использовать в модели их все для повышения точности. На самом деле, это не совсем верный подход. Подобные модели могут давать прекрасные результаты на обучающей выборке ввиду хороших возможностей подгонки под исходные условия, однако ее коэффициенты на самом деле будут неустойчивы. То есть для других наблюдений пациентов она может давать совершенно различные результаты.
Так, когда мы использовали при построении модели все имевшиеся данные по концентрации биомаркеров, мы получили модель, которая имела высокую точность на обучающей выборке: ее R-квадрат Нейджелкерка составил 98,4. Однако коэффициенты такой модели не были значимыми по критерию Вальда. То есть в целом сама модель не была точна.
У данной модели были весьма высоки стандартные ошибки предикторов. Величины ошибок у большинства предикторов были больше самих коэффициентов. Это означает, что прогноз мог оказаться недостаточно надежным.
Самый простой путь, который мог быть выбран, состоял в использовании тех предикторов, которые наиболее сильно взаимосвязаны с диагнозом пациента. В связи с этим логично было предположить, что это те предикторы, которые сильно взаимосвязаны с размерами новообразований.

Выбор наиболее важных предикторов

Для этого воспользовались методом автоматизированного линейного моделирования. Так как данные выборки имели весьма широкий разброс, при реализации алгоритма в программе SPSS отказались от автоматической обработки выбросов. В качестве основного критерия выбора модели был использован опять же R-квадрат, дающий максимальную точность подгонки, но скорректированный во избежание переобучения по данной выборке.
Данный анализ показал нам, как влияют предикторы – показатели биомаркеров на величину размера опухоли:

Автоматизированное линейное моделирование

В связи с этим была построена новая модель, которая использовала только 4 биомаркера вместо 6. Ее R-квадрат Нейджелкерка практически не изменился и составил 98,3. Однако коэффициенты по-прежнему были незначимыми. В связи с чем последовательно исключили из числа предикторов два биомаркера с наименьшей значимостью по критерию Вальда и со стандартными ошибками, превышающими значения самих коэффициентов: VEGFm и MMP-9m. Тем самым мы добились того, что стандартные ошибки всех коэффициентов модели стали меньше значений этих коэффициентов. R-квадрат Нейджелкерка данной модели был достаточно велик – 98,2. Модель выглядела следующим образом:

Стадия Вероятность наличия у пациента данной стадии
Норма  Pн=P(59.184,θ)
Доброкачественные образования  Pд=P(191.23,θ)-Pн
Т1а  Pt1a=P(294.41,θ)-P(191.23,θ)
Т1b  Pt1b=P(407.52,θ)-P(294.41,θ)
Т2  Pt2=P(489.2,θ)-P(407.52,θ)
Т3  Pt3=1-P(489.2,θ)

Здесь θ=0,07*VEGFk+0,093*MMP9k+19,103*Размер,

P(y,θ)=0.5+1/π*arctg(y-θ).

По данной модели была зарегистрирована программа ЭВМ (№ свидетельства 2015662181).
Однако дальнейшие исследования были продолжены, так как, по сути, набор предикторов для модели не отвечал пока главному критерию об отсутствии сильной корреляции в данных. Предикторы, значения которых сильно взаимосвязаны между собой, дают эффект мультиколлинеарности, ведущий к неопределенности модели. Такие модели опять-таки могут давать хорошие результаты на обучающей выборке, но дисперсия оценок коэффициентов будет весьма большой.

Устранение мультиколлинеарности

Основной эффект мультиколлинеарности давало, безусловно, одновременное использование в модели размера новообразования и показателей биомаркеров, которые имели с ним сильную связь. Так как целью исследования было изучение диагностической способности именно биомаркеров, из числа предикторов был исключен размер. Модель сразу стала качественнее. Помимо высокого R (95,4) и низкого уровня стандартных ошибок, мы добились важного свойства модели: значимости всех ее коэффициентов по критерию Вальда p<0,05. Этот показатель отвечает за определенность модели, и по нему можно определить, полезен ли параметр для модели. Добившись этого результата, мы получили модель не просто с высоким уровнем точности на обучающей выборке и высоким уровнем R, но и обладающую устойчивыми коэффициентами с низким разбросом. Окончательно модель имела вид:

Стадия

 

Вероятность наличия у пациента данной стадии

 

Норма

 

 Pн=P(16,227,θ)

 

Доброкачественные образования

 

 Pд=P(48,389,θ)-Pн

 

Т1а

 

 Pt1a=P(93,884,θ)-P(48,389,θ)

 

Т1b

 

 Pt1b=P(124,209,θ)-P(93,884,θ)

 

Т2

 

 Pt2=P(145,967,θ)-P(124,209,θ)

 

Т3

 

 Pt3=1-P(145,967,θ)

 

Здесь θ=0,034*VEGFk+0,039*MMP9k,

P(y,θ)=0.5+1/π*arctg(y-θ).

Таким образом, статистические методы могут привнести много нового и полезного в ваши научные разработки при условии их правильного использования. У нас вы можете заказать проведение профессионального статистического исследования на основе ваших данных и научных целей.

Автор статьи — Москалева Анастасия Владимировна,  генеральный директор компании МакФин Бизнес-аналитика

19.11.2015