Общие проблемы применения статистики в биомедицине

Общие проблемы применения статистики в биомедицине
Обучение в аспирантуре / Советы начинающим

Не будет преувеличением утверждение, что основные проблемы применения статистики в биомедицине аналогичны проблемам и других методов получения знания, используемым в биологии и медицине. Например, каковы проблемы применения томографов в онкологии? Или каковы проблемы использования радионуклидов в кардиологии?

Классифицируя их, можно выделить следующие уровни: 1) материальный - наличие необходимого томографа, компьютера, радионуклида и т.п.; 2) информационный - наличие необходимых знаний, опыта, руководств, программ и т.д.; 3) организационный - наличие требуемых организационных структур, специалистов, заинтересованности руководителей или исполнителей и т.п.

В дальнейшем нашем анализе мы будем ориентироваться на 2-й уровень - информационный, исходя из того, что задачи 1-го и 3-го уровней решены в большей степени, нежели задачи 2-го уровня. При этом как в данной статье, так и в последующих наших статьях, уровень изложения того или иного материала будет ориентирован на профессионала медика или биолога, обладающего достаточными знаниями в своей предметной области.

К таким профессионалам мы отнесем научных сотрудников НИИ и клиник, преподавателей вузов, аспирантов и докторантов, т.е. всех тех исследователей в области биомедицины, кто ставит своей целью знакомство с основными идеями и возможностями современной прикладной статистики и применение их в собственной исследовательской практике. По этой причине, излагая необходимые материалы, мы будем опускать сложные формулы, а делать упор на идейную сторону обсуждаемых методов и задач.

Иными словами наш уровень изложения материала будет ориентирован на тех специалистов, кто только начинает знакомство с основами статистической методологии и достаточно далек от математических выкладок. Возможно, что для кого-то такое изложение может показаться достаточно примитивным и популярным, однако таким более подготовленным читателям имеет смысл обратиться к нашему аннотированному указателю литературы http://www.biometrica.tomsk.ru/annot.htm и выбрать из него необходимые учебники или пособия.

Итак, какая же основная проблема стоит перед профессионалом, работающим в области биомедицины, когда он решается использовать биостатистику в своей научной деятельности? Эту проблему аллегорически можно свести к выбору из двух альтернатив: ДДПП и ДППД (что не имеет отношения к ЗППП :)). Эти аббревиатуры, которые автор услышал примерно 20 лет назад в Зеленограде в НИИ молекулярной электроники, расшифровываются следующим образом: "Давай, Давай, - Потом Подумаем!" и "Давай Подумаем, Потом - Давай!". Первый принцип сродни известному ленинскому "Сначала ввяжемся в драку, а потом посмотрим" (за точность фразы не ручаюсь, поскольку ее автор не относится к моим любимым авторам - В.Л.). Второй же принцип ближе к поговорке "Семь раз отмерь, один раз отрежь".

Не сомневаюсь, что большинство читателей уже сделало выбор в пользу второй альтернативы - ДППД, а некоторых из них возможно даже и обидело наше предложение о таком выборе. И, тем не менее, берусь утверждать, что более половины исследователей в медицине и биологии следуют принципу ДДПП: вначале собирают экспериментальные данные, а затем пытаются формулировать задачи их статистического анализа. Тогда как принцип ДППД требует исходя из целей и задач исследования выбрать необходимые методы статистического анализа, а уж затем начинать сбор экспериментальных данных.

В результате у приверженцев ДДПП нередко оказывается, что выводы статистического анализа собранных данных отвечают на отдельные, узкие задачи исследования, которые оказываются не адекватными ранее поставленной цели исследования. Такая подмена цели исследования несколькими узкими задачами анализа, обычно сводящимися к проверке гипотез о равенстве средних двух групп http://www.biometrica.tomsk.ru/paradigma0.htm - контрольной и экспериментальной, приводит подобных исследователей к разочарованию в использовании статистики. "Ну и что, применили статистику, а всего то и узнали, что средние в группах статистически значимо не различаются"!

Скудость подобных выводов отражает лишь скудость гипотез и предположений, которыми оперировал такой исследователь, забывший, что сами по себе факты еще не есть наука. Таковой они становятся лишь после "экстракции" из них, в том числе и методами статистики, надежных закономерностей, обобщений, отбрасывания случайной, "шумовой" информации. В этой связи позволю себе одно отступление, связанное с юбилейной датой. 110 лет назад, 1 сентября 1888г. вступительной лекцией профессора С.И. Коржинского на тему "Что такое жизнь?" была открыта подготовка медиков в Томском Императорском университете - первом за Уралом университете, основанном в 1878г. В своей лекции С.И. Коржинский коснулся и актуальной для нас и сегодня темы методологии науки.

"Таково уж свойство человеческого ума, что как только удовлетворены все насущные житейские потребности, человек стремится постигнуть смысл окружающих явлений, подметить законы, по которым они совершаются. Он делает наблюдения, собирает факты, выводит заключения; но чем глубже проблема, тем слабее, ничтожнее кажутся фактические знания, которыми обладает человечество, и страстная потребность ума найти решение волнующих его вопросов удовлетворяется иным путем - тем полетом мысли, который называют воображением.

Таким образом, два орудия мысли находятся у человечества - факт и гипотеза; два направления - эмпиризм и философия? Факты есть основа науки; они лежат в основе и всякой гипотезы. Факты - это золото, которое тщательно сосчитанное и рассортированное лежит в кладовых банка. Теории и гипотезы - это кредитные бумаги, которые пускаются в обращение, и которые имеют цену, сообразную с количеством звонкой монеты, которому она соответствует. Факты имеют значение абсолютное, теории и гипотезы - лишь относительное.

Однако одни Факты еще не составляют науки. Грубый эмпиризм не может удовлетворить запросов ума. Работа ученого не может состоять лишь из собирания фактов. Для него необходимо возвышаться над фактами, осматривать их с высоты птичьего полета, стремиться уловить внутреннюю связь явлений, восполняя пробелы воображением, намечая пути новых исследований. Если рассматривать вблизи какую-нибудь картину, то мы увидим лишь мазки кисти и грубые очертания. Чтобы уловить идею картины, чтобы постичь ее красоту, нужно отойти на некоторое расстояние. Факты есть строительный материал, теория - план будущего здания. Во время постройки план может много раз меняться, строительный материал идет в дело, так или иначе, но без плана невозможно вывести здание. Так без теории не может существовать наука".

Сложность реализации ДППД в нашем случае есть проявление закономерной сложности исследуемых живых, а иногда уже и мертвых, объектов исследования. Вряд ли кто-то из наших читателей будет оспаривать тезис о том, что живые организмы являются наиболее сложными творениями Природы. Пытаясь реализовать ДППД, исследователь уподобляется переводчику, перед которым стоит задача сделать перевод описания исследуемой проблемы со своего предметного языка, оперирующего понятиями и терминами физиологии, кардиологии, онкологии и т.д. на язык и термины биостатистики. Здесь автор позволит себе небольшое лирическое отступление, напомнив читателям строку своего любимого поэта Арсения Тарковского "Ах, восточные переводы, как болит от вас голова". http://www.ruthenia.ru/60s/tarkovskij/perevodchik.htm
Пожалуй, что и в нашем случае переводы не менее, а может быть и более трудны, чем те, о которых сказал поэт...

Прежде чем делать такой перевод, необходимо ответить самому себе на вопрос: "А зачем мне вообще нужно применять эту самую статистику"? Без статистики результаты будут выглядеть несовременно? Требует шеф? Или же я надеюсь получить в результате качественно новое знание? Чем полнее (и честнее!) будет ответ на вопрос о причинах применения статистики, тем меньше в дальнейшем будет разочарований.

Подобно тому, как известный исследователь стресса Г. Селье в своей книге "От мечты к открытию" http://www.biometrica.tomsk.ru/selye_0.htm классифицировал типы ученых ("Собиратель фактов", "Книжный червь", "Аналитик", "Синтезатор", "Высушенная лабораторная дама", "Агрессивный спорщик", "Первостатейная акула" и т.д.) попытаемся и мы классифицировать исследователей в области биомедицины по мотивам использования статистики.

В первую группу входят исследователи действительно осознающие необходимость использования статистики, как одного из инструментов экспериментального исследования. Представители этой группы выполняют анализ полученных данных самостоятельно либо с помощью статистиков. Вторая же группа исследователей состоит из нескольких разнородных подгрупп. В первой подгруппе те, кто осознанно использует статистику как "украшение" к работе, без которого результаты исследования не будут выглядеть солидно, весомо. Иными словами, статистика используется как средство "онаучивания" уже заранее сформулированных выводов. Как правило, такие исследователи используют в своих работах избитые клише, как "магические заклинания, служащие, по мысли авторов,"пропуском в науку" (цитата из статьи С.Е. Бащинского, главного редактора "Международного журнала медицинской практики", "Статистика умеет много гитик"). http://www.biometrica.tomsk.ru/gitiki.htm

Представители следующей подгруппы берут пример со своих руководителей и думают примерно так: "Они применяют t-критерий Стьюдента, вот и я сделаю также. Что я, хуже их". Представители третьей подгруппы осознанно мимикрируют, не претендуя на использование более сложных методов анализа, чем те, которые применяют их руководители. Они понимают, что это требует усилий, как на освоение самих методов, так и на то, чтобы результаты их использования были поняты их коллегами и руководителями. В противном случае возможны конфликты: "Ты что, самый умный, мы все применяем M?m и Стьюдента, а ты тут какой-то кластерный анализ использовал".

Предположим, что дальше эти строки читают уже только те профессионалы, которые действительно видят в использовании статистики не ритуальное средство сделать "красивый бантик", а действенный и необходимый инструмент исследования. В этом случае следующий шаг, после выбора ДППД, будет заключаться в том, чтобы сформулировать и записать конкретные задачи исследования, исходя из его целей. Причем попытаться сформулировать их так, чтобы их перевод с языка медицины и биологии на язык статистики в принципе был возможен...

Хочу обратить внимание читателей на желательность именно записать сформулированные цели и задачи, поскольку в процессе написания, особенно если первая их редакция не является и последней, формулировки становятся более конкретными и понятными как самому автору, так и его коллегам. Автор этих строк всегда как минимум 3-4 раза редактирует сформулированные задачи анализа данных, памятуя при этом известные слова А.П. Чехова - "Искусство писать, это искусство вычеркивать".

Обратим внимание наших читателей еще на одну особенность экспериментальных исследований в биомедицине. Подавляющее их большинство производится с достаточно ограниченным количеством исследуемых объектов. В качестве таких объектов могут выступать пациенты, как больные, так и здоровые, животные, растения и т.д. Например, при сравнении эффективности двух методик лечения используют наблюдения за группой больных, которых лечат, к примеру, по методике 1, и за группой больных, которых лечат по методике 2. Таких примеров можно привести достаточно много. Полагаю, что наши читатели могут сделать это и самостоятельно.

Однако в силу того, что наши объекты исследования как внутри отдельных групп, так и между группами сравнения, имеют достаточно большую вариабельность (изменчивость) мы должны помнить о том, что любые наши выводы, полученные по данной группе, не имеют абсолютной надежности. В то же время, исследователь желает соотнести эти выводы со всей исследуемой генеральной совокупностью, из которой взяты исследуемые объекты. (В общей теории статистики и статистической практике при проведении выборочного наблюдения под генеральной совокупностью понимается вся совокупность реально существующих объектов, из которых тем или иным способом извлекается совокупность выборочная.)

В силу того, что анализируемая выборка несет в себе только некоторую часть всей информации содержащейся в генеральной совокупности, наши выводы, полученные по выборке, в принципе не могут быть абсолютно надежными. Вероятностный, случайный характер комплектования выборки в совокупности с относительно малым объемом выборки (по отношению ко всей генеральной совокупности) приводят нас и к вероятностному характеру наших выводов. (За все надо платить, бесплатных пирожных не бывает).

Очевидно, что в такой ситуации необходимо использовать такой статистический инструментарий, который бы обеспечивал максимально достижимую надежность результатов анализа. Основная цель выбора адекватных методов прикладной статистики, который производит профессиональный биостатистик, как раз и заключается в том, чтобы по имеющейся ограниченной выборке получить максимально надежные оценки характеристик всей генеральной совокупности.

В данном контексте под характеристиками мы будем понимать не только среднее, дисперсию или ошибку среднего отдельных признаков и т.д. но и более сложную и ценную информацию о различных формах и видах взаимозависимостей существующих между признаками исследуемых объектов. Эту информацию можно считать наиболее ценной, поскольку именно она позволяет исследователю решать задачу прогноза. "Знать, чтобы предвидеть, предвидеть - чтобы управлять" - эти слова Огюста Куно как нельзя лучше иллюстрируют ценность информации о зависимостях признаков.

Профессионал, исследующий интересующие его объекты, всегда будет относиться к ним как к системе. А любая система, как известно, включает в себя не только отдельные элементы, но и структуру, объединяющую их в систему. При этом структура в биологических объектах чаще всего проявляет себя в виде ранообразных статистических связей. Наконец, не будем забывать и о том, что начиная изучение любого объекта, исследователь не располагает полным набором информации о существующих в объекте зависимостях между исследуемыми переменными. В данном контексте это означает, что кроме проверки наличия, существенности предполагаемых исследователем зависимостей, с помощью методов статистики может быть установлено наличие и ранее неизвестных зависимостей.

Напомним нашим читателям, что кроме простых последовательных структур причинно-следственных связей типа A->B->C... и т.д. существуют и более сложные структуры, например, параллельно-последовательные, древовидные, матричные, с обратной связью и т.д. Поэтому, исследуя взаимосвязи между признаками, не следует забывать и об этих альтернативах. Знание новых зависимостей позволяет генерировать новые гипотезы о механизмах исследуемых факторов воздействия на изучаемые объекты - методов лечения, препаратов и т.д.

Фактически речь идет о том, что в реальных исследованиях возможен двойной подход при использовании методов биостатистики. В первом случае под заранее сформулированные цели и задачи выбираются наиболее адекватные методы анализа. Во втором же случае профессиональный биостатистик, исходя из самой природы массива данных, формулируем все потенциально возможные задачи анализа этого массива информации. Очевидно, что в этом случае объем решаемых задач превосходит аналогичный объем для первого подхода. И очень часто такой подход оправдывает себя, поскольку приносит абсолютно новые результаты, интерпретация которых позволяет генерировать и проверять новые гипотезы, отсутствующие в первом подходе. Однако реализация такого подхода под силу только опытному, профессиональному биостатистику.

Другой мощный стимул поиска новых неизвестных ранее зависимостей между исследуемыми признаками - их возможное использование для достижения лечебных целей. Этот набор возможных направлений использования методов современной биостатистики можно было бы продолжить еще на нескольких страницах.

Очевидно, что количество формулируемых задач исследования, которые предполагается далее решить с помощью биостатистики, будет определяться уровнем статистической грамотности самого исследователя, его возможностями решить эти задачи самостоятельно или же профинансировать их решение квалифицированным биостатистиком. Наш многолетний опыт общения с медиками и биологами показывает, что на этом этапе главным препятствием для последующего результативного статистического анализа собранных экспериментальных данных является их идейная (в смысле идей статистики) неподготовленность. Эта идейная безграмотность, проявляемая в незнании основных возможностей современной прикладной статистики, приводит к примитивизму выводов, получаемых после анализа нередко бесценных наблюдений.

Однако вернемся к этапу декомпозиции целей исследования в конкретные задачи, решение которых и должно обеспечить исследователю достижения поставленной цели. Часть сформулированных задач для их решения требуют статистического аппарата. Ниже мы попытаемся проиллюстрировать этот этап, используя вполне конкретный пример из нашей практики.

Отметим, что данный этап декомпозиции целей исследования в задачи, требующие последующего статистического анализа данных, лучше всего выполнять совместно с квалифицированным биостатистиком. Более оптимально, если этот же специалист будет сам организовывать или решать сформулированные задачи статистического анализа данных. Наш многолетний опыт разработки задач анализа биомедицинских данных позволяет выделить два подхода в реализации этого этапа. Первый подход характерен для небольших исследований, имеющих локальный характер. Например, при написания статьи или доклада на конференцию или в журнал, либо же на этапе написания дипломной работы требуется провести анализ небольшой выборки наблюдений, порядка 20-40 наблюдений с 4-8 признаками, переменными.

Обычно такие работы требуют для своего выполнения 2-3 вполне определенных и конкретных методов, о которых сам исследователь, как правило, может уже достаточно внятно объяснить. К примеру, требуется сравнить средние значения конкретного количественного признака в группе больных и в контрольной группе здоровых. Либо же провести аналогичное сравнение группы больных до лечения, и после лечения и т.д. При реализации такого подхода в формулировке задач и выборе необходимых методов их решения доминирует сам исследователь. На долю биостатистика в этом случае остается либо роль квалифицированного и оперативного исполнителя анализа данных, либо же, исходя из особенностей признаков, некоторая корректировка предлагаемых методов анализа.

Второй подход характерен для исследований большего объема - НИОКР, кандидатские и докторские диссертации и т.д. Необходимым условием реализации такого подхода является наличие истинного профессионализма у руководителя исследования. Такой профессионал не только осознает ограниченность собственных знаний, но и не стыдится этой ограниченности. К сожалению, такое осознание приходит с годами и не свойственно молодым начинающим исследователям. Подобный профессионализм приводит к пониманию того, что только участие такого же профессионала в области анализа данных позволит максимально полно использовать имеющиеся наблюдения и получить адекватные результаты.

В этом случае руководитель исследования формулирует цели исследования и, исходя из ресурсных возможностей, определяет возможный объем выборки и набор измеряемых и фиксируемых переменных. На долю же биостатистика в этом случае ложится формулировка конкретных задач анализа будущих данных, которые в принципе могут быть решены в приемлемые сроки и оценка объема этих работ. Обратим внимание читателей на то, что в этом случае доминирующую роль "переводчика" играет биостатистик, а руководитель исследования выступает в роли фильтра, вычленяя из предлагаемых им задач те, которые позволяют достигнуть поставленных целей исследования.

Достоинства этого подхода заключаются в том, что в этом случае с помощью биостатистика значительно расширяется круг задач и методов используемых для достижения поставленной цели исследования. Именно такой подход характерен для ведущих зарубежных медицинских центров, где успешно работает множество лабораторий биостатистики, одна из которых была организована еще в 1918 г.

К сожалению, приходится констатировать, что в настоящее время такой подход, вследствие отсутствия специализированных структур и квалифицированных биостатистиков, встречается не часто. Чаще всего кто-то из коллег по НИИ или вузу, самостоятельно освоивших выполнение на персональном компьютере нескольких статистических процедур, дает своим коллегам рекомендации по анализу собираемых ими данных. Самое печальное в этом варианте то, что такой человек, не имея специальной подготовки и знаний, не становится профессионалом в области анализа данных, хотя и слывет в своем кругу "специалистом по компьютерному анализу". Более того, такой псевдоспециалист распространяет среди своих коллег собственные заблуждения и ошибки, даже не подозревая об том. В результате чего их публикации нередко попадают в КУНСТКАМЕРУ. http://www.biometrica.tomsk.ru/kk.htm

Попытаемся на реальном примере привести небольшой перечень задач, решение которых методами биостатистики представляет интерес для достижения цели исследования. Массив данных, о котором ниже пойдет речь, представляет собой результаты наблюдения за детьми, у которых наблюдалось заболевание щитовидной железы. Целью исследования являлось исследование особенностей заболевания щитовидной железы и изучение взаимосвязей разнообразных характеристики этого заболевания с характеристиками эритроцитов крови. Выборка наблюдений включала порядка 150 обследованных пациентов. Основные признаки, описывающие состояние пациентов до и после лечения, содержали следующие 2 блока:

А - количественные признаки:

общий анализ крови (ОАК) - 10 количественных признаков;
биохимия крови (БК) - 10 количественных признаков;
содержание липопротеиновых комплексов (ЛПК) - 2 количественных признака;
показатели обратимой агрегации эритроцитов (ОАЭ) - 12 количественных признаков;
содержание гормоны (Г) - 4 количественных признака;
показатели УЗИ щитовидной железы - 15 количественных признаков;
параметры эритроцитов (ПЭ) - 12 количественных признаков.
Итого - 55 количественных переменных.

В - дискретные качественные признаки:

группа пациентов - больные до лечения, больные после лечения, здоровые (контроль) - 1 качественный признак;
вид заболевания (З) - 1 качественный признак;
жалобы пациентов (Ж) - 12 качественных признаков;
наследственность (Н) - 3 качественных признака;
анамнез заболевания (АЗ) - 12 качественных признаков;
показатели пункции щитовидной железы (ПЩЖ) - 8 качественных признаков.

Итого - 37 качественных признаков.

Исходя из цели исследования, имеет смысл решить следующие задачи.

Исследование взаимосвязи между всеми парами образованными 55 количественными признаками. Число таких пар составляет (55*54/2=1485) отдельно в каждой из подгрупп образованных по отдельным градациям качественных признаков. Например, исследуются взаимосвязи между 1485 парами количественных признаков отдельно в группе больных до и после лечения и у здоровых. Аналогичным образом проводится исследование парных зависимостей и для подгрупп по остальным качественным признакам. При этом кроме статистической значимости тех или иных связей для отдельных пар признаков, нас должно интересовать и нечто большее.

В частности, одним из часто встречающихся в среде медиков и биологов заблуждений является акцентирование внимания только на одной характеристике совокупности: среднем арифметическом значении признака, чаще всего обозначаемом в публикациях как М (от английского Means - среднее). Между тем, отличия патологических объектов (экспериментальных) от здоровых (контрольных) могут проявляться не только в изменении (сдвиге по числовой оси) среднего значения. Принадлежность объектов к экспериментальной группе может сопровождаться также и другими, возможно более важными и существенными изменениями. Например, может весьма значительно измениться дисперсия, сам характер закона распределения вероятностей данного признака. И, наконец, может измениться сама структура системы.

Это изменение структуры может проявляться не только в уменьшении или увеличении средних значений признака, но и в изменениях силы, степени связи между этими признаками. Те связи, которые статистически значимо наблюдаются в группе здоровых пациентов, или в группе контроля, могут отсутствовать в опытной группе. Либо же наоборот, такие связи могут появиться. Наконец, их интенсивность может статистически значимо измениться в большую или меньшую сторону. Поэтому после оценки парных связей между признаками в отдельных подгруппах имеет прямой резон проверить гипотезы о равенстве соответствующих показателей этих связей.

Внимательный читатель уже догадался, что для нашего конкретного примера число таких сравнений может достичь очень большого значения. Однако опыт показывает, что, как правило, статистически значимыми оказывается обычно от 5 до 25% всех возможных связей. Нюанс же заключается в том, что до той поры пока не проведен анализ, невозможно сказать, какие именно связи статистически значимы, а какие - нет.

Не меньший интерес представляет и исследование взаимосвязей между отдельным качественным признаком, например, наследственностью и одним из количественных признаков, например, величиной гормона ТТГ или Т3. В этом случае общее количество таких связей подлежащих изучению также оказывается немалым. Аналогичный же анализ имеет смысл произвести и по выяснению совокупного влияния комбинации двух или трех качественных признаков на отдельный количественный признак. При таком изучении оцениваются средние значения средних каждого количественного признака в каждой отдельной группе, а также проводится проверка гипотез о равенстве групповых средних между собой.

Очевидно, что и в этом случае общее количество исследуемых связей будет немалым. Однако большое количество зависимостей не должно вводить в заблуждение и быть причиной паники, поскольку среди этих сотен зависимостей многие из них будут статистически не значимыми, т.е. их не надо будет принимать во внимание, и интерпретировать их. Сколько будет таких интересных и ценных с точки зрения поставленных целей исследования априорно ответить невозможно.

Представляет несомненный интерес исследование зависимости между одним качественным признаком, например анамнезом заболевания, и многими количественными признаками вместе. Если эта связь сильна, то в этом случае по набору количественных признаков можно сконструировать решающее правило и достаточно надежно произвести классификацию для каждого больного в ту или иную группу по наследственности или по анамнезу, или по жалобам. Более того, сравнивая между собой больных до и после лечения и здоровых пациентов, имеется возможность проранжировать по степени информативности (с точки зрения принадлежности к той или иной группе) все количественные признаки. Возможно также и разделение всего множества признаков на две подгруппы: признаки с отличиями между группами и признаки, для которых такого отличия нет.

Следующая, не менее важная задача, состоит в том, чтобы исследовать связи между всеми возможными парами качественных признаков. В нашем случае будет изучена взаимосвязь у (37*36)/2=666 пар качественных признаков. Например, наблюдается ли статистически значимая связь между наследственностью и жалобами, или между анамнезом заболевания и показателями пункции щитовидной железы. В каждом случае для статистически значимых связей можно будет оценить, в каких именно сочетаниях отдельных градаций признаков концентрируется данная связь, что под силу только квалифицированному биостатистику.

Продолжением этой задачи является изучение зависимости между одним качественным признаком, например, видом заболевания, и многими качественными предикторами (жалобы пациентов, наследственность, анамнез заболевания, показатели пункции щитовидной железы). При таком анализе очень часто удается выделить наиболее информативные показатели, определяющие вероятность принадлежности объекта к той или иной группе. Более того, в таком подмножестве информативных признаков возможно проранжировать качественные предикторы по степени их важности.

Имеет смысл и оценка взаимосвязи между отдельными парами множеств количественных признаков. Например, имеется ли статистически значимая связь между множеством значений гормонов (4 признака) и множеством значений параметров эритроцитов (12 признаков). Фактически в этом случае мы изучаем связи между отдельными подсистемами организма, с последующим ранжированием этих пар по силе связи между ними.

Следующий класс задач, это оценка регрессионных уравнений связи между одной количественной переменной и несколькими количественными признаками. В этом виде анализа можно будет оценить наличие зависимости наиболее важных количественных показателей, например, содержания того или иного гормона от нескольких других показателей, например показателей биохимии, параметров эритроцитов, ЛПК и т.д.

Отметим, что кроме линейных множественных регрессионных уравнений здесь имеет смысл произвести и оценку нелинейных уравнений регрессии. Наиболее эффективно применение уравнений регрессии в том случае, когда требуется произвести прогноз значения количественного признака, прямое измерение которого очень дорого и трудоемко, используя для этой цели несколько количественных характеристик измеряемых достаточно точно и быстро.

В исходных данных подлежащих исследованию имеется ряд качественных признаков, которые разделяют субъективно или объективно всех пациентов на ряд подгрупп. Это могут быть подгруппы по анамнезу, жалобам, наследственности и т.д. Однако не менее актуальна и постановка такой задачи: оценить наличие объективно существующих группировок пациентов, используя для этой цели только подмножества количественных признаков. Например, сколько имеется локальных групп пациентов, если для их группировки использовать только показатели параметров эритроцитов, или только показатели гормонов, ЛПК, биохимии и т.д. либо все эти количественные показатели вместе.

Исследование этих группировок позволит установить признаки, по которым эти группы наиболее сильно различаются. После получения этих группировок методами распознавания многомерных образов предстоит оценить наличие связей этих группировок с исходными группировками, например по жалобам, по анамнезу, и т.д. Очевидно, что многие количественные показатели могут иметь между собой достаточно сильно выраженные зависимости. Используя их в качестве исходного подмножества признаков можно поставить и решить задачу конструирования на их основе более сложных, интегрированных признаков. При этом число таких комплексных признаков (индексов) будет значительно меньше, нежели число исходных признаков. В чем достоинство и преимущество этого статистического метода снижения размерности признакового пространства? В результате этой процедуры мы получаем новые признаки, которые компактно несут в себе гораздо больший объем информации, нежели каждый из исходных признаков в отдельности. В итоге появляется возможность отфильтровать случайную составляющую и получить более глубинную информацию о структуре как самих исходных признаков, так и о структуре исследуемых групп пациентов.

Очевидно, что важность и новизну информации, полученной в результате статистического анализа, может осознать и оценить только исследователь, обладающий в данной предметной области достаточным уровнем знаний. Мало получить тот или иной результат с помощью простых или самых изощренных методов биостатистики. Дальнейшая судьба этих результатов заключается в том, чтобы исследователь мог аргументированно их интерпретировать. Для успешного прохождения этого этапа исследования требуется как глубокое понимание особенностей исследуемого объекта (его структуры, функционирования тех или иных подсистем и т.д.), так и хорошее понимание алгоритмов использованных методов статистического анализа. Из этого следует необходимость участия биостатистика и на этапе интерпретации полученных результатов анализа.

Однако не все результаты анализа могут быть однозначно интерпретируемы. Часть этих результатов вместо ответов на поставленные исследователем вопросы, генерирует новые вопросы. Впрочем, таков извечный путь познания истины в любой науке. Однако признание отсутствия достаточно надежной интерпретации результатов, полученных в исследовании, требует подчас немалого мужества. Чаще же случается так, что результат, не поддающийся адекватному объяснению в рамках доминирующей парадигмы, исследователем просто замалчивается и не легализуется. Во многом этому способствует не вполне нормальная практика научных журналов публикации статей только с положительными результатами исследований.

Выше мы привели далеко не полный перечень задач, который был решен нами при исследовании данного массива данных и мог бы рекомендоваться для применения в биомедицинских исследованиях. Если попытаться классифицировать как перечисленные выше, так и многие другие методы статистики, применяемые в биомедицине, то можно предложить классификацию, опирающуюся на представление об исследуемых обьектах как система. Первая группа включает методы, с помощью которых производится оценка основных параметров совокупности, таких как меры положения и разброса (среднее, мода, медиана, квартили, размах, дисперсия и т.п.) Сюда же можно отнести и ряд методов проверки однородности групп, включая, например, методы проверки гипотез о тех же средних и т.д.

Вторая группа методов исследует структуру самих объектов, однородность групп объектов между собой, выделение объективных групп этих объектов и т.д. К этим методам мы отнесем разнообразные методы кластерного анализа и многомерного шкалирования, дискриминантный анализ и т.д. Наконец третья группа методов уже исследует структуру признаков, описывающих состояние объектов. К этим методам мы отнесем корреляционный и регрессионный анализ, в том числе и логистическую регрессию, факторный анализ, метод главных компонент, каноническую корреляцию и опять же дискриминантный анализ, поскольку этот метод обладает особенностями, позволяющими ему находиться как в одной, так и в другой группе.

Итак, если подвести итог обсуждения основных проблем, то их можно сформулировать следующим образом:

- Мотивы принятия решения о необходимости использования статистики в исследовании.
- Время принятия этого решения - до начала исследования или к моменту окончания сбора экспериментальных наблюдений.
- Время декомпозиции целей исследования в конкретные задачи статистического анализа матрицы экспериментальных данных и его адекватность.
- Качество решения сформулированных статистических задач, определяемое уровнем статистической подготовки исполнителя и уровнем используемого программного обеспечения.
- Адекватность интерпретации результатов статистического анализа экспериментальных данных.
- Подготовленность исследователя к восприятию идейной стороны используемых статистических методов.
- Наличие организационной структуры в биомедицинских НИИ и вузах, обеспечивающих современный уровень статистического анализа экспериментальных исследований (стандарты, редакционные требования, лаборатории биостатистики и т.д.)

По нашему мнению, решающей в настоящее время является именно последняя проблема, поскольку отсутствие этих структур тормозит оперативное решение и всех остальных проблем. Создание же таких структур невыгодно многим "генералам от медицины". Как писал в статье "БЕЗ ПРОТОКОЛА" Б. Гордон, http://www.ropnet.ru/ogonyok/win/200214/14-14-16.html "... изрядная часть советского медицинского бомонда жива, здорова и остается на плаву. Признавать, что былые регалии получены за мракобесие, этим людям ужасно не хочется." В своей статье "Долгое прощание с лысенковщиной" я упоминал о реплике одного руководителя медицинского вуза, д.м.н., член-корр. РАМН, который выслушав мои предложения по решению перечисленных выше проблем, сказал: "Как ученый - я "За", а как ректор - "Против"! До тех пор, пока интересы руководителя вуза или НИИ, и ученого, будут различны, решение этих проблем невозможно.

Литература:

Леонов В.П., Ижевский П.В. Об использовании прикладной статистики при подготовке диссертационных работ по медицинским и биологическим специальностям // Бюллетень ВАК РФ, 1997, ? 5, с.56-61.
Леонов В.П., Ижевский П.В. Применение статистики в медицине и биологии: анализ публикаций 1990-1997гг.// Сибирский медицинский журнал, 1997, ? 3-4, с. 64-74.
Леонов В.П. Долгое прощание с лысенковщиной. http://www.biometrica.tomsk.ru/lis.htm
В новый век - с доказательной биомедициной. (ПОИСК, N 20 (522) 21 мая 1999). http://www.biometrica.tomsk.ru/poisk.htm
Куплю 500 диссертаций! (Медицинская Газета N10 за 14.02.2001) http://www.biometrica.tomsk.ru/leonov_500.htm

Автор статьи: Леонов В.П.,
Источник: http://www.biometrica.tomsk.ru

29.08.2005