Учебная работа. Возможности анализа данных медико-биологических экспериментов в программе Statistica

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...
Контрольные рефераты

Учебная работа. Возможности анализа данных медико-биологических экспериментов в программе Statistica

Расположено на

2

Расположено на

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

Учреждение образования «Интернациональный муниципальный экологический институт имени А.Д. Сахарова»

Реферат

на тему

«Способности анализа данных медико-биологических тестов в программе Statistica»

Магистрант кафедры иммунологии

Петрова Лена Александровна

Научный управляющий: к. м. н.,

доцент Зафранская Марина Михайловна

Минск 2011

Содержание

Введение

Статистика в медико-биологическом исследовании

Выбор способа анализа в согласовании с типом распределения данных

анализ времени жизни в ППО Statistica

Сопоставление коэффициентов корреляции

Практическая часть

Заключение

  • Литература

Введение

Развитие медицины нереально без проведения медико-биологических тестов, эпидемиологического анализа, оценки эффективности фармакологических препаратов и остальных исследовательских работ как доклинического, так и клинического уровня.

Объектом научного исследования обычно выступает не попросту отдельное явление, определенная ситуация, а целый класс схожих явлений и ситуаций, их совокупа. Цель и конкретные задачки научного исследования заключаются в том, чтоб отыскать общее у ряда единичных явлений, выявить законы, по которым они появляются, развиваются и работают [1, 2, 3 ]. Важным обстоятельством, определившим необходимость внедрения математико-статистических способов, явилось установление факта, что почти всем биологическим системам характерны статистические закономерности, обнаруживаемые при исследовании совокупностей, но неприменимые к отдельным единицам этих совокупностей [2].

Различительными признаками научного исследования являются:

1. целенаправленность процесса (достижение поставленной цели, выполнение верно сформулированных задач)

2. направленность на поиск, на творчество, на выдвижение мыслях

3. систематичность как самого процесса исследования, так и его результатов

4. строгая доказательность, обоснованность выводов [4, 5, 6]

Развитие мыслях критичной оценки мед инфы привело к появлению в конце 80-х годов XX века концепции доказательной медицины (ДМ).

Главными постулатами ДМ являются последующие [7]:

— каждое решение доктора обязано основываться на научных данных;

— вес всякого факта тем больше, чем строже методика научного исследования, в процессе которого он получен.

ДМ является концепцией как для докторов, исследователей, управляющих учреждений и органов здравоохранения, так и для пациентов. Основная цель концепции ДМ заключается в том, чтоб равномерно перевоплотить докторскую деятельность из искусства в науку [7].

Хоть какое исследование зависимо от того, как надежны приобретенные в нем результаты и как они применимы в медицинской практике, можно охарактеризовать с 2-ух точек зрения:

— достоверности (внутренней обоснованности)

— о6общаемости (наружной обоснованности, применимости)

Достоверность (внутренняя обоснованность) исследования определяется тем, в которой степени структура исследования соответствует поставленным задачкам, а приобретенные результаты справедливы в отношении изучавшейся подборки.

Обобщаемость (наружная обоснованность) результатов исследования отражает, в которой мере результаты данного исследования применимы к остальным группам, к примеру к нездоровым другого пола, иной популяции и т.п.

Достоверность и о6общаемость зависят от корректности проведения исследования на всех шагах, в том числе, от грамотной статистической обработки приобретенных данных [7].

Широкая доступность вычислительной техники дает возможность обработки огромных размеров данных, использования разных способов анализа. Не считая того, программка определенного способа обработки дозволяет неоднократно повторять вычисления с маленькими переменами без доп усилий. Для большинства обычных статистических способов есть пакеты программ, хотя им иногда не хватает гибкости, которую в эталоне они должны могли быть допускать. Для большинства задач с маленькими размерами данных и с относительно ординарными способами обработки полностью довольно обыденного калькулятора. Для данных среднего размера лучше воспользоваться пакетами обычных программ. Но следует избегать использования сложных способов анализа лишь поэтому, что имеются надлежащие программки [6].

На нынешний денек фаворитом посреди программ статистической обработки данных в среде Windows является пакет программного обеспечения (ППО) STATISTICA, который имеет наиболее 250 тыс. зарегистрированных юзеров во всем мире и является более оживленно развивающимся пакетом на рынке статистического программного обеспечения. Разрабом STATISTICA является Компания StatSoft, Inc., (США (Соединённые Штаты Америки — развития статистического программного обеспечения. В ней реализован так именуемый графически-ориентированный подход к анализу данных [5,6].

Но при использовании ППО STATISTICA, как и при работе с хоть какими иными пакетами статистических программ, принятие решений остается за исследователем. программка высвобождает исследователя от рутинной вычислительной работы, но интерпретация приобретенных результатов зависит от его опыта и познаний.

Применение статистики в мед и био исследовательских работах не ограничивается анализом результатов. Статистические способы следует употреблять также на шаге планирования био опыта либо мед исследования. Следует выделить, что исходя из убеждений медицинской эпидемиологии для получения надежных, научно обоснованных результатов нужны 2 компонента:

· правильное планирование структуры исследования (обеспечивающей возможность получения ответов на поставленные вопросцы)

· грамотный статистический анализ [6].

Статистика в медико-биологическом исследовании

statistica статистика мед био

Всякое исследование обязано удовлетворить последующим требованиям:

1. целеустремленность (конкретность задач). При анализе приобретенных данных могут быть выявлены и доп результаты, не запланированные в исследовании (вторичные данные), но обычно они представляют наименьшую Ценность, чем главные (надлежащие поставленной цели) результаты проводимого опыта.

2. эффективность, т. е. приобретенные выводы должны быть достоверны. Достоверность медико-биологических тестов обычно оценивается 5% уровнем значимости, и приобретенные значения, возможность ошибки 1 рода для которых наименее 5 %, автоматом выделяются в STATISTICA красноватым цветом шрифта. Но, величина р может составлять 0,049; такое различие статистически значимо, но так близко к пороговой величине (0,05), что фактически не различается от, например, 0,051, т. е. статистически незначимого уровня. наличие схожей условной черты (0,05) представляет собой одну из заморочек при использовании величины р.

3. экономность (малая издержка сил и средств, риску подвержено малое количество участников (как людей, так и звериных)). Экономность быть может достигнута подбором малой численности групп, достаточной для получения достоверных результатов [5, 6, 8, 10].

4. Приобретенная последовательность случайных чисел может употребляться различными методами:

5. — четные числа могут соответствовать одной группе, а нечетные — иной (в случае 2-ух групп);

—при числах в спектре от 0 до 99, числа наименьшие 50, могут соответствовать одной группе, а огромные либо равные 50 — инойслучае 2-ух групп);

В итоге обычной рандомизации группы могут существенно различаться по числу участников, при этом различие оказывается очень значимым, если подборки невелики по размеру. В связи с сиим ординарную рандомизацию рекомендуется употреблять только в масштабных КИ [7].

Формулирование целей

v

Планирование

v

Выполнение (сбор данных)

v

Подготовка данных

v

анализ данных

v

Интерпретация результатов

v

Формулировка выводов

v

Публикация

Рис. 1—Этапы научного исследования [7].

ППО STATISTICA не имеет модуля для расчета размера выборок.

При подготовке результатов к анализу ввод может осуществляться как в файлы данных ППО STATISTICA (имеют формат *.stа), так и в таблицы пакета МS Ехсеl с следующим импортом в STATISTICA [7]. Данные следует располагать в строчках и столбцах электрической таблицы. В строчках размещаются наблюдения (объекты исследования), в столбцах — переменные (признаки). Высококачественные данные могут быть представлены текстовыми значениями, которые автоматом кодируются числовыми значениями, но такое анализ данных, является анализ типов данных. Это нужно созодать для определения метода представления и статистического способа обработки данных. Не рекомендовано проведение таковых подготовительных расчетов как:

1. Подготовительная разбивка области значении непрерывного количественного признака на интервалы. При всем этом во-1-х происходит утрата инфы, а во-вторых— способности статистического пакета разрешают автоматом выполнить разбивку областей значений количественных признаков на интервалы.

2. Вычисление разных расчетных индексов (коэффициентов, отношений и т.п.). Эти вычисления с большей точностью также могут быть проведены в STATISTICA.

Ошибки ввода (набора) можно выявить последующим способом—дважды щелкнув по имени столбца в открывшемся диалоговом окне избрать Values/Stats. Ошибки (выпадающие

Рис.2—Типы данных [7].

STATISTICA дозволяет работать со всеми типами данных. В большинстве модулей анализа ППО ограничивает тип вводимых данных в согласовании с применимостью того либо другого способа. Так, при работе в модуле логистической регрессии могут быть применены лишь бинарные данные (кодируются 0 и 1). Статистическую обработку данных комфортно разбить на последующие четыре шага.

1. Исходная обработка, т.е. анализ данных, направленный на выяснение общей формы данных и предложение путей наиболее серьезного анализа. Нередко таковой подготовительный анализ удачно проводится ординарными графическими способами либо методом табличного представления данных.

3. Итоговый анализ (статистическая обработка), цель которого — отдать базу для выводов.

4. области исследования [6].

Хоть какой статистический анализ начинается с определения главных характеристик описательной статистики, таковых как мода, медиана, значения перцентилей и т. д. вычисление характеристик описательной статистики осуществляется в модуле Basic Statistics/Tables (Главные статистики и таблицы).

В модуле Basic Statistics/Tables в разделе Summary.Descriptive на вкладке Advaced дозволяет вычислить последующие характеристики описательной статистики:

· Valid N — общее число вариантов в выборке;

· Mean — среднее арифметическое;

· Sum — сумма всех значений вари; Median — медиана;

· Standard Deviation — среднее квадратическое отклонение подборки;

· Variance — дисперсия подборки;

· Standard error of mean — ошибка среднего арифметического;

· 95% confidence limits of mean — 95% доверительный интервал для среднего;

· Minimum & maximum — минимум и максимум;

· Lower & upper quartiles — границы 1 и 3 квартилей;

· Range — размах подборки (определяется как разность меж наибольшим и наименьшим значениями вариантов);

· Quartile range — спектр квартилей;

· Skewness — коэффициент асимметрии

· Kurtosis — коэффициент эксцесса

· Standard error of skewness — обычная ошибка асимметрии

· Standard error of kurtosis — обычная ошибка эксцесса [7].

Выбор способа анализа в согласовании с типом распределения данных

Существует огромное количество способов статистического анализа данных. В любом определенном случае можно избрать несколько вероятных вариантов анализа. Но при несоблюдении критериев использования того либо другого способа приобретенный итог может оказаться неточным.

Более соответствующими являются ошибки:

· внедрение параметрических способов (основанных на предположении о обычном распределении данных) для анализа данных, не подчиняющихся нормальному распределению (1);

· внедрение способов, созданных для независящих выборок, при анализе парных данных (2) [10, 11].

STATISTICA дозволяет проверить описываются ли распределение признаков обычным законом распределения (з. Гаусса). В тех вариантах, если данные распределяются по какому-либо иному закону, недозволено проводить сопоставление по довольно пользующимся популярностью аспектам Стьюдента либо подсчет корреляции по способу Пирсона. Если данные являются дискретными, их сравнение проводится по аспектам 2, а непрерывные данные сопоставляются по аспекту Колмогорова — Смирнова. Высчитать аспекты Колмогорова — Смирнова для обычного расправления можно в модуле Basic Statistics/Tables (Descriptive Statistics—Normality —Kolmogorov-Smirnov & Lilliefors test for normality) при помощи Frequency tables или Histograms.

В пакете STATISTICA можно сравнить данные не только лишь с обычным, да и с некими иными законами распределения c помощью Distributiom fitting (в меню Statistics). Если данные являются дискретными величинами, выбор распределения проводится в разделе Discrete Distributions, если же они являются непрерывными величинами — то в разделе Continuous Distributions. Невзирая на то что аспекты Колмогорова—Смирнова и 2 довольно верно разрешают ответить на вопросец, каким законом описываются приобретенные данные, их недочетом будет то, что при малых значениях подборки достоверность оценки понижается.

При обычном распределении данных коэффициент асимметрии должен быть равен нулю, а коэффициент эксцесса должен быть равен трем, что является ещё одним способом проверки типа распределения.

Для выявления связи нескольких переменных, измеряемых по порядковой либо интервальной шкале коэффициент корреляции Пирсона. Этот коэффициент, как и всякий параметрический показатель, очень подвержен воздействию значений, резко отклоняющихся от среднего [9].

Рис.3 — Воздействие выпадающего значения на линейное уравнение регрессии [9].

На рисунке проиллюстрирован вариант, когда высочайшее регрессия

Наиболее правильно внедрение ранговых методов— вычисления коэффициента корреляции Кендалла (для порядковых переменных/шкал) либо коэффициента корреляции Спирмена — непараметрического аналога коэффициента Пирсона для интервальных и порядковых переменных, не подчиняющихся нормальному распределению. Коэффициент Пирсона равен 1 (либо минус 1) и тогда лишь тогда, когда две переменные (х и у) соединены линейной зависимостью (у=в+ах). Коэффициент Спирмена (либо Кендалла) равен 1, если две переменные соединены правилом: большему значению переменной х постоянно соответствует большее

Следует держать в голове, что наличие корреляции 2-ух переменных не значит их причинно-следственной связи [8].

Есть последующие методы сопоставления 2-ух групп по количественным признакам: вычисление доверительного интервала для разности средних либо проверка гипотез (параметрическими либо непараметрическими способами). В случае соответствия нормальному закону распределения переменных в каждой группе сопоставление групп проводится по аспектам Стьюдента (статистический модуль Basic Statistics/Tables). В неприятном случае употреблять непараметрические аспекты, которые находятся в модуле Nonparametrics [5].

При сопоставлении наиболее 2-ух групп по количественным признакам употребляют однофакторный дисперсионный анализ (параметрический либо непараметрический) в случае независящих групп и непараметрический способ Фридмена в случае зависимых групп. Для сопоставления групп по высококачественным признакам употребляют лишь непараметрические аспекты.

неувязка неверного использования способов сопоставления, созданных для несвязанных (независящих групп), к зависимым группам частично решается структурой таблиц данных (размещение результатов поочередных измерений (принадлежащих к зависимым группам) в строчках, а независимых—в столбец в согласовании со столбцом, содержащим код группы (Indep. (grouping) variable)). Наиболее того, в программке пиктограммы, сопровождающие наименования способов анализа носят нрав подсказки: показано обоюдное размещение сравниваемых массивов данных (рис.4).

Рис. 4—Перечень инструментов анализа с пиктограммами в модуле непараметрических способов.

При интерпретации результатов при отсутствии достоверных различий неверным является заключение о их отсутствии, и быть может принято лишь заключение о том, что различия конкретно не были выявлены, хотя могут и находиться (типично для выборок малой численности). С иной стороны, в особенности на огромных подборках могут быть выявлены различия, не имеющие био либо мед значения. И напротив, даже большое отличие, выявленное при сопоставлении маленьких групп, имеющее клиническое несколько нездоровых в терминальном состоянии, хотя бы один из участников в какой-нибудь из групп выживет, таковой итог будет клинически весомым, хотя статистически важное различие в частоте выживания меж группами может отсутствовать [11].

При проведении анализа данных нередко возникает так именуемая неувязка множественных сравнений (ПМС), заключающаяся в последующем: чем больше статистических гипотез проверяется на одних и тех же данных, тем наиболее возможна ошибка первого рода — заключение о наличии различий меж группами, в то время как по сути верна нулевая догадка о отсутствии различий. Так, если за уровень значимости принято р=0,05, то 5 из 100 вычисленных значений р в силу случайности (по теории вероятности) окажется меньше 0,05 (хотя по сути верна нулевая догадка о отсутствии различий). На практике принято считать, что учет ПМС следует начинать в тех вариантах, когда число рассчитываемых значениий наиболее 10).

В STATISTICA для уменьшения воздействия множественных сравнений можно установить р на уровне 0,01 либо 0,001 заместо 0,05. Считается, что таковая поправка в достаточной мере компенсирует множественные парные сопоставления, когда таких избежать не удается:

1. При вторичном анализе данных.

2. При множественных парных сопоставлениях групп и подгрупп (по демографическим и клиническим чертам, финалам, временным точкам и т.д.).

3. При установлении эквивалентности групп сначала нерандомизированного исследования вмешательства.

4. При промежном анализе данных, приобретенных в испытаниях тех либо других вмешательств [7].

анализ времени жизни в ППО STATISTICA

Данные времени жизни имеют две соответствующие индивидуальности, которые предназначают специфику их анализа. До этого всего вероятна неполнота данных. к примеру, в клинических исследовании нездоровые по тем либо другим причинам «уходят» из-под наблюдения, часть лабораторных звериных может часто забиваться для проведения анализов. Реальное же время жизни таковых объектов больше продолжительности наблюдения за ними. Описанный парадокс именуется цензурированием справа. наличие цензурированных данных затрудняет оценку эффекта изучаемого действия на время жизни, в особенности при характеристике отдаленных результатов исцеления. Иная изюминка данных времени жизни — неадекватность распределения времени жизни статистической модели обычного закона распределения. Определенный же вид распределения, как правило, неизвестен. Потому аппроксимация распределения времени жизни нормальному закону, очевидная либо неявная (при использовании параметрических способов анализа), представляет опасность для правильности статистических выводов [7,8,9,10].

Рис.5—Диалоговое окно в анализе финала Каплана-Майера.

Как показано на рисунке 5, ППО STATISTICA запрашивает данные о цензурированности (нужен индикатор, указывающий на

Сопоставление коэффициентов корреляции

время от времени исследователи сталкиваются с неувязкой сопоставления нескольких коэффициентов корреляции. Так, время от времени различия меж 2-мя коэффициентами кажутся явными, но при всем этом не являются статистически важными, что сначала быть может обосновано различием в численности выборок [6].

ППО STATISTICA дозволяет автоматом сопоставить 2 коэффициента корреляции в Difference test (рис. 6). Достаточными данными являются сами коэффициенты корреляции и численности групп.

Рис.6—инструмент «Тест различий» в модуле главный статистики

Практическая часть

В опыте была исследована экспрессия CD25 (сенсор к интерлейкину 2) на CD4+ лимфоцитах нездоровых рассеянным нарушения обмена веществ при пролиферативном ответе на мог (антиген миелина). Данные получены при помощи проточного цитофлуориметра.

Принята нулевая догадка: Процентное содержание пролиферирующих (делящихся) клеток не соединено с процентным содержанием CD25-позитивных CD4+ лимфоцитов.

Статистическая обработка данных опыта проведена непараметрическими способами в ППО STATISTICA 8.0. В примере приведена вторичная обработка данных с целью показать необходимость поочередного анализа, включая проверку распределения на соответствие закону обычного распределения.

Рис. 7—Анализируемые данные

Рис. 8—Описательная статистика

Из таблицы, приведенной на рисунке 8, можно создать подготовительные вывод о несоответствии распределения данных з. Гаусса.

В качестве иллюстрации использован параметрический способ анализа связи.

Рис. 9—Коэффициенты корреляции при проведении анализа м.Пирсона и м.Спирмена.

Как показано на рисунке 9, коэффициенты корреляции при проведении анализа м.Пирсона и м.Спирмена не совпадают. По результатам анализа непараметрическим способом корреляции не выявлено, а по м. Пирсона выявлена мощная соотносительная связь (R=0,83, р<0,05.). Набросок 9 иллюстрирует распределение данных: одна точка является очевидно выпадающей.

Опосля исключения выпадающей точки корреляция не выявлена (р>0,05), итог графически представлен на рисунке 11.

Рис. 11—Коэффициенты корреляции при проведении анализа м.Пирсона и м.Спирмена.

Как при анализе непараметрическим, так и параметрическим способом корреляции выявлено не было.

Таковым образом, единственная выпадающая точка при параметрическом анализе данных с распределением, хорошим от обычного, дает ложноположительный итог о наличии соотносительной связи меж параметрами.

Как указывает практика, модуль, позволяющий стремительно и без доп усилий выполнить проверку типа распределения данных, нередко считается лишним, и к анализу параметрическими способами приступают без доказательств правомочности такового анализа.

Заключение

1-ая попытка обсудить вопросцы, связанные со статистической вероятностью, в мед литературе была предпринята в 30-х годах XX века. На нынешний денек в информационной среде, общепонятный и принятый язык статистического анализа становится одним из частей доказательной медицины и биологии.

ППО STATISTICA является массивным инвентарем для анализа результатов медико-биологических тестов хоть какого уровня трудности, для сотворения многофакторных моделей и чувствительных тестов оценки эффективности, и лишь от исследователя зависит свойство приобретенных результатов. Достаточная простота работы в ППО STATISTICA дает возможность без помощи других рассматривать результаты спецам медико-био, а не математического профиля.

Неученая работа с данными приводит к грубым периодическим ошибкам, наиболее того, быть может потеряна Ценность самих экспериментальных данных при неверной статистической обработке. Подбор способа остается за исследователем, как и планирование опыта с возможностью получения данных от репрезентативных выборок.

Внедрение ППО STATISTICA сводит к минимуму случайные ошибки в расчётах, дает возможность выбора более адекватного способа анализа и графического представления данных на всех шагах анализа, выявить выпадающие значения. Но ответ на вопросец, подвергать ли доп анализу отдельные выпадающие наблюдения либо исключить их, как ошибку измерения, остается за исследователем.

Внедрение пакетов статистических программ значительно сберегает время, позволяя стремительно проанализировать огромные объемы инфы. Поочередные версии ППО STATISTICA (от 6.0 до 8.0) не претерпевают значимых конфигураций в модулях, нужных для анализа результатов био тестов, что также сберегает время, потому что освоенными способами можно воспользоваться в течение почти всех лет. В то же время, некие периодические ошибки анализа могут не один раз заносить коррективу в результаты тестов. Потому, внедрение ППО STATISTICA не исключает необходимость познания исследователем статистических закономерностей.

Статистки базирована на сложных математических моделях, и интерпретация результатов обязана верно соответствовать закономерностям био систем либо особенностям клинического использования результатов.

Литература

1. Гланц С. Медико-биологическая статистика.—«Практика», —

2. Москва. —1998.—495с.

3. Рокицкий П.Ф. Био статистика. (Изд.’ 3-е, испр.) —Минск, — «Вышэйш. школа», —1973. —320 с.

4. Боровиков В.П. Пользующееся популярностью введение в программку STATISTICA. Москва. —2005. —280с.

5. Боровиков В.П. STATISTICA: Искусство анализа данных на компе — СПб, 2003. — 688с.

6. Куканков Г., Фигурин В. способы обработки экспериментальных данных. — Минск, —2005. —122с.

7. Реброва О.Ю. Статистический анализ мед данных Применение пакета прикладных программ STATISTICA. —М., МедиаСфера, —2002. —312 с.

8. Юнкеров В.И., Григорьев С.Г. Арифметике-статистическая обработка данных мед исследовательских работ. —СПб. —ВМсдА, —2002 —266 с.

9. Платонов А.Е. Статистический анализ в медицине и биологии: задачки, терминология, логика, компьютерные способы. — М., —Издательство РАМН, —2000. —52 с.

10. Gore S.M., Jones G., Thompson S.G. The Lancet’s statistical review process: areas for improvement by authors. —Lancet. —1992; —№ 340 —Р.100-102.

11. Lang. T. Twenty Statistical Errors Even You Can Find in Biomedical Research Articles. Croatian Medical Journal 2004 —№ 45(4), —Р.361-370