close

Вход

Забыли?

вход по аккаунту

?

Презентация

код для вставкиСкачать
Теория вероятностей и
медицинская статистика
Лекция №5
Введение в медицинскую статистику.
Оценивание параметров распределения
Термин «статистика» - ?
Слово «статистика» происходит от латинского
status — состояние дел.
В науку термин «статистика» ввел немецкий
ученый Готфрид Ахенваль в 1746 году,
предложив
заменить
название
курса
«Государствоведение»,
преподававшегося
в
университетах Германии, на «Статистику»,
положив тем самым начало развитию статистики
как науки и учебной дисциплины.
Ахенваль Готфрид
1719 — 1772
Achenwall Gottfried
ученый, профессор философии и права
Геттингенского университета. Впервые
употребил термин ''статистика'' в его
современном значении
Термин «статистика» - ?
В настоящее время по статистикой понимается:
Совокупность
итоговых
сведений,
количественно
характеризующих различные стороны общественной жизни;
Практическая деятельность по сбору, обработке и анализу
количественных данных и их публикацию;
Научная
дисциплина,
отрасль
знаний,
изучающая
количественную сторону массовых явлений и процессов в
неразрывной связи с их количественной стороной с целью
выявления закономерностей их развития.
Термин «статистика» - ?
Энциклопедический словарь:
1.
Статистика — отрасль знаний, в которой излагаются общие вопросы сбора,
измерения и анализа массовых статистических (количественных или
качественных) данных.
2.
Статистика - (нем. Statistik – от итал. stato – государство): 1) вид
практической деятельности, направленной на собирание, обработку, анализ
ипубликацию
статистической
информации,
характеризующей
количественные закономерности жизни общества во всем ее многообразии
(экономики, культуры, морали, политики и др.). В этом смысле под
статистикой понимают исовокупность сводных, итоговых показателей,
относящихся к какой-либо области общественных явлений. 2) Отрасль знаний
(и соответствующие ей учебные дисциплины), в которой излагаются общие
вопросы сбора, измерения и анализа массовых количественных данных.
Термин «статистика» - ?
Словарь Ожегова:
1.
Статистика - Количественный учет всякого рода массовых случаев,
явлений;
2.
Статистика - Наука, изучающая количественные показатели развития
общества и общественного производства;
3.
Статистика - Научный метод количественных исследований в некоторых
областях знания.
Статистика есть наука о том, как, не умея
мыслить и понимать, заставить делать
это цифры.
•
•
В жизни, как правило, преуспевает
больше других тот, кто располагает
лучшей информацией.
Существуют три вида лжи: ложь,
наглая ложь и статистика.
Статистика знает все.
Илья Ильф и
ЕвгенийПетров
Василий Ключевский (18411911)
Бенджамин Дизраэли
(1804- 1881)
премьер-министр
Великобритании
Медицинская статистика?
Медицинская
статистика (синоним: санитарная статистика, статистика в
медицине и здравоохранении, медико-санитарная статистика, статистический
метод в медицине и здравоохранении) — отрасль статистики, изучающая явления и
процессы в области здоровья населения и здравоохранения.
Основными задачами медицинской статистики являются разработка
специальных методов исследования массовых процессов и явлений в медицине и
здравоохранении; выявление наиболее существенных закономерностей и
тенденций в здоровье населения в целом и в различных его группах (возрастных,
половых, профессиональных и др.) во взаимосвязи с конкретными условиями и
образом жизни: изучение и оценка состояния и динамики развития сети,
деятельности учреждений здравоохранения и медицинских кадров.
Основные разделы: общая теория и методы; статистика здоровья населения;
статистика здравоохранения; применение методов статистики в управлении, в
клинических, лабораторных, экспериментальных исследованиях.
Генеральная и
выборочная совокупность
Объект изучения статистики
Объектом статистического исследования в статистике является
статистическая совокупность.
Статистическая совокупность – это множество единиц,
обладающих однородностью. Каждый отдельно взятый элемент
данного множества называется единицей совокупности. Единицы
статистической
совокупности
характеризуются
общими
свойствами, именуемыми в статистике признаками.
Под однородностью совокупности понимается сходство единиц
(объектов, явлений, процессов) по каким-либо существенным
признакам, но различающихся по каким-либо другим признакам.
Генеральная совокупность и выборка
Генеральной совокупностью называется совокупность всех
мыслимо возможных объектов данного вида, над которыми
проводятся наблюдения с целью получения конкретных
значений определенной случайной величины, или совокупность
результатов всех мыслимых наблюдений, проводимых в
неизменных условиях над одной из случайных величин,
связанных с данным видом объектов.
Генеральная совокупность – вся интересующая исследователя
совокупность изучаемых объектов.
Генеральная совокупность и выборка
Выборка (выборочная совокупность) – некоторая, обычно небольшая, часть
генеральной совокупности, отбираемая специальным образом и исследуемая с
целью получения выводов о свойствах генеральной совокупности.
Число
N
объектов
генеральной
совокупности
называют
объемом
генеральной совокупности, а число n
объектов выборочной совокупности –
объемом выборки.
N >> n;
n n
»
N ¥
Репрезентативность выборки
Для того, чтобы по выборке можно было сделать правильные выводы
о всей генеральной совокупности, она должна быть репрезентативной. Это
значит, что все пропорции генеральной совокупности должны быть
представлены в выборке.
Репрезентативность выборки обеспечивается следующими методами
отбора:
•
•
•
•
•
•
Простая случайная (с возвращением и без возвращения);
Стратифицированная;
Пропорциональная;
Кластерная;
Систематическая;
Территориальная.
Методы получения выборки
Простая случайная выборка – каждый элемент исходной совокупности имеет
равную вероятность отбора, а любая комбинация элементов выборки столь же
вероятна, как и любое другое сочетание ее n элементов.
Для
получения
простой
случайной выборки каждый объект
генеральной
совокупности
нумеруется, а выбор объектов
осуществляется
при
помощи
таблиц случайных чисел или
генератора
случайных
чисел
(например в MsEcxel).
Методы получения выборки
Стратифицированная выборка получается путем разбиения
генеральной
совокупности на подгруппы (или страты) в зависимости от характеристик,
важных для изучения. Затем для каждой страты надо провести простой
случайный отбор элементов.
Преимуществом
стратифицированной
выборки
является
наличие
представителей каждой страты в выборке в соотношении, сходном с генеральной
совокупностью.
Недостатком является сложность организации процесса при наличии
нескольких признаков, скажем, возраста, социального статуса, факторов риска
заболевания.
Методы получения выборки
Систематическая
выборка получается путем нумерации каждого члена
генеральной совокупности и затем выбором каждого k-ого номера.
Например, генеральная совокупность (пациенты с определенным заболеванием,
лечившиеся в стационаре за последние 10 лет) составляет 3000 человек, для
исследования требуется отобрать 100.
Поскольку 3000/100=30, то необходимо выбирать каждого 30-го пациента.
Для начала случайным образом отбирается первый элемент выборки среди первых
тридцати элементов генеральной совокупности. Если первым оказался номер 12,
тогда выборка будет включать пациентов с номерами 12, 42, 72 и так далее, всего
100 человек.
Методы получения выборки
Кластерная
выборка представляет собой выборку, в которой исходная
совокупность разделяется на непересекающиеся подгруппы (называемые
кластерами), а затем из этих подгрупп формируется случайная выборка.
Например, исследователю необходимо изучить заболеваемость в определенном
районе города. Для этого необходимо опросить жителей, проживающих в
многоквартирных домах. Если в данном районе города расположено 200 жилых
домов, в которых проживает 60000 человек, то исследователь может случайным
образом выбрать любые 15 и опросить всех жителей этих домов. (Но не 4500
тысячи жителей из всех 200 домов!)
Обработка результатов исследования
На первом этапе, как правило, результаты исследования представляют собой
множество беспорядочных данных. Для изучения их подвергают обработке.
Следующим этапом статистического исследования является обработка
первичных материалов наблюдения с целью получения итоговых или
упорядоченных определенным образом числовых характеристик изучаемой
совокупности.
Изучение структуры совокупности достигается построением рядов
распределения, характеризующих распределение единиц совокупности по каждому
отдельно взятому признаку.
Распределение единиц совокупности по количественному признаку называют
вариационным рядом. Ряд может быть построен как по дискретному, так и по
непрерывному признаку.
Дискретный вариационный ряд распределения.
Ранжирование данных.
Операция, заключающаяся в том, что результаты наблюдений над случайной
величиной, т.е. наблюдаемые значения, располагают в порядке неубывания, называется
ранжированием опытных данных. Значение случайной величины, соответствующее
отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантом, а
изменение этого значения – варьированием.
Для каждой
численность, т.е.
соответствующий
сгруппированного
соответствующего
частоту варианта.
группы сгруппированного ряда данных можно подсчитать их
определить число, которое показывает, сколько раз встречается
вариант в ряде наблюдений. Численность отдельной группы
ряда наблюдаемых данных называется частотой или весом
варианта и обозначается mi. Затем рассчитывают относительную
Дискретный вариационный ряд распределения.
Ранжирование данных.
Отношение частоты данного варианта к общей сумме частот всех вариантов
называется долей этого варианта, и равна статистической вероятности появления
варианта xi :
pi =
n
n
mi
åm
n = åm j
так как
pi =
то
j=1
j
mi
n
j=1
Результаты расчетов можно представить в виде таблицы – дискретного
вариационного ряда распределения – аналога выборочного ряда распределения:
Индекс (i)
1
2
3
…
i
…
n
Вариант (xi)
x1
x2
x3
…
xi
…
xn
Частота (mi)
m1
m2
m3
…
mi
…
mn
3
…
i
…
Доля ( pi )
p p
1
2
p
p
p
n
Дискретный вариационный ряд распределения.
Ранжирование данных.
Для непрерывных случайных величин, а также для дискретных величин, число значений которых слишком
велико, используют интервальный вариационный ряд - упорядоченную совокупность интервалов варьирования
значений случайной величины с соответствующими частотами (или долями) попаданий в каждый из этих
значений.
Для построения интервального ряда необходимо определить величину частичных интервалов, на которые
разбивается весь интервал варьирования наблюдаемых значений случайной величины. Длину частичного
интервала Δx находят путем размаха варьирования R на количество интервалов:
R = xmax - xmin ;
Пример:
Распределение группы
пациентов по возрасту
Dx =
R
n
Индекс
1
2
3
4
5
Вариант
x1
x2
x3
x4
x5
21-30
31-40
41-50
51-60
61-70
Средний возраст в интервале
25
35
45
55
65
Частота
10
20
25
35
30
10/120
20/120
25/120
35/120
30/120
Границы интервалов
Доля
Полигон и гистограмма
Полигон распределения
Гистограмма
å S =1
Si = pi / h·h
i
Pi / h
Si
}
}
}
}
}
h
h
h
h
h
Эмпирическая (выборочная) функция
распределения
Выборочной функцией распределения называется функция F(x), задающая для
каждого значения х относительную частоту события (Х<х).
mx
mx число выборочных значений,nменьших х,
Итак, по определению:
F(x) =
где
n – объем выборки.
Функцию генеральной совокупности F(x) называют теоретической функцией
распределения, а функцию выборки
эмпирической.
F(x)
Их отличие в том, что F(x) определяет вероятность события (X<x) , а выборочная
F(x) – относительную частоту этого события. F(x) Обладает теми же
свойствами, что и F(x).
Статистическое оценивание
числовых характеристик
случайной величины
Оценивание параметров генеральной
совокупности
Параметры - характеристики генеральной совокупности.
Статистики - характеристики выборки.
Статистики – это функции от выборочных значений. Они могут быть использованы для
приближенного определения значений параметров генеральной совокупности.
Параметры
генеральной
совокупности
Статистики
выборки
Оценивание параметров генеральной
совокупности
Точечные оценки
Интервальные оценки
- Математическое
ожидание
- Дисперсия
- Мода
- Медиана
- Доверительный
интервал
Точечное оценивание параметров генеральной
совокупности
Требования, предъявляемые к точечным оценкам:
1.Состоятельность - это сходимость по вероятности оценки к
оцениваемому параметру при неограниченном возрастании объема
наблюдения.
2.Несмещенность – это отсутствие систематической погрешности.
Математическое ожидание несмещенной оценки должно быть равно
оцениваемому параметру.
3.Эффективность. Эффективной называется оценка, которая имеет
минимальную дисперсию в классе
Эффективная оценка всегда состоятельна.
несмещенных
оценок.
Интервальные оценки
Всякая статистическая оценка параметров, определенная по данным выборки с
помощью выбранной статистической характеристики, может быть только
приближенной. Поэтому она может иметь определенный смысл лишь в том случае,
когда указываются границы возможной погрешности оценки или, иначе говоря,
указывается интервал, который с известной вероятностью (надежностью)
покрывает оцениваемое постоянное значение параметра.
Определение точечных оценок не дает возможности сделать заключение об их
точности. В этом отношении оценки неизвестных параметров существенно
дополняются результатами интервального оценивания с помощью доверительных
интервалов.
Интервальные оценки
Интервальная оценка определяется двумя числами (концами интервала).
Процедура построения интервальной оценки:
Пусть q оцениваемый параметр генеральной совокупности, а q - его точечная оценка
1.По выборке находят точечную оценку
2.Задаются вероятностью
qнеизвестной характеристики q.
g
(обычно
0,95; 0,99 и т.д.), которая отражает надежность
(погрешность) этой оценки.
3.По определенным правилам находят такое положительное число
выполнялось соотношение:
P(q - e < q < q + e ) = g
или
e, чтобы
P( q - q < e ) = g
следует читать: «Вероятность того, что доверительный интервал накроет
характеристику θ, равна γ».
Число ε называется точностью оценки, γ – доверительной вероятностью, а сам
интервал - интервальной оценкой.
Интервальные оценки
Интервальная оценка математического ожидания нормального
распределения при известной дисперсии
Найдем точечную оценку математического ожидания:
Зададимся вероятностью γ.
Найдем число ε, чтобы выполнялось соотношение
e=
где
ug × s
n
F(ug ) =
ug находят из
x
òe
-
z
2
dz
X=
åX
i
i=1
n
P(X - e < m < X + e ) =: g
F(ug ) =
2
n
g
2
Функция Лапласа, значения которой находят по таблице:
0
γ
0,9
0,93
0,95
0,97
0,99
uγ
1,65
1,76
1,96
2,34
2,58
Интервальные оценки
Интервальная оценка математического ожидания нормального
распределения при неизвестной дисперсии
Найдем точечную оценку математического ожидания и дисперсии:
Зададимся вероятностью γ.
Найдем число ε, чтобы выполнялось соотношение:
e=
tg × s
n
n
n
X=
åX
i
i=1
n
å(X - X)
i
s2 =
i=1
P(X - e < m < X + e ) =: g
tg находят из tn-1 (tg ) = g
где
tn-1 (tg ) распределение Стьюдента с n-1 степенями свободы
n
5
10
15
30
100
t0,95
2,78
2,26
2,15
2,045
1,96
n -1
2
Интервальные оценки
Интервальная оценка квадратического отклонения и дисперсии
нормального распределения
n
n
Найдем точечную оценку математического ожидания и дисперсии:
X=
åX
i
i=1
n
За оценку среднего квадратичного отклонения примем s=sqrt(s2).
Зададимся вероятностью γ.
Найдем число ε, чтобы выполнялось соотношение:
P(X - e < m < X + e ) = g
e = s × qg
где
i
s2 =
qg находят из c 2n-1 (qg ) = g
c 2n-1 (qg )
å(X - X)
Хи-квадрат распределение с n-1 степенями свободы
n
5
10
15
30
100
q0,95
1,37
0,65
0,46
0,28
0,143
i=1
n -1
2
Документ
Категория
Презентации
Просмотров
462
Размер файла
3 913 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа