Мат.стат. и теория вероятностей / Лекции / Л1-матстат
.pdf1
ЛЕКЦИЯ №1
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ
Генеральное распределение. Выборка. Эмпирическая функция распределения. Вариационный ряд. Статистический ряд. Полигон и гистограмма. Выборочное распределение. Точечные оценки. Свойства точечных оценок.
1. Выборочный метод в статистике
Математическая статистика – прикладная наука, задачу которой составляет разработка методов сбора, описания и обработки результатов наблюдений или экспериментов с целью изучения закономерностей массовых случайных явлений.
Математическая статистика позволяет получить обоснованные выводы о параметрах, видах распределений и других свойствах случайных величин по конечной совокупности наблюдений над ними –
выборке.
Пусть случайная величина X наблюдается в случайном эксперименте E n раз, предполагая, что условия эксперимента, а следовательно, и распределение случайной величины X не изменяются от эксперимента к эксперименту. Этот новый составной эксперимент
связан с n - мерной |
случайной |
величиной |
– случайным |
вектором |
|||
X1 , X 2 , X 3 ,..., X j ,..., X n , |
где |
X i |
- |
случайная |
величина, |
||
соответствующая |
j му эксперименту. |
|
|
|
|||
Очевидно, |
что |
X i |
- независимые |
в |
совокупности |
величины, |
каждая из которых имеет тот же закон распределения, что и случайная величина X .
Закон распределения случайной величины X называется
распределением генеральной совокупности, а случайный векторX1 , X 2 , X 3 ,..., X j ,..., X n - выборочным вектором.
Числа x1 , x2 , x3 ,..., x j ,..., xn , получаемые на практике при n -
кратном повторении эксперимента E в неизменных условиях, представляют собой конкретную реализацию выборочного вектора и называются выборкой объема n .
2
Выборку |
x1 , x2 , x3 ,..., x j ,..., xn |
при |
необходимости |
можно |
||||
рассматривать как точку выборочного пространства. |
|
|||||||
Теорема Чебышева. |
При достаточно большом числе независимых |
|||||||
опытов среднее |
арифметическое случайных |
величин X i сходится по |
||||||
вероятности к математическому ожиданию случайной величины X - |
|
|||||||
|
|
|
n |
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
P |
|
|
Xi mx |
1 |
. |
(1) |
|
|
|
|||||||
|
|
|
n i 1 |
|
|
|
|
Неравенство выполняется для любых сколь угодно малых положительных величин и .
На использовании теоремы Чебышева основан метод статистического
|
1 |
n |
моделирования (метод Монте-Карло), где по величине x |
|
xi , |
|
||
|
n i 1 |
полученной с использованием датчиков случайных чисел для большого
числа испытаний n , оценивают генеральное математическое ожидание - mx . |
|||
Если |
известна теоретическая вероятность - P Xi |
|
реализации |
величины X i |
в i -ом испытании, то по методу Монте-Карло |
i -е испытание |
|
считается успешным, если выполняется условие: P Xi Zi , |
где Zi - i -я |
реализация датчика случайных чисел, равномерно распределенных в диапазоне 0, 1
Вариационным рядом выборки x1 , x2 , x3 ,..., x j ,..., xn
называется способ ее записи, при котором элементы упорядочиваются по величине, т.е. записываются в порядке неубывания.
Размахом выборки называют разность между минимальным и
максимальным элементами. |
|
||||||
|
|
|
Пусть |
выборка |
x1 , x2 , x3 ,..., x j ,..., xn |
содержит k различных |
|
чисел |
|
|
|
|
|
||
z1 , z2 , z3 ,..., z j ,..., zk , |
k n , причем число z j |
встречается n j раз. |
|||||
|
|
|
Число |
n j - называется частотой элемента z j . Очевидно, что |
|||
k |
|
|
|
|
|
|
|
n j n . |
|
|
|
|
|||
j 1 |
|
|
|
|
|
|
|
|
|
|
Число |
n j |
- называется относительной частотой элемента z j . |
||
|
|
|
|
||||
|
|
|
n |
||||
|
|
|
|
|
|
|
|
k |
n |
j |
|
|
|
|
|
|
|
1. |
|
|
|
|
|
n |
|
|
|
|
|||
j 1 |
|
|
|
|
|
3
Статистическим рядом называется последовательность пар
z j , n j .
Пример 1. Записать в виде статистического и вариационного ряда выборку
1, 1, -2, 0, 0, 4, 5, 7, -3, 1, -1, 0, 0, 0, 3
Определить размах выборки.
Решение:
1.Вариационный ряд имеет вид
-3, -2, -1, 0, 0, 0, 0, 0, 1, 1, 1, 3, 4, 5, 7.
2. Размах вариационного ряда (выборки) R 7 3 10.
3.Статистический ряд имеет вид
z j |
-3 |
|
-2 |
-1 |
|
0 |
1 |
|
3 |
4 |
|
5 |
7 |
|
n j |
1 |
|
1 |
1 |
|
5 |
3 |
|
1 |
1 |
|
1 |
1 |
|
|
4. Объем выборки |
n 15. |
|
|
|
|
|
|
||||||
|
При |
большом объеме |
выборки |
ее |
элементы |
объединяют в |
группы, представляя результаты опытов в виде группированного статистического ряда. Для этого интервал, содержащий все элементы выборки, разбивается на k непересекающихся интервалов. Длина
интервалов выбирается по формуле: b Rk . После того как частичные
интервалы выбраны, определяют частоты - n j - количество элементов выборки, попавших в j -ый интервал (элемент, совпадающий с верхней (правой) границей интервала, относится к последующему интервалу).
4
В статистический ряд также добавляют накопленные частоты
j |
|
|
n j |
|
|
|
|
|
|
||
ni , относительные частоты |
|
и накопленные относительные |
|||
n |
|||||
i 1 |
|
|
|
||
j |
n |
|
|
||
частоты |
i |
. |
|
|
|
|
|
|
|||
i 1 |
n |
|
|
Группировка выборки вносит погрешность в дальнейшие вычисления, которая растет с уменьшением числа интервалов.
Пример 2. Построить таблицу частот группированной выборки на 7 интервалах группирования для следующих исходных данных:
|
|
38 60 41 51 33 42 45 21 53 60 |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
68 52 47 46 49 49 14 57 54 59 |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
77 47 28 48 58 32 42 58 61 30 |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
61 35 47 72 41 45 44 55 30 40 |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
67 65 39 48 |
43 60 54 42 59 50 |
|
|
|
|
|
|
|
|
|
|
|||||
Решение: R 77 14 63, |
n 50. |
|
|
|
|
|
|
|
|
|
|
|||||||
b |
63 |
9. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Тогда |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Первый интервал группирования - |
14, 23 |
|
; |
|
|
|
|
|
|
|
||||||||
Второй интервал группирования - 23,32 ; |
|
|
|
|
|
|
|
|||||||||||
… |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Седьмой интервал группирования - |
68,77 |
; |
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
№ |
|
Границы |
Центр |
|
|
|
|
j |
|
|
|
|
j |
|||||
интервала |
интервала |
интервала |
|
|
|
|
ni |
|
n |
|
|
|
ni |
|
||||
|
|
|
j |
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
i 1 |
|
|
i 1 n |
||||
|
|
|
|
|
x j |
|
|
n j |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
n |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
1 |
|
14-23 |
|
18,5 |
|
|
2 |
|
|
2 |
0,04 |
0,04 |
||||||
2 |
|
23-32 |
|
27,5 |
|
|
3 |
|
|
5 |
0,06 |
0,1 |
||||||
3 |
|
32-41 |
|
36,5 |
|
|
6 |
|
|
11 |
0,12 |
0,22 |
||||||
4 |
|
41-51 |
|
45,5 |
|
|
17 |
|
|
28 |
0,34 |
0,56 |
||||||
5 |
|
50-59 |
|
54,5 |
|
|
10 |
|
|
38 |
0,2 |
0,76 |
||||||
6 |
|
59-68 |
|
63,5 |
|
|
9 |
|
|
47 |
0,18 |
0,94 |
||||||
7 |
|
68-77 |
|
72,5 |
|
|
3 |
|
|
50 |
0,06 |
1 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5
Эмпирической функцией распределения называется функция следующего вида
Fn* z |
1 |
ni . |
(2) |
|
|||
|
n Z z |
|
|
|
|
i |
|
Для примера 2 эмпирическая функция распределения имеет вид см. рис.1.
Рис. 1. |
|
|
|
|
|
|
|
|
|
|
Теорема |
Гливенко. |
Пусть Fn* x |
- эмпирическая |
функция |
||||||
распределения, |
построенная по выборке |
объема |
n из |
генеральной |
||||||
совокупности с |
функцией |
распределения |
FX x . |
Тогда |
для |
любого |
||||
x , и любого 0 |
|
|
|
|
|
|
|
|||
|
lim P |
|
Fn* x FX x |
|
1. |
|
|
(3) |
||
|
|
|
|
|
||||||
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6
Гистограммой частот (нормализованной гистограммой частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах группировки и принимающая на каждом из
них значения nbj , где b - длина интервала группировки. В результате площадь ступенчатой фигуры равна объему выборки n .
Для примера 2 гистограмма частот имеет вид см. рис.2.
Рис. 2.
Гистограммой относительных частот (нормализованной гистограммой относительных частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах
группировки и принимающая на каждом из них значения |
nj |
, где b |
- |
|
n b |
||||
|
|
|
длина интервала группировки. В результате площадь ступенчатой фигуры равна 1.
Для примера 2 гистограмма относительных частот имеет вид см.
рис.3.
7
Рис. 3.
Примечание. Гистограммы называют не нормализованными (не нормированными), если при построении гистограмм принимается, что b 1.
|
|
|
Полигоном частот называется ломаная с вершинами в точках |
|||||
|
|
nj |
|
|
|
|
||
z j |
, |
|
|
|
, а полигоном относительных частот – ломаная с вершинами в |
|||
b |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
nj |
|
точках z j |
, |
|
. |
|||||
|
||||||||
|
|
|
|
|
|
|
nb |
Для примера 2 полигон частот имеет вид см. рис.4.
Рис. 4.
8
2. Числовые характеристики выборочного распределения. Точечные оценки генеральной совокупности.
Пусть x1 , x2 , x3 ,..., x j ,..., xn - выборка объема n из генеральной
совокупности с функцией распределения FX x . Рассмотрим выборочное распределение, т.е. распределение дискретной случайной величины, принимающей значения x1 , x2 , x3 ,..., x j ,..., xn с
вероятностями, равными 1n .
Числовые характеристики этого выборочного распределения называются выборочными (эмпирическими) числовыми характеристиками.
1. Выборочные начальные моменты для негруппированной выборки объема n определяются формулами
* 1 n xm , , m 1, 2, 3, 4,... (4)
m n j 1 j
2.Выборочные центральные моменты для негруппированной выборки объема n определяются формулами
|
1 |
n |
|
|
|
|
||
m* |
|
|
x j 1* m , |
m 1, 2, 3, 4,... |
(5) |
|||
n |
||||||||
|
|
j 1 |
|
|
|
|
||
3. Выборочное среднее (первый начальный момент): |
|
|||||||
|
|
|
|
1 |
n |
|
|
|
|
|
|
x |
|
xj . |
|
(6) |
|
|
|
|
n |
|
||||
|
|
|
|
j 1 |
|
|
4.Выборочная дисперсия (второй центральный момент):
|
1 |
n |
|
|
Dx* |
x j x 2 . |
(7) |
||
|
||||
|
n j 1 |
|
Данные характеристики также называют точечными оценками параметров генеральной совокупности. К примеру, x - точечная
оценка математического ожидания - mx , а Dx* - точечная оценка генеральной дисперсии - x2 , где x* - выборочное среднее квадратическое отклонение.
9
Точечные оценки *называют несмещенными, если выполняется условие:
|
M |
|
|
|
|
|
|
|
|
|
|
* |
, |
|
(8) |
||
где - оцениваемый параметр. |
|
|
|
|
|
|
|
|
Точечные оценки |
*называют |
состоятельными, |
если |
|||||
выполняется условие: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
lim D * |
|
0, |
|
(9) |
|||
|
n |
|
|
|
|
|
|
|
где - оцениваемый параметр. |
|
|
|
|
|
|
|
|
Несмещенная оценка |
* |
|
параметра |
, дисперсия которой |
||||
достигает своего наименьшего значения:, называется эффективной. |
||||||||
Пример 3. Доказать, что x - несмещенная оценка математического |
||||||||
ожидания mx . |
|
|
|
|
|
|
|
|
Доказательство: |
|
|
|
|
|
|
|
|
M x |
|
1 |
n |
|
|
|
|
|
M |
|
x j mx . |
(10) |
|||||
|
||||||||
|
n |
j 1 |
|
|
|
|
Пример 4. Доказать, что x - состоятельная оценка математического ожидания mx .
Доказательство:
|
|
|
|
|
|
|
1 n |
|
|
|
1 |
|
n |
|
|
|
|
|
1 n |
|
|
|
|
D |
||||||
D |
x |
D |
|
|
|
x |
j |
|
|
|
D |
|
x |
j |
|
|
|
|
|
D x |
|
|
x |
. (11) |
||||||
|
|
2 |
|
|
2 |
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
n |
|
|
|
|
n |
|
j |
|
n |
||||||||||||||
|
|
|
|
|
|
n j 1 |
|
|
|
|
|
j 1 |
|
|
|
|
|
|
j 1 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
lim D x lim |
|
Dx |
|
0. |
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
n |
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Можно |
показать, |
что |
|
M |
D* |
2 . |
То |
есть |
выборочная |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
|
|
|
x |
|
|
|
|
|
|
дисперсия является смещенной оценкой генеральной дисперсии. Для
компенсации |
смещения используют коэффициент |
n |
, тогда |
|||||||
|
|
|||||||||
n 1 |
||||||||||
M |
|
nDx* |
|
M s2 |
|
2 . |
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
x |
|
|
|
|||
|
n 1 |
|
|
|
|
|
|
|
10
5. Несмещенная дисперсия определяется в виде
s2 |
1 x j x 2 |
|
n |
Dx* , |
(8) |
||
|
|
n |
|
|
|
|
|
|
n 1 j 1 |
|
n 1 |
|
|
где s - несмещенное среднее квадратическое отклонение.
6. Выборочной модой M 0* унимодального (одновершинного)
распределения называется элемент выборки, встречающийся с наибольшей частотой.
7. Выборочной медианой M e* называется число, которое делит вариационный ряд на две части, содержащие равное число
элементов. Если объем выборки нечетное число, т.е. n 2l 1, то |
||
h* x l 1 |
, если n 2l , то M * |
x l 1 x l . |
x |
e |
2 |
|
|
8.Выборочные коэффициенты асимметрии и эксцесса
определяются формулами
|
|
|
a |
* |
|
3* |
- характеристика асимметрии, |
|
|
|
|
x |
Dx* 3 / 2 |
||||
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
||
e |
* |
|
4* |
|
3 - характеристика остро(плоско)вершинности. |
|||
x |
Dx* 2 |
|||||||
|
|
|
|
|
||||
|
|
|
|
|
|
|
Выбор третьего центрального момента с делением на *x 3 в
качестве характеристики асимметрии распределения выбран с учетом того обстоятельства, что все нечетные моменты для симметричного относительно центра распределения, совмещенного с осью x 0 , равны нулю. Третий центральный момент – первый нечетный после первого центрального момента по порядку позволяет оценивать величину несимметричности распределения.
Если a*x 0 правый хвост распределения длиннее левого.
Если a*x 0 левый хвост распределения длиннее правого.