Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
0
Добавлен:
16.05.2024
Размер:
649.46 Кб
Скачать

1

ЛЕКЦИЯ №1

ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ

Генеральное распределение. Выборка. Эмпирическая функция распределения. Вариационный ряд. Статистический ряд. Полигон и гистограмма. Выборочное распределение. Точечные оценки. Свойства точечных оценок.

1. Выборочный метод в статистике

Математическая статистика – прикладная наука, задачу которой составляет разработка методов сбора, описания и обработки результатов наблюдений или экспериментов с целью изучения закономерностей массовых случайных явлений.

Математическая статистика позволяет получить обоснованные выводы о параметрах, видах распределений и других свойствах случайных величин по конечной совокупности наблюдений над ними –

выборке.

Пусть случайная величина X наблюдается в случайном эксперименте E n раз, предполагая, что условия эксперимента, а следовательно, и распределение случайной величины X не изменяются от эксперимента к эксперименту. Этот новый составной эксперимент

связан с n - мерной

случайной

величиной

– случайным

вектором

X1 , X 2 , X 3 ,..., X j ,..., X n ,

где

X i

-

случайная

величина,

соответствующая

j му эксперименту.

 

 

 

Очевидно,

что

X i

- независимые

в

совокупности

величины,

каждая из которых имеет тот же закон распределения, что и случайная величина X .

Закон распределения случайной величины X называется

распределением генеральной совокупности, а случайный векторX1 , X 2 , X 3 ,..., X j ,..., X n - выборочным вектором.

Числа x1 , x2 , x3 ,..., x j ,..., xn , получаемые на практике при n -

кратном повторении эксперимента E в неизменных условиях, представляют собой конкретную реализацию выборочного вектора и называются выборкой объема n .

2

Выборку

x1 , x2 , x3 ,..., x j ,..., xn

при

необходимости

можно

рассматривать как точку выборочного пространства.

 

Теорема Чебышева.

При достаточно большом числе независимых

опытов среднее

арифметическое случайных

величин X i сходится по

вероятности к математическому ожиданию случайной величины X -

 

 

 

 

n

 

 

 

 

 

 

 

1

 

 

 

 

 

P

 

 

Xi mx

1

.

(1)

 

 

 

 

 

n i 1

 

 

 

 

Неравенство выполняется для любых сколь угодно малых положительных величин и .

На использовании теоремы Чебышева основан метод статистического

 

1

n

моделирования (метод Монте-Карло), где по величине x

 

xi ,

 

 

n i 1

полученной с использованием датчиков случайных чисел для большого

числа испытаний n , оценивают генеральное математическое ожидание - mx .

Если

известна теоретическая вероятность - P Xi

 

реализации

величины X i

в i -ом испытании, то по методу Монте-Карло

i -е испытание

считается успешным, если выполняется условие: P Xi Zi ,

где Zi - i

реализация датчика случайных чисел, равномерно распределенных в диапазоне 0, 1

Вариационным рядом выборки x1 , x2 , x3 ,..., x j ,..., xn

называется способ ее записи, при котором элементы упорядочиваются по величине, т.е. записываются в порядке неубывания.

Размахом выборки называют разность между минимальным и

максимальным элементами.

 

 

 

 

Пусть

выборка

x1 , x2 , x3 ,..., x j ,..., xn

содержит k различных

чисел

 

 

 

 

 

z1 , z2 , z3 ,..., z j ,..., zk ,

k n , причем число z j

встречается n j раз.

 

 

 

Число

n j - называется частотой элемента z j . Очевидно, что

k

 

 

 

 

 

 

 

n j n .

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

Число

n j

- называется относительной частотой элемента z j .

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

k

n

j

 

 

 

 

 

 

 

1.

 

 

 

 

n

 

 

 

 

j 1

 

 

 

 

 

3

Статистическим рядом называется последовательность пар

z j , n j .

Пример 1. Записать в виде статистического и вариационного ряда выборку

1, 1, -2, 0, 0, 4, 5, 7, -3, 1, -1, 0, 0, 0, 3

Определить размах выборки.

Решение:

1.Вариационный ряд имеет вид

-3, -2, -1, 0, 0, 0, 0, 0, 1, 1, 1, 3, 4, 5, 7.

2. Размах вариационного ряда (выборки) R 7 3 10.

3.Статистический ряд имеет вид

z j

-3

 

-2

-1

 

0

1

 

3

4

 

5

7

 

n j

1

 

1

1

 

5

3

 

1

1

 

1

1

 

 

4. Объем выборки

n 15.

 

 

 

 

 

 

 

При

большом объеме

выборки

ее

элементы

объединяют в

группы, представляя результаты опытов в виде группированного статистического ряда. Для этого интервал, содержащий все элементы выборки, разбивается на k непересекающихся интервалов. Длина

интервалов выбирается по формуле: b Rk . После того как частичные

интервалы выбраны, определяют частоты - n j - количество элементов выборки, попавших в j -ый интервал (элемент, совпадающий с верхней (правой) границей интервала, относится к последующему интервалу).

4

В статистический ряд также добавляют накопленные частоты

j

 

 

n j

 

 

 

 

 

ni , относительные частоты

 

и накопленные относительные

n

i 1

 

 

 

j

n

 

 

частоты

i

.

 

 

 

 

 

i 1

n

 

 

Группировка выборки вносит погрешность в дальнейшие вычисления, которая растет с уменьшением числа интервалов.

Пример 2. Построить таблицу частот группированной выборки на 7 интервалах группирования для следующих исходных данных:

 

 

38 60 41 51 33 42 45 21 53 60

 

 

 

 

 

 

 

 

 

 

 

 

68 52 47 46 49 49 14 57 54 59

 

 

 

 

 

 

 

 

 

 

 

 

77 47 28 48 58 32 42 58 61 30

 

 

 

 

 

 

 

 

 

 

 

 

61 35 47 72 41 45 44 55 30 40

 

 

 

 

 

 

 

 

 

 

 

 

67 65 39 48

43 60 54 42 59 50

 

 

 

 

 

 

 

 

 

 

Решение: R 77 14 63,

n 50.

 

 

 

 

 

 

 

 

 

 

b

63

9.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Первый интервал группирования -

14, 23

 

;

 

 

 

 

 

 

 

Второй интервал группирования - 23,32 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Седьмой интервал группирования -

68,77

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Границы

Центр

 

 

 

 

j

 

 

 

 

j

интервала

интервала

интервала

 

 

 

 

ni

 

n

 

 

 

ni

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

i 1 n

 

 

 

 

 

x j

 

 

n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

14-23

 

18,5

 

 

2

 

 

2

0,04

0,04

2

 

23-32

 

27,5

 

 

3

 

 

5

0,06

0,1

3

 

32-41

 

36,5

 

 

6

 

 

11

0,12

0,22

4

 

41-51

 

45,5

 

 

17

 

 

28

0,34

0,56

5

 

50-59

 

54,5

 

 

10

 

 

38

0,2

0,76

6

 

59-68

 

63,5

 

 

9

 

 

47

0,18

0,94

7

 

68-77

 

72,5

 

 

3

 

 

50

0,06

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

Эмпирической функцией распределения называется функция следующего вида

Fn* z

1

ni .

(2)

 

 

n Z z

 

 

 

i

 

Для примера 2 эмпирическая функция распределения имеет вид см. рис.1.

Рис. 1.

 

 

 

 

 

 

 

 

 

 

Теорема

Гливенко.

Пусть Fn* x

- эмпирическая

функция

распределения,

построенная по выборке

объема

n из

генеральной

совокупности с

функцией

распределения

FX x .

Тогда

для

любого

x , и любого 0

 

 

 

 

 

 

 

 

lim P

 

Fn* x FX x

 

1.

 

 

(3)

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

Гистограммой частот (нормализованной гистограммой частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах группировки и принимающая на каждом из

них значения nbj , где b - длина интервала группировки. В результате площадь ступенчатой фигуры равна объему выборки n .

Для примера 2 гистограмма частот имеет вид см. рис.2.

Рис. 2.

Гистограммой относительных частот (нормализованной гистограммой относительных частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах

группировки и принимающая на каждом из них значения

nj

, где b

-

n b

 

 

 

длина интервала группировки. В результате площадь ступенчатой фигуры равна 1.

Для примера 2 гистограмма относительных частот имеет вид см.

рис.3.

7

Рис. 3.

Примечание. Гистограммы называют не нормализованными (не нормированными), если при построении гистограмм принимается, что b 1.

 

 

 

Полигоном частот называется ломаная с вершинами в точках

 

 

nj

 

 

 

 

z j

,

 

 

 

, а полигоном относительных частот – ломаная с вершинами в

b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nj

точках z j

,

 

.

 

 

 

 

 

 

 

 

nb

Для примера 2 полигон частот имеет вид см. рис.4.

Рис. 4.

8

2. Числовые характеристики выборочного распределения. Точечные оценки генеральной совокупности.

Пусть x1 , x2 , x3 ,..., x j ,..., xn - выборка объема n из генеральной

совокупности с функцией распределения FX x . Рассмотрим выборочное распределение, т.е. распределение дискретной случайной величины, принимающей значения x1 , x2 , x3 ,..., x j ,..., xn с

вероятностями, равными 1n .

Числовые характеристики этого выборочного распределения называются выборочными (эмпирическими) числовыми характеристиками.

1. Выборочные начальные моменты для негруппированной выборки объема n определяются формулами

* 1 n xm , , m 1, 2, 3, 4,... (4)

m n j 1 j

2.Выборочные центральные моменты для негруппированной выборки объема n определяются формулами

 

1

n

 

 

 

 

m*

 

 

x j 1* m ,

m 1, 2, 3, 4,...

(5)

n

 

 

j 1

 

 

 

 

3. Выборочное среднее (первый начальный момент):

 

 

 

 

 

1

n

 

 

 

 

 

x

 

xj .

 

(6)

 

 

 

n

 

 

 

 

 

j 1

 

 

4.Выборочная дисперсия (второй центральный момент):

 

1

n

 

Dx*

x j x 2 .

(7)

 

 

n j 1

 

Данные характеристики также называют точечными оценками параметров генеральной совокупности. К примеру, x - точечная

оценка математического ожидания - mx , а Dx* - точечная оценка генеральной дисперсии - x2 , где x* - выборочное среднее квадратическое отклонение.

9

Точечные оценки *называют несмещенными, если выполняется условие:

 

M

 

 

 

 

 

 

 

 

 

*

,

 

(8)

где - оцениваемый параметр.

 

 

 

 

 

 

 

Точечные оценки

*называют

состоятельными,

если

выполняется условие:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

lim D *

 

0,

 

(9)

 

n

 

 

 

 

 

 

 

где - оцениваемый параметр.

 

 

 

 

 

 

 

Несмещенная оценка

*

 

параметра

, дисперсия которой

достигает своего наименьшего значения:, называется эффективной.

Пример 3. Доказать, что x - несмещенная оценка математического

ожидания mx .

 

 

 

 

 

 

 

 

Доказательство:

 

 

 

 

 

 

 

 

M x

 

1

n

 

 

 

 

M

 

x j mx .

(10)

 

 

n

j 1

 

 

 

 

Пример 4. Доказать, что x - состоятельная оценка математического ожидания mx .

Доказательство:

 

 

 

 

 

 

 

1 n

 

 

 

1

 

n

 

 

 

 

 

1 n

 

 

 

 

D

D

x

D

 

 

 

x

j

 

 

 

D

 

x

j

 

 

 

 

 

D x

 

 

x

. (11)

 

 

2

 

 

2

 

 

 

 

 

 

 

 

n

 

 

 

 

n

 

j

 

n

 

 

 

 

 

 

n j 1

 

 

 

 

 

j 1

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

lim D x lim

 

Dx

 

0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

Можно

показать,

что

 

M

D*

2 .

То

есть

выборочная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

x

 

 

 

 

 

 

дисперсия является смещенной оценкой генеральной дисперсии. Для

компенсации

смещения используют коэффициент

n

, тогда

 

 

n 1

M

 

nDx*

 

M s2

 

2 .

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

n 1

 

 

 

 

 

 

 

10

5. Несмещенная дисперсия определяется в виде

s2

1 x j x 2

 

n

Dx* ,

(8)

 

 

n

 

 

 

 

 

 

n 1 j 1

 

n 1

 

 

где s - несмещенное среднее квадратическое отклонение.

6. Выборочной модой M 0* унимодального (одновершинного)

распределения называется элемент выборки, встречающийся с наибольшей частотой.

7. Выборочной медианой M e* называется число, которое делит вариационный ряд на две части, содержащие равное число

элементов. Если объем выборки нечетное число, т.е. n 2l 1, то

h* x l 1

, если n 2l , то M *

x l 1 x l .

x

e

2

 

 

8.Выборочные коэффициенты асимметрии и эксцесса

определяются формулами

 

 

 

a

*

 

3*

- характеристика асимметрии,

 

 

 

x

Dx* 3 / 2

 

 

 

 

 

 

 

 

 

 

 

 

 

e

*

 

4*

 

3 - характеристика остро(плоско)вершинности.

x

Dx* 2

 

 

 

 

 

 

 

 

 

 

 

 

Выбор третьего центрального момента с делением на *x 3 в

качестве характеристики асимметрии распределения выбран с учетом того обстоятельства, что все нечетные моменты для симметричного относительно центра распределения, совмещенного с осью x 0 , равны нулю. Третий центральный момент – первый нечетный после первого центрального момента по порядку позволяет оценивать величину несимметричности распределения.

Если a*x 0 правый хвост распределения длиннее левого.

Если a*x 0 левый хвост распределения длиннее правого.

Соседние файлы в папке Лекции