Добавил:

Chupapi_Munyanya Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МЭИ»

Предмет:

Высшая математика

Файл:

Л1-матстат

.pdf

Скачиваний:

Добавлен:

16.05.2024

Размер:

649.46 Кб

Скачать

☆

1 / 21 2 > Следующая >>>

ЛЕКЦИЯ №1

ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ

Генеральное распределение. Выборка. Эмпирическая функция распределения. Вариационный ряд. Статистический ряд. Полигон и гистограмма. Выборочное распределение. Точечные оценки. Свойства точечных оценок.

1. Выборочный метод в статистике

Математическая статистика – прикладная наука, задачу которой составляет разработка методов сбора, описания и обработки результатов наблюдений или экспериментов с целью изучения закономерностей массовых случайных явлений.

Математическая статистика позволяет получить обоснованные выводы о параметрах, видах распределений и других свойствах случайных величин по конечной совокупности наблюдений над ними –

выборке.

Пусть случайная величина X наблюдается в случайном эксперименте E n раз, предполагая, что условия эксперимента, а следовательно, и распределение случайной величины X не изменяются от эксперимента к эксперименту. Этот новый составной эксперимент

связан с n - мерной		случайной		величиной		– случайным	вектором
X1 , X 2 , X 3 ,..., X j ,..., X n ,			где	X i	-	случайная	величина,
соответствующая	j му эксперименту.
Очевидно,	что	X i	- независимые		в	совокупности	величины,

каждая из которых имеет тот же закон распределения, что и случайная величина X .

Закон распределения случайной величины X называется

распределением генеральной совокупности, а случайный векторX1 , X 2 , X 3 ,..., X j ,..., X n - выборочным вектором.

Числа x1 , x2 , x3 ,..., x j ,..., xn , получаемые на практике при n -

кратном повторении эксперимента E в неизменных условиях, представляют собой конкретную реализацию выборочного вектора и называются выборкой объема n .

Выборку	x1 , x2 , x3 ,..., x j ,..., xn				при	необходимости	можно
рассматривать как точку выборочного пространства.
Теорема Чебышева.			При достаточно большом числе независимых
опытов среднее	арифметическое случайных					величин X i сходится по
вероятности к математическому ожиданию случайной величины X -
			n
		1
	P		Xi mx	1		.	(1)

		n i 1

Неравенство выполняется для любых сколь угодно малых положительных величин и .

На использовании теоремы Чебышева основан метод статистического

	1	n
моделирования (метод Монте-Карло), где по величине x		xi ,

	n i 1

полученной с использованием датчиков случайных чисел для большого

числа испытаний n , оценивают генеральное математическое ожидание - mx .
Если	известна теоретическая вероятность - P Xi		реализации
величины X i	в i -ом испытании, то по методу Монте-Карло	i -е испытание
считается успешным, если выполняется условие: P Xi Zi ,			где Zi - i -я

реализация датчика случайных чисел, равномерно распределенных в диапазоне 0, 1

Вариационным рядом выборки x1 , x2 , x3 ,..., x j ,..., xn

называется способ ее записи, при котором элементы упорядочиваются по величине, т.е. записываются в порядке неубывания.

Размахом выборки называют разность между минимальным и

максимальным элементами.
			Пусть	выборка		x1 , x2 , x3 ,..., x j ,..., xn	содержит k различных
чисел
z1 , z2 , z3 ,..., z j ,..., zk ,						k n , причем число z j	встречается n j раз.
			Число	n j - называется частотой элемента z j . Очевидно, что
k
n j n .
j 1
			Число	n j	- называется относительной частотой элемента z j .

				n
				n
k	n	j
		j	1.
	n		1.
j 1	n

Статистическим рядом называется последовательность пар

z j , n j .

Пример 1. Записать в виде статистического и вариационного ряда выборку

1, 1, -2, 0, 0, 4, 5, 7, -3, 1, -1, 0, 0, 0, 3

Определить размах выборки.

Решение:

1.Вариационный ряд имеет вид

-3, -2, -1, 0, 0, 0, 0, 0, 1, 1, 1, 3, 4, 5, 7.

2. Размах вариационного ряда (выборки) R 7 3 10.

3.Статистический ряд имеет вид

z j	-3	-2	-1	0	1	3	4	5	7
n j	1	1	1	5	3	1	1	1	1
	4. Объем выборки			n 15.
	При	большом объеме			выборки	ее	элементы	объединяют в

группы, представляя результаты опытов в виде группированного статистического ряда. Для этого интервал, содержащий все элементы выборки, разбивается на k непересекающихся интервалов. Длина

интервалов выбирается по формуле: b Rk . После того как частичные

интервалы выбраны, определяют частоты - n j - количество элементов выборки, попавших в j -ый интервал (элемент, совпадающий с верхней (правой) границей интервала, относится к последующему интервалу).

В статистический ряд также добавляют накопленные частоты

j			n j
j
ni , относительные частоты				и накопленные относительные
ni , относительные частоты			n	и накопленные относительные
i 1			n
j	n
частоты	i	.
частоты		.
i 1	n

Группировка выборки вносит погрешность в дальнейшие вычисления, которая растет с уменьшением числа интервалов.

Пример 2. Построить таблицу частот группированной выборки на 7 интервалах группирования для следующих исходных данных:

		38 60 41 51 33 42 45 21 53 60
		68 52 47 46 49 49 14 57 54 59
		77 47 28 48 58 32 42 58 61 30
		61 35 47 72 41 45 44 55 30 40
		67 65 39 48		43 60 54 42 59 50
Решение: R 77 14 63,						n 50.
b	63	9.
b		9.
7
Тогда

Первый интервал группирования -							14, 23	;
Второй интервал группирования - 23,32 ;
…
Седьмой интервал группирования -							68,77	;

№			Границы		Центр				j				j
интервала			интервала		интервала				ni		n			ni
интервала			интервала		интервала				ni		n	j
									i 1			j	i 1 n
					x j		n j
											n


1			14-23		18,5		2		2	0,04			0,04
2			23-32		27,5		3		5	0,06			0,1
3			32-41		36,5		6		11	0,12			0,22
4			41-51		45,5		17		28	0,34			0,56
5			50-59		54,5		10		38	0,2			0,76
6			59-68		63,5		9		47	0,18			0,94
7			68-77		72,5		3		50	0,06			1

Эмпирической функцией распределения называется функция следующего вида

Fn* z	1	ni .	(2)

	n Z z
		i

Для примера 2 эмпирическая функция распределения имеет вид см. рис.1.

Рис. 1.
Теорема	Гливенко.		Пусть Fn* x		- эмпирическая			функция
распределения,	построенная по выборке				объема	n из	генеральной
совокупности с	функцией		распределения		FX x .	Тогда	для	любого
x , и любого 0
	lim P	Fn* x FX x		1.				(3)
	lim P	Fn* x FX x		1.				(3)
	n
	n

Гистограммой частот (нормализованной гистограммой частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах группировки и принимающая на каждом из

них значения nbj , где b - длина интервала группировки. В результате площадь ступенчатой фигуры равна объему выборки n .

Для примера 2 гистограмма частот имеет вид см. рис.2.

Рис. 2.

Гистограммой относительных частот (нормализованной гистограммой относительных частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах

группировки и принимающая на каждом из них значения	nj	, где b	-
	n b

длина интервала группировки. В результате площадь ступенчатой фигуры равна 1.

Для примера 2 гистограмма относительных частот имеет вид см.

рис.3.

Рис. 3.

Примечание. Гистограммы называют не нормализованными (не нормированными), если при построении гистограмм принимается, что b 1.

			Полигоном частот называется ломаная с вершинами в точках
		nj
z j	,			, а полигоном относительных частот – ломаная с вершинами в
z j	,	b		, а полигоном относительных частот – ломаная с вершинами в
		b
						nj
точках z j					,		.
точках z j					,		.
						nb

Для примера 2 полигон частот имеет вид см. рис.4.

Рис. 4.

2. Числовые характеристики выборочного распределения. Точечные оценки генеральной совокупности.

Пусть x1 , x2 , x3 ,..., x j ,..., xn - выборка объема n из генеральной

совокупности с функцией распределения FX x . Рассмотрим выборочное распределение, т.е. распределение дискретной случайной величины, принимающей значения x1 , x2 , x3 ,..., x j ,..., xn с

вероятностями, равными 1n .

Числовые характеристики этого выборочного распределения называются выборочными (эмпирическими) числовыми характеристиками.

1. Выборочные начальные моменты для негруппированной выборки объема n определяются формулами

* 1 n xm , , m 1, 2, 3, 4,... (4)

m n j 1 j

2.Выборочные центральные моменты для негруппированной выборки объема n определяются формулами

	1		n
m*			x j 1* m ,			m 1, 2, 3, 4,...	(5)
m*		n	x j 1* m ,			m 1, 2, 3, 4,...	(5)
		n	j 1
3. Выборочное среднее (первый начальный момент):
				1	n
			x		xj .		(6)
			x	n	xj .		(6)
				n	j 1

4.Выборочная дисперсия (второй центральный момент):

	1	n
Dx*		x j x 2 .	(7)

	n j 1

Данные характеристики также называют точечными оценками параметров генеральной совокупности. К примеру, x - точечная

оценка математического ожидания - mx , а Dx* - точечная оценка генеральной дисперсии - x2 , где x* - выборочное среднее квадратическое отклонение.

Точечные оценки *называют несмещенными, если выполняется условие:

	M
	M		*	,			(8)
где - оцениваемый параметр.
Точечные оценки	*называют					состоятельными,	если
выполняется условие:

	lim D *				0,		(9)
	n
где - оцениваемый параметр.
Несмещенная оценка	*	параметра				, дисперсия которой
достигает своего наименьшего значения:, называется эффективной.
Пример 3. Доказать, что x - несмещенная оценка математического
ожидания mx .
Доказательство:
M x		1	n
	M		x j mx .				(10)
	M		x j mx .				(10)
	n		j 1

Пример 4. Доказать, что x - состоятельная оценка математического ожидания mx .

Доказательство:

1 n

D x

. (11)

n j 1

j 1

lim D x lim

Можно

показать,

что

2 .

То

есть

выборочная

дисперсия является смещенной оценкой генеральной дисперсии. Для

компенсации				смещения используют коэффициент		n	, тогда

						n 1
M		nDx*	M s2		2 .

					x
	n 1

5. Несмещенная дисперсия определяется в виде

s2	1 x j x 2		n	Dx* ,	(8)
		n
	n 1 j 1		n 1

где s - несмещенное среднее квадратическое отклонение.

6. Выборочной модой M 0* унимодального (одновершинного)

распределения называется элемент выборки, встречающийся с наибольшей частотой.

7. Выборочной медианой M e* называется число, которое делит вариационный ряд на две части, содержащие равное число

элементов. Если объем выборки нечетное число, т.е. n 2l 1, то
h* x l 1	, если n 2l , то M *	x l 1 x l .
x	e	2
		2

8.Выборочные коэффициенты асимметрии и эксцесса

определяются формулами

		a	*		3*	- характеристика асимметрии,
		a	x		Dx* 3 / 2	- характеристика асимметрии,
			x

e	*	4*		3 - характеристика остро(плоско)вершинности.
e	x	Dx* 2		3 - характеристика остро(плоско)вершинности.
		Dx* 2

Выбор третьего центрального момента с делением на *x 3 в

качестве характеристики асимметрии распределения выбран с учетом того обстоятельства, что все нечетные моменты для симметричного относительно центра распределения, совмещенного с осью x 0 , равны нулю. Третий центральный момент – первый нечетный после первого центрального момента по порядку позволяет оценивать величину несимметричности распределения.

Если a*x 0 правый хвост распределения длиннее левого.

Если a*x 0 левый хвост распределения длиннее правого.

1 / 21 2 > Следующая >>>

Соседние файлы в папке Лекции

#
16.05.2024649.46 Кб0Л1-матстат.pdf
#
16.05.2024501.59 Кб0Л1-ТВ.pdf
#
16.05.20241.11 Mб0Л2-матстат.pdf
#
16.05.2024451.07 Кб0Л2-ТВ.pdf
#
16.05.2024829.51 Кб0Л3-матстат.pdf
#
16.05.2024394.41 Кб0Л3-ТВ.pdf