Системы случайных величин. Система двух случайных величин

До сих пор в курсе рассматривались случайные величины, каждое значение которых определяется одним числом. Такие случайные величины иногда называют одномерными.

Кроме одномерных случайных величин существуют случайные величины, значения которых определяются парой чисел. Такие случайные величины называют двумерными и обозначаются Двумерную случайную величину можно рассматривать, как систему двух случайных величин и , каждую из которых при этом называют составляющей двумерной случайной величины.

Рассмотрим сначала случай, когда случайные величины и , составляющие двумерную случайную величину, является дискретными.

Законом распределения дискретной случайной величины называют перечень возможных значений этой величины, то есть пар () и их вероятностей .

Закон распределения показан в таблице 4.2.1:

Таблица 4.2.1

Запишем условие нормировки закона распределения двумерной случайной величины. Учитывая, что события при условии ; образуют полную группу несовместных событий, получим, что . Практически это означает, что сумма вероятностей, содержащихся во всех клетках таблицы 4.2.1, составляет 1.

Поставим задачу определения законов распределения составляющих и на основе двумерного закона распределения. Рассмотрим вероятность . Событие можно представить как сумму несовместных событий ,…. Поэтому:

Что означает, что равна сумме элементов соответствующей -ой строки таблицы 4.1.

Используя аналогичные рассуждения, получим:

То есть вероятность равна сумме элементов соответствующего j-го столбца таблицы 1.1

Пример 4.2.1. Найти законы распределений составляющих двумерной случайной величины, заданной законом распределения:

Таблица 4.2.2

0,2 0,3 0,5
0,3 0,2 0,5
0,5 0,5

Решение:

Вероятности, определяющие закон распределения составляющей , представлены в крайнем правом столбце таблицы 4.2.2

Аналогично вычисляется закон распределения составляющей (нижняя строка таблицы 4.2.2).

Определим понятие независимости двух случайных величин и . Ранее независимость двух случайных величин определялась как независимость распределения одной случайной величины от значения, которое принимает другая случайная величина.

Для дискретных независимых случайных величин события и - независимые события для всех возможных значений и . Поэтому, две дискретные случайные величины независимы, если для всех возможных значений и :



Например, случайные величины и , закон распределения которых приведен в таблице 4.2.3, независимы.

Таблица 4.2.3

0,08 0,12 0,2
0,24 0,42 0,8
0,4 0,6

Рассмотрим две случайные величины , и оценим степень зависимости между этими случайными величинами. Существуют два крайних случая: с одной стороны, случайные величины могут быть независимыми, с другой стороны зависимость между двумя случайными величинами может быть функциональной, то есть по значению одной случайной величины можно однозначно определить значение другой случайной величины. Обычно, для произвольных случайных величин степень зависимости занимает некое промежуточное между перечисленными случаями значение.

Например, если - оценка, полученная студентом на экзамене по некоторому предмету, а - число лекций, которые он посетил, то случайные величины и . имеют некоторую зависимость.

Поставим задачу оценки зависимости (или степени связи) двух случайных величин и . Рассмотрим центральный смешанный момент двух случайных величин и :

Называемый коэффициентом ковариации, или коэффициентом связи, двух случайных величин.

Заметим, что формула для коэффициента ковариации может быть преобразована к более простому виду: . Применим этот коэффициент для оценки связи двух случайных величин. Однако величина зависит от единиц измерения случайных величин и , и поэтому сама по себе не может служить оценкой связи случайных величин и .

Рассмотрим стандартные случайные величины ; , где , , , . Данные случайные величины представляют собой нормированные отклонения, записанные для исходных случайных величин.

а величина называется коэффициентом корреляции пары случайных величин.

Пример 4.2.2. Найти коэффициент корреляции для случайных величин, заданных таблицей 4.2.2.

Решение:

Воспользуемся для вычисления коэффициента корреляции формулой: . Учитывая, что распределения составляющих и вычислены, получим:

Используя коэффициент ковариации можно записать формулу для дисперсии суммы (разности) произвольных случайных величин и :

Записывая последнюю формулу для стандартных величин и и учитывая, что дисперсия случайной величины не может быть отрицательной, получим: .случайная величина имеет тенденцию к увеличению. В этом случае прямая , аппроксимирующая зависимость между двумя случайными величинами, имеет положительный угловой коэффициент (а >0).

P +p

E − λ

E − λ e λ = 1.

p k=

−λ

На рисунке 3.6 показаны графики функции

от k )

значений

параметра

λ = 0,5 (сплошная линия), 1

(пунктир) и 2 (штрих-

пунктир). Каждый график представляет собой дискрет-

ный ряд точек; для большей наглядности точки соедине-

ны последовательно ломаной линией (так называемый

многоугольник распределения).

Одна из причин, обусловливающих важную роль

Рис . 3.6

пуассоновского распределения для практики, заключает-

ся в его тесной связи с биномиальным распределением. Напомним (§ 2.5), что если в формуле Бернулли

P n (k )= C n k p k (1− p )n − k

мы зафиксируем значение k и станем устремлять число опытовп к бесконечности, а вероятностьр – к нулю, притом так, чтобы их произведение оставалось равным постоянному числуλ (np = λ ) , то будем иметь:

Соотношение (3.17) показывает, что при описанном выше предельном переходе таблица (3.15) биномиального распределения переходит в таблицу (3.16) распределения Пуассона. Таким образом, распределение Пуассона является предельным для биномиального распределения при указанных выше условиях. Заметим, что с этим свойством распределения Пуассона – выражать биномиальное распределение при большом числе опытов и малой вероятности события – связано часто применяемое для него название:закон редких явлений .

§ 3.5. Системы дискретных случайных величин

До сих пор мы рассматривали случайные величины изолированно друг от друга, не касаясь вопроса об их взаимоотношениях. Однако в практических задачах часто встречаются ситуации, когда те или иные случайные величины приходится изучать совместно . В таких случаях говорят осистеме нескольких случайных величин. Более точно: случайные величины образуют систему, если они определены на одном и том же пространстве элементарных событийΩ .

Систему двух случайных величин (X ,Y ) можно истолковывать как случайную точку на плоскости, систему трех случайных величин (X ,Y ,Z ) – как случайную точку в трехмерном пространстве. Мы ограничимся в основном двумерным случаем.

Интуитивный подход к понятию системы двух случайных величин связан с представлением об опыте, результатом которого является пара чисел X ,Y . Поскольку исход опыта мыслится как случайное событие, то предсказать заранее значения чиселX иY невозможно (при повторении опыта они меняются непредвиденным образом). Приведем несколько примеров.

Пример 3.7. Дважды бросается игральная кость. Обозначим черезX число очков при первом бросании, черезY – число очков во втором. Пара (X ,Y ) будет системой двух случайных величин.

Пример 3.8. Из некоторой аудитории наугад выбирается один студент;X – его рост (скажем, в сантиметрах),Y – вес (в килограммах).

Пример 3.9. В данном сельскохозяйственном районе выбирается произвольно участок посева пшеницы площадью 1 га;X – количество внесенных на этом участке удобрений,Y – урожай, полученный с участка.

Пример 3.10. Сравниваются письменные работы по математике и русскому языку;X – оценка за работу по математике,Y – за работу по русскому языку.

Список подобных примеров легко продолжить.

§ 3.6. Независимые дискретные случайные величины

1 ° . Общие замечания . Примеры . При рассмотрении системы двух случайных величин (X ,Y ) необходимо иметь в виду, что свойства системы не всегда исчерпываются свойствами самих величинX иY . Иначе говоря, если мы знаемвсе о величинеX ивсе о величинеY , то это еще не значит, что мы знаемвсе о системе (X ,Y ). Дело в том, что между величинамиX иY может существовать зависимость, и без учета этой зависимости нельзя построить закон распределения системы (X ,Y ).

Зависимость между случайными величинами в реальных условиях может быть различной. В некоторых случаях она оказывается столь сильной, что, зная, какое значение приняла величина X , можно в точности указать значениеY . Применяя традиционную терминологию, можно сказать, что в этих случаях зависимость междуX иY функциональная (впрочем, понятие функции от случайной величины еще нуждается в уточнениях, последние будут даны в § 3.7). С примерами такой зависимости мы постоянно встречаемся в природе и технике.

В то же время можно указать и примеры другого рода – когда зависимость между случайными величинами существует, но не носит строго выраженного функционального характера. Подобные примеры особенно характерны для таких областей науки и практики, как агротехника, биология, медицина, экономика и т. д., где развитие явлений, как правило, зависит от многих трудно поддающихся учету факторов. Известно, например, что обилие осадков в период созревания пшеницы приводит к повышению урожайности; однако это еще не означает, что связь между количеством X осадков и урожайностьюY (скажем, в расчете на 1 га) является функциональной; кроме осадков на урожайность оказывают влияние и другие факторы: тип почвы, количество внесенных удобрений, число солнечных дней и т. д. В подобных случаях, когда изменение одной величины влияет на другую лишь статистически,в среднем , принято говорить овероятностной связи между величинами. Не приводя пока точных определений, рассмотрим несколько примеров. Они иллюстрируют разные степени зависимости между случайными величинами – от сильной, почти функциональной зависимости до практической независимости.

Пример 3.11. ПустьX – рост наугад выбранного взрослого человека (скажем, в сантиметрах), аY – его вес (в килограммах). Зависимость между ростом и весом является весьма сильной, в первом приближении ее можно даже считать функциональной. Формула, приближенно выражающая эту зависимость, пишется обычно:

Y (кг) =X (см) – 100.

Пример 3.12. X – высота выбранного наугад дерева в лесу,Y – диаметр его основания. И здесь зависимость следует признать сильной, хотя и не в такой степени, как в предыдущем примере.

Пример 3.13. Из груды камней неправильной формы выбирают наугад один камень. ПустьX – его масса, аY – наибольшая длина. Зависимость междуX иY носит сугубо вероятностный характер.

Пример 3.14. X – рост выбранного наугад взрослого человека,Y – его возраст. Наблюдения показывают, что эти величины практически независимы.

2 ° . Определение независимости случайных величин. Оставим пока в стороне вопрос о том,

какими числами можно выразить степень зависимости между величинами X иY . Ограничимся строгим определениемнезависимости случайных величин.

Определение . Пусть задана система(X, Y). Мы скажем, что величины X и Yнезависимы , если

независимы события X А и Y В, где А и В– любые два отрезка[ a1 , a2 ] и[ b1 , b2 ].

Иными словами выполняется равенство

где x i – любое возможное значение величиныX , аy j – любое возможное значение величиныY . Действительно, из (3.18) очевидным образом следует (3.19). Проверим, что и обратно, из (3.19)

следует (3.18).

Пусть система (X ,Y ) характеризуется таблицей

р 11

р 12

р 21

р 22

Положим A = [ a 1 ,a 2 ] ,B = [ b 1 ,b 2 ] . Тогда

p ij = P (X = x i )P (Y = y j ) (i ,j = 1, 2, ...) (написанное равенство и есть как раз условие (3.19)). Отсюда

P(X A, Y B) =

∑ p ij=

∑ P(X= xi ) P(Y= yj ) =

{ i, j

xi A, yj B} { i, j

xi A, yj B}

= ∑ P (X =x i )

∑ P(Y= yj ) = P(X A) P(Y B) ,

xi A}

y j B}

т.е. величины X иY независимы.

§ 3.7. Функция от случайной величины. Действия над случайными величинами

Пусть X – случайная величина. Часто возникает необходимость в рассмотрении случайных величинY вида:

Y = g(X) ,

где g (x ) – заданная числовая функция. Какой смысл вкладывается в запись (3.20), т. е. в понятие

функции от случайной величины?

Предположим, что в результате опыта наступило событие

X = x

т. е. величина X приняла значениех . Тогда,по определению , мы считаем, что в данном опыте величинаY приняла значениеg (x ). Ясно, что длядискретной случайной величины такое соглашение вполне определяет новую случайную величинуY . Что касаетсянепрерывной случайной величины, то справедливо следующее утверждение.

Предложение 3.1. Если g(x) непрерывная функция, то соотношение(3.20) определяет случайную величину Y.

Д о к а з а т е л ь с т в о . Мы воспользуемся условием (3.2), эквивалентным определению случайной величины. Тем самым нам надо проверить, что для любого открытого множестваU на числовой прямой множество элементарных событий, для которых

Но по определению (3.2) множество элементарных событий, определенного условием (3.22), является событием. Поэтому и условие (3.21) определяет событие, что и требовалось доказать.

Для любой функции (3.20) случайная величина

Y = g(X) ,

подобно X , имеет свой закон распределения. Каков этот закон? Ограничимся рассмотрением того случая, когда случайная величинаX – дискретного типа. Пусть закон распределенияX задан таблицей (3.11). По определению, закон распределения случайной величиныY задается таблицей (3.23), в кото-

рой первую строку (3.11) мы заменили на соответствующие значения функции g (x ), оставив без изменения вторую строку.

g(x1 )

g(x2 )

Если среди значений Y имеются равные, то надо объединить соответствующие столбцы в один столбец, сложив соответствующие вероятности.

Пример 3.15. Пусть случайная величинаX задана законом распределения:

Найти закон распределения случайной величины Y =X 2 .

Р е ш е н и е . Для того чтобы найти закон распределенияY =X 2 , возведем все значения в квадрат и получим следующую таблицу

Очень часто для случайных величин X иY , образующих систему, приходится рассматривать их сумму и произведение. Поскольку закон распределения таких и подобных им операций над случайными величинами определяется аналогичным образом, будем считать, что мы рассматриваем случайную величину

Z =g (X ,Y ),

где g (x ,y ) – некоторая числовая функция.

Итак, пусть система (X ,Y ) характеризуется таблицей

р 11

р 12

р 21

р 22

смысл которой читателю известен. Величина

Z = g(X, Y)

также будет дискретной. Ее возможными значениями будут числа z 11 = g (x 1 ,y 1 ),z 12 = g (x 1 ,y 2 ), ... .

Разберем два случая.

1. Все числа z ij различны. Тогда событиеZ =z ij , т.е.

g (X ,Y )= z ij ,

наступает только тогда, когда одновременно наступают события X = x i иY = y j , следовательно, его вероятность будет равна

P(X= xi , Y= yj ) = pij . 1 ,Y = y 2 ) и(X = x 3 ,Y = y 5 ) ,

следовательно, его вероятность будет

р 12+ р 35.

Подводя итог, можно сказать, что закон распределения величины g (X ,Y ) будет выражаться

таблицей (3.25), в которой столбцы с одинаковыми значениями z ij следует объединить в один, сложив стоящие в них вероятностиp ij .

Пример 3.16. Пусть закон распределения системы случайных величин (X ,Y ) задается таблицей. Найти закон распределения их произведения.

Р е ш е н и е . Числаz ij в данном случае будут

z 11= − 2 z 12= − 4 z 13= − 6

z 21= − 1 z 22= − 2 z 23= − 3

z 31= 0 z 32= 0 z 33= 0 .

Поэтому "предварительный" закон распределения для X Y будет

а окончательный

11. Функция распределения системы двух случайных величин.

До сих пор рассматривались случайные величины, возможные значения которых определялись одним числом. Такие величины называют одномерными. Например, число очков, которое может выпасть при бросании игральной кости, - дискретная одномерная величина; расстояние от орудия до места падения снаряда – непрерывная одномерная случайная величина.

Кроме одномерных случайных величин, изучают величины, возможные значения которых определяются двумя, тремя, …, n числами. Такие величины называются соответственно двумерными, трехмерными,…, n-мерными. Будем обозначать через (X,Y) двумерную случайную величину. Каждую из величин X и Y называют составляющей (компонентой): обе величины X и Y, рассматриваемые одновременно, образуют систему двух случайных величин.

Аналогично n-мерную величину можно рассматривать как систему n случайных

величин. Например, любую точку на координатной плоскости XOY можно рассматривать как двумерную случайную величину с компонентами (координатами) X и Y; любую точку в трехмерном пространстве – как

трехмерную случайную величину с компонентами X, Y и Z. Различают дискретные (составляющие этих величин дискретны) и непрерывные (составляющие этих величин непрерывны) многомерные случайные величины.

Рассмотрим двумерную случайную величину (X, Y) (безразлично, дискретную или непрерывную). Пусть (x,y) – пара действительных чисел. Вероятность события, состоящего в том, что X примет значение, меньшее x, и при этом Y примет значение, меньшее y, обозначим через F(x,y). Если x и y будут изменяться, то, вообще говоря, будет изменяться и F(x,y), т. е. F(x,y) есть функция от x и y.

Функцией распределения двумерной случайной величины (X,Y) называют функцию F(x,y), определяющую для каждой пары чисел x, y вероятность того, что X примет значение, меньшее x, и при этом Y примет значение, меньшее y: F(x,y) = P(X

Геометрически это равенство можно истолковать так: F(x,y) есть вероятность того, что случайная точка (X,Y) попадет в бесконечный квадрант с вершиной (x, y), расположенной левее и ниже этой вершины.

Свойства функции распределения двумерной случайной величины

Свойство 1 . Значения функции распределения удовлетворяют двойному неравенству 0 ≤ F(x, y) ≤ 1.

Доказательство . Свойство вытекает из определения функции распределения как вероятности: вероятность – всегда неотрицательное число, не превышающее единицу.

Свойство 2 . F(x,y) есть неубывающая функция по каждому аргументу, т.е.

F(x2 ,y) ≥ F(x1 ,y), если x2> x1 ;

F(x ,y2) ≥ F(x ,y1), если y2> y1.

Доказательство . Докажем, что F(x,y) – неубывающая функция по аргументу x. Событие, состоящее в том, что составляющая X примет значение, меньшее x2, и при этом составляющая Y < y, можно подразделить на следующие два несовместных события:

1) X примет значение, меньшее x1 , и при этом Y < y с вероятностью P(X< x1,Y

2) X примет значение, удовлетворяющее неравенству x1 ≤ X < x2 , и при этом Y

По теореме сложения,

P(X< x2, Y

P(X< x2, Y

F(x2 ,y) - F(x1 ,y) = P(x1≤X< x2, Y

Любая вероятность есть число неотрицательное, поэтому

F(x2 ,y) - F(x1 ,y) ≥ 0, или F(x2 ,y) ≥ F(x1 ,y),

что и требовалось доказать.

Свойство становится наглядно ясным, если воспользоваться геометрическим истолкованием функции распределения как вероятности попадания случайной точки в бесконечный квадрант с вершиной (x;y). При возрастании x правая граница этого квадранта сдвигается вправо; при этом вероятность попадания

случайной точки в новый квадрант, очевидно, не может уменьшиться. Аналогично доказывается, что F(x,y) есть неубывающая функция по

аргументу y.

Свойство 3 . Имеют место предельные соотношения:

1) F(-∞ , y) = 0, 2) F(x, -∞) = 0,

3) F(-∞ , -∞) = 0, 4) F(∞ , ∞) = 1.

Доказательство

1) F(-∞ , y) есть вероятность события X < -∞ и Y < y; но такое событие невозможно (поскольку невозможно событие X < -∞), следовательно, вероятность этого события равна нулю. Свойство становится наглядно ясным, если прибегнуть к геометрической интерпретации: при x→-∞ правая граница бесконечного квадранта неограниченно сдвигается влево и при этом вероятность попадания случайной точки в квадрант стремится к нулю.

2) Событие Y < -∞ невозможно, поэтому F(x, -∞) = 0.

3) Событие X < -∞ невозможно, поэтому F(-∞ , -∞) = 0.

4) Событие X < ∞ и Y < ∞ достоверно, следовательно, вероятность этого

события F(∞ , ∞) = 1.

Свойство становится наглядно ясным, если принять во внимание, что при x→∞ и y→∞ бесконечный квадрант превращается во всю плоскость xOy и, следовательно, попадание случайной точки (X;Y) в эту плоскость есть достоверное событие.

Свойство 4

а) При y = ∞ функция распределения системы становится функцией распределения составляющей X:

F(x, ∞) = F1(x).

б) При x = ∞ функция распределения системы становится функцией распределения составляющей Y:

F(∞, y) = F2(y).

Доказательство.

а) Так как событие Y < ∞ достоверно, то F(x, ∞) определяет вероятность события X < x, т.е. представляет собой функцию распределения составляющей X.

б) Доказывается аналогично.

Закон распределения дискретной двумерной случайной величины можно представить в виде таблицы (табл. 1.2), характеризующей собой совокупность всех значений случайных величин и соответствующих вероятностей:

Причем, сумма всех вероятностей , как и сумма вероятностей полной группы несовместных событий равна единице.

Таблица 1.2

Значения СВ x 1 x 2 x n ΣP (y j)
y 1 P (x 1 ,y 1 ) P (x 2 ,y 1 ) P (x n ,y 1 ) P (y 1 )
y 2 P (x 1 ,y 2 ) P (x 2 ,y 2 ) P (x n ,y 2 ) P (y 2 )
y m P (x 1 ,y m) P (x 2 ,y m) P (x n ,y m) P (y m)
ΣP (x i) P (x 1 ) P (x 2 ) P (x n)

По закону распределения двумерной случайной величины можно составить законы распределения каждой случайной величины, входящей в систему.

Таблица 1.3

Ряд распределения для СВ X :

Условный закон распределения случайной величины X при условии, что случайная величина Y=y 0 – это набор возможных значений X вместе с условными вероятностями . При вычислении этих вероятностей надо использовать формулу для условной вероятности:

.

Математическим ожиданием двумерной СВ (X, Y ) называется совокупность двух математических ожиданий. M [X ]и M[Y ], определяемых равенствами:

,

Дисперсией системы СВ (X, Y) называется совокупность двух дисперсий D [X D [Y ], определяемых равенствами:

, ,

, ,

Пример 8. Дана таблица распределения вероятностей двумерной случайной величины (X ;Y ) (табл. 1.5).

Таблица 1.5

Таблица 1.7

Y -1
P 0,2 0,4 0,4

а) Вычисляем числовые характеристики:

б) Числовые характеристики произведения случайных величин находим, умножая их значения на соответствующие вероятности:

Для нахождения условного математического ожидания нужно сначала найти условное распределение случайной величины Y при условии, что X = 0. Для таблицы двумерного распределения (X; Y ) все вероятности в первой строке поделим на . Получим таблицу условного распределения Y :

Y -1
P X =0 0,75 0,25

Найдем теперь условное математическое ожидание:


ГЛАВА 2. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Самостоятельная работа по лекционному курсу

Выполнение данного вида работы предусматривает самостоятельное изучение (по выбору) следующих тем:

1. Доверительные интервалы для оценки математического ожидания нормального распределения при известном σ.

2. Оценка точности измерений.

3. Оценка вероятности (биномиального распределения) по относительной частоте.

4. Метод моментов для точечной оценки параметров распределения.

5. Метод наибольшего правдоподобия.

6. Другие характеристики вариационного ряда.

7. Простейшие случаи криволинейной корреляции.

8. Понятие о множественной корреляции.

9. Сравнение двух дисперсий нормальных генеральных совокупностей.

10. Проверки гипотезы о значимости выборочного коэффициента корреляции.

Все перечисленные темы можно найти литературе, представленной в конце методических указаний.

По одной из выбранных тем следует составить опорный конспект лекций, который желательно проиллюстрировать решенным самостоятельно заданием.

Самостоятельная работа по практическим занятиям

По данному виду работы предлагается построение линейной регрессионной модели по экспериментальным данным.

Создание математической модели технологического процесса или иного физического явления раскрывает перед исследователем возможность прогнозирования результатов процессов при выполнении определенных условий, изучение критических ситуаций, прогнозирование качества продукции и др.

При выполнении задания по построению регрессионной модели необходимо демонстрировать понимание терминов математической статистики, анализировать и делать выводы по полученным результатам вычислений. Выполнение данной работы направлено на систематизацию и применение знаний, полученных при изучении темы «Математическая статистика».

Рассмотрим вариант построения линейной регрессионной модели по экспериментальным данным.

Пример. В результате эксперимента получены следующие статистические данные (табл.2.1):

Таблица 2.1

x y x y x y x y x y
8,35 3,50 10,50 6,00 11,35 9,50 12,15 6,00 12,85 9,50
8,74 1,49 10,75 2,50 11,50 6,00 12,25 8,05 13,15 9,02
9,25 6,40 10,76 5,74 11,50 9,00 12,35 5,01 13,25 6,49
9,50 4,50 11,00 8,50 11,62 8,50 12,50 7,03 13,26 10,50
9,75 5,00 11,00 5,26 11,75 10,00 12,76 7,53 13,40 7,51
10,24 7,00 11,25 8,00 12,00 9,00 12,85 6,01 13,50 10,00
13,65 9,50 14,50 10,00 13,75 8,51 14,75 12,00 14,00 11,00
15,25 12,50 14,23 8,40 16,00 11,50 14,26 10,00 16,00 13,00
14,51 9,50 16,25 12,00

Для приведенной выборки выполнить следующие задания.

1) Представить выборку в виде интервальных статистических рядов по случайным величинам X и Y .

2) Для случайной величины X построить полигон частот и гистограмму. Найти эмпирическую функцию распределения и построить ее график.

3) Найти выборочные числовые характеристики (выборочное среднее, несмещенную выборочную дисперсию, несмещенное среднее квадратичное отклонение) для случайных величин X и Y .

4) Построить доверительные интервалы для математического ожидания и дисперсии для случайной величины X с доверительной вероятностью β=0,95.

5) Проверить гипотезу о нормальном распределении случайной величины X.

6) Провести корреляционный анализ.

7) Построить линейную регрессионную модель.

Решение. Объем выборки равен n =42.

1. Для представления выборки в виде интервальных статистических рядов определяем длины интервалов для каждой случайной величины.

Для случайной величины X наибольшим значением является 16,25, наименьшим – 8,35. Найдем длину интервала по X :

Выбираем h x =1,2. Получаем семь интервалов. От наименьшего значения 8,35 отступим немного левее, таким образом, первый интервал начнем со значения 8,3. Подсчитаем частоту попадания случайной величины X X принимает вид (табл.2.2):

Таблица 2.2

Для случайной величины Y наибольшим значением является 13,0, наименьшим – 1,49. Найдем длину интервала по Y :

Выбираем h y =1,8. Получаем семь интервалов. От наименьшего значения 1,49 отступим немного левее, таким образом, первый интервал начнем со значения 1,5. Подсчитаем частоту попадания случайной величины Y в каждый интервал, причем условимся, что граничное значение будет входить в больший интервал. Интервальный статистический ряд для Y принимает вид (табл.2.3):

Таблица 2.3

2. Чтобы построить полигон частот для случайной величины X , найдем середину и относительную частоту для каждого интервала (табл.2.4).

Таблица 2.4

Границы интервалов 8,3–9,5 9,5–10,7 10,7–11,9 11,9–13,1 13,1–14,3 14,3–15,5 15,5–16,7
Середины интервалов 8,9 10,1 11,3 12,5 13,7 14,9 16,1

На рис.2.1 по оси абсцисс отмечаем середины интервалов x i , по оси ординат – относительные частоты .

При построении гистограммы распределения по оси абсцисс отмечаем границы интервалов, по оси ординат – относительные частоты, деленные на длину интервала (рис.2.2).

Эмпирическую функцию распределения находим по формуле:

.

Для того чтобы найти значение эмпирической функции распределения при данном х , достаточно подсчитать число опытов, в которых величина Х приняла значение меньше, чем х , и разделить на общее число произведенных опытов n .

Построим график эмпирической функции распределения (рис.2.3).

3. X используем таблицу (2.5).

Таблица 2.5

Границы интервалов Середина интервала Частота
8,3 – 9,5 8,9 26,7 237,63
9,5 – 10,7 10,1 40,4 408,04
10,7 – 11,9 11,3 1276,9
11,9 – 13,1 12,5 1250,0
13,1 – 14,3 13,7 1876,9
14,3 – 15,5 14,9 44,7 666,03
15,5 – 16,7 16,1 64,4 1036,84
Сумма 526,2 6752,34

В формулу выборочного среднего подставляем сумму по четвертому столбцу (табл.2.5):

В формулу несмещенной выборочной дисперсии подставим сумму по пятому столбцу (табл.2.5):

Для вычисления оценок числовых характеристик для Y используем таблицу (2.6).

Таблица 2.6

Границы интервалов Середина интервала Частота
1,5 – 3,3 2,4 4,8 11,52
3,3 – 5,1 4,2 16,8 70,56
5,1 – 6,9 6,0
6,9 – 8,7 7,8 85,8 669,24
8,7 – 10,5 9,6 921,6
10,5 – 12,3 11,4 45,6 519,84
12,3 – 14,1 13,2 39,6 522,72
Сумма 336,6 3003,48

В формулу выборочного среднего подставляем сумму по четвертому столбцу (табл.2.6):

В формулу несмещенной выборочной дисперсии подставим сумму по пятому столбцу (табл.2.6):

Несмещенное выборочное среднее квадратичное отклонение:

4. Построим доверительные интервалы для математического ожидания и дисперсии для случайной величины X при доверительной вероятности β=0,95.

По таблице 4 приложений находим значение статистики Стьюдента для доверительной вероятности β=0,95 и числа степеней свободы k =42-1=41:

Половина длины доверительного интервала:

Подставляем полученные значения в формулу доверительного интервала для математического ожидания:

Для определения доверительного интервала для дисперсии по таблице 3 приложений найдем значение статистики χ 2 для уровня значимости α=1–β=1–0,95=0,05 и числа степеней свободы k =42-1=41:

Подставим найденные значения статистики χ 2 в формулу доверительного интервала для дисперсии:

Таким образом, истинные значения математического ожидания M (x )и дисперсии D (x ) попадают в полученные интервалы с вероятностью β=0,95.

5. Проверим гипотезу о нормальном распределении случайной величины X с помощью критерия Пирсона.

График полигона частот и гистограммы (внешняя схожесть с кривой Гаусса) позволяют предположить, что генеральная совокупность подчиняется нормальному закону распределения.

Выдвигаем основную гипотезу:

H 0: генеральная совокупность подчиняется нормальному закону распределения.

Тогда альтернативная гипотеза принимает вид:

H 1: закон распределения не является нормальным.

Задаемся уровнем значимости α=0,05.

Расширяя границы первого и последнего интервалов (табл. 2.3), результаты всех вычислений сводим в таблицу 2.7.

Таблица 2.7

Границы интервалов Частота
–∞ – 9,5 0,0618 0,022
9,5 – 10,7 0,11440
10,7 – 11,9 0,1983 8,3286 0,335
11,9 – 13,1 0,2396 10,0632 0,423
13,1 – 14,3 0,2218 9,9356 0,082
14,3 – 15,5 0,0986 0,018
15,5 – +∞ 0,0654
Сумма 1,0062 1,0000 0,88

В таблице 2.7 четвертый столбец представляет результаты вычислений теоретических вероятностей, найденных в предположении, что случайная величина подчиняется нормальному закону распределения, по формуле:

Значения функции Лапласа можно отыскать в таблице 2 приложения.

Найдем вероятности попадания в каждый интервал:

Теоретическая частота первых двух интервалов и последних двух меньше 5, поэтому объединяем их во втором и четвертом столбцах (табл. 2.7).

Пятый столбец (табл. 2.7) является результатом вычислений по формуле:

Не следует забывать, что первых два и последние два интервала объединены.

Таким образом, суммой пятого столбца (табл.2.7) является расчетное значение критерия:

Так как после объединения осталось 5 интервалов (l= 5), а по выборке определены оценки двух параметров, т.е. r =2, то число степеней свободы равно .По таблице 3 приложения найдем значение статистики для p =1–α=0,95 и k= 2:

Сравнивая полученные значения, видим, что

следовательно, гипотеза о нормальном распределении не отвергается.

6. Для проведения корреляционного анализа по данным выборки составим корреляционную таблицу (табл.2.8):

Таблица 2.8

Y Границы и середины интервалов для X
8,3–9,5 8,9 9,5–10,7 10,1 10,7–11,9 11,3 11,9–13,1 12,5 13,1–14,3 13,7 14,3–15,5 14,9 15,5–16,7 16,1
1,5–3,3 2,4
3,3–5,1 4,2
5,1–6,9 6,0
6,9–8,7 7,8
8,7–10,5 9,6
10,5–12,3 11,4
12,3–14,1 13,2

Используя полученные в пункте 3 оценки числовых характеристик, найдем выборочный корреляционный момент по формуле:

Предварительно вычислим сумму:

Выборочный коэффициент корреляции найдем по формуле:

Следует отметить, что близость выборочного коэффициента корреляции по модулю к единице является серьезным аргументом в пользу выбора линейной регрессионной модели.

7. Построим линейную регрессионную модель.

На основании метода наименьших квадратов получена линейная зависимость Y от X :

Подставляем полученные в пункте 3 оценки числовых характеристик:

Упростив выражение, окончательно получаем выборочное линейное уравнение регрессии:

Также можно построить уравнение зависимости X от Y :

Подставим полученные ранее оценки числовых характеристик:

Построим обе прямые линии на корреляционном поле (рис.2.4). Прямые линии пересекаются в точке . Угол между прямыми, так называемые «ножницы», получился острым, что полностью согласуется с полученным значением выборочного коэффициента корреляции.

Полученная регрессионная модель позволяет прогнозировать значение случайной величины Y от X , и наоборот.

Рис.2.4


Вопросы для самоконтроля

1. Приведите условия осуществимости схемы Бернулли?

2. В каких случаях формулу Бернулли заменяют приближенными формулами

3. Основные виды распределений и их числовые характеристики.

4. В чем заключаются основные задачи математической статистики?

5. В чем состоит принцип выборочного метода?

6. Понятие вариационного ряда, частоты и относительной частоты.

7. Понятие статистического распределения выборки и эмпирической функции распределения.

8. Описать способы графического изображения статистического распределения.

9. Какие характеристики распределения используются в математической статистике. Привести примеры и контекст их использования.

10. Укажите свойства статистических оценок. Какими из них обладают известные характеристики распределения выборки.

11. Понятие точности и надежности интервальных оценок.

12. Понятие статистической гипотезы. Привести основные виды статистических гипотез.

13.Сформулируйте основной алгоритм проверки статистической гипотезы.

14. Какие виды критических областей Вы знаете?

15. Ошибки первого и второго рода. Способы уменьшения вероятности появления ошибки.

16. Понятие статистической и корреляционной зависимости.

17. Основные задачи теории корреляции.

18. Выборочный коэффициент регрессии и его свойства.


Список литературы

1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.

2. Вентцель Е.С. Теория вероятностей. − М.: Высш. шк., 1998. − 578 с.

3. Вентцель, Е.С., Овчаров, Л.А. Теория вероятностей и ее инженерные приложения. -М.: Наука, 1988. - 480 с.

4. Вентцель, Е.С.Теория вероятностей: Учебник для вузов/Е.С.Венцель – 6-е изд., стереотип., - М.:Высшая шк. 1999. - 400 с.

5. Гмурман, В.Е.Теория вероятностей и математическая статистика: Учеб. пособие для вузов/В.Е.Гмурман – 9-е изд. стереотип., - М.:Высшая шк., 2003. - 479с.

6. Гмурман, В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие /В.Е.Гмурман – 5-е изд. стереотип., - М.:Высшая шк., 1999. - 400с.

7. Колде Я.К. Практикум по теории вероятностей и математической статистике. -М.: Высшая школа, 1991. - 157 с.

8. Колмогоров А.Н., Журбенко И.Г., Прохоров А.В. Введение в теорию вероятностей. -М.: Наука. Главная редакция физико-математической литературы, 1982. - 160 с.

9. Письменный, Д.Т.. Конспект лекций по теории вероятностей и математической статистики. – М.: Айрис-пресс, 2006. – 288с. – (Высшее образование).

10. Четыркин Е.М., Калихман И.Л. Вероятность и статистика. -М.: Финансы и статистика, 1982.- 319 с.

11. Чистяков В.П. Курс теории вероятностей. − М.: Наука, 1982.


ПРИЛОЖЕНИЯ

Таблица 1

Значения функции плотности стандартизированного нормального распределения N (0,1)

x 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,3989 0,3989 0,3989 0,3988 0,3986 0,3984 0,3982 0,3980 0,3977 0,3973
0,1 0,3970 0,3965 0,3961 0.3956 0,3951 0,3945 0,3939 0,3932 0,3925 0,3918
0,2 0,3910 0,3902 0,3894 0,3885 0,3876 0,3867 0,3857 0,3847 0,3836 0,3825
0,3 0,3814 0,3802 0,3790 0,3778 0,3765 0,3752 0,3739 0,3725 0,3712 0,3697
0,4 0,3683 0,3668 0,3653 0,3637 0,3621 0,3605 0,3589 0,3572 0,3555 0,3538
0,5 0,3521 0,3503 0,3485 0,3467 0,3448 0,3429 0,3410 0,3391 0,3372 0,3352
0,6 0,3332 0,3312 0,3292 0,3271 0,3251 0,3230 0,3209 0,3187 0,3166 0,3144
0,7 0,3123 0,3101 0,3079 0,3056 0,3034 0,3011 0,2989 0,2966 0,2943 0,2920
0,8 0,2897 0,2874 0,2850 0,2827 0,2803 0,2780 0,2756 0,2732 0,2709 0,2685
0,9 0,2661 0,2637 0,2613 0,2589 0,2565 0,2541 0,2516 0,2492 0,2468 0,2444
1,0 0,2420 0,2396 0,2371 0,2347 0,2323 0,2299 0,2275 0,2251 0,2227 0,2203
1,1 0,2179 0,2155 0,2131 0,2107 0,2083 0,2059 0,2036 0,2012 0,1989 0,1965
1,2 0,1942 0,1919 0,1859 0,1872 0,1849 0,1826 0,1804 0,1781 0,1758 0,1736
1,3 0,1714 0,1691 0,1669 0,1647 0,1626 0,1604 0,1582 0,1561 0,1539 0,1518
1,4 0,1497 0,1476 0,1456 0,1435 0,1415 0,1394 0,1374 0,1354 0,1334 0,1315
1,5 0,1295 0,1276 0,1257 0,1238 0,1219 0,1200 0,1182 0,1163 0,1145 0,1127
1,6 0,1109 0,1092 0,1074 0,1057 0,1040 0,1023 0,1006 0,0989 0,0973 0,0957
1,7 0,0940 0,0925 0,0909 0,0893 0,0878 0,0863 0,0848 0,0833 0,0818 0,0804
1,8 0,0790 0,0775 0,0761 0,0748 0,0734 0,0721 0,0707 0,0694 0,0681 0,0669
1,9 0,0656 0,0644 0,0632 0,0620 0,0608 0,0596 0,0584 0,0573 0,0562 0,0551
2,0 0,0540 0,0529 0,0519 0,0508 0,0498 0,0488 0,0478 0,0468 0,0459 0,0449
2,1 0,0440 0,0431 0,0422 0,0413 0,0404 0,0396 0,0387 0,0379 0,0371 0,0363
2,2 0,0355 0,0347 0,0339 0,0332 0,0325 0,0317 0,0310 0,0303 0,0297 0,0290
2,3 0,0283 0,0277 0,0270 0,0264 0,0258 0,0252 0,0246 0,0241 0,0235 0,0229
2,4 0,0224 0,0219 0,0213 0,0208 0,0203 0,0198 0,0194 0,0189 0,0184 0,0180
2,5 0,0175 0,0171 0,0167 0,0163 0,0158 0,0154 0,0151 0,0147 0,0143 0,0139
2,6 0,0136 0,0132 0,0129 0,0126 0,0122 0,0119 0,0116 0,0113 0,0110 0,0107
2,7 0,0104 0,0101 0,0099 0,0096 0,0093 0,0091 0,0088 0,0086 0,0084 0,0081
2,8 0,0079 0,0077 0,0075 0,0073 0,0071 0,0069 0,0067 0,0065 0,0063 0,0061
2,9 0,0060 0,0058 0,0056 0,0055 0,0053 0,0051 0,0050 0,0048 0,0047 0,0046
3,0 0,0044 0,0043 0,0042 0,0040 0,0039 0,0038 0,0037 0,0036 0,0035 0,0034
3,1 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 0,0025 0,0025
3,2 0,0024 0,0023 0,0022 0,0022 0,0021 0,0020 0,0020 0,0019 0,0018 0,0018
3,3 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 0,0013 0,0013
3,4 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010 0,0010 0,0009 0,0009
3.5 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007 0,0007 0,0007 0,0006
3.6 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005 0,0005 0,0005 0,0005 0,0004
3,7 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003 0,0003 0,0003 0,0003
3,8 0.0003 0,0003 0,0003 0,0003 0,0003 0,0002 0,0002 0,0002 0,0002 0,0002
3,9 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0001 0,0001
4.0 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
x 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

Таблица 2

Значение функции