Лекция_3.2.Числовые характеристики выборки

Тема 3.2.
ЧИСЛОВЫЕ
ХАРАКТЕРИСТИКИ ВЫБОРКИ

План лекции:

  1. Средние характеристики
    выборки

  2. Медиана и мода в
    вариационных рядах

  3. Дополнительные
    числовые характеристики выборки

Список литературы:

  1. Вентцель, Е.С.
    Теория вероятностей [Текст] / Е.С.
    Вентцель. – М.: Высшая школа, 2006. – 575 с.

  2. Гмурман, В.Е. Теория
    вероятностей и математическая статистика
    [Текст] / В.Е. Гмурман. — М.: Высшая школа,
    2007. — 480 с.

  3. Кремер, Н.Ш. Теория
    вероятностей и математическая статистика
    [Текст] / Н.Ш.
    Кремер — М: ЮНИТИ, 2002. – 543 с.

По результатам
выборочных наблюдений вычисляются
такие статистические выборочные
характеристики, как выборочные средняя,
дисперсия, среднее квадратичное
отклонение, коэффициент корреляции и
т.д. Эти характеристики определяют
соответствующие параметры генеральной
совокупности. Выборочные характеристики
представляют собой случайные величины,
зависящие от самой выборки.

п.1 Средние
характеристики выборки

Пусть x1,
x2,
…, xn
– выборка из генеральной совокупности
объёма n.

Выборочной
средней
(или
средним
значение выборки
)
называется среднее арифметическое
значение признака выборочной совокупности.

Если все значения
x1,
x2,
…, xn
признака выборки объема n
различны, то

.
(1)

Если все значения
признака x1,
x2,
…, xk
имеют соответственно частоты n1,
n2,
…, nk
, причем n1+n2+
…+nk=
n,
то

.
(2)

Если дано
распределение непрерывной случайной
величины, то вместо xi,
берут середину интервала, т.е.
.

Выборочной
дисперсией

называется среднее арифметическое
квадратов отклонения наблюдаемых
значений выборки от их среднего значения
.

Если все значения
x1,
x2,
…, xn
признака выборки объема n
различны, то

.
(3)

Если все значения
признака x1,
x2,
…, xk
имеют соответственно частоты n1,
n2,
…, nk
, причем n1+n2+
…+nk=
n,
то

.
(4)

Преобразуем формулу
(3):

.

Таким образом, для
вычисления выборочной дисперсии можно
пользоваться формулой:

.
(5)

Выборочная дисперсия
имеет систематическую ошибку, приводящую
к уменьшению дисперсии. Чтобы это
устранить вводят поправку, умножая DB
на
.
В результате получаютисправленную
(или модифицированную)
дисперсию:

.
(6)

Кроме дисперсии
для характеристики рассеяния значений
признака выборочной совокупности вокруг
своего среднего значения пользуются
сводной характеристикой – средним
квадратичным отклонением.

Выборочным
средним квадратичным отклонением

(стандартом)
называют квадратный корень из выборочной
дисперсии:

.
(7)

Отметим некоторые
важные свойства выборочных среднего и
дисперсии в виде теорем.

Теорема 1.
Сумма отклонений отдельных значений
xi
от их среднего
равно нулю:

.

Теорема 2.
Пусть X1,
X2,
…, Xn
– независимые одинаково распределённые
случайные величины, причём
,,.
Тогда для случайной величиныимеем:

,
.

Следствие.
Если X1,
X2,
…, Xn
– случайные величины, нормально
распределённые по закону
,
то случайная величинаимеет нормальное распределение.

При описании рядов,
в которых изучаемое свойство находится
в обратно-пропорциональной зависимости
от значений влияющего на него фактора,
используется средняя гармоническая.

Средней
гармонической

выборки называется величина обратная
средней арифметической из обратных
значений вариантов:

.
(8)

В некоторых
исследованиях требуется определить
среднюю величину так, чтобы при замене
ею каждого варианта, произведение
вариантов оставалось бы неизменным.
Для этих целей используется средняя
геометрическая.

Средней
геометрической

называется корень степени, равный числу
вариантов, из их произведения:

.
(9)

Средняя геометрическая
применяется для характеристики средних
темпов изменения какого-либо явления
за определённый период (ежегодный рост
числа читателей, среднегодовой прирост
объема фонда и т.п.).

Отклонение каждого
варианта от выборочного среднего
характеризуется абсолютной величиной
разности,
а весь ряд отклонений характеризует
вариацию признака в совокупности.

Средним линейным
отклонением

называется средняя арифметическая
абсолютных величин отклонений вариантов
от их выборочной средней:

.
(10)

п.2 Медиана и мода
в вариационных рядах

Кроме рассмотренных
средних, в качестве общих характеристик
признака могут быть использованы
величины конкретных вариантов, занимающих
в ранжированном ряду индивидуальных
значений признака определённое положение.
Особенно часто прибегают для общей
характеристики признака к двум таким
вариантам: моде и медиане.

Медианой
Ме
называется вариант, стоящий в центре
ранжированного ряда, так что число
вариант совокупности с большим и меньшим,
чем медиана, значением признака одинаково.

Пусть имеется
дискретный вариационный ряд. Если всем
вариантам ряда придать порядковые
номера, то номер медианы в ряду с нечётным
числом членов n
определится как
.
Так, в ряду из 51 варианта номер медианы,
т.е. медианой является вариант, стоящий
в ряду двадцатьшестым по порядку.

Если же вариантов
чётное число, то медиану приходится
определить как среднюю из двух центральных
вариантов, порядковые номера которых
и.
Так, если в ряду 50 вариантов, то в центре
стоят варианты с порядковыми номерамиии медиана должна быть получена как
средняя из величин этих вариантов.
Однако если объем выборки достаточно
большой и различия между вариантами
небольшие, то можно считать медианой
(с достаточной степенью точности) один
из центральных вариантов с порядковым
номером.

Для интервального
распределения сначала находят медианный
интервал
().
Номер его будет соответствовать
интервалу, кумулятивная частота которого
равна или превышает половину суммы
частот:

.
(11)

В случае выполнения
равенства, стоящего в левой части формулы
(11) номер медианного интервала равен l,
в противном случае – l+1.
Медиану вычисляют по формуле:

,
(12)

где l
– порядковый номер интервала, где
находится медиана, h
– величина медианного интервала,
— накопленная частота домедианного
интервала,— частота медианного интервала.

Модой Мо
называется наиболее часто встречающаяся
в совокупности величина варианта.

Для дискретного
ряда мода определяется как значение
признака с наибольшей частотой. В случае
непрерывной вариации определяют
модальный интервал
,
т.е. интервал, которому соответствует
наибольшая частота.
Мода вычисляется по формуле:

,
(13)

где nl-1
и nl+1
– частоты, которые находят в соответствии
с предмодальным и послемодальным
интервалами.

п. 3 Дополнительные
числовые характеристики выборки

Для сравнения меры
рассеяния значений признаков около
выборочной средней в разных выборках
служит коэффициент вариации. Наиболее
распространены следующие коэффициенты:

коэффициент
вариации по среднему линейному отклонению

,
(14)

коэффициент
вариации по среднему квадратичному
отклонению

.
(15)

Особо часто
употребляется последний коэффициент,
и поэтому именно его иногда называют
коэффициентом вариации без добавления
показателя.

Таким образом,
будем считать, что коэффициентом
вариации
v
называется отношение выборочного
среднего квадратичного отклонения к
выборочной средней, выраженное в
процентах:

.
(16)

Простейшей мерой
рассеяния случайной величины является
размах выборки.

Размах выборки
R
это разность между наибольшим и наименьшим
значениями выборки:

.
(17)

Выражения

,
(18)

,
(19)

называются r-тым
центральным
и начальным моментами

соответственно. Заметим, что
,.

Асимметрией
выборки

называется число

.
(20)

Эксцессом выборки
называется число

.
(21)

Асимметрия и
эксцесс являются характеристиками
отклонения эмпирического (опытного)
распределения от нормального распределения.
Говорят, что асимметрия эмпирического
распределения положительна (отрицательна),
если его главная часть, т.е. максимум,
концентрируется с левой (правой) стороны
от нормального распределения (см. Рисунок
1).

Если же максимум
эмпирического распределения расположен
выше (ниже), чем у нормального, то говорят,
что эмпирическое распределение имеет
положительный (отрицательный) эксцесс.

Если в генеральной
совокупности рассматриваются одновременно
два признака X
и Y,
например рост и масса человека в данной
группе людей, то для характеристики их
взаимосвязи вводится понятие ковариации
cov(X,Y):

,
(22)

здесь xi,
yi
– отдельные значения в соответствующих
выборках.

Преобразуем формулу
(22):

,

где
— выборочное среднее произведения
случайных величинX
и Y.
Таким образом,

.
(23)

Ковариация может
быть положительной, отрицательной или
равной нулю. Если большим (малым) значениям
xi
соответствуют большие (малые) значения
yi,
то cov(X,Y)>0.
Говорят, что в этом случае между признаками
X
и Y
существует положительная
корреляция
.
Если же большим (малым) значениям xi
соответствуют малые (большие) значения
yi,
то cov(X,Y)<0.
В этом случае говорят, что между признаками
X
и Y
существует отрицательная
корреляция
.
При cov(X,Y)=0
между признаками X
и Y
корреляция отсутствует.

7

Leave a Comment