Главная   страница 1страница 2страница 3


Дополнительные задачи

по курсу «Математическая статистика»

  1. Предположим, что независимо раз кидается монетка с вероятностью выпадения орла в каждом опыте, равной т.е. Сколько раз нужно кинуть монетку (оцените ), чтобы оценка (выборочное среднее) , где , с вероятностью, не меньшей, чем , отличалась от истинного значения не более чем на величину ? Применить неравенство Чебышева и предельную теорему (точность, которую дает ц.п.т., оцените с помощью неравенства Берри–Эссена). Сравнить результаты. Является ли оценкой максимального правдоподобия? Состоятельной? Оптимальной (эффективной)?

  2. В некоторой стране прошел второй тур выборов. Выбор был между двумя кандидатами A и B (графы “против всех” на этих выборах не было). Сколько человек надо опросить на выходе с избирательных участков, чтобы, исходя из ответов, можно было определить долю проголосовавших за кандидата A с точностью 1% и с вероятностью, не меньшей 0,9?

  3. Любопытный студент швейного техникума решил повторить опыты Бюффона по бросанию иглы (студент хочет оценить число ). Для этого он подготовил горизонтально расположенный лист бумаги, разлинованный параллельными прямыми так, что расстояние между соседними прямыми равно 1. Однако в распоряжении студента оказалась только погнутая иголка. Иголка имеет форму кочерги, но студент не имеет точного представления о том, как именно погнута иголка. Ему известно лишь то, что длина иголки равна 2. Студент бросил погнутую иголку 1 000 000 раз и посчитал суммарное число пересечений, учитывая кратность. Помогите студенту оценить число : а) с помощью неравенства Чебышева; б)* с помощью з.б.ч. (закона больших чисел) и неравенств о вероятностях больших уклонений; в) с помощью ц.п.т. (центральной предельной теоремы) и оценок скорости сходимости в ц.п.т., например, с помощью неравенства Берри–Эссена или более точных аппроксимаций.

  4. В некотором вузе проходит экзамен. Количество экзаменационных билетов . Перед экзаменационной аудиторией выстроилась очередь из студентов, которые не знают чему равно . Согласно этой очереди студенты вызываются на экзамен (второй студент заходит в аудиторию, после того как из нее выйдет первый, и т.д.). Каждый студент с равной вероятностью может выбрать любой из билетов (в независимости от других студентов). Проэкзаменованные студенты, выходя из аудитории, сообщают оставшейся очереди номера своих билетов. Оцените (сверху), сколько студентов должно быть проэкзаменовано, чтобы оставшаяся к этому моменту очередь смогла оценить число экзаменационных билетов с точностью 10% с вероятностью, не меньшей 0,95.

  5. (Метод Монте-Карло.) Используя методы математической статистики, предложите эффективный способ вычисления с заданной точностью и с заданной доверительной вероятностью абсолютно сходящегося интеграла . Считайте, что .

Пояснение. Введем случайный m-вектор и с.в. . Тогда . Поэтому получаем оценку интеграла , где , – повторная выборка значений случайного вектора (т.е. все , – независимы и одинаково распределены: так же как и вектор ). В задаче требуется оценить сверху число ( ), начиная с которого .

  1. (Распределение Коши.) На плоскости на расстоянии (неизвестный параметр) от детектирующей прямой располагается радиоактивный источник, который излучает вспышками равновероятно по любому направлению в этой плоскости. Пусть – вектор координат вспышек, регистрируемых детектором. Требуется построить по такой простой выборке состоятельную оценку координаты проекции источника на детектирующую прямую.

  2. Пусть имеется простая выборка из равномерного распределения на отрезке , т.е. . Как из этой выборки получить простую выборку (того же объема) из стандартного нормального распределения ? Как из простой выборки из распределения получить простую выборку из распределения ? Считайте длину мантиссы конечной, т.е. любое действительное число из отрезка мы округляем, оставляя в двоичным представлении этого числа лишь фиксированное число слагаемых .

  3. Пусть имеется простая выборка из распределения с неизвестной гладкой плотностью , сосредоточенной на некотором отрезке. Покажите, что для оценки плотности распределения методом гистограмм с одинаковой длиной интервалов (где функция плотности распределения на рассматриваемом интервале приближается константой, равной числу наблюдений, попавших в этот интервал, нормированной на общее число наблюдений и ширину интервала) “оптимально” выбирать число интервалов (оценка Н. В. Смирнова). При этом относительная погрешность такой аппроксимации1 оценивается как . Если вместо метода гистограмм использовать метод полигона частот (при котором прямыми линями соединяются середины прямоугольных ступенек и затем неизвестная плотность приближается получающимися трапециями), то . Отметим, что такую же оценку дает и ядерный метод оценки плотности Розенблатта–Парзена.

  4. В методе Н. Н. Ченцова неизвестная плотность ищется в виде ряда по ортонормированной в системе функций . При этом оценки вычисляются по простой выборке из распределения с плотностью с помощью формулы Покажите, что оценка относительной погрешности по методу Ченцова (с базисными функциями) имеет вид . Заметим, что не существует методов оценки неизвестной функции плотности, имеющих большую скорость убывания погрешности по .

  5. Пусть простая выборка объема из распределения . Покажите, что в случае, когда непрерывная функция, распределение статистики

не зависит от того, какая именно функция .

Здесь – эмпирическая функция распределения:

,

В действительности, подобный результат будет справедлив и для широкого класса статистик (т.е. измеримого функционала) от .2



Указание. Положим по определению

для ,

где последнее равенство имеет место в силу непрерывности . Понятно, что это отнюдь не единственный способ выбора однозначной функции из, вообще говоря, многозначного отображения , однако именно такое определение окажется наиболее полезным в дальнейшем. Положим , тогда пробегает как минимум все точки интервала (а как максимум – отрезка ), когда пробегает .3 Делая замену и используя определение , получим .4 Далее имеем



Остается показать эквивалентность событий



.

Сделайте это, завершив тем самым доказательство сформулированного утверждения.



  1. Дана простая выборка . Имеются две гипотезы:

, .

Постройте с уровнем значимости наиболее мощный критерий (Неймана–Пирсона) проверки гипотезы против альтернативы в случае:

а) ; б) .


  1. *Экспериментатор располагает монеткой, относительно которой имеются две гипотезы: и Задавшись уровнями ошибок первого и второго рода , предложите алгоритм, минимизирующий одновременно

и ,

где с.в. – число бросаний монетки до момента остановки. В момент остановки экспериментатор выбирает одну из альтернатив, при этом допускаемые им ошибки:



, .

  1. Даны простых выборок (взаимно независимых) объемами , …, из распределений , …, . С помощью асимптотического ( ) критерия отношения правдоподобия (КОП) с уровнем значимости проверить гипотезу однородности ( не верна).

  2. До проведения схемы испытаний Бернулли разыгрывается с.в. имеющая равномерное распределение на отрезке (результаты розыгрыша нам неизвестны). После того как эта с.в. была разыграна, начинают проводиться опыты по схеме Бернулли (независимо раз подкидывается монетка) с вероятность успеха (выпадения «орла») в каждом опыте, равной (после того как с.в. была разыграна, она уже приняла какое-то значения из отрезка и рассматривается в серии опытов Бернулли уже как число, причем не меняющееся от опыта к опыту). В результате опыта было посчитано значение числа успехов . Оцените по методу максимума апостериорной вероятности значение Как изменится ответ, если точное значение числа успехов нам неизвестно? Известно только, что .

  3. (Робастные оценки, M-оценки.)* Дана простая выборка . Известно, что – считаем нормальные случайные величины в этой сумме независимыми. Значение параметра известно и считается довольно большим. Значение параметра отвечающего за “помехи”, неизвестно, но считается, что где известно и достаточно мало. Постройте минимаксную оценку
    (П. Хьюбера) неизвестного параметра о котором априорно ничего неизвестно. Если дополнительно искать оптимальную оценку в классе усеченных оценок или в классе M-оценок Винзора:

, ,

то разумно ли выбирать для усеченной оценки? Как следует выбрать для оценки Винзора?



  1. Пусть дано геометрическое распределение с параметром . В n-м опыте, где пробегает натуральный ряд, экспериментатор может лишь ответить на вопрос: выполняется неравенство или нет? Исследовать с помощью МНП теоремы, если возможно, асимптотическое поведение МНП оценки, в случае когда

1) ; 2)* и 3) .

  1. Пусть Покажите, что Исходя из этого свойства, постройте доверительный интервал для простой выборки из распределения с неизвестным параметром .

  2. В модели Блэка–Шоулса–Мертона эволюция цены акции описывается геометрическим броуновским движением:

,

где винеровский процесс С помощью эргодической теоремы для случайных процессов оцените неизвестный параметр , если известна реализация процесса на достаточно длинном временном отрезке . Предложите способ оценки неизвестного параметра .



  1. Закон Хаббла в астрономии гласит: “скорость удаления галактики прямо пропорциональна (с коэффициентом пропорциональности – постоянная Хаббла) расстоянию до неё ”. Будем считать, что ошибки измерений некоррелированы, не имеют систематической ошибки и одинаково распределены по нормальному закону, т.е. имеет место “нормальная регрессия”:

, ( и – известны).

а) Предложите формулу для параметра (ответ аргументируйте).

б) Постройте -доверительный интервал для параметра , если известно.

в) Постройте -доверительный интервал для параметра , если неизвестно.



  1. (Метод спейсингов.) Пусть – простая выборка объема из распределения , где – неизвестный параметр (возможно векторный). Один из способов оценивания заключается в следующем:

где


С.в. называют долями выборки .

Для выборки из равномерного распределения на получите оценки параметров и :

а) методом максимального правдоподобия;

б) методом спейсингов.

Являются ли полученные оценки несмещенными?



  1. Пусть – простая выборка из равномерного распределения на . Используя точечную оценку для параметра , постройте -доверительный интервал. Сравните с доверительным интервалом, построенным на основе центральной статистики.

  2. (Гипотеза независимости двух выборок; метод ранговых сумм Уилкоксона.) Пусть – простая выборка из непрерывного распределения , – простая выборка из непрерывного распределения . Все компоненты случайного вектора

независимы в совокупности. Для тестирования основной гипотезы



против альтернативы доминирования



(т.е. с.в. стохастически больше с.в. )

воспользуйтесь асимптотически нормальной (при справедливости основной гипотезы) статистикой

.

Указание.

Покажите, что если справедлива основная гипотеза, то



, .

  1. (Парадокс критерия хи-квадрат.) Ниже приведены три таблицы, в которых отражено действие некоторого лекарства (способа лечения) только на мужчин, только на женщин, и, наконец, на больных обоего пола (объединенные результаты).


МужчиныВызд.Не вызд.Приним. лек-во700800Не приним. лек-во80130

ЖенциныВызд.Не вызд.Приним. лек-во15070Не приним. лек-во400280ВместеВызд.Не вызд.Приним. лек-во850870Не приним. лек-во480410Примените критерий хи-квадрат для тестирования гипотезы однородности (проверка эффективности лекарства) для каждой из таблиц.

Заметьте, что, судя по третьей таблице, доля выздоровевших среди тех людей, что не принимали лекарство, больше.

Объясните полученные результаты.


  1. Карта южной части Лондона была разбита на небольших участков, каждый площадью
    0,25 кв.км. На карте были отмечены места падения самолетов-снарядов во время Второй мировой войны. В таблице приведены количества участков ровно с падениями, .



01234567

22921193357001
Проверьте гипотезу о низкой точности стрельбы.

Комментарии. Имеется в виду, что в силу большого количества участков вероятность попадания на отдельный участок самолета-снаряда мала, значит, при справедливости гипотезы о низкой точности стрельбы можно воспользоваться законом редких событий, согласно которому число попаданий на любой из участков есть (приближенно) пуассоновская с.в. с некоторым общим для всех участков параметром . Попадания на разные участки независимы.

Указание. Прежде чем применять критерий хи-квадрат для сложной гипотезы, постарайтесь правильно разбить данные на интервалы (вспомните условия применения критерия), в качестве первоначальной оценки вероятности попадания в отдельный интервал воспользуйтесь приближением для неизвестного параметра

  1. (Метод «складного ножа» первого порядка.) Пусть – некоторая смещенная оценка параметра по выборке объема . Пусть смещение этой оценки имеет вид

Рассмотрим оценку



где .

Покажите, что смещение этой оценки не содержит членов порядка

Примените метод «складного ножа» для построения новой (вообще говоря, уже несмещенной) оценки дисперсии по оценке максимального правдоподобия для выборки из нормального распределения



  1. Пусть с.в. независимые с.в. ( независимых простых выборок объема ), . Для проверки гипотезы ( не верна) с уровнем значимости воспользуйтесь статистикой:

где

Покажите, что при справедливости гипотезы статистика имеет распределение (Фишера–Снедекора).


  1. Пусть есть группа из человек ( ), каждый из них может быть потенциально болен. Для выявления болезни человеку делают анализ крови.

Методика: смешиваются пробы крови человек, и анализируется полученная смесь. Если антител нет, то одной проверки достаточно для человек. В противном случае кровь каждого человека нужно исследовать отдельно, и для человек всего потребуется раз провести анализ.

Вероятностная модель: предположим, что вероятность обнаружения антител ( ) одна и та же для всех обследуемых, и результаты анализов для различных людей независимы, т.е. моделью является последовательность из испытаний Бернулли с вероятностью «успеха» .

Покажите, что предложенная методика позволяет выявить всех больных при числе проверок (анализов) в среднем в несколько раз меньшем, чем общее число людей.



Указание. Определите размер группы , минимизирующий среднее число проверок. Покажите, что если то в среднем потребуется приблизительно в пять раз меньше проверок, чем общее число людей.

Теоретические вопросы

  1. Получите обоснование критериев независимости и однородности с помощью доказательства теоремы Крамера (параметрический ), приведенного в [6, п. 30.3].

  2. Покажите, что в наиболее мощном решающем правиле (Неймана–Пирсона):

, где ,

и следует определять из условия (ошибкой первого рода):

(*)

Причем определяется единственным образом, а от того как выбирать , удовлетворяющее (*), не зависит ошибка второго рода:



Всегда ли можно искать в виде константы ?



  1. Поясните, почему в последовательном анализе Вальда “считают”, что имеют место следующие приближенные равенства [1]:



  1. Формализуйте и обоснуйте следующее утверждение: “равномерно наиболее мощному критерию проверки простой гипотезы против двусторонней сложной альтернативы соответствует равномерно наикратчайший доверительный интервал, и наоборот”.5

  2. Всегда ли существует несмещенная оценка, МНП-оценка, эффективная оценка, оптимальная оценка? Приведите примеры.

  3. Покажите, что если существует эффективная оценка, то МНП-оценка совпадает с ней.

  4. а) Предложите способ построения асимптотически наикратчайших доверительных интервалов (областей) с помощью теоремы об асимптотических свойствах МНП оценок. б)* Как можно использовать теорему об асимптотических свойствах критерия отношения правдоподобия (КОП) из [2] для построения доверительных областей?

Исследовательские задачи

  1. (Асимптотически оптимальные адаптивные правила.)6 Имеется два “одноруких бандита” (так называют игровые автоматы с ручкой, дергая за которую получаем случайный выигрыш). Вероятность выиграть на первом автомате , а на втором . Обе вероятности не известны. Игрок может в любом порядке раз дергать за ручки “одноруких бандитов”. Стратегией игрока является выбор ручки на каждом шаге, в зависимости от результатов всех предыдущих шагов, так чтобы суммарный выигрыш был бы максимальным. Приведите асимптотически оптимальную стратегию игрока.

Решите предыдущую задачу, если выигрыш есть случайная величина с распределением из экспоненциального семейства, зависящего от неизвестного параметра . Хотя значения и (для 1-го и 2-го игрового автомата) неизвестны, но, не ограничивая общности, считайте, что . Выигрышем является сумма выигрышей во всех розыгрышах.

  1. (Markov Chain Monte Carlo Revolution.)7 В руки опытных криптографов попалось закодированное письмо (10 000 символов). Чтобы это письмо прочитать, нужно его декодировать. Для этого берется стохастическая матрица переходных вероятностей (линейный размер которой определяется числом возможных символов (букв, знаков препинания и т.п.) в языке, на котором до шифрования было написано письмо – этот язык известен и далее будет называться базовым), в которой отвечает за вероятность появления символа с номером сразу после символа под номером . Такая матрица может быть идентифицирована с помощью статистического анализ какого-нибудь большого текста, скажем, «Войны и мира»
    Л. Н. Толстого.

Пускай способ (де)шифрования определяется некоторой, неизвестной, функцией – преобразование (перестановка) множества кодовых букв во множество символов базового языка.

В качестве «начального приближения» выбирается какая-то функция , например, полученная исходя из легко осуществимого частотного анализа. Далее рассчитывается вероятность выпадения полученного закодированного текста , сгенерированного при заданной функции (функция правдоподобия):



.

Случайно выбирается два аргумента у функции и значения функции при этих аргументах меняются местами. Если в результате получилась такая , что , то , иначе независимо бросается монетка с вероятностью выпадения орла , и если выпадает орёл, то , иначе . Далее процедура повторяется.

Объясните, почему предложенный алгоритм “сходится” именно к ? Почему сходимость оказывается такой быстрой (0,01 с на современном PC)?


  1. (Оценка вероятности переобучения.)8 Пусть – простая выборка из распределения с функцией распределения . Элементами этой выборки могут быть, например, векторы. Пусть – некоторый абстрактный параметр, – некоторая функция, измеримая при всех относительно меры . Далее

, .

Рассмотрим систему событий вида для всевозможных значений и . Обозначим – число (бинарных) решающих правил класса , по-разному классифицирующих объекты заданной выборки.9 Введем функцию роста где максимум берется по всем

последовательностям длины . Покажите, что



Замечание.

Заметим, что для любой системы событий имеет место



или

т.е.

Минимально возможное значение принято называть размерностью ВапникаЧервоненкиса (VC-размерность). Однако А. Я. Червоненкис предлагает называть её комбинаторной размерностью Так, например, для множества всевозможных линейных решающих правил в пространстве размерности комбинаторная размерность равна Если то говорят, что комбинаторная размерность бесконечна. Для рассматриваемого в задаче случая достаточным условием конечности комбинаторной размерности, как следствие равномерной сходимости с ростом объема выборки к является условие, что – компакт, непрерывна по где



<< предыдущая страница   следующая страница >>
Смотрите также:
Программа учебного курса «Математическая статистика»…
1191.01kb.
Программа дисциплины «Теория вероятностей и математическая статистика»
108kb.
Программа вступительного экзамена в аспирантуру по специальности 01. 01. 05 «Теория вероятностей и математическая статистика»
33.57kb.
Ректор Иргупс
48.03kb.
Программа специального курса «археологический рисунок»
106.4kb.
Рабочая программа по предмету «Литература» для основной школы предназначена для учащихся 5-9 -х классов
782.4kb.
Вопросы по курсу «Теория вероятностей и математическая статистика»
32.64kb.
Программа учебного курса
1260.92kb.
Программа учебного курса россия и мир
22.99kb.
План лекционного курса «Механика. Молекулярная физика» для групп Ц2-10-1, см-10-1, см-10-4 в весеннем семестре 2010/2011 г
69.28kb.
Зубарева И. И., Лепешонкова И. П., Мильштейн М. С. Математика: 6 класс. Самостоятельные работы
763.14kb.
Примерная программа комплексного учебного курса «Основы религиозных культур и светской этики» (34 часа)
134.19kb.