close

Вход

Забыли?

вход по аккаунту

?

205.343 Компьютерный практикум в пакете STATISTICA

код для вставкиСкачать
Федеральное агентство по образованию
Государственное образовательное учреждение
высшего профессионального образования
Воронежский государственный архитектурно-строительный университет
Кафедра управления строительством
343
КОМПЬЮТЕРНЫЙ ПРАКТИКУМ
В ПАКЕТЕ STATISTICA
Методические указания к выполнению лабораторных работ
для студентов специальности
200503 “Стандартизация и сертификация”,
080507 «Менеджмент организации»,
080502 «Экономика и управление на предприятии (строительство)»,
080801 «Прикладная информатика в экономике»
Воронеж 2009
УДК 519.2
ББК 32.973
Составитель:
Т. В. Мещерякова
Рецензент:
В. В. Гасилов, докт. экон. наук, проф.,
зав. каф. экономики строительства ГОУВПО ВГАСУ
Печатается по решению редакционно-издательского совета
Воронежского государственного архитектурно-строительного
университета
Компьютерный практикум в пакете STATISTICA: метод. указания к
выполнению лаб. работ для студ. спец. 20050 3 / Т.В. Мещерякова ; Воронеж.
гос. арх.-строит. ун-т. – Воронеж, 2009. - 48 с.
Приводятся краткие теоретические сведения современного анализа данных и статистики, а также алгоритмы решений задач в пакете STATISTICA.
Предназначены для студентов 3 курса специальности 200503“Стандартизация и сертификация” дневной формы обучения.
Ил. 38. Табл. 8. Библиогр.: 4 назв.
УДК 519.2
ББК 32.973
ВВЕДЕНИЕ
При решении задач, связанных с анализом данных при наличии случайных и непредсказуемых воздействий, математиками и другими исследователями (экономистами, социологами, биологами, психологами и т.д.) за последние
два века был выработан мощный и гибкий арсенал методов, называемых в совокупности анализом данных (а также математической статистикой или прикладной статистикой). Эти методы позволяют выявлять закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, давать оценки вероятности их выполнения или невыполнения.
Для успешного функционирования в условиях жесткой конкуренции
фирмы, банки, строительные компании и т.д. нуждаются в тщательном анализе
имеющейся информации и получении из нее надежных и обоснованных выводов. Потребность в средствах статистического анализа очень велика, что служит причиной развития рынка статистических программ. Различные по объему
и качеству реализованной статистики, области применения, пользовательскому
интерфейсу, цене, требованиям к оборудованию и т.п., эти пакеты программ
отражают многообразие потребностей обработки данных в различных областях
человеческой деятельности.
Пакет программ STATISTICA является пакетом общего назначения, данный вид программ наиболее распространен на рынке. Его отличает отсутствие
прямой ориентации на специфическую предметную область, широкий диапазон
статистических методов, дружелюбный интерфейс. Универсальность STATISTICA особенно полезна на начальных этапах обработки данных, когда речь
идет о подборе статистической модели или метода анализа данных, а также в
процессе обучения основам статистики.
Лабораторная работа 1
ВВЕДЕНИЕ В ПАКЕТ STATISTICA
Цель работы – приобрести основные навыки работы в пакете программ
STATISTICA - освоить способы создания и открытия файлов, ввода и редактирования данных.
Пакет STATISTICA представляет собой интегрированную систему статистического анализа и обработки данных. Он состоит из 5 компонентов:
1) электронных таблиц для ввода и задания исходных данных, а также
специальных таблиц для вывода результатов статистического анализа;
2) графической системы визуализации данных и результатов статистического анализа;
3) набора статистических модулей, в которых собраны группы логически
связанных между собой статистических процедур;
3
4) специального инструментария для подготовки отчетов;
5) встроенных языков программирования, позволяющих расширить стандартные возможности системы.
В любом конкретном модуле можно выполнить определенный способ
статистической обработки, не обращаясь к процедурам других модулей. Переключаться между модулями можно, как между обычными Windowsприложениями, выбирая их на панели переключателей модулей щелчком
мыши.
Графические возможности доступны в любом статистическом модуле на
любом шаге анализа.
Открытие, хранение и создание файлов данных в системе
STATISTICA
Запустить систему STATISTICA можно с помощью кнопки Пуск и выбора вменю курсором мыши команды Программы. В появившемся меню выбрать STATISTICA. После этого на экране компьютера появится Стартовая
панель модуля. Отказаться от предлагаемого сервиса услуг можно, нажав CANCEL.Стартовая панель исчезнет, открыв Рабочее окно системы STATISTICA.
Рабочее окно системы STATISTICA имеет следующую структуру:
1.
Верхний заголовок в рабочем окне STATISTICA является названием запущенного модуля. Далее: строка меню, панель инструментов, рабочая
область. В рабочую область выводятся все документы системы, которые получаются в процессе анализа.
2.
Меню занимает вторую строку основного окна модуля и содержит в
себе систему выпадающих меню. Ряд пунктов меню, таких как File(Файл), Edit
(Правка), View (Buд), Windows (Oкнo), Не1р (Справка), стандартен для
Windows. Пункт Statistics специфичен для STATISTICA. Он позволяет среди
прочих услуг вызвать стартовую панель (Startup Panel) модуля, находясь в этом
модуле.
После того как пункт меню выбран, в нем можно инициировать необходимую команду различными способами:
•
щелкнуть на имени команды мышью;
•
нажать на клавишу с буквой, которая подчеркнута в названии команды;
•
воспользоваться стрелками {вверх} и {вниз} для выбора нужной
команды и клавишей Enter.
3.
Панель инструментов занимает третью и четвертую строчку рабочего окна и располагается ниже строки меню.
Панель инструментов содержит кнопки для быстрого доступа к наиболее часто используемым командам меню. При помощи щелчка мышью на
какой-либо кнопке можно получить быстрый доступ к соответствующей
команде. Каждому типу документа STATISTICA соответствует своя панель
4
инструментов.
Файлы STATISTICA с исходными данными имеют расширение sta. При
запусках автоматически открывается последний файл, с которым работали в
системе. В рабочей области может находиться только один файл с исходными
данными (однако может быть неограниченное число файлов с промежуточными значениями и графиков).
Открываются файлы стандартным для Windows способом. В строке меню
выбирается пункт File (Файл). После щелчка левой кнопкой мыши в спустившемся меню выбираем команду Open (Open Data), далее в каталоге выделяется
имя файла и нажимается кнопка ОК.
Исходные данные в системе STATISTICA организованы в виде электронной таблицы.
Столбцы электронной таблицы с исходными данными называются Variables (Пepeменные), а строки – Cases (Случаи). В качестве переменных обычно выступают исследуемые величины, а случаи - это значения, которые принимают переменные в отдельных измерениях.
Электронные таблицы могут содержать и численную, и текстовую информацию. Они поддерживают различные типы операций с данными.
Размер таблицы по умолчанию принят 10*10 (10 переменных с именами
VAR1, VAR2, VAR3 ,..., VAR10 и 10 пронумерованных случаев).
Размер таблицы (число строк и столбцов) можно увеличивать и уменьшать. Число столбцов регулируется кнопкой Vars (Переменные). После нажатия
кнопки Vars на панели инструментов в выпадающем меню выбирают одну из
команд: Delete Variable (удалить переменные) или Add Variable (Добавить переменные). Аналогично регулируется кнопкой Cases (Cлучаи) число случаев.
Можно задавать заголовок таблицы, имена переменных и случаев. В качестве
имен случаев можно использовать либо числа, либо текст, либо дату. Свойства
переменной (имя, формат, код пропущенных значений, метка, формула для вычисления или связь) называют спецификацией переменной и устанавливают с
помощью команды All Specs (Bce спецификации) или Current Specs (Текущие
спецификации). Эти команды доступны после нажатия кнопки Vars (Перемённые) на панели инструментов или правой кнопки мыши. Переменные и случаи
можно также копировать (Сору), удалять (Delete) и пр.
Выполнение заданий в пакете STATISTICA
Пример. Создать файл Gemat.sta 6v*15c с результатами воздействия лекарства «каптоприл» на кровяное давление. Исходные данные содержатся в
таблице (рис. 1).
5
Рис. 1. Кровяное давление (в мм. ртутного столба) до и после приема каптоприла
В диалоговом окне выберите команду New (NewData). Задайте размер
таблицы: Number of variables: 6, Number of cases: 15 ОК.
На экране появится пустая электронная таблица размером 6x15.
Шаг 1. Настройка размеров таблицы.
Если мы нажали ОК до того, как задали размеры таблицы, то по умолчанию откроется таблица размером 10х10. Для изменения количества столбцов и
строк соответственно рассматриваемой задаче, нужно удалить лишние 4 переменных и добавить 5 случаев.
Нажмите кнопку Vars (Переменные) на панели инструментов и выберите
команду Delete (Удалить). В диалоговом окне Delete Variables(удаление переменных) укажите диапазон удаляемых переменных:
From variable: VAR 7 (Начиная с переменной VAR 7).
То Variable: VAR10 (По переменную VAR 10). ОК.
Далее нужно к указанным 10 случаям (Cases) добавить 5.
Нажмите кнопку Cases (Случаи) на панели инструментов и выберите команду Add (Добавить). В появившемся окне сделайте установки:
Number of Cases to Add или How many?: 5 (5 случаев).
Insert After Case: 10
(После случая: 10)
Шаг 2. Оформление заголовка таблицы.
Кликните на белом фоне в таблице под строкой Data : Getтat.sta 6v*15c
(Spreadsheet1) и введите заголовок таблицы: КРОВЯНОЕ ДАВЛЕНИЕ.
Шаг 3. Задание имен переменных.
Дважды кликните в клетке VAR1 электронной таблицы или сделайте выбор Variable Specs... В поле Name (Имя) открывшегося окна напишите: ниж до.
Нажмите кнопку », переменной VAR2 присвойте имя ниж пос, », переменной
6
VAR4 присвойте имя верх до, », переменной VAR5 присвойте имя верх пос. Переменным VAR3, VAR6 присвойте имя разность.
Шаг 4. Ввод данных в электронную таблицу.
Введите данные в электронную таблицу с клавиатуры. Значения переменных VAR3 и VAR6 не вводите.
Шаг 5. Вычисление значений переменной по формуле.
Дважды кликните в клетке VAR3 электронной таблицы или сделайте выбор Variable Specs... В поле Long Name запишите формулу для вычисления:
=v2-v1 OK.
Аналогичным образом вычисляются и вводятся значения VAR6. (Этим
переменным можно присвоить имя разность). (VariableSpecs... Naте).
Шаг 6. Сохранение файла данных.
Для сохранения файла Gemat.sta. 6v*15c выберите команды в верхней
строке экрана File/Save (Save As) (Сохранить данные), в открывшемся окне в
строке Имя файла наберите Gemat и щелкните по команде Сохранить. В
дальнейшем, чтобы сохранить изменения, вносимые в файл, достаточно выбрать File/Save или можно также сохранить, набрав на клавиатуре CTRL+S.
Еще один пример: Создайте файл данных, как показано ниже. В файле содержатся результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и состояния уровня тревожности. Первая переменная СЕМ_ПОЛ описывает семейное положение женщины. Эта переменная принимает два значения: П_семья – полная семья, Н_семья – неполная семья (рис. 2).
Рис. 2. Пример построения файла данных (файл women1.sta)
Вторая переменная описывает самооценку личностной тревожности
женщины. Она принимает два значения: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью воспринимать
7
жизненную ситуацию как угрожающую (содержащую в себе тайную угрозу).
Из примера видно, что первая опрошенная женщина - наблюдение номер 1
(первая строка в таблице, рис. 2) – имеет полную семью и характеризует свое
душевное состояние как тревожное. Вторая опрошенная женщина - наблюдение
номер 2 (вторая строка таблицы) - имеет неполную семью и оценивает уровень
своей тревожности как низкий и т.д.
Назовите этот файл women1.sta.
Эффективнее организовывать ввод текстовых значений можно, закодировав переменные следующим образом. Начнем с переменной СЕМ_ПОЛ. Дважды щелкните по заголовку левой кнопкой мыши, и на экране отобразится окно
Variable1 (переменная1)- СЕМ_ПОЛ. Выберите кнопку Text Label (Teкстовые
значения). В открывшемся окне Text Label Editor (Редактор текстовых значений )- СЕМ__ПОЛ в колонке Text наберите в левой строке П_семья, а в колонке
Numeric наберите 1. Это приведет к тому, что текстовому значению П_семья
будет присвоен код 1. Аналогично во второй строке наберите Н_семья и число
2. Текстовому значению Н_семья будет присвоен код 2. Далее нажмите кнопку
ОК.
Теперь введите значения 1 в те ячейки переменной СЕМ_ПОЛ, в которых
должно стоять текстовое значение П_семья. Введите значение 2 в те ячейки
переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение Н_семья.
Таким же образом введите текстовые значения в ячейку переменной ТРЕВОГА.
Лабораторная работа 2
ПОСТРОЕНИЕ ТАБЛИЦ СОПРЯЖЕННОСТИ
В ПАКЕТЕ STATISTICA
Цель работы – изучить связь признаков в номинальной шкале, научиться
создавать и редактировать таблицы сопряженности, а также анализировать полученные результаты.
Для построения таблицы сопряженности в пакете STATISTICA необходимо выполнить следующие действия:
Шаг 1. Подведите курсор мыши к пункту Statistics, в появившемся меню
сделайте выбор:Basic Statistics/Tables. Из различных видов анализа, доступных
в этом модуле, выберите Tables and Banners (Tаблицы и заголовки) и нажмите
кнопку ОК. На экране появится окно Specify Таble (Задать таблицы).
Шаг 2. Сначала выберите Crosstabulation tables (Таблицы сопряженности).
Шаг 3. Далее нажмите кнопку Specify tables (Задать таблицы). В появившемся окне выберем переменные, которые будут табулированы в таблице.
Эти переменные задают разбиение исходных данных на группы, поэтому их
часто называют также группирующими переменными. В данном случае будем
табулировать значения переменных ТРЕВОГА. Выберем в первой колонке из
8
предложенных переменных переменную: 1-СЕМ_ПОЛ, во второй колонке: 2ТРЕВОГА. (Заметьте, что вообще можно выбирать до 6 списков группирующихся переменных, что позволяет строить чрезвычайно сложные таблицы, содержащие гораздо больше переменных, чем в указанном примере.)
После выбора переменных нажмите кнопку ОК. Вы вновь вернетесь в
диалоговое окно, оно немного изменилось: возле надписи Number of tables появилась цифра 1, потому что вы выбрали переменные и попросили систему построить одну таблицу.
Шаг 4. Нажмите ENTER на клавиатуре или кнопку ОК в верхнем правом
углу диалогового окна. Система произведет вычисления и предложит просмотреть результат в окне Crosstabulation Tables Results (Результаты кросстабуляции).
Шаг 5. В окне Crosstabulation Tables Results (Результаты кросстабуляции) нажмите кнопку Review Summary Tables (Просмотреть итоговые таблицы). На экране появится таблица сопряженности (рис. 3).
Рис. 3. Таблица сопряженности
В этой таблице табулированы переменные СЕМ_ПОЛ и ТРЕВОГА; на
пересечении строк и столбцов стоят абсолютные значения, вычисленные из исходного файла данных women1.sia.
Мы табулировали совместно значения двух переменных СЕМ_ПОЛ и
ТРЕВОГА, такое действие называется кросстабуляцией.
Задание. Проанализируйте таблицу сопряженности.
Часто возникает необходимость вместе с абсолютными значениями привести в таблице проценты. Проценты по столбцу - это проценты, вычисленные
относительно суммарного значения частот по столбцу.
Проценты по строке - это проценты, вычисленные относительно суммарного значения частот по строке. Проценты от общего числа вычисляются относительно суммы частот в таблице.
9
Шаг 6. Опять вернемся в окно Crosstabulation Tables Results (Результаты
кросстабуляции), развернув его из нижнего угла экрана (рис. 4).
Рис. 4. Результаты кросстабуляции
Шаг 7. В окне Crosstabulation Tables Results (Результаты кросстабуляции) выберем в группе Option опцию Percentages of total сount (Проценты от
общего числа).
Щелкните мышью в соответствующем квадрате. Далее нажмите кнопку
Summary (Просмотреть итоговые таблицы). На экране появится следующая
таблица (рис. 5).
Рис.5. Итоговая таблица
Здесь рядом с абсолютными значениями появились относительные величины - проценты, вычисленные от общего числа женщин, т.е. от 10.
Таким образом, из таблицы видно, что
• 20% женщин имеют полную семью и высокий уровень тревоги;
• 30% женщин имеют полную семью и низкий уровень тревоги;
• 30% женщин имеют неполную семью и высокий уровень тревоги;
10
• 20% женщин имеют неполную семью и низкий уровень тревоги.
Шаг 8. Редактирование таблицы.
Дважды щелкните, например, по полю Total Percent % в построенной
таблице. В выделенном окне в поле Name вместо Total Percent % введите %
Шаг 9. Построение отдельных таблиц с процентами.
Вернемся вновь в окно Crosstabulation Tables Results (Результаты кросстабуляции) и выберем опцию Percentages of total count (Проценты от общего
числа), щелкнем закладку Advanced и выберем опцию Display selected %'s in
septables (Omoбражать выбранные % в отдельных таблицах). Затем выберем
Summary (рис. 6).
Рис. 6. Таблица с процентами
Шаг 10. Создание автоотчета.
Войдите в меню File/Save и сохраните полученные таблицы сопряженности. Затем из построенных таблиц выберите ту, которая нужна для отчета.
Щелкните по ней мышью. Войдите в меню File и выберите опцию Print (Печать). Отмеченная таблица результатов будет распечатана, если в меню печати
отмечена опция Выделенный фрагмент. Если отмечена опция Все, то будут напечатаны все отчеты.
Задание. Создайте в системе STATISTICA файл women2.sta. Для градации значений переменных используются более реалистичные шкалы. Шкала
семейного положения женщины: одинокая, неполная семья, полная семья.
Шкала тревожности женщины: низкая, умеренная, высокая (рис. 7).
11
Рис.7. Файл women2.sta
CA.
1. Построить таблицы сопряженности переменных в системе STATISTI2. Создать отчет в виде файла таблицы результатов.
Лабораторная работа 3
ГРАФИЧЕСКИЙ АНАЛИЗ ТАБЛИЦ СОПРЯЖЕННОСТИ
Цель работы – изучить возможности графического анализа, построение
гистограмм, диаграмм, анимационных графиков в пакете STATISTICA.
Откройте файл данных women1.sta в рабочем окне модуля.
Шаг 1. Подведите курсор мыши к пункту Statistics, в появившемся меню
сделайте выбор: Tables and Ваппеrs (Таблицы и заголовки) и нажмите кнопку
ОК. С помощью опций окна произведите табулировку переменных СЕМ_ПОЛ
и ТРЕВОГА.
Шаг 2. После того как система построит таблицу в диалоговом окне Crossiabulation Tables Results (Результаты кросстабуляции), нажмите кнопку Categorized histograms (Категорированные гистограммы).
Смысл этих гистограмм следующий: опрошенные женщины разбиты на
две группы (категории): женщины из полной семьи и женщины из неполной
семьи. Категорированная гистограмма показывает, что уровень тревожности в
полных семьях ниже, чем в неполных.
Пример. Создайте файл women2.sta(2v*10c).
Шаг 1. Подведите курсор мыши к пункту Statistics, в появившемся меню
сделайте выбор из различных видов анализа, доступных в этом модуле: Tables
and Ваппеrs (Таблицы и заголовки), нажмите кнопку ОК. На экране появится
окно Specify Таblе (Задать таблицы).
12
Шаг 2. Табулируйте значения переменных сем_пол и тревога. Установите отметку в положение Use Selected grouping codes only. Нажмите кнопку
Codes (Коды) и выберите значения табулируемых качественных признаков
(рис. 8,9).
Рис. 8
Рис. 9
Можно выбрать табулирование всех значений переменных. Для этого нажмите кнопку Select All.
Шаг 3. Постройте таблицу кросстабуляции и график категоризованной
гистограммы. (Crosstabulation Tables Results (Результаты кросстабуляции) далее нажмите кнопку Categorised gistograms (Категоризованные гистограммы)
(рис. 10).
Рис. 10. Категоризованные гистограммы
13
Шаг 4. В диалоговом окне Crosstabulation Tables Results (Результаты
кросстабуляции) нажмите кнопку 3D histograms. На экране появится трехмерная гистограмма. Смысл этой гистограммы в следующем: составляются всевозможные комбинации значений двух переменных и подсчитывается, сколько раз
встречалась каждая комбинация. Трехмерная гистограмма очень наглядно воспроизводит таблицу кросстабуляции: вы положили таблицу на плоскость и в
каждую клетку поставили по столбцу, высота которого равна количеству наблюдений в клетке таблицы. Можно использовать анимацию для вращения
графика (кнопки вращения расположены на панели инструментов).
Шаг 5. В диалоговом окне Crosstabulation Tables Results (Результаты
кросстабуляции) нажмите кнопку Interaction plot of frequencies. На экране появится график взаимодействий (рис. 11).
Рис. 11. График взаимодействий
График показывает, как взаимодействуют между собой частоты наблюдений из разных групп.
Лабораторная работа № 4
ПРОСТЕЙШИЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Цель работы – изучить вероятностные распределения и их свойства, а
также способы их построения в пакете STATISTICA.
Пример. Создать файл Arenda.sta, содержащий данные о размере и стоимости арендованных помещений. Данные находятся в табл. 1.
14
Зависимость цены аренды от размеров помещения
№
1
2
3
4
5
6
7
8
47
47
47
47
47
47
47
47
Ширина
35
73
11
149
187
225
263
301
Длина
1645
3431
5217
7003
8789
10575
12361
14147
Площадь
Таблица 1
Цена
1446000
2768000
3974000
5147000
6290000
7537000
8828000
10260000
Шаг 1. Создать файл Arenda.sta (File-New-).
Шаг 2. Введите заголовок Цена Аренды.
Шаг 3. Кликните по имени переменной VAR1. В поле Name наберите
Ширина. В поле Display format выберите Number. Затем в поле Decimals: поставьте 0 (не нужны разряды после запятой). В поле Length: 5 (это достаточная
ширина столбцов для таких данных), далее ОК.
Нажмите кнопку » для перехода к следующей переменной и все повторите. Для двух последних переменных оставьте ширину столбцов 8, установленную по умолчанию (рис. 12).
Рис. 12
Шаг 4. Введите данные в столбцы ШИРИНА, ДЛИНА, ЦЕНА. Данные в
столбец ПЛОЩАДЬ поручите вычислять и вводить системе: щелкните дважды
по имени переменной ПЛОЩАДЬ, в диалоговом окне в поле Long Name запишите формулу для вычисления: = vl*v2. - ОК. На запрос Recalculate the variable
now? (Пересчитать переменные?) Ответьте утвердительно.
Шаг 5. Сохраните файл: Filе/Save или CTRL+S на клавиатуре.
15
Генерация случайных чисел
Генератор случайных чисел, распределенных равномерно на отрезке
[0;1], запускается формулой rnd(1).
Случайные числа, распределенные равномерно на отрезке [0;2] можно
сгенерировать с помощью оператора rnd(2). Оператор rnd(b-a)+a генерирует
числа, распределенные равномерно на отрезке [а; b].
Выборка, распределенная по заданному закону, генерируется в файл заданием в поле Long Name соответствующего выражения:
= rnd(5)
= VNormal(rnd(1);2;3)
= VExpon(rnd(1);1/2);
= VCauchy(rnd(1);0;1);
= VLognorm(rnd(1);0,5;0,5);
= VChi2(rnd(1);8);
для R[0;5]
для N(2;3)
для Е(0,5) со средним µ=1/2
для С(0;1)
для Lgn(0,5;0,5)
для χ28.
Такая форма задания определяется способом генерации с помощью
функции, обратной (буква V) к функции распределения, и генератора случайных чисел. Здесь R - равномерное, N - нормальное, Е -экспоненциальное, С Коши, Lgn - логнормальное, χ28 - хи-квадрат распределения.
Для генерации n случайных величин, соответствующих заданному закону
распределения, необходимо выбрать один из столбцов таблицы исходных данных, состоящей из n строк. В окне его спецификаций следует ввести формулу,
согласно которой вырабатываются необходимые случайные величины. Последние будут записываться в клетках данного столбца.
Пример 2. Генерировать выборку объема n=50, распределенную по показательному закону с математическим ожиданием 5 (Е(5)).
Шаг 1. Создайте новый файл File Name: Gener.sta - ОК.
Шаг 2. Преобразуйте таблицу к размерам lv*50c - ОК.
Шаг 3. Генерируйте выборку: выделите переменную VAR1 - нажмите
правую клавишу и выберите Variable specs (Спецификации переменных) — в
окне Variable 1 введите Name х (например), в нижнем поле Long Name введите
выражение, определяющее переменную. Ввод сделайте набором на клавиатуре
или с помощью клавиши Function, выбирая в меню Category и Item требуемую
функцию и вставляя клавишей Enter. На запрос Recalculate the variable now?
(Пересчитать переменные?) Ответьте утвердительно (рис. 13).
Для задания закона распределения Е(5) введите: = VExpan(rnd(l);l/5).
Вместо выражения 1/5 можно набрать значение параметра λ=0.2
Шаг 4. Сохраните выборку CTRL+S. Просмотрите выборку графически:
Graphs/2D-Graphs.
16
Рис. 13
Пример 3. Генерировать выборки объема n=100, распределенные по законам:
а)
экспоненциальному λ=1/7;
б)
равномерному с параметрами а=6; в=9;
с)
нормальному с параметрами µ=9; σ=1.
Указание: Привести таблицу к размерам 3v*100c; задать имена переменных:
a)
VAR1 -Ехроn;
b)
VAR2 - Rav;
c)
VAR3 - Normal.
В поле Long Name введите выражения, определяющие переменные:
a) =VExpon(rnd(1);1/7);
в) =rnd(3)+6;
с) =VNormal(rnd(1);9;1)
Задание к работе
1. Выполнить примеры 1-3.
2. В табл. 2 заданы варианты законов распределения. Генерировать выборку
согласно выбранному варианту. Сохранить файл под именем в своем каталоге.
Таблица 2
№
1
2
3
4
5
6
7
8
Закон
R[0;2]
N[2;0.25]
E[3]
R[1;3]
N(0;1)
E(2)
R[2;3]
N(0;4)
Объем
50
60
70
80
50
60
70
80
р
0.03
0.02
0.01
0.02
0.01
0.03
0.01
0.03
№
9
10
11
12
13
14
15
16
17
Закон
N(1,4)
E(1)
R[0;3]
N(0;3)
E(5)
R[3;6]
N(0;9)
E(0.2)
Объем
60
70
80
50
60
70
80
50
р
0.01
0.03
0.1
0.3
0.2
0.03
0.02
0.01
Лабораторная работа 5
ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК
И ПОСТРОЕНИЕ ПРОСТЕЙШИХ СТАТИСТИЧЕСКИХ ГРАФИКОВ
Цель работы – изучить способы вычисления дескриптивных статистик и
основных описательных статистик для группированных данных.
Из данных табл. 3 создайте файл Diamz.sta 2v*100c с переменными
d1(нечетные столбцы) и d2(четные столбцы) в модуле Basic Statistics and
Tables (Oсновные статистики и таблицы).
Таблица 3
Данные о диаметрах 200 головок заклепок, мм
13.390
13.280
13.530
13.570
13.380
13.500
13.320
13.390
13.380
13.450
13.270
12.470
13.440
13.400
13.440
13.400
13.620
13.400
13.420
13.530
13560
13.200
13.520
13.470
13.440
13.390
13.420
13.520
13560
13.200
13.380
13.330
13.380
13.450
13.270
13.380
13.530
13.380
114.56
13.430
13.560
13.150
13.510
13.460
13.250
13.420
13.420
13.390
13.270
13.320
13.390
13.380
13.450
13.270
13.470
13560
13.420
13560
13.440
13.420
13.340
13.540
13.580
13.350
13.480
13.400
13.520
13.390
13.280
13.530
13.570
13.270
13.530
13.380
13.420
13.530
13.520
13.530
13.250
13.440
13.370
13.530
13.380
13.380
13.410
13.450
13.440
13.450
13.270
13.420
13.420
13.520
13.560
13.200
13.390
13.380
13.500
13.320
13.390
13.250
13.330
13.380
13.450
13.270
13.380
13.270
13.250
13560
13.200
13.520
13.470
13.440
13.400
13.620
13.400
13.380
13.450
13.270
13.380
13.480
13.440
13.400
13.620
13.400
13560
13.530
13.480
13.380
13.520
13.320
13.390
13.250
13.380
13.450
13.270
13560
13.200
13.520
13.470
13.410
13.660
13.370
13.390
13.460
13.530
13.420
13.410
13.530
13.380
13.380
13.500
13.320
13.390
13.390
13.520
13.530
13.440
13.400
13.250
13.400
13.260
13.280
13.480
13.280
13.420
13.520
13560
13.200
13.520
13.470
13.270
13.520
13.540
13.420
13.560
13.420
13.320
13.390
13.250
13.540
13.380
13.500
13.320
13.390
13.320
13.390
13.380
13.450
13.270
13.470
13560
13.200
13.520
13.470
13.420
13.520
13.440
13.420
13.620
13.400
Пример 1. Вычислите «быстрые» основные статистики выборки.
Первый способ
Шаг 1.В строке меню выберите Statistics.
Шаг 2. Из выпадающего меню выберите Basic Statistics /Tables, далее Descriptive Statistics-OK.
Шаг 3. Из нового меню надо выбрать закладку Advanced и отметить требуемые числовые характеристики:
Valid - число случаев без пропусков;
Mean - выборочное среднее;
Sum - сумма всех выборочных значений переменной;
Minimum - минимальное значение переменной;
Maximum - максимальное значение переменной;
Range - размах выборки;
18
Variance - выборочная дисперсия;
Std.Dev. - стандартное отклонение;
Std.Err. - стандартная ошибка;
Skewness - выборочный коэффициент асимметрии;
Si.Err.Skewness - стандартная ошибка коэффициента асимметрии;
Kwtosis - выборочный коэффициент эксцесса;
St.Evr.Kurtosis - стандартная ошибка эксцесса.
Второй способ
На заголовке столбца с выборкой щелкните правой клавишей мыши –
Statistics of Blok Data/Block Columns(Блоковые статистики по колонкам).
Выделите необходимое или All.
Пример 2. Построить гистограмму одномерного распределения.
Первый способ
Шаг 1.В строке меню выберите Statistics.
Шаг 2. Из выпадающего меню выберите Basic Statistics /Tables, далее Descriptive Statistics-OK.
Шаг 3. Из нового меню надо выбрать закладку Quick и нажать кнопку
Histograms.
Шаг 4.Сохраните график, например, graphsl.stg (CTRL+S) (рис. 14).
Рис. 14
Второй способ
В строке меню выберите Graphs. Далее Histograms, в открывшемся окне
установите закладку Quick. С помощью кнопки Variables выберите имя переменной - ОК. В окне Graph type: Regular число интервалов группирования установите Avto -ОК.
19
Пример 3. Построить диаграмму рассеяния способом быстрого доступа к
графикам.
Шаг 1. Выберите Graphs в строке меню.
Шаг 2. В выпадающем меню выберите пункт Scatterplots. С помощью
кнопки Variables выберите имена переменных - ОК. В окне Graph type: Regular ОК. На экране появится диаграмма рассеяния (рис. 15).
Рис. 15
Пример 4. Построить диаграмму двумерного распределения.
Шаг 1. В стартовой панели модуля Statistics выберите Descriptive Statistics -ОК. Далее нажмите кнопку Variables. В раскрывшемся окне Select
All.(Выбрать все )- ОК.
Шаг 2. В окне Descriptive Statistics выберите закладку Normality и нажмите нижнюю кнопку в правом столбце 3D histograms, bivariate distribution.
Далее Variables и выберите два списка переменных. На экране появится трехмерная гистограмма.
Пример 5. Построить вариационный ряд.
Выделите требуемую переменную и выберите Graphs/ Graphs of Input
Data / Values/Stats Vars- на экране: вариационный ряд, выборочное среднее
(mean) и стандартное отклонение SD (рис. 16).
Рис. 16
20
Пример 6. Построить функцию эмпирического распределения.
В строке меню выберите Graphs/ Histograms. В открывшемся окне установите закладку Advanced. В новом окне выберите имя переменной с помощью
Variables. Далее установите Graph Type: Regulаr; Showing Type: Cumulative
(Накопление частоты), Fite Tуре(Подбираемый тип): Exponential (для нашего
примера) или off (без подбора); Categories (Число интервалов группирования):250 - ОК.
Рис. 17
На экране - функция эмпирического распределения (с точностью до мелкого группирования с 250 интервалами).
Пример 7. Построить интервальный ряд (сгруппировать данные).
В строке меню: Statistics/Basic Statistics/Tables,- далее –Frequencies Tables
задайте No. of exact intervals: 10 (10 интервалов группирования) или Step size: 2,starting at: 0. Нажмите кнопку Summary, наблюдаемую панель выведите на печать или сохраните.
Задание к работе
1. Создать файл Primer.sta 1v*100c, содержащий выборку объема п=100,
из индивидуальных заданий. Аналогично примерам 1-2 вычислить выборочные
характеристики и построить гистограмму частот.
2. Открыть файл Gemat.sta. Аналогично примерам 3-4 построить диаграмму рассеяния и гистограмму двумерного распределения для любой пары
переменных.
3. Для генерированной выборки (из файла Gener.sta) построить вариационный ряд, функцию эмпирического распределения, гистограмму частот.
4. Определить выборочные характеристики генерированной выборки.
Сравнить выборочное среднее и стандартное отклонение с соответствующими
теоретическими значениями, установленными при генерации выборки.
21
Лабораторная работа 6
ВЕРОЯТНОСТНЫЙ КАЛЬКУЛЯТОР
Цель работы – исследовать геометрический смысл и изучить способы
построения таблиц модельных распределений.
Вероятностный калькулятор (Probability Calculator) запускается из стартовой
панели модуля Basic Statistics and Tables (Основные статистики и таблицы).
Пример 1. Выяснить геометрический смысл параметров нормального
распределения N(a; σ).
Положите а=0, σ=1. В окне Probability Distribution Calculator в поле
Distribution: выделите мышью строку Z(Normal), заполните поля: теап:0, sc.
dev.:1, p:0,5. Поднимите флажок Fixed Scaling, далее нажмите кнопку Compute.
В поле X открытого окна появится значение .0000. Это 0.5 -квантиль нормального распределения, т.е. корень уравнения F(Z)=0.5. В поле Density Function
изображается кривая распределения с заштрихованной областью. Площадь отмеченной области равна указанному значению р=0,5. Выберите далее Create Graph и
нажмите кнопку Compute. На экране появится график плотности, с отмеченным
синим пунктиром квантилем. Из графика видно, что 0.5 — квантиль – является
модой и медианой нормального распределения. Повторяя приведенную последовательность команд для разных значений mean ( а=1; 2; -2;...), убедитесь, что
значение а является точкой максимума функции плотности нормального распределения. (График плотности нормального распределения сдвигается по оси
ординат при изменении среднего. При возрастании среднего графики сдвигаются вправо). Пик плотности нормального распределения находится в точке с
ординатой, равной среднему значению.
Это значение задается в поле mean (среднее). Меняя значение поля
sd.dev.(a) при постоянном а и р, убедитесь, что при увеличении а плотность
нормального распределения рассеивается относительно a, fmax уменьшается.
При уменьшении а плотность сжимается, концентрируясь возле точки максимума, fmax растет (рис. 18).
Рис.18
22
Пример 2. Вычислить вероятность Р(175<ζ<185) случайной величины ,
распределенной нормально с параметрами: а=176,6; σ=7,63.
В окне Probability Distribution Calculator заполните поля: Distribution:
Z(Normal),:теап:176,6; sd.dev.:7,63; X:185 , далее нажмите кнопку Compute. В
поле р появится значение: 0.891022 - запомните его.
Измените значение X на 175, нажмите кнопку Compute. Запомните новое
значение
поля
р:0.468661.
Вычислите
Р(175<ζ<185)=0.8910220.468661=0.422361≈0.4.
Правила 2- и 3-сигма
Пусть имеется нормально распределённая случайная величина ξ с математическим ожиданием, равным а, и дисперсией σ2. Определим вероятность
попадания ξ в интервал (а- 3σ; а + 3σ), то есть вероятность того, что ξ принимает значения, отличающиеся от математического ожидания не более чем на три
среднеквадратических отклонения.
Р(а- 3σ < ξ < а + 3σ)=Ф(3) - Ф(-3)=2Ф(3).
По таблице находим Ф(3)=0,49865, откуда следует, что 2Ф(3) практически равняется единице. Таким образом, можно сделать важный вывод: нормальная случайная величина принимает значения, отклоняющиеся от ее математического ожидания не более чем на 3σ.
(Выбор числа 3 здесь условен и никак не обосновывается: можно было
выбрать 2,8, 2,9 или 3,2 и получить тот же вероятностный результат. Учитывая,
что Ф(2)=0,477, можно было бы говорить и о правиле 2-х "сигм".)
Если от точки среднего или от точки максимума плотности нормального
распределения отложить влево и вправо соответственно два и три стандартных
отклонения (2- и 3- сигма), то площадь под графиком нормальной плотности,
подсчитанная по этому промежутку, равна 95,45% и 99,73% всей площади под
графиком. (Т.е. 95,45% и 99,73% всех независимых наблюдений лежит в радиусе 2-х и 3-х стандартных отклонений от среднего значения.)
Пример 3. Проверка правила 2-х и 3-х сигм. Проверить, что если Х~
N(a;σ), то Р(|Х-а|<2а) =0.9545, Р(|Х-а|<3σ) =0.9973 независимо от значений а
и σ. В окне Probability Distribution Calculator в поле: Distribution: выделите
Z(Normal).
Пометьте опцию Two-tailed (двухсторонний), т.к. неравенство с модулем
является двухсторонним. Задайте meatuO, sd.dev. Поскольку 2а~2, в поле X поставьте 2, нажмите кнопку Compute.
В строке р появится число 0.954500, в поле Density Fипсtiоп (Функция
плотности) заштрихованная площадь под графиком плотности составит
95,45% всей площади под графиком (рис. 19). Сделайте то же самое для 3σ.
Убедитесь, что заштрихованная площадь достигнет 99,73%.
23
Рис. 19
Задавая различные значения а, σ, убедитесь, что правила 2-х и 3-х сигм
имеют место при любых значениях нормального распределения.
Пример 4. Вычислить 0.95 и 0.99 -квантили хи-квадрат распределения с 7
степенями свободы. Выяснить влияние числа степеней свободы на форму и
расположение кривой распределения.
В окне Probability Distribution Calculator в поле: Distribution: выделите
строку Chi. Заполните поля: df:7, p:0,95 - Compute. В поле Chi появится число:14.068419. Это 95% -я точка (.95 -квантиль), т.е. корень уравнения F(1)=0.95.
Значит, Р(χ 2≤14,068419)=0.95. Чтобы вычислить вероятность противоположного неравенства, поднимите флажок (1 -Cumulative p).
Поменяйте значение поля р: на 0.99 - Compute. В поле Chi появится
число 18,477779. Это 99% - я точка (.99 - квантиль). Выберите опцию Create
Graph—Compute. Вы построили график плотности и функции распределения
хи-квадрат с 7 степенями свободы.
Задавая различные значения параметра k в поле df (2;5;12;...), убедитесь,
что при увеличении k пик плотности распределения снижается и смещается
вправо. График плотности становится более симметричным, приближаясь по
форме к кривой Гаусса.
Пример 5. Выяснить влияние числа степеней свободы на форму и расположение кривой распределения Стьюдента.
В поле Distribution: выделите строку t (Student). Заполните поля: df: 5,
р:,5. поле t система заполнит числом 0. Пометьте опцию Create Graph, далее
нажмите Compute. Рассмотрите график и повторите алгоритм для df=10, 35, 50,
100. Убедитесь в том, что график плотности t -распределения симметричен относительно оси Оу и напоминает кривую Гаусса. С возрастанием числа степеней свободы k максимальное значение плотности увеличивается, хвосты более
круто убывают к 0.
Вводя в поле р значения 0.5; 0.7; 0.95; 0.99, составьте таблицу значений
24
функции t –распределения с 10 степенями свободы (таблицу квантилей) (табл. 4).
Таблица 4
t
F(t)
0
0.5
0.54
0.7
1.812460
0.95
2.763770
0.99
Наоборот, введите в поле t значение 1. Система вычислит р: .829553.
Следовательно, P(t <1) =0.829553. Поднимите флажок (1 - Cumulative р).
Содержимое поля р изменится на.170447. Калькулятор вычислил вероятность противоположного события: P(t ≥1)=0.170447.
Пример 6. (Распределение Фишера). Убедитесь с помощью вероятностного калькулятора, что F- распределение сосредоточено на положительной полуоси. Определить 0.5 - и 0.75 -квантили F10,10 -распределения. Вычислить вероятности P(F10,10 ≤1) u P(F10,10 ≤2).
В поле Distribution: выделите строку F. Заполните поля: р:,5; dfl:10;
df2:10, далее нажмите Compute. Калькулятор вычислит значение поля F: 1. Поменяйте значение поля р:75. Значение поля F: изменится на 1,551256. Измените
значение поля р: на 2, потом на 1. Калькулятор вычислит вероятности:
P(F10,10≤2)=0,144846 и P(F10,10 ≤1)=0,5.
Придавая различные значения df1 и df2, наблюдайте графики. Обратите
внимание на то, что, в отличие от нормальной, кривая F-распределения несимметрична при небольших значениях степеней свободы (п и k<30). С возрастанием п и
k кривая F-распределения медленно приближается к нормальной кривой.
Задание. Построить график плотности распределения Стъюдента с 5 степенями свободы. По уровню р:0.95 найдите значение t. Постройте график плотности распределения Стъюдента с 25 степенями свободы. Сравните графически
плотность распределения Стьюдента с плотностью стандартного нормального
распределения.
Биномиальное распределение и игровые задачи
Параметрами биномиального распределения являются вероятность успеха р (q=1-p) и число испытаний п. Вероятность m-успехов в п-испытаниях вычисляется по формуле
р(т;п)=В(т;п)*рт(1-р)п-т, m=0,l,...,n, B(m;n)=n!/((n-m)!*m!).
Создайте пустую электронную таблицу 1v*10c, назовите файл testsm.sta.
Переменной VAR1 присвойте имя ВЕРОЯТ, в нижнем поле Long Name введите выражение, определяющее переменную: =Binom(v0,0.3,10) -OK.
Программа вычислит вероятность успеха и занесет их в таблицу в значения первой переменной. В данной таблице вероятность успеха – выпадения
герба – равна 0,3. Из таблицы видно, что вероятность выпадения одного герба в
10 бросаниях- 0.12106, вероятность выпадения двух гербов в 10 бросаниях 25
0.2334 и т.д.
Вероятность успеха легко изменить, сделав ее равной, например, 0.5. Это
означает, что бросается симметричная монета и вероятность успеха равна вероятности неудачи. В поле Long Name достаточно изменить формулу, записав
вместо 0.3 значение 0.5.
Если вы забыли функцию, вычисляющую биномиальные вероятности, в
системе, то воспользуйтесь средством Function Browser. Нажав кнопку Functions в окне спецификации переменной, вы откроете диалоговое окно Function
Browser, в котором в окне Category выберите Distributions, в окне Item выберите
Binom. Нажмите Enter. Функция биномиального распределения появится в окне
спецификации переменной в поле Long Name. Осталось только задать необходимые параметры и запустить вычисление. В дальнейшем нам понадобится вычислять не только биномиальные вероятности, но и биномиальные коэффициенты B(m;n). Это легко сделать, умножая биномиальные вероятности с вероятностью успеха р= 1/2 на 2 в степени п.
Выполним теперь расчеты для биномиального распределения с параметрами п=:10 и р=0.7 в точке х~9. Введем в таблицу заданные значения: N=10,
Р=0.7, Х=9. Далее в окне спецификации четвертого столбца, названного Р_Х , в
поле Long Name введем формулу для биномиального распределения
=Binom(9;0,7;10)-OK. Аналогичным образом в окне спецификации для пятого
столбца F_X введем формулу для функции биномиального распределения вида:
=IBinem(9;0,7;10) - OK.
В результате получим следующие ответы: Р{Х=9}=0.121; F(9)=0.972 (рис. 20).
Рис. 20
Рассчитаем далее распределение вероятностей и функцию распределения
для множества точек х=0,1,2,..., 10 путем формирования 11 строк таблицы. В
поле Long Name введем формулу для биномиального распределения
=Binom(v3;0,7;10)-OK. Далее в окне Displаy Format выберем опцию Number, а в
окне Decimal places (количество точек после запятой)-5. Таблица с исходными
данными и вычисленными результатами имеет следующий вид (рис. 21).
26
Рис. 21
Используя полученную таблицу, построим полигон вероятностей и функцию распределения для заданного биноминального распределения. Выберем
Graphs/2D Graphs/ Line Plot (Variables) и зададим имена переменных Р_Х и
F_X. Установим Graph type:Multiple–OK (рис. 22).
Рис. 22
27
Задача шевалье де Мере
Однажды азартный игрок спросил, стоит ли ему ставить на выпадение
двух шестерок одновременно при бросании двух костей 24 раза или нет?
Создайте рабочий файл play.sta. Дважды щелкните на имени переменной
и откройте окно спецификации переменной varl. В поле Lоng Name запишите
формулу =Binom(v0,1/36,24), далее - ОК. Программа вычислит биномиальные
вероятности. В первом столбце этой таблицы даны последовательно вероятности выпадения двух шестерок один раз, два разa, три раза и т.д. Нам нужно вычислить вероятность выпадения, по крайней мере, одной пары шестерок. Следовательно, все эти вероятности нужно сложить. Таким образом, вероятность
выпадения, по крайней мере, одной пары шестерок при 24 бросаниях пары костей равна 0.49140. В длинной серии игр, состоящих из 24 бросаний пары костей, игрок, ставящий на выпадение двух шестерок одновременно, в среднем устойчиво проигрывает.
Вопрос: как изменить условия игры, чтобы находиться в выигрыше?
Изменённая задача шевалье де Мере
Предположим, что шевалье де Мере стал ставить на выпадение пары шестерок в 25 бросаниях.
Повторите все действия предыдущей задачи с переменной VAR2. В поле
Long Name запишите формулу =Binom(v0,l/36,25), далее - ОК. Складывая значения во втором столбце, легко найти, что вероятность выпадения, по крайней
мере, пары шестерок в 25 подбрасываниях пары костей больше 0.5.
Еще одна задача игрока.
Некогда один англичанин по имени С. Пепайес послал Ньютону письмо,
в котором спрашивал, на что лучше ставить:
- на выпадение одной шестерки при бросании кости 6 раз?
- на выпадение двух шестерок при бросании кости 12 раз?
- на выпадение трех шестерок при бросании кости 18 раз?
-на выпадение четырех шестерок при бросании кости 24 раза?
Используем по-прежнему файл play.sta. Увеличим его размеры, добавив
14 случаев (Cases - Add - 14. After case: 10) - ОК. Начнем с первого пари. Запишем биномиальные вероятности для первого пари в случае переменной VAR1. В
поле Long Name запишите формулу =Binom(v0,l/6,6), далее - ОК. Далее то же
самое для переменных VAR2, VAR3, VAR4, подставляя соответствующие вероятности для второго, третьего и четвертого пари.
В строке с номером i в данном файле дана вероятность выпадения i шестерок в первом, втором, третьем и четвертом пари. Суммируя значения вероятностей в столбцах, получим:
- 0.665 для первого случая;
- 0.619 для второго случая;
28
- 0.597 для третьего случая;
- 0.584 для четвертого случая.
Задание к работе
С помощью вероятностного калькулятора решите следующие задачи.
1. Задача о Гулливерах и лилипутах.
Представьте, что вы попали в страну, где рост взрослых мужчин приближенно имеет нормальное распределение со средним 176,6 см и стандартным отклонением 7,63 см. Какова вероятность, что случайно выбранный мужчина имеет
рост больше 195 см, т.е. является Гулливером? Какова вероятность, что случайно
выбранный мужчина имеет рост меньше 155 см, т.е. является лилипутом?
2. Для нормального распределения с выбранными параметрами вычислить вероятность попадания в интервал, содержащий mean и не содержащий
mean.
3. Составить таблицы нормального, хи-квадрат, Стьюдента и Фишера
распределений (по 10 значений). Вычислить 0,95 и 0,99 – квантили модельных
распределений для различных значений параметра.
4. Проанализируйте влияние параметров распределения на форму кривых
плотностей для следующих непрерывных распределений: экспоненциального,
нормального Фишера, Стьюдента, хи -квадрат.
5. С помощью пакета STATISTICA проанализируйте влияние параметров
распределения на форму полигона вероятностей для следующих, дискретных
распределений: биномиального, Пуассона.
6. Решите задачу (генуэзская лотерея).
В генуэзской лотерее среди 90 номеров имеется ровно 5 выигрышных.
Перед розыгрышем лотереи вы можете поставить любую сумму:
1) на любой из 90 номеров;
2) на любые два номера;
3) на любые три номера;
4) на любые четыре номера;
5) на любые пять номеров.
Вы выигрываете только в том случае, если поставили на 1, 7, 9 и все эти
номера оказались среди выигрышных. Как обеспечить выигрыш?
Замечание. Вероятности вычисляются по следующей формуле:
Р(к)=В(k;5)/В(k;90), где В(k;5)=5!/(k!(5-k)!); В(k;90)=90!/(k!(90-k!)), k=1,2,3,4,5.
Лабораторная работа 7
ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ.
КРИТЕРИЙ СОГЛАСИЯ ХИ-КВАДРАТ ПИРСОНА
Цель работы – изучить способы проверок статистических гипотез, используя функции пакета STATISTICA.
Пусть Fθ = {F{x;θ),θ ∈ Θ } - заданное параметрическое семейство функ29
ций распределения (параметр θ или скалярный, или векторный) и Х =
(Х,,Х2,...,Хп)- выборка из распределения L(ξ) с неизвестной функцией распределения. Требуется проверить гипотезу H0: L(ξ ) ∈ Fθ .
Статистика имеет вид
X
2

n (θ
N
(v j − np j (θ )) 2
n =1
np j (θ )
)=∑
,
(1)
где vj - число наблюдений в j-м интервале (zj-1,zj), (vj≥5);
p j (θ ) = P(ξ ∈ ( z j −1 , z j ) H 0 ) - вероятности исходов, которые представляют собой
 
некоторые функции от неизвестного параметра θ ; θ = θ n - оценка максимального правдоподобия для θ.
g ≥ χ12−α , N −1
Если наблюдавшееся значение экс
, то гипотезу Но отвергают,
в противном случае Н0 не противоречит результатам испытаний.
Процедуру решения можно записать иначе:

P χ12−α , N −1 ≥ X n2 (θ ) ≤ α ,
если
(2)
то гипотеза Н0 отклоняется.
{
}
Проверка гипотез о законе распределения
Пример 1. Проверка гипотезы о нормальном законе распределения размеров головок заклепок, сделанных на одном станке, по выборке объема n=200;
измерения приведены в таблице лабораторной работы № 5.
Откройте или создайте заново файл Diamz.sta. В модуле Statistics выберите Distribution Fitting (подбор распределений). В поле Continuous Distributions:
Normal – OK. Установите имя переменной с помощью Variable, затем нажмите
кнопку Plot of observed and expected distribution. Получим графическое представление значений наблюдаемых и ожидаемых частот.
Вернитесь в окно Fitting Continuous Distributions, выберите закладку Parameters, а затем нажмите на кнопку Summary. Число групп Number of Categories: 13 - OK.
В таблице частот нужны столбцы observed frequency (наблюдаемыe частоты) и expected frequency(ожидаемыe частоты), а также столбец разности observed expected. В таблице приведено значение статистики χ2 (Chi-Square):
159.21, количество степеней свободы df=1. Приведено значение вероятности
p=P{ χ2≥12}=0.000007.
Последнее равенство означает, что если гипотеза верна, вероятность поручить значение Х2 ≥ 12.000 равна 0.000007. Это слишком малая вероятность,
поэтому отклоняем гипотезу о нормальности.
Посмотрим гистограмму наблюдений (или гистограмму рассеяния):
Griphs —— Histograms - ... -ОК. Видим, что в выборке d2 имеется одно ано30
мальное значение: 114.56 (№88). Удалим его и снова проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 100 элементов; если же изменение происходит, следовательно, это наблюдение типичным не является и должно быть удалено.
Повторим проверку гипотезы для «цензурированной» выборки и убедимся в том, что наблюдения не противоречат гипотезе о нормальности.
Проверка гипотезы об однородности выборок
Критерий используют для проверки однородности данных, имеющих
дискретную структуру, т.е. когда в опытах наблюдается некоторый переменный
признак, принимающий конечное число, например, т различных значений.
Имеется k - серий опытов, состоящих из n1+ n2+…nk наблюдений над
случайной величиной ξ. В каждом опыте некоторый признак принимает одно из
т различных значений, vij - число реализаций i - исхода в j — серии:
m
∑ vij ,
i =1
j = 1,..., k .
Требуется проверить гипотезу о том, что все наблюдения проводились
над одной и той же случайной величиной.
В этом случае статистика принимает вид
m k (v − n v / n ) 2
m k v2
ij
j i
ij
2 
X ( p ) = n( ∑ ∑
− 1)
) = n( ∑ ∑
(3)
n
v
n
v
j i
i =1 j =1
i =1 j =1 j i
g экс ≥ χ12−α , N −1
Если наблюдавшееся значение
,то гипотезу Но отвергают, в
противном случае Но не противоречит результатам испытаний.
Пример 2. Имеются данные о наличии примесей серы в углеродистой
стали, выплавляемой двумя заводами (см. табл. 5). Проверить гипотезу о том,
что распределения содержания серы (нежелательный фактор) одинаковы на
этих заводах.
Таблица 5
Число плавок
Завод 1
Завод 2
Сумма
0-2
82
63
45
2-4
535
429
964
Содержание серы, 10-2%
4-6
1173
995
2168
6-8
1714
1307
3021
Сумма
3504
2794
Создайте файл 4v*2c; столбцы назовите, например, S1....S4 (сера), а строки - Z1.Z2 (заводы).
В модуле Statistics выберите Advanced Linear/Nonlinear Models, затем LogLinear Analisis of Frequency Tables. В новом окне установите Input File: Fre31
quencies w/out coding variables (чacmoты без кодирующих переменных) - Variables: Select All – OK. В открывшемся окне Specify the
dimension…(спецификация таблицы) установите следующие параметры Factor
Name: S, No. of levels: 4 (число уровней: 4);
Factor Name: Z, No. of levels: 2 - OK – OK. Выберем закладку Advanced и
выполним Test all Marginal & Partial Association . В таблице Results of Fitting... в
последней строке столбца Pearson Chi-Square получаем Х2=3.59, число степеней
свободы Degres of Freedom df=З и уровень значимости Probability р=0.31. Поскольку эта вероятность не мала, гипотезу об одинаковом распределении содержания серы в металле на двух заводах можно принять (точнее, наблюдения
этому не противоречат).
Проверка гипотезы о независимости признаков
Пусть свободная величина ξ1 принимает конечное число т некоторых
значений а1,а2 ,..., ат, а вторая компонента ξ2 - k -значений: b1, b2,..., bk. Множе(1) (1)
(1)
ство значений ξ1, разбивается на т интервалов: Ε1 , Ε 2 ,...Ε m , а для £,г на k -
( 2)
(1)
(1)
интервалов: Ε1 , Ε 2 ,...Ε µ , само множество ξ=( ξ1, ξ2,) на N=mk прямо-
(1)
( 2)
угольников Ε i * Ε j ; vij- число наблюдений, пары (ai, bj) - число элементов,
принадлежащих
Ε i(1)
* Ε (j2) ,
m k
∑ ∑ vij = n - общее число наблюдений.
i =1 j =1
m k v2

ij
В этом случае статистика принимает вид X ( p ) = n( ∑ ∑ v .v . − 1) ,
i =1 j =1 i j
2
(4)
здесь точка означает суммирование по соответствующему индексу.
Правило проверки основной гипотезы аналогично рассмотренному случаю проверки гипотезы об однородности выборок.
Пример 3. Используются данные относительно физических недостатков
школьников (Р1, Р2, Р3- признак А) и дефектов речи (S1,S2,S3— признак В). В
табл. 6 ниже даны частоты комбинаций РiSj (i,j=1,2,3). Проверить гипотезу о независимости этих двух признаков.
Частоты комбинаций признаков
Р1
Р2
Р3
Сумма
S1
45
32
4
81
S2
26
50
10
86
S3
12
21
17
50
32
Таблица 6
Сумма
83
103
31
217
Создайте таблицу с двумя столбцами (P и S) и 217 строками, назовите
Def.sta. В модуле Statistics выберите Basic Statistics and Tables, затем Tables and
Banners –ОК. В открывшемся окне Crosstabulation Tables нажмите кнопку
Specify Tables и отберите признаки: list 1: P, list 2:S- OK – OK. В окне Crosstabulation Tables Results (результаты таблиц сопряженности) выберите закладку
Options и отметьте флажками позиции Expected Frequencies (ожидаемые или
теоретические частоты) и Pearson Chi-Square, затем нажмите кнопку Summary.
На экране наблюдаем две таблицы: таблицу частот Summary Frequency и
Expected Frequencies; в верхней части последней указано значение статистики
хи-квадрат (Chi-Square), число степеней свободы df и уровень значимости p
(вероятность в (4)). Поскольку значение р мало, гипотеза о независимости речевых дефектов и физических недостатках отклоняется.
Критерий согласия Колмогорова

D
D
(
X
) = sup Fn ( x) − F ( x) - макси=
n
n
Статистика критерия величина
мальное отклонение эмпирической функции распределения Fn(x) oт теоретической F(x), где F(x) -непрерывна. При каждом x-величина Fn(x) является оптимальной оценкой для F(x) и с ростом n Fn(х) → F(x), поэтому при больших п, в
тех случаях, когда гипотеза Hо истинна, значение Dn, не должно существенно
отклоняться от нуля.
Точное распределение P( nDn ≤ t ) независимо от вида непрерывной
функции F(x) уже при п≥20 хорошо приближается предельным распределением
Колмогорова
K (t ) =
∑ (−1) j exp{− 2 j 2t 2 }
∞
. Это означает, что критическую об-
j = −∞
ласть при n≥20 можно задать в виде
K (λα ) ≈ 1 − α .
{ nDn ≤ λα },
где λа определяется как
Проверить гипотезу о законе распределения случайной величины, определяющей количество снега, мм, выпадающего в аэропортах СНГ и Балтии
(табл. 7).
Таблица 7
Города
Архангельск
Мурманск
Петрозаводск
Таллин
Рига
Вильнюс
Минск
Снег, мм
210
168
175
92
112
100
68
Города
Ереван
Омск
Алма-Ата
Ташкент
Новосибирск
Курск
Н.Новгород
33
Снег, мм
64
105
63
39
144
96
135
Окончание табл. 7
Города
Москва
Екатеринбург
Киев
Кишенев
Самара
Волгоград
Тбилиси
Баку
Снег, мм
174
141
89
53
104
143
27
20
Города
Красноярск
Иркутск
Чита
Якутск
Хабаровск
Владивосток
Магадан
Душанбе
Снег, мм
92
140
136
74
68
72
135
16
Введем в таблицу исходных данных выборку из наблюдений над количеством снега, мм. Проверим сначала гипотезу о нормальном законе распределения случайной величины.
Для этого используется критерий Колмогорова-Смирнова.
Проверка гипотезы о нормальном законе распределения включает следующие действия:
1. Вызовите меню Statistics - Basic Statistics/Tables-Frequency Tables-ОК.
2. В открывшемся окне Frequency Tables нажмите на кнопку Variables, в
результате откроется окно Select the Variables for the analysis.
3. В списке переменных окна Variables выделите переменную снег (мм) и
нажмите на кнопку ОК.
4. Выберите закладку Normality, установите флажок Kolmogorov-Smirnov
test,mean/std. dv known, который задает режим проверки нормального закона по
критерию Колмогорова-Смирнова.
5. Нажмите кнопку Tests of Normality, получим таблицу с результатами
проверки гипотезы (рис. 23).
Рис. 23. Панель модуля Fitting Distribution со значениями описательных статистик
нормального распределения
34
Так как значение критического уровня значимости большое (р≥0,2), то
можно утверждать, что распределение является нормальным.
Для построения гистограммы в окне Frequency tables, с помощью закладки Advanced, отметьте переключатель No of exact intervals и в соответствующее
поле введите количество интервалов - в нашем случае оно равно 6. Далее нажмем кнопку Histogram и получим гистограмму частот и график теоретической
плотности нормального распределения.
Для построения графика в окне Frequency tables нажмем кнопку Normal
Probability plots, в закладке Descr.
Наилучшим ли образом нормальный закон соответствует распределению
случайной величины исследуемой совокупности? Внешний вид гистограммы
частот позволяет выдвинуть и другие гипотезы о законе распределения. Для
проверки других гипотез воспользуемся процедурами пакета в модуле Statistics
/Distribution Fitting. Проверку будем выполнять по хи -критерию Пирсона.
Выберите режим Distribution Fitting, откроется список непрерывных законов распределения. Сначала проверим гипотезу о нормальном законе распределения. Для этого выделим Normal - ОК. В окне Fitting Continuous Distributions нажмите кнопку Vаriablеs и далее в окне Select Variables for Analysis выберите переменную снег (мм) - ОК. В окне закладки Parameters получим среднее значение μ=101.8333 и дисперсию σ2 = 2409.4536.
Далее зайдите в закладку Quick и активизируйте кнопку Plot of observed
and expected distribution. Получим гистограмму частот, показывающую результат подгонки эмпирического распределения к теоретическому χ2=1.217916, ему
соответствует критический уровень значимости 0.2697783. Так как он имеет
достаточно большое значение (>0.2), то можно утверждать, что распределение
является нормальным (рис. 24).
Результаты проверки гипотез о логнормальном законе и гамма- распределении также могут быть представлены графиками с соответствующими значениями χ2 =1.98095, при значении с самым большим значением критического
уровня значимости 0.15929 и χ2 =0.932749 с самым большим значением критического уровня значимости 0.334156. Таким образом, в окончательном, варианте следует принять и гипотезу о гамма-распределении.
Рис. 24. График и гистограмма результатов проверки гипотезы
о нормальном законе распределения
35
Задание к работе
1. Выполнить задания из примеров 1-3.
2. Проверить три гипотезы о нормальном, о равномерном и о показательном распределении выборки.
3. Генерировать три выборки объемами n1;=180, n2=100, n3=120 для заданного в табл. 2 распределения. Провести их группирование на 8-10 интервалах. Проверить гипотезу об однородности трех выборок. Выполнить задания
для двух вариантов:
а)
параметры одинаковы;
б)
параметры различны.
Замечание к п. 3. Гипотезу об однородности проверить аналогично примеру 2. Группирование провести процедурой Frequency tables и из трех таблиц
сформировать одну.
Лабораторная работа 8
ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ В СИСТЕМЕ STATISTICA
Цель работы – изучить построение функциональной зависимости между
двумя группами числовых характеристик.
Пример 1. Построить линейную регрессионную модель по зависимости
цены жилого дома от его полезной площади. Данные относятся категории так
называемых «хороших» домов. Принадлежность дома к определенной категории устанавливалась экспертным путем агентом по продаже недвижимости.
Стоимость дома измеряется в долларах, площадь — в квадратных футах
(1 фут=30,48 см).
Выполнение в системе STATISTICA
Создадим файл данных home.sta (2v*8c), переменные назовем PRICE (цена) и SQUARE (площадь). Информацию о данных поместим в окне Data File
Header (3аголовок файла данных) (рис. 25).
Рис. 25
36
Построим диаграмму рассеяния, чтобы увидеть характер регрессионной
зависимости. Из меню модуля делаем выбор Graphs. В спустившемся меню
выбираем 2D Graphs. Далее переместим курсор и выберем Scatterplots... В открывшемся окне нажмем кнопку Variables и назначим: x: square, y: price, - ок.
Возвращаемся в диалоговое окно, устанавливаем тип графика: Graphs Type:
Regular и устанавливаем флажок в окошке: Linear fit – ОК (рис.26).
Рис.26. Панель модуля Scatterplots
Наблюдаем график зависимости на рис. 27.
Рис.27. График зависимости цены дома от полезной площади
Параметры подобранной прямой регрессии отражены в заголовке: Scatterplot (HOME.STA 2v*8c) y=981,157+10,936*x. Т.е. предположение о линейности подтверждается графически.
Выполним регрессионный анализ. Для начала вызовем стартовую панель модуля Multiple Regression. Для этого в меню на панели инструментов
выбираем Statistics, затем модуль Multiple Regression.
37
Нажмем кнопку Variables, выбираем переменные для анализа: Select depended and independed variable lists. Выбираем зависимую переменную Depended var: PRICE и независимую - Independed var :SQUARE, выделяя их курсором в соответствующих списках- ОК -возвращаемся в стартовую панель.
Выбираем закладку Advanced. Содержимым окна Input file: является
строка Raw Data (Необработанные данные). ОК.
Система оценивает параметры модели и выдает результат оценивания в
окне (рис. 28).
Окно Multiple Regression Results состоит из двух частей: в первой части
окна содержатся результаты оценивания, во второй - высвечиваются значимые
регрессионные коэффициенты. Внизу окна помещены кнопки для дальнейшего
просмотра результатов анализа.
Верхняя часть окна содержит следующую информацию.
Dependent - имя зависимой переменной. В нашем случае PRICE.
No. of Cases - число случаев, по которым построена регрессия. В нашем
случае число равно 8. Multiple R= ,87464206 - коэффициент множественной
корреляции.
Рис. 28. Окно с результатами анализа
R2(R1)=,76499874 - коэффициент детерминации (квадрат коэффициента
множественной корреляции). Он показывает долю общего разброса, которая
объясняется построенной моделью.
Adjusted R2= ,72583186 - скорректированный коэффициент детерминации, который вычисляется Adjusted R2(Rl)=l-(l-Rl)*(n/(n-p)). Здесь n - число наблюдений в модели, р - число параметров модели.
Standard error of estimate: 1945,8944227 - стандартная ошибка оценки.
Эта статистика является мерой рассеяния наблюдаемых значений относительно
регрессионной прямой.
Intercept - оценка свободного члена прогрессии; значение коэффициента
в уравнении регрессии.
38
Std.Error - стандартная ошибка оценки свободного члена.
F=19,53178 - значение критерия F.
df - число степеней свободы F-критерия.
р - уровень значимости F-критерия.
t(6) and p-value - значение t-критерия и уровня р.
Нашей задачей было построить модель вида PRICE= A+b*SQUARE и исследовать значимость регрессии, а также адекватность построенной модели исходным данным.
В информационной части смотрим на значение коэффициента детерминации R2= ,76499874. Это значит, что построенная регрессия объясняет 76,5 %
разброса значений переменной относительно среднего.
Во второй части информационного окна система сама говорит о значимых регрессионных коэффициентах, высвечивая строку: SQUARE beta=0.875 и
поясняя ниже (significant beta is highlighted) (значимые beta высвечены). В данном случае beta есть стандартизованный коэффициент b, т.е. коэффициент при
независимой переменной SQUARE.
Перейдем к итоговым результатам регрессии – Summary:Regression. Выберем закладку Quick и нажмем кнопку Summary: Regression results в функциональной части окна результатов. На экране появится электронная таблица
вывода результатов (см. рис. 29).
Рис. 29. Таблица результатов регрессии
В ее заголовке повторены основные результаты предыдущего окна. Кроме того, в столбцах итоговой таблицы регрессии приведены оценки параметров
модели Y=A+bX и их статистические характеристики.
Из таблицы видим, что модель имеет вид
PRICE = 981.157+10.9136*SQUARE.
В столбце В приведены значения оценок неизвестных коэффициентов
регрессии: Intercept (свободный член) =981.157, коэффициент при независимой
переменной SQUARE=10.9136.
39
Визуализируем модель. Для этого из левого нижнего угла экрана откройте окно 2D Scatterplots.
Проведем анализ остатков и оценим адекватность модели. Анализ адекватности основывается на анализе остатков. Остатками называют разности
между наблюдаемыми (исходными) значениями зависимой переменной и предсказанными (вычисленными) по модели. В окне Multiple Regression Results выберите закладку Residual/assumptions/prediction (Остатки/предположения
/предсказания) и нажмите кнопку Perform residual analysis (выполнить анализ
остатков). Теперь выберите закладку Scatterplots и нажмите кнопки Predicted
vs. observed (здесь наблюдаемые значения связанны с предсказанными), а также
кнопку Observed values Residuals (наблюдаемые переменные остатков) (см.
рис. 30,31).
Рис. 30. График наблюдаемых и предсказанных значений
Рис. 31. График наблюдаемых переменных остатков
Из графиков видно, что модель адекватно описывает данные. Определим
теперь стоимость дома площадью 1000 квадратных футов.
Для этого в окне Multiple Regression Results нажмите кнопку Predict de-
40
pended var (см. рис. 29). Нa экране появится окно: Specify values for independent
variables. Задайте в этом окне какое-либо значение независимой переменной,
например, SQUARE=1000 и нажмите ОК. На экране появится следующая таблица (рис. 32).
Рис. 32. Таблица предсказанных значений переменных
с помощью модели цен на дома площадью 1000 м2
Таким образом, ориентировочная цена данного дома 11 894 доллара 75
центов. Эта цена является основанием для предстоящего торга с владельцем
или агентом по продаже домов.
Пример 2. Определение постоянной Хаббла. Американский астроном
Хаббла в 1929 году обнаружил, что галактики удаляются от Земли со скоростью, пропорциональной расстоянию. Коэффициент этой пропорциональности
получил название «постоянная Хаббла». По известным данным для 11 галактик
(рис.33) найдем оценку коэффициента/
.
Рис. 33
41
Выполнение в системе STATISTICA
Создадим файл HUBLLE.sta, куда поместим данные табл. (рис. 1). Построим диаграмму рассеяния: Graphs - 2D Graphs - Scatterplots. (Variables: X:
SPEED, Y: DISTANCE), ОК. Тип графика: Graphs type: Regular; Linear fit - ОК.
Рассмотрим график зависимости, параметры подобранной прямой регрессии
отражены в заголовке.
Из графика видно, что предположение о линейности подтверждается графически (рис. 34).
Рис. 34. График зависимости расстояния от скорости
Выполним регрессионный анализ. Для начала вызовем стартовую панель модуля Multiple Regression (Statistics).
Нажмем кнопку Variables, выберем переменные для анализа: Select depended and independed variable lists. Выбираем зависимую переменную Depended var: DISTANCE и независимую - Independed var : SPEED –OK, возвращаемся в стартовую панель.
Задание: проанализировать окно Multiple Regression Results. Нашей задачей было построить модель вида DISTANCE =A+b*SPEED и исследовать значимость регрессии, а также адекватность построенной модели исходным данным:
-значение коэффициента детерминации R2=,99723464, построенная регрессия объясняет 99,7% разброса значений переменной относительно среднего;
- значение F- критерия=3245,554, при уровне значимости р= .000000; Fкритерий используется для проверки гипотезы о значимости уравнения регрессии. Гипотеза Но утверждает, что между переменными нет линейной зави42
симости, т.е. b = 0, против альтернативы H1 b≠0. В данном случае имеем большое значение F-критерия и уровень значимости р<10-6, показывающие, что
гипотезу Но следует отклонить.
- SPEED beta=.999.
Перейдем к итоговым результатам регрессии – Summary: Regression results (Multiple Regression-Quick) (рис. 35).
Рис. 35. Таблица итоговых результатов регрессии
В столбце В приведены значения оценок неизвестных коэффициентов
регрессии: Intercept (свободный член) = -1.05331, B-SPEED (коэффициент при
независимой переменной)=2.82313- это и есть постоянная Хаббла.
Std.Err. of В — стандартные ошибки оценок коэффициентов (оценки
стандартных отклонений).
Столбец t - значение статистик Стьюдента для проверки гипотез о нулевом значении коэффициентов.
P-level - уровни значимости отклонения этих гипотез.
Из рис. 35 видим, что модель имеет вид: DISTANCE = -1.05+2.82* SPEED.
Анализ остатков и оценка адекватность модели
Multiple Regression Results - Residual/assumptions/prediction (остатки
/предположения/предсказания) - Perform residual analysis (выполнить анализ остатков). Теперь выберите закладку Scatterplots и нажмите кнопки Predicted vs.
observed (наблюдаемые значения, связанные с предсказанными), а также кнопку
Observed values Residuals (диаграмма рассеяния остатков вокруг регрессии). Для
построения графика остатков на вероятностной бумаге выберите в модуле Multiple Regression Results- Residual/assumptions/prediction- Perform residual analysis
закладку Probability plots и нажмите кнопку Normal plot of residuals (рис. 36).
43
Рис. 36. График распределения остатков
Для построения гистограммы распределения остатков выберите закладку
Residuals и нажмите кнопку Histogram of Residuals (рис. 37).
Рис. 37. Гистограмма остатков
Задание
Вариант 1. Исследовать зависимость между объемом производства, капитальными вложениями и выполнением норм выработки. Для построения модели собраны данные по исследуемым переменным на 12-ти предприятиях данной отрасли в табл. 8.
44
Таблица 8
Предприятие
Капиталовложения,
млн р.
1
2
3
4
5
6
7
8
9
10
11
12
16,3
16,8
18,5
16,3
17,9
17,4
16,1
16,2
17,0
16,7
17,5
19,1
Средний процент
выполнения
нормы
99,5
98,9
99,2
99,3
99,8
99,6
99,8
99,7
99,8
99,9
100,0
100,2
Объем
производства,
млн р.
52,8
48,4
54,2
50,0
54,9
53,9
53,1
52,4
53,0
52,9
53,1
60,1
Требуется провести регрессионный анализ зависимости объема производства Y от объема капиталовложений X1 и среднего процента выполнения нормы X2 по следующей схеме.
1. Построить рабочую таблицу для расчета средних значений, дисперсий,
среднеквадратичных отклонений случайных величин Y,X1.
2. Построить уравнение линейной регрессии для объема производства Y
от объема капиталовложений X1 .
3. Оценить надежность полученного уравнения регрессии по критерию
Фишера.
4. Оценить надежность на уровне значимости 5% полученного коэффициента корреляции для Y,X1 по критерию Стьюдента.
5. Построить рабочую таблицу для расчета средних значений, дисперсий,
среднеквадратичных отклонений случайных величин Y,X2.
6. Построить уравнение линейной регрессии для объема производства Y
от среднего процента выполнения нормы X2.
7. Оценить надежность полученного уравнения регрессии по критерию
Фишера.
8.Оценить надежность на уровне значимости 5% полученного коэффициента корреляции для Y,X2 по критерию Стьюдента.
9. Нарисовать графики найденных регрессий с нанесением точек исходных статистических данных.
10. Провести анализ остатков.
Вариант 2. Исследовать стоимость группы небольших офисных зданий в
традиционном деловом районе. Застройщик может использовать множествен45
ный регрессионный анализ для оценки цены офисного здания в заданном районе на основе следующих переменных:
y - оценочная цена здания под офис;
x1 - общая площадь в квадратных метрах;
x2 - количество офисов;
x3 - количество входов (0,5 входа означает вход только для доставки корреспонденции);
x4 - время эксплуатации здания в годах.
Предполагается, что существует линейная зависимость между каждой независимой переменной (x1, x2, x3 и x4) и зависимой переменной (y), то есть ценой здания под офис в данном районе. Исходные данные показаны на рис. 38.
Рис. 38
Требуется:
1. Построить рабочую таблицу для расчета средних значений, дисперсий,
среднеквадратичных отклонений случайных величин у, х1.
2. Построить уравнение линейной регрессии для цены здания у от общей
площади х1 .
3. Оценить надежность полученного уравнения регрессии по критерию
Фишера.
4. Оценить надежность на уровне значимости 5% полученного коэффициента корреляции для у, х1 по критерию Стьюдента.
5. Построить рабочую таблицу для расчета средних значений, дисперсий,
среднеквадратичных отклонений случайных величин у, х2.
6. Построить уравнение линейной регрессии для объема производства у
от среднего процента выполнения нормы х2 .
7. Оценить надежность полученного уравнения регрессии по критерию
Фишера.
46
8. Оценить надежность на уровне значимости 5% полученного коэффициента корреляции для у, х2 по критерию Стьюдента.
9. Нарисовать графики найденных регрессий с нанесением точек исходных статистических данных.
10. Провести анализ остатков.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1.
Боровиков, В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В. Боровиков. – СПб.: Питер 2003. – 668 с.
2.
Андронов, А. М. Теория вероятностей и математическая статистика
/ А.М. Андронов, Е.А. Копытов, Л.Я. Гринглаз. – СПб.: Питер, 2004. – 461 с.
3.
Тюрин, Ю.М. Статистический анализ данных на компьютере /
Ю.М. Тюринов, А.А. Макаров. – М.: ИНФРА-М., 1998. - 528 с.
4.
Теория вероятностей и математическая статистика в задачах: учеб.
пособие для вузов / В.А. Ватутин [и др.]. – М.: Дрофа, 2003. – 328 с.
47
ОГЛАВЛЕНИЕ
Введение ………………………………………………………………………3
Лабораторная работа 1. Введение в пакет программ STATISTICA……..3
Лабораторная работа 2. Построение таблиц сопряженности в пакете
STATISTICA……………………………………………………………......…8
Лабораторная работа 3. Графический анализ таблиц сопряженности…12
Лабораторная работа 4. Простейшие задачи математической
статистики……………………………………………………………………15
Лабораторная работа 5.Вычисление описательных статистик
и построение простейших статистических графиков…………………….18
Лабораторная работа 6. Вероятностный калькулятор……………..……22
Лабораторная работа 7. Проверка статистических гипотез.
Критерий согласия хи-квадрат Пирсона…………………………………...30
Лабораторная работа 8. Простая линейная регрессия
в системе STATISTICА.............................................................................37
Заключение…………………………………………...……………………...48
Библиографический список ……………………………….……………….48
КОМПЬЮТЕРНЫЙ ПРАКТИКУМ В ПАКЕТЕ STATISTICA
Методические указания к выполнению лабораторных работ
для студентов специальности 200503
“Стандартизация и сертификация”,
080507 «Менеджмент организации»,
080502 «Экономика и управление на предприятии (строительство)»,
080801 «Прикладная информатика в экономике»
Составитель:
канд. физ.-мат. наук, ст. преп. Татьяна Вячеславовна Мещерякова
Подписано в печать 22 .05.2009. Формат 60х84 1/16. Уч.-изд. л. 2,9.
Усл. печ. л. 3,0. Бумага писчая. Тираж 200 экз. Заказ №
Отпечатано: отдел оперативной полиграфии Воронежского
государственного архитектурно-строительного университета
394006 Воронеж, ул. 20-летия Октября, 84
Документ
Категория
Без категории
Просмотров
38
Размер файла
996 Кб
Теги
практикум, statistika, компьютерные, 343, пакет, 205
1/--страниц
Пожаловаться на содержимое документа