close

Вход

Забыли?

вход по аккаунту

?

infa Laboratornaya rabota 9

код для вставкиСкачать
Лабораторная работа № 9
Обработка данных:
Вычисление числовых характеристик выборки;
Построение уравнения регрессии.
Цель работы: получить навыки статистической обработки данных и построения математической функции (модели) наилучшим образом описывающей экспериментальные данные.
Задание 1. Рассчитать числовые характеристики выборки. При расчете использовать встроенные статистические функции электронной таблицы MS Excel. Методика выполнения Задания 1 Откройте в MS Excel новую книгу и на Лист 1 из файла Задание 1.xls , находящегося в папке Лабораторная_работа_9, скопируйте выборку (диапазон) своего варианта. Оформите лист, как показано на рисунке.
Присвойте выборки (диапазону) имя − Выборка. Для чего выполните последовательность команд Вставка | Имя | Присвоить ... Используя в формулах встроенные в MS Excel статистические функции, рассчитайте числовые характеристики выборки:
Количество элементов в выборке (n): =СЧЕТ(Выборка).
Максимальное значение в выборке (max): =МАКС(Выборка).
Минимальное значение в выборке (min): =МИН(Выборка).
Среднее арифметическое значение выборки (М): =СРЗНАЧ(Выборка) или =СУММ(Выборка)/СЧЕТ(Выборка).
Дисперсия − характеристика вариации выборки (s2): =ДИСП(Выборка).
Стандартное отклонение − квадратный корень из дисперсии (s): =СТАНДОТКЛОН(Выборка) или =КОРЕНЬ(ДИСП(Выборка)).
Ошибка среднего (m): =СТАНДОТКЛОН(Выборка)/КОРЕНЬ(СЧЕТ(Выборка)).
Медиана − это значение, которое соответствует середине отсортированной по возрастанию выборки (med): =МЕДИАНА(Выборка).
95% доверительный интервал среднего:
Левая граница (ML): ;
Правая граница (MP): .
Функции в формулы вставляются в два шага.
Вначале выполняется последовательность команд Вставка | Функция ... или нажатием на кнопку в строке формул. После чего откроется диалоговое окно Мастер функций, в котором выбирается нужная функция.
На втором шаге, в окне Аргументы функции, в соответствии с синтаксисом функции вставляются необходимые аргументы.
Задание 2. С помощью MS Excel провести регрессионный анализ заданных данных.
Численность населения мира, млн. чел.
ВариантСтрана19001913192919381950196019701980199020001США76,497,6122,2130,5153176200,52272472772Германия45,754,758,762,367727778,579823Франция40,841,84242424650,55456,5594Япония4451,663,271,88393104116,8123,51275СССР123158171,5186,5205,5226,5247258,5290290Численность населения занятого в мировой экономике, млн. чел.
ВариантСтрана19001913192919381950196019701980199020006Германия18,523,52526,5293134353738,57Франция20202019,51921232526,527,58Англия16,518,52020,522,5242525,52626,59Италия1516,5171818,520222424,525
Промышленное производство: добавленная стоимость, в ценах 2000 г., млрд. долл.
ВариантСтрана190019131929193819501960197019801990200010Германия2951594789324442051057562511Франция28465752639319027531035512Англия53738410513018024526530033513СССР4070801052054807259351000545
Мировое сельскохозяйственное производство: добавленная стоимость в ценах 2000 г., млрд. долл.
ВариантСтрана190019131929193819501960197019801990200014США43566976,593,5105128,5146157,517515Германия16192021,523293740,546,552,616Франция21,52222,52323,529,547536576,517Италия13,514,5161718,530,54244,5495618СССР3750,558,8637581,587,598120100
Мировой товарный экспорт, в ценах 2000 г., млрд. долл.
ВариантСтрана190019131929193819501960197019801990200019Германия21,5545864,136,587,518538560071020Франция2228,540,44031,562,314023533042021Англия38,554,573766610516023632040022Бельгия12,215,518,416,812,327,963112176214
В MS Excel предлагается выбрать из пяти типов аппроксимирующих функций наилучшую и на её основе построить линию регрессии (тренд).
ТипОписание1. ЛинейнаяАппроксимирующая прямая:
Y = bX + a,
где b − тангенс угла наклона, а − точка пересечения прямой с осью Y2. ЛогарифмическаяЛогарифмическая аппроксимация:
Y = b*ln(X) + a,
где a и b − константы, ln − натуральный логарифм3. ПолиномиальнаяПолиномиальная аппроксимация:
Y = b1X6 + b2X5 + b3X4 + b4X3 + b5X2 + b6X + a,
где bi, 1,2, ... ,6, и а − константа. Максимальная степень полинома 6 4. СтепеннаяСтепенная аппроксимация:
Y = b*Xa ,
где a и b − константы5. ЭкспоненциальнаяЭкспоненциальная аппроксимация:
Y = b*eaX, где a и b − константы, е − основание натурального логарифма. Теория
На практике довольно часто приходится сталкиваться с некоторым набором экспериментальных величин, требующих аналитической обработки. Как правило, для этих данных нужно подобрать некоторую модель, которая позволяет описывать наблюдаемые явления и, с некоторой долей вероятности, строить соответствующие прогнозы. В таких случаях математическая формулировка задачи ставится следующим образом.
Имеются две наблюдаемые величины х и у, причем у зависит от х некоторым образом. Необходимо построить математическую модель , где f(x) − некоторая функция от х наилучшим образом описывающую наблюдаемые значения у.
Обычно следует выбирать так, чтобы минимизировать сумму квадратов разностей (метод наименьших квадратов) между наблюдаемыми и теоретическими значениями зависимой переменной у и , т. е. минимизировать некоторую функцию:
где n − число наблюдений.
При решении такой задачи, главной проблемой является выбор некоторой математической функции, позволяющей достоверно описывать полученные экспериментальные данные и прогнозировать ожидаемые результаты.
В MS Excel существует возможность быстрого расчета наиболее подходящей линии, которая проходит через серию заданных точек. Это так называемая линия тренда, по которой можно проследить развитие функции с наименьшей ошибкой. Линия тренда (основное название − линия регрессии) − статистический инструмент, представляющий собой линию , построенную на основе данных диаграммы у с использованием некоторой аппроксимации. В некоторых случаях этими результатами можно воспользоваться для анализа тенденций и краткосрочного прогнозирования.
Удобной математической моделью экспериментальных зависимостей является уравнение вида Y(X) = f(X) + , где  − случайная переменная (остатки). Это уравнение называется уравнением регрессии; функция f(X) − функцией регрессии. Относительно случайной величины  обычно делается предположение, что она имеет нормальное распределение с нулевым средним значением.
Выбор функции f(X) методом наименьших квадратов составляет задачу регрессионного анализа. Тип функции регрессии в значительной мере зависит от экспериментальных данных, однако наиболее часто используют многочлен вида Y = a + b1X + b2X2 + ... + bmXm (коэффициенты a и bi определяется на основе экспериментальных данных). Такая функция линейной регрессии называется полиномиальной. Примерный порядок выполнения Задания 2
В MS Excel открыть новую книгу и на первом листе ввести данные для X и Y (рис. 1.).
Построить диаграмму данных в виде точечного графика.
Активизировать диаграмму и выполнить команду Диаграмма | Добавить линию тренда ... | окно Линия тренда | вкладка Параметры (флаг − показать уравнение на диаграмме; флаг − поместить на диаграмму величину достоверности аппроксимации (R^2)).
Изменяя значения Y проследить за изменениями коэффициента детерминации (R2) и подобрать ту линию регрессии, при которой R2 будет максимальным. Обратить внимание на вид уравнения регрессии.
Задание 2 размещается на одном рабочем листе. Разработанная модель должна быть наглядной, при изменении исходных данных должен осуществляться пересчет соответствующих величин и перестройка графиков. Пример выполнения регрессионного анализа приведен на рис.1. Несмотря на то, что обе аппроксимирующие функции: полиномиальная (полином 5-й степени) и степенная, дают хорошее приближение к заданным данным (R2 = 0,9997 и R2 = 0,8092). Однако, практическое использование какой-либо функции вызывает затруднение из-за сложности и ошибок вычисления значений малых коэффициентов при аргументе Х.
Решение данной задачи следует поискать среди других аппроксимирующих функций.
Рис. 1. Пример (не образец!) построения линии и уравнения регрессии (степенная и полиномиальная аппроксимация данных)
Контрольные вопросы
1. Что характеризует среднее арифметическое выборки?
2. Что характеризует дисперсия выборки?
3. Что характеризует стандартное отклонение среднего?
4. Что характеризует медиана выборки?
5. Как рассчитывается ошибка среднего выборки?
6. Поясните понятие доверительного интервала среднего выборки.
7. Объясните принцип приближения данных линией методом наименьших квадратов.
8. Величина, какого показателя характеризует меру приближения линии тренда к данным.
9. Почему для построения диаграммы данных используется тип диаграммы "точечная".
10. Как отобразить на диаграмме уравнение и коэффициент детерминации линии регрессии.
11. На что нужно обращать внимание, кроме коэффициента детерминации, при выборе уравнения тренда.
1
Документ
Категория
Рефераты
Просмотров
69
Размер файла
158 Кб
Теги
rabota, infa, laboratornaya
1/--страниц
Пожаловаться на содержимое документа