Магазин торгует подержанными автомобилями. Статистика их потребительских цен накапливается в базе данных. В магазин пригоняют на продажу очередную партию небольших однотипных автомобилей. Как назначить их цену? Статистический подход позволяет дать прогноз среднего значения цены и доверительных интервалов для него.
Цена автомобиля зависит от множества факторов. К числу объясняющих переменных можно отнести, например, модель автомобиля, фирму-производитель, регион производства (Европа, США, Япония), объем двигателя, фирму-производитель, регион производства (Европа, США, Япония), объем производителя, количество цилиндров, время разгона до 100 км/час, пробег, потребление горючего, год выпуска и т.д. Первые из названных переменных очень важны при ценообразовании, но они – качественные. Традиционный регрессионный анализ, рассматриваемый в этом задании, предназначен для количественных данных. Поэтому, не претендуя на высокую точность, не будем включать их в эконометрическую модель. Сделаем выборку, например, только для автомобилей одной фирмы-производителя. Пусть, например, оказалось, что продано n= 16 таких автомобилей. Для упрощения выберем из базы данных цены yi
(i = 1......16) проданных автомобилей и только две объясняющие переменные: возраст хi1
(i = 1, …..16) в годах и мощность двигателя хi2
(i = 1, ….16) в лошадиных силах. Выборка представлена в таблице:
1. Построить поля рассеяния между ценой y и возрастом автомобиля х1
, между ценой y и мощностью автомобиля x2
. На основе их визуального анализа выдвинуть гипотезу о виде статистической зависимости y от х1
и y от х2
. Найти точечные оценки независимых параметров
а0
а1
модели y = а0
+ а1
х1
+ ε и
β1
β2
модели y = β0
+ а1
х1
+ δ
2. Проанализировать тесноту линейной связи между ценой и возрастом автомобиля, а также ценой и мощностью двигателя х2
. Для этого рассчитать коэффициенты парной корреляции ryx1
и ryx2
и проверить их отличие от нуля при уровне значимости α = 0,1.
3. Проверить качество оценивания моделей на основе коэффициента детерминации, F- и t- критериев при уровне значимости α = 0,05 и α = 0,10.
4. Проверить полученные результаты с помощью средств MicrocoftExcel.
5. С помощью уравнений регрессии рассчитать доверительные интервалы для среднего значения цены, соответствующие доверительной вероятности 0,9. Изобразить графически поля рассеяния, линии регрессии и доверительные полосы.
На продажу поступила очередная партия однотипных автомобилей. Их возраст х1
равен 3 года. Мощность двигателя х2
= 165 л.с. Рассчитать точечный и интервальный прогноз среднего значения цены поступивших автомобилей по моделям y = а0
+ а1
х1
+ ε и y = β0
+ а1
х1
+ δ с доверительной вероятностью 0,9.
Решение:
На основе поля рассеяния, построенного на основе табл. 1, выдвигаем гипотезу о том, что зависимость цены y от возрастаавтомобиля x1
описывается линейной моделью вида
где а0
и а1
– неизвестные постоянные коэффициенты, а ε – случайная переменная (случайное возмущение), отражающая влияние неучтенных факторов и погрешностей измерений.
Рисунок 1 – Поле рассеяния «возраст автомобиля-цена»
Аналогично, на основе анализа поля рассеяния (рис. 2), также построенного на основе таблицы 1, выдвигаем гипотезу о том, что зависимость цены y от мощности автомобиля x2
описывается линейной моделью вида
y = β0
+ β1
х1
+ δ
где β0
и β1
– неизвестные постоянные коэффициенты, а ε – случайная переменная (случайное возмущение), отражающая влияние неучтенных факторов и погрешностей измерений.
Рисунок 2 – Поле рассеяния «мощность автомобиля-цена»
На основе табл. 1 исходных данных для вычисления оценок параметров моделей составляется вспомогательная табл. 1.1. Воспользуемся формулами и левой частью таблицы 1.1. для нахождения оценок а0
и а1
.
Аналогично находятся оценки коэффициентов второй регрессионной модели y = β0
+ β1
х1
+ δ. При этом используется правая часть таблицы
= 1611/16=100,6875
= 10137.97
= 153271,1
= 167677
β1
=
β 0
= 9,0625- 0,0099 * 100.6875= 2.0355
Окончательно получаем:
Подставляем соответствующие значения в формулу:
ryx
=
ryx1
=
= 0,915
ryx2
=
= 0.8
В нашей задаче t0.95;14
= 1,761
Для ryx1
получаем
=
= 0,955 <1.761
Условие не выполняется, следовательно, коэффициент парной корреляции не значим, гипотеза отвергается, между переменными отсутствует линейная связь
=
= 4.98>1.761
Условие выполняется, следовательно, коэффициент парной корреляции значимый, гипотеза подтверждается, между переменными существует сильная линейная связь
Коэффициент парной корреляции ryx
связан с коэффициентом а1
уравнения регрессии
следующим образом
ryx
= a1
Sx
/Sy
где Sx
, Sy
– выборочные среднеквадратичные отклонения случайных переменных х и y соответственно, рассчитывающиеся по формулам:
Sx1
= √ Sx12
Sx12
= 1/n ∑(xi
-
)2
Sy
= √ Sy2
Sy2
= 1/n ∑(yi
-
)2
ryx1
= 0,915
ryx2
= 0,8
R2
= ryx12
= 0,8372
Вариация на 83,72 % объясняется вариацией возраста автомобиля
R2
= ryx22
= 0,64
Вариация на 64 % объясняется вариацией мощности двигателя автомобиля
Рассчитаем фактическое значение F- статистики Фишера по формуле:
F=
F=
= 0,768 для зависимости y от х1
F=
= 0,285для зависимости y от х2
Fт
= 4,6
Поэтому для зависимостей y от х1
и y от х2
выполняется неравенство
Fт
<Fф
гипотеза отклоняется и признается статистическая значимость уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии используется t-критерий Стьюдента.
Для зависимости y от х1
:
= √F = √0,768 = 0,876
Поскольку это значение меньше 1,761, то принимаем нулевую гипотезу равенства нулю а1
Поскольку это значение меньше 1,761, то принимаем нулевую гипотезу равенства нулю а1
Проверка с помощью MicrosoftExcel
Оценка параметра а1
-1,87237
Оценка параметра а0
18,89868
Среднеквадратическое отклонение
0,200234
Среднеквадратическое отклонение а0
1,073633
Коэффициент детерминации R2
0,861987
Среднеквадратическое отклонение y
0,872798
F-Статистика
87,43972
Число степеней свободы
14
Регрессионная сумма квадратов
66,60951
Остаточная сумма квадратов
10,66487
Оценка параметра а1
0,0698523
Оценка параметра а0
2,0354973
Среднеквадратическое отклонение
0,013746
Среднеквадратическое отклонение а0
1,4271948
Коэффициент детерминации R2
0,648444
Среднеквадратическое отклонение y
1,3929996
F-Статистика
25,822959
Число степеней свободы
14
Регрессионная сумма квадратов
50,108105
Остаточная сумма квадратов
27,16627
Рассчитаемдоверительный интервал среднего значения цены для y = a0
+ a1
x1
/
: ŷв.н. = ŷ(х0
) ± t1-α/2,n-2
Sŷ
,
где ув
, ун
– соответственно верхняя и нижняя границы
доверительногоинтервала;
ŷ(х0
) – точечный прогноз;
t1-α/2,n-2
–квантиль распределения Стьюдента;
(1-α/2) – доверительная верояность;
(n-2) – число степеней свободы;
: ŷв.н. = ŷ(х0
) ± t1-α/2,n-2
Sŷ
,
ta
= 2,57
Доверительный интервал для уn
:
Нижняя граница интервала:
= 18,74-1,844*5 = 9,52
Верхняя граница интервала:
= 18,74-1,844*7 = 5,832
Sx12
= 1/n ∑(xi
-
)2
= 19/16 = 1,1875
Sx1
= 1,089
xi1
xi1 -
хср1
(xi1 -
хср1)2
х2
х1
х2
5.0
-0,25
0,0625
155
775
7.0
1,75
3,0625
87
609
5.0
-0,25
0,0625
106
530
4.0
-1,25
1,5625
89
356
4.0
-1,25
1,5625
133
532
6.0
0,75
0,5625
94
564
5.0
-0,25
0,0625
124
620
5.0
-0,25
0,0625
105
525
4.0
-1,25
1,5625
120
480
4.0
-1,25
1,5625
107
428
7.0
1,75
3,0625
53
371
5.0
-0,25
0,0625
80
400
6.0
0,75
0,5625
67
402
7.0
1,75
3,0625
73
511
6.0
0,75
0,5625
100
600
4.0
-1,25
1,5625
118
472
19
8175
myx
= S
1,089*√1/16 + 1,5625/19 = 0,414
5,832 – 2,57*0,414 ≤ yn
≤ 5,832 + 2,57*0,414
На продажу поступила очередная партия однотипных автомобилей. Их возраст xp1
= 3 года. Мощность двигателя xp2
= 165 л.с.
Рассчитаем точечный и интервальный прогноз среднего значения цены поступивших автомобилей по первой парной регрессионной модели
y = β0
+ β1
х1
+ δ
Подставляем xp1
в уравнение регрессии:
Получим точечный интервальный прогноз среднего цены.
(xp1
) = 18,74 – 1,844*3 = 13,208 тыс. у.е.
Подставляем точечный интервальный прогноз среднего цены
(xp1
) = 12,3 тыс. и xp1
= 3 года в уравнения границ доверительного интервала регрессии. Получим интервальный прогноз с доверительной вероятностью 0,9
ŷв.н. = 13,208±2,57*0,414 или ŷн = 12,14 тыс. у.е.,
Найти по методу наименьших квадратов оценки коэффициентов множественной регрессионной модели
y = а0
+ а1
х1
+ а2
х2
+ε
Проверить качество оценивания моделей на основе коэффициента детерминации и F-критерия. Пояснить их содержательный смысл.
Проверить полученные в заданиях результаты с помощью средств MicrocoftExcel.
Рассчитать точечный и интервальный прогноз среднего значения цены поступивших автомобилей по множественной модели y = а0
+ а1
х1
+ а2
х2
+ε с доверительной вероятностью 0,9. Как в задаче 1, возраст поступивших автомобилей х1
= 3 года, мощность двигателя х2
= 165 л.с.
На основе полученных в задачах 1-2 статистических характеристик провести содержательную интерпретацию зависимости цены автомобиля от возраста и мощности двигателя.
Сумма произведений ∑х1
х2
равна: 8175
ХТ
Х =
ХТ
Y =
Найдем матрицу (Хт
Х), обратную матрице ХТ
Х.
Для этого сначала вычислим определитель.
ХТ
Х = 16*460*167667+1611*84*8175+1611*84*8175-1611*460*1611-84*84*167677-16*8175*8175 = 1234102720+1106273700+1106273700-1193847660-1183128912-1069290000 = 383548
В таблице представлены ежегодные данные объема продаж автомагазина. Построить график во времени. Выдвинуть гипотезу о наличии тренда. Оценить неизвестные параметры линейной трендовой модели z = а0
а1
t +ε с методом наименьших квадратов.
Таблица 2 Ежегодные объемы продаж
t годы
1
2
3
4
5
6
7
8
9
10
11
12
zt
, продажи, тыс.у.е.
350
314
300
293
368
393
339
443
467
457
488
424
Для найденного уравнения тренда построить доверительную полосу при уровне доверия 0,9. Изобразить графически точечный и интервальный прогноз среднего объема продаж.
В таблице 3 объемы продаж zt
в тыс. у.е. детализированы по месяцам. Построить график объема продаж во времени. Выдвинуть гипотезу о наличии линейного тренда и сезонных колебаний объема продаж:
z1 =
а0
а1
t + а2
cos (2πt/12) + а3
sin (2πt/12) + εt
Оценить параметры этой модели методом наименьших квадратов.
По уравнению трендово-сезонной модели найти точечный прогноз среднего объема продаж на 12 месяцев и интервальный прогноз среднего объема продаж на 1 месяц вперед при доверительной вероятности 0,9.
Ежемесячные объемы продаж
t,годы
Zt
t
yt
t
t2
1
2
3
4
5
1
350
1
350
1
2
314
2
728
4
3
300
3
900
9
4
293
4
1172
16
5
368
5
1840
25
6
393
6
2358
36
7
339
7
2373
49
8
443
8
3544
64
9
467
9
3736
81
10
457
10
4570
100
11
488
11
5368
121
12
424
12
5088
144
78
4636
78
32027
650
∑t = ½*12 (12+1) = 78
∑t2
= 1/6 *12 (12+1) (24+1)= 650
а0
=
515294/1716=283,61
а1
=
= 22716/1716=15,804
Следовательно, уравнение тренда (регрессии) будет иметь вид:
y= 283,61+15,84t
Доверительный интервал для линейного тренда находится по формуле:
ŷв.н. = ŷ(х0
) ± t1-α/2,n-2
Sŷ
,
где ув
, ун
– соответственно верхняя и нижняя границы
доверительногоинтервала;
ŷ(х0
) – точечный прогноз;
t1-α/2,n-2
–квантиль распределения Стьюдента;
(1-α/2) – доверительная верояность;
(n-2) – число степеней свободы;
ŷв.н. = ŷ(х0
) ± t1-α/2,n-2
Sŷ
,
ta
= 2,35
Доверительный интервал для уn
:
Нижняя граница интервала:
y= 300.29+13.24t = 300,29+13,24*293 = 4179,61
Верхняя граница интервала:
y= 300.29+13.24t= 300,29+13,24*488= 6761,41
Sx12
= 1/n ∑(xi
-
)2
= 51804,7/12 = 4317,06
Sx1
= 65,704
zср = 386.33
z
zi -
zср
(zi -
zi ср)2
350
-36.33
1319,87
314
-72.33
5231,63
300
-86.33
7452,89
293
-93.33
8710,49
368
-18.33
335,99
393
6.67
44,49
339
-47.33
2240,13
443
56.67
3211,49
467
80.67
6507,65
457
70.67
4994,25
488
101.67
10336,79
424
37.67
1419,03
4636
24624
51804,7
myx
= S
65,704*√1/12+ 24624/51804,7 = 36,71
65,704 – 2,35*36,71 ≤ yn
≤ 65,704 + 2,35*36,71
Точечный прогноз среднего значения продаж по линейному тренду находится следующим образом: