您好,欢迎来到纷纭教育。
搜索
您的当前位置:首页应用回归分析_一元回归线性分析

应用回归分析_一元回归线性分析

来源:纷纭教育
 一元线性回归分析

2.1 一元线性回归有哪些基本假定?

答: 假设1、解释变量X是确定性变量,Y是随机变量;

假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi)=0 i=1,2, …,n Var (εi)=2 i=1,2, …,n Cov(εi, εj)=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关: Cov(Xi, εi)=0 i=1,2, …,n

假设4、ε服从零均值、同方差、零协方差的正态分布 εi~N(0, 2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Yi=β1Xi+εi i=1,2, …,n

误差εi(i=1,2, …,n)仍满足基本假定。求β1的最小二乘估计 解: 得:

ˆ)(YQe(YiYiˆ1Xi)2i2i1i1nnnQeˆX)X02(Yi1iiˆi11ˆ1(XY)iii1nn(Xi)2i12.3 证明(2.27式),ei =0 ,eiXi=0 。

ˆˆX))2ˆ)2(Y(Q(YiYii01i11nn证明:

ˆˆXˆ其中: Yi01i

即: ei =0 ,eiXi=0

ˆeiYiYiQ0ˆ0Q0ˆ12.4回归方程E(Y)=β0+β1X的参数β0,β1的最小二乘估计与最大似然估计在什

么条件下等价?给出证明。

答:由于εi~N(0, 2 ) i=1,2, …,n

所以Yi=β0 + β1Xi + εi~N(β0+β1Xi , 2 ) 最大似然函数:

n L(,,2)nf(Y)(22)n/2exp{1[Yi(010,Xi)]2}01i1ii22i1 n1n22Ln{L(0,1,)}ln(2)[Yi(010,Xi)]2222i1

ˆ就是β0,β1的最大似然估计值。 ˆ,使得Ln(L)最大的10同时发现使得Ln(L)最大就是使得下式最小,

上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi~N(0, 2 )的假设下求得,最小二乘估计则不要求分布假设。

所以在εi~N(0, 2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。

ˆˆX))2ˆ)2(Y(Q(YiYii01i11nnˆ是β0的无偏估计。 2.5 证明0nXX1nˆˆ证明:E(0)E(Y1X)E[YiXiYi)

ni1Lxxi1nXiXXX11E[(X)Yi]E[(Xi)(01Xi i)]

LxxLxxi1ni1nnXiXXX11E[0(X)i]0(Xi)E(i)0nLnLi1i1xxxxnn2.6 证明 证明:

ˆ)(1Var(0nX2Xi1niX1X2)()nL2xx22nnXiXXX211ˆVar(0)Var[(X)Yi][(Xi)Var(01Xi i)] LxxLxxi1ni1nXiXXiX22121X22[()2X(X)][]

nnLxxLxxnLxxi1n2.7 证明平方和分解公式:SST=SSE+SSR

nn证明: 2ˆ)(YˆY]2SSTYiY[YiYiii1i1



ˆYYii1nn2ˆ)(YˆYˆ)2YiYYiYiiii1i1nnn2i1ˆY2ˆ)YYiYiii12SSRSSE2.8 验证三种检验的关系,即验证: (1)t(n2)r1r2ˆ2LxxSSR/121;(2)F t2ˆSSE/(n2)rLyyLxxSSE(Lxx(n2))n证明:(1)

ˆLˆxxt2ˆˆLxx(2)

nnrLyySSE(n2)n2rn2r

2SSESST1rˆˆxy)(yˆ(xx)y)(ˆiy)(SSR(yˆ1(xix))2ˆ12Lxx01i1i222i1i1i1i1nˆ2LSSR/1F12xxt2

ˆSSE/(n2)1(xix)222.9 验证(2.63)式:Var(ei)(1)

nLxx证明:

ˆi)var(yi)var(yˆi)2cov(yi,yˆi)var(ei)var(yiyˆˆx)2cov(y,yˆ(xx))var(y)var(i01ii1i(xix)21(xix)221[]2[]nLxxnLxx22

1(xix)22[1]nLxxˆ(xx))Cov(y,y)Cov(y,ˆ(xx))Cov(yi,y1iii1in(xx)1nyi)其中:Cov(yi,yi)(xix)Cov(yi,ini1Lxxi1

12(xix)221(xix)22()nLxxnLxxˆ2e2i2.10 用第9题证明证明:

n2是2的无偏估计量

1n1n2ˆ)ˆ)E(E(yiyE(ei2)n2i1n2i121n1n1(xix)22var(ei)[1] n2i1n2i1nLxx1(n2)22n22.11 验证决定系数与F值之间的关系式

r2F

Fn2证明:

SSRSSR1SSTSSRSSE1SSE/SSR1

n21SSR/(SSE/(n2))1Fn2Fn21Fr22.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元)和广告费用x(万元),数据见表2.6,要求用手工计算: 表2.6

月份 X Y 1 1 10 2 2 10 3 3 20 4 4 20 5 5 40 (1) 画散点图(略)

(2) X与Y是否大致呈线性关系? 答:从散点图看,X与Y大致呈线性关系。

(3) 用最小二乘法估计求出回归方程。

计算表

X 1 2 3 4 5 和15 均3 Y 10 10 20 20 40 100 均20 (XiX)2 (YiY)2 (XiX)(YiY) ˆ Yi6 13 20 27 34 和100 均20 ˆY)2 (YˆY)2 (Yiii(-14)2 (-7)2 0 72 142 SSR=490 4 1 0 1 4 和Lxx=10 100 100 0 0 400 Lyy=600 20 10 0 0 40 和Lxy=70 (-4)2 (3)2 0 72 (-6)2 SSE=110 70ˆYˆX20371.7,01Lxx10ˆˆX17Xˆ回归方程为: Y01ˆ 1(4) 求回归标准误差

先求SSR(Qe)见计算表。 所以

Lxy ˆQe1106.055.n23ˆ , ˆ(5) 给出0 1 的置信度为95%的区间估计; ˆ 的置信区间是 ˆ由于(1-)的置信度下,(ii查表可得 t/2(n2)t0.025(3)3.182ˆts)tsˆ,ˆi2i2iSˆ1ˆ2Lxx36.6671.915 10所以 1的95%的区间估计为:(7—3.182*1.915,7+3.182*1.915),即(0.906,13.094)。

ˆSˆ01X2125ˆ()36.667()6.351 nLxx5102所以 0 的95%的区间估计为:(-1-3.182*6.351,-1+3.182*6.351),

ˆ即(-21.211, 19.211)。0的置信区间包含0,表示0不显著。

(6) 计算x和y的决定系数

^^

R2SSRSSR4900.817SSTLyy600说明回归方程的拟合优度高。 (7) 对回归方程作方差分析

方差分析表

方差来源 SSR SSE SST 平方和 490 110 600 自由度 1 3 4 均方 490 36.667 F值 13.3 F值=13.3>F0.05(1,3)=10.13(当n1=1,n2=8时,α=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著。

(8)做回归系数β1的显著性检验H0: β1=0

ˆ/Sˆ7/1.9153.656 t11t值=3.656>t0.05/2(3)=3.182,所以拒绝原假设,说明x对Y有显著的影响。

(8) 做相关系数R的显著性检验

RR2SSR0.8170.904SST

R值=0.904>R0.05(3)=0.878,所以接受原假设,说明x和Y有显著的线性关系。

(9) 对回归方程作残差图并作相应的分析

残差图(略) .从残差图上看出,残差是围绕e=0在一个固定的带子里随

机波动,基本满足模型的假设ei~N(0, 2 ), 但由于样本量太少, 所以误差

较大.

(10) 求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间.

解: 当X0=4.2时,

ˆˆX174.228.4ˆY0010所以广告费用为4.2万元时, 销售收入将达到28.4万元. 由于置信度为1-α时,Y0估计值的置信区间为:

ˆtSˆˆtSˆYYY000YYYY200200

SYˆY001(X0X)211.44ˆ(136.667(1)

nLxx5102所以求得Y0的95%的置信区间为: [6.05932 ,50.74068] 预测误差较大.

2.15 一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。见表2.7。

表2..7

周序号 1 825 3.5 2 215 1.0 3 1070 4.0 4 550 2.0 5 480 1.0 6 920 3.0 7 1350 4.5 8 325 1.5 9 670 3.0 10 1215 5.0 X Y 1、画散点图 散点图5.0每周加班工作时间小时4.03.02、由散点图可以看出, x与y之间大致呈线性关系。

(2.0)1.0200400600800100012001400每周签发的新保单数目 3、用最小二乘法求出回归系数

回归系数显著性检验表a未标准化系数B标准误.118.355.004.000标准化系数β.94995% 回归系数的置信区间下限上限-.701.937.003.005模型1t.3338.509(Constant)每周签发的新保单数目P值.748.000a. Dependent Variable: 每周加班工作时间(小时)由表可知:β0ˆ=0.00359 ˆ=0.118 β1y回归方程为: ˆ=0.118+0.00359x

ˆ 4、求回归标准误差σ方差分析表b模型1回归残差总和平方和16.6821.84318.525自由度1均方16.682.230F72.396P值.000aa. Predictors: (Constant), 每周签发的新保单数目b. Dependent Variable: 每周加班工作时间(小时) 由方差分析表可以得到:SSE=1.843

^SSE 故回归标准误差,=0.48。

n2^25、给出回归系数的置信度为95%的区间估计

回归系数显著性检验表a未标准化系数B标准误.118.355.004.000标准化系数β.94995% 回归系数的置信区间下限上限-.701.937.003.005模型1t.3338.509(Constant)每周签发的新保单数目P值.748.000a. Dependent Variable: 每周加班工作时间(小时)由回归系数显著性检验表可以看出,当置信度为95%时:

0的预测区间为[-0.701,0.937], 1的预测区间为[0.003,0.005].

^^0的置信区间包含0,表示0不拒绝为零的假设。

模型概要b模型1R.949a决定系数.900调整后的决定系数.888估计值的标准误差.4800Durbin-Watson.753^^a. Predictors: (Constant), 每周签发的新保单数目b. Dependent Variable: 每周加班工作时间(小时)6、决定系数

由模型概要表得到决定系数为0.9接近于1,说明模型的拟合优度高。

方差分析表b模型1回归残差总和平方和16.6821.84318.525自由度1均方16.682.230F72.396P值.000aa. Predictors: (Constant), 每周签发的新保单数目b. Dependent Variable: 每周加班工作时间(小时)7. 对回归方程作方差分析 由方差分析表可知:

F值=72.396>5.32(当n1=1,n2=8时,查表得对应的值为5.32) P值≈0,所以拒绝原假设,说明回归方程显著。 8、对1的显著性检验

从上面回归系数显著性检验表可以得到1的t统计量为t=8.509,所对应的p值近似为0,通过t检验。说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。

9.做相关系数显著性检验

^^相关分析表每周加班每周签发的工作时间新保单数目(小时)1.949**.0001010.949**1.0001010每周签发的新保单数目每周加班工作时间(小时)Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N**. Correlation is significant at the 0.01 level (2-tailed). 相关系数达到0.949,说明x与y显著线性相关。 10、对回归方程作残差图并作相应分析

0.60000残差图0.30000从残差图上看出,残差是围绕e=0随即波动,满足模型的基本假设。

未标准化残差0.00000-0.30000-0.60000-0.90000200400600800100012001400每周签发的新保单数目11、该公司预计下一周签发新保单X0=1000张,需要的加班时间是多少?

当x0=1000张时,y=0.118+0.00359*1000=3.7032小时 12、给出Y0的置信水平为95%的预测区间

通过SPSS运算得到Y0的置信水平为95%的预测区间为: (2.5195,4.8870)。

13 给出E(Y0)的置信水平为95%的预测区间

通过SPSS运算得到Y0的置信水平为95%的预测区间为:(3.284,4.123)。

2.16 表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元).

序号 y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 x 序号 y x 序号 y x 19583 3346 18 20263 3114 19 20325 3554 20 26800 4542 21 29470 4669 22 26610 4888 23 30678 5710 24 27170 5536 25 25853 4168 26 24500 3547 27 24274 3159 28 27170 3621 29 30168 3782 30 26525 4247 31 27360 3982 32 21690 3568 33 21974 3155 34 20816 3059 35 18095 2967 36 20939 3285 37 224 3914 38 24624 4517 39 27186 4349 40 33990 5020 41 23382 3594 42 20627 2821 43 22795 3366 44 21570 2920 45 22080 2980 46 22250 3731 47 20940 2853 48 21800 2533 49 22934 2729 50 18443 2305 51 19538 22 20460 3124 21419 2752 25160 3429 22482 3947 20969 2509 27224 5440 252 4042 224 3402 240 2829 22341 2297 25610 2932 26015 3705 25788 4123 29132 3608 41480 8349 25845 3766 解答:(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?

40000.0035000.0030000.00y25000.0020000.002000.003000.004000.005000.006000.007000.008000.009000.00x 由上图可以看出y与x的散点分布大致呈直线趋势。 (2)建立y对x的线性回归。

利用SPSS进行y和x的线性回归,输出结果如下:

表1 模型概要

R R2 调整后的R2 随机误差项的标准差估计值 0.691 2323.255 表2 方差分析表 模型 1 回归平方和 残差平方和 总平方和 平方和 6.0E8 2.5E8 8.734E8 自由度 1 49 50 和平均 6.0E8 5397517.938 F值 112.811 P值 .000 a0.835 0.697

表3 系数表 非标准化系数 模型 1 常数 对学生的人均经费投入 B 12112.629 3.314 标准差 1197.768 .312 标准化系数 回归系数 t值 10.113 .835 10.621 P值 .000 .000 1) 由表1可知,x与y决定系数为r20.697,说明模型的拟合效果一般。x

与y线性相关系数R=0.835,说明x与y有较显著的线性关系。 2) 由表2(方差分析表中)看到,F=112.811,显著性Sig.p0.000,说明回

归方程显著。

3) 由表3 可见对1的显著性t检验P值近似为零,故1显著不为0,说明

x对y有显著的线性影响。

4) 综上,模型通过检验,可以用于预测和控制。

x与y的线性回归方程为:

ˆ12112.6293.314*x y

(3)绘制标准残差的直方图和正态概率图

图1 标准残差的直方图

理论正 态概率

图2 标准残差的正态概率P-P图

观测值概率

由图1可见标准化后残差近似服从正态分布,由图2可见正态概率图中的各个散点都分布在45°线附近,所以没有证据证明误差项服从同方差的正态分布的假定是不真实的,即残差通过正态性检验,满足模型基本假设。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- fenyunshixun.cn 版权所有 湘ICP备2023022495号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务