思考与练习参考答案
4.1 试举例说明产生异方差的原因。
答:例4.1:截面资料下研究居民家庭的储蓄行为 Yi=0+1Xi+εi 其中:Yi表示第i个家庭的储蓄额,Xi表示第i个家庭的可支配收入。 由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。
例4.2:以某一行业的企业为样本建立企业生产函数模型 Yi=Ai1 Ki2L3eεi i被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
4.2 异方差带来的后果有哪些?
答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:
1、参数估计量非有效 2、变量的显著性检验失去意义 3、回归方程的应用效果极不理想
总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与
方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
_ˆˆx)2ˆi)2wi(yiQwwi(yiy01ii1NNˆ=1ww(xii1Ni=1Ni1ixw)(yiyw)___2(xx)iw_ˆxw0wyw1wwi21i2kxi22i1表示122kxixi1或ikxi,wimxim4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。
答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数wi ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
Qw(0,1,,p) wi(yi01xi1pxip)2
i1n (2)
ˆ,ˆ,,ˆ使式(2)加权最小二乘估计就是寻找参数0,1,,p的估计值0w1wpw的离差平方和Qw达极小。所得加权最小二乘经验回归方程记做
ˆˆxˆx (3) ˆwy0w1w1pwp 多元回归模型加权最小二乘法的方法:
首先找到权数wi,理论上最优的权数wi为误差项方差i2的倒数,即
wi1
2i (4)
误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的
ˆ,ˆ,,ˆ就是参数0,1,,p的最小方差线性无偏估加权最小二乘估计0w1wpw计。
一个需要解决的问题是误差项的方差i2是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差i2通常与自变量的水平有关(如误差项方差
i2随着自变量的增大而增大),可以利用这种关系确定权数。例如i2与第j个自变
2量取值的平方成比例时, 即i2=kxij时,这时取权数为
wi12xij (5)
更一般的情况是误差项方差i2与某个自变量xj(与|ei|的等级相关系数最大
mm的自变量)取值的幂函数xij成比例,即i2=kxij,其中m是待定的未知参数。此时
权数为
wi1 (6) mxij这时确定权数wi 的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。
4.5(4.5)式一元加权最小二乘回归系数估计公式。 证明: 由 得:
nˆˆx)2ˆi)2wi(yiQwwi(yiy01iQ0ˆ0NNi1Q0ˆ1i1ˆ1w(xii1ni1ixw)(yiyw)
2w(xx)iiwˆyˆx0w1w4.6验证(4.8)式多元加权最小二乘回归系数估计公式。
证明:对于多元线性回归模型 y=Xβ+ε, (1)
E(ε)0,cov(ε,ε)2W,即存在异方差。设
WDD,w1KDMO0L0, Mwn用D1左乘(1)式两边,得到一个新的的模型:
D1y=D1Xβ+D1ε,即y=Xβ+ε。
因为E(εε)E(D1εεD-1)D1E(εε)D-1D12WD-12I, 故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得
ˆ(XX)1Xy(XD1D1X)1XD1D1y(XWX)1XWy βw原式得证。
4.7 有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。你是否同意这位同学的观点?说明原因。
答:不同意。当回归模型存在异方差时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,不能理解为WLS一定会得到与OLS截然不同的方程来,或者大幅度的改进。实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS 与OLS的结果一样。加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。
''4.8 对例4.3的数据,用公式eiw,绘制wieiw计算出加权变换残差eiw加权变换残差图,根据绘制出的图形说明加权最小二乘估计的效果。
''解:用公式eiw,分别绘制加权最小二乘估计后wieiw计算出加权变换残差eiw的残差图和加权变换残差图(见下图)。
根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差,只是对原OLS的残差有所改善,而经过加权变换后的残差不存在异方差。
4.9 参见参考文献[2],表4.12(P138)是用电高峰每小时用电量y与每
月总用电量x的数据。
(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。 解:SPSS输出结果如下:
aCoefficientsModel1(Constant)xUnstandardizedCoefficientsBStd. Error-.831.442.004.000StandardizedCoefficientsBeta.839t-1.88211.030Sig..065.000a. Dependent Variable: y 由上表可得回归方程为:
ˆ0.8310.004x y残差图为:
4.000002.00000普通残差0.00000-2.00000-4.0000001000200030004000x (2)诊断该问题是否存在异方差;
解:a由残差散点图可以明显看出存在异方差,误差的方差随着x的增加而增大。
b用SPSS做等级相关系数的检验,结果如下表所示:
CorrelationsSpearman's rhoxCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)Nx1.000.53.318*.02153absei.318*.021531.000.53absei*. Correlation is significant at the 0.05 level (2-tailed). 与自变量xi显
得到等级相关系数rs0.318,P值=0.021,认为残差绝对值ei著相关,存在异方差。
(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程; 解:SPSS输出结果如图:
Coefficientsa ,b Unstandardized Coefficients Model 1 (Constant) x a. Dependent Variable: y b. Weighted Least Squares Regression - Weighted by Weight for y from WLS, MOD_2 x** -1.500 B -.683 .004 Std. Error .298 .000 Standardized Coefficients Beta .812 t -2.296 9.930 Sig. .026 .000
由上述表可得,在m1.5时对数似然函数达到最大,则幂指数的最优取值为
m1.5。加权后的回归方程为:yˆw0.6830.004x。
计算加权后的残差,并对残差绝对值和自变量做等级相关系数分析,结果如下表所示:
rs0.321,P值为0.019<0.05,即加权最小二乘法没有消除异方差,只是消除
异方差的不良影响,从而对模型进行一点改进。
Correlations Spearman's rho x Correlation Coefficient Sig. (2-tailed) N abseiw Correlation Coefficient Sig. (2-tailed) N *. Correlation is significant at the 0.05 level (2-tailed). x 1.000 . 53 .321 * .019 53 abseiw .321 * .019 53 1.000 . 53
(4)用方差稳定变换y'y消除异方差。
y)后,用最小二乘法做回归,SPSS结果
解:对应变量做方差稳定变换(y'如下表:
Coefficientsa Unstandardized Coefficients Model 1 (Constant) x B .582 .001 Std. Error .130 .000 Standardized Coefficients Beta .805 t 4.481 9.699 Sig. .000 .000 a. Dependent Variable: sqrty
ˆ0.5822+0.0009529x。 则回归方程为:yˆi,计算出残差的绝对值后,计算等级相关系数,见下表: 保存预测值yCorrelationsSpearman's rhoxCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)Nx1.000.53.160.25453eeii.160.254531.000.53eeii 其中rs0.160,P值=0.254>0.05,说明异方差已经消除。
4.10 试举一可能产生随机误差项序列相关的经济例子。
答:例如,居民总消费函数模型: Ct=0+1Yt+ ε t t=1,2,…,n 由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,则可能出现序列相关性。另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关 )。
4.11 序列相关性带来的严重后果是什么?
答:直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题: 1.
参数估计量仍然是无偏的,但不具有有效性,因为有自相关性时参数估
计值的方差大于无自相关性时的方差。
2. 3.
均方误差MSE可能严重低估误差项的方差
变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在
参数方差正确估计基础之上的,当参数方差严重低估时,容易导致t值和F值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。 4.
当存在序列相关时, 仍然是的无偏估计,但在任一特定的样本中,
可能严重歪曲的真实情况,即最小二乘法对抽样波动变得非常敏感
5. 模型的预测和结构分析失效。
4.12 总结DW检验的优缺点。
答:优点:1.应用广泛,一般的计算机软件都可以计算出DW值; 2.适用于小样本;
3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。
缺点:1. DW检验有两个不能确定的区域,一旦DW值落入该区域,就无法判断。此时,只有增大样本容量或选取其他方法;
2.DW统计量的上、下界表要求n>15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断;
3.DW检验不适应随机项具有高阶序列相关性的检验。
4.13 表4.13中是某软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公司的月销售额(万元)。
(1)用普通最小二乘法建立y与x的回归方程;
bModel SummaryModel1R.999aR Square.998AdjustedR Square.998Std. Error ofthe Estimate.09744Durbin-Watson.663a. Predictors: (Constant), 总公司月销售额xb. Dependent Variable: 某分公司月销售额y回归系数表aUnstandardizedCoefficientsBStd. Error-1.435.242.176.002StandardizedCoefficientsBeta.999Model1(Constant)总公司月销售额xt-5.930107.928Sig..000.000a. Dependent Variable: 某分公司月销售额y ˆ1.4350.176x 由上表可知:用普通二乘法建立的回归方程为y(2)用残差图及DW检验诊断序列的相关性; 1.以自变量x为横轴,普通残差为纵轴画残差图如下:
0.200000.10000残差0.00000-0.10000-0.20000120.0130.0140.0150.0160.0170.0180.0总公司月销售额x 从图中可以看到,残差有规律的变化,呈现大致反W形状,说明随机误差项存在自相关性。
2.以ei1(残差1)为横坐标,ei(残差)为纵坐标,绘制散点图如下:
0.200000.10000残差0.00000-0.10000-0.20000-0.20000-0.100000.000000.100000.20000残差1 由残差图可见大部分的点落在第一、三象限,表明随机扰动项i存在着正的序列相关; 3.从下表
bModel SummaryModel1R.999aR Square.998AdjustedR Square.998Std. Error ofthe Estimate.09744Durbin-Watson.663a. Predictors: (Constant), 总公司月销售额xb. Dependent Variable: 某分公司月销售额y 可知DW值为0.663,查DW表,n=20,k=2,显著性水平=0.05,得dL=1.20,dU=1.41,由于0.663<1.20,知DW值落入正相关区域,即残差序列存在正的自相关。 (3)用迭代法处理序列相关,并建立回归方程。
1自相关系数10.6630.6685
2令ytytyt1,xtxtxt1,然后用yt对xt作普通最小二乘回归可得输出结果如下:
aCoefficientsModel1(Constant)x2UnstandardizedCoefficientsBStd. Error-.300.178.173.003StandardizedCoefficientsBeta.997t-1.68949.673Sig..109.000a. Dependent Variable: y2 bANOVAModel1RegressionResidualTotalSum ofSquares13.133.09013.224df11718Mean Square13.133.005F2467.405Sig..000aa. Predictors: (Constant), x2b. Dependent Variable: y2 bModel SummaryModel1R.997aR Square.993AdjustedR Square.993Std. Error ofthe Estimate.07296Durbin-Watson1.360a. Predictors: (Constant), x2b. Dependent Variable: y2 可看到新的回归方程的DW=1.360.且1.18<1.360<1.40,因而DW检验落入不确定区域此时,一步迭代误差项的标准差为0.07296,小于t的标准差0.097
ˆt=-0.3+0.173xt,将yt=yt-0.6685yt1,xt=xt-0.6685xt1yt对xt的回归方程为yˆt=-0.3+0.6685yt1+0.173xt-0.1157xt1 代人,还原为原始变量的方程y由于一步迭代的DW检验落入不确定区域,因而可以考虑对数据进行二步迭代,
也就是对xt和yt重复以上迭代过程。进行回归结果如下:
bModel SummaryModel1R.995aR Square.989AdjustedR Square.989Std. Error ofthe Estimate.06849Durbin-Watson1.696a. Predictors: (Constant), x3b. Dependent Variable: y3 bANOVAModel1RegressionResidualTotalSum ofSquares6.994.0757.069df11617Mean Square6.994.005F1491.093Sig..000aa. Predictors: (Constant), x3b. Dependent Variable: y3 此时DW的值为1.696,查DW表,n=18,k=2,显著性水平=0.05,得dL=1.16,
dU=1.39, DW值大于dU,小于2,落入无自相关区域。误差标准项0.0849,略小
于一步迭代的标准差0.7296。
但是在检验都通过的情况下,由于一步迭代的r2值和F值均大于两步迭代后的值,且根据取模型简约的原则,最终选择一步迭代的结果,即:
ˆt=-0.3+0.6685yt1+0.173xt-0.1157xt1 y(4)用一阶差分的方法处理数据,建立回归方程;
先计算差分yt=yt-yt1,xt=xt-xt1,然后用yt对xt做过原点的最小二乘回归,结果如下:
c,dModel SummaryModel1R.990bR Square.981aAdjustedR Square.980Std. Error ofthe Estimate.07576Durbin-Watson1.462a. For regression through the origin (the no-intercept model), R Squaremeasures the proportion of the variability in the dependent variableabout the origin explained by regression. This CANNOT be compared toR Square for models which include an intercept.b. Predictors: x2c. Dependent Variable: y2d. Linear Regression through the Origin a,bCoefficientsModel1x2UnstandardizedCoefficientsBStd. Error.169.006StandardizedCoefficientsBeta.990t30.461Sig..000a. Dependent Variable: y2b. Linear Regression through the Originc,dANOVAModel1RegressionResidualTotalSum ofSquares5.325.1035.429bdf11819Mean Square5.325.006F927.854Sig..000aa. Predictors: x2b. This total sum of squares is not corrected for the constant because the constant iszero for regression through the origin.c. Dependent Variable: y2d. Linear Regression through the Origin 由上面表,可知DW值为1.462>1.40=dU,即DW落入不相关区域,可知残差序列
et不存在自相关,一阶差分法成功地消除了序列自相关。同时得到回归方程为
ˆt=0.169xt, y将yt=yt-yt1,xt=xt-xt1,代人,还原原始变量的方程
yt=yt1+0.169(xt-xt1)
(5)比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所建立回归方程的优良性。
ˆ0.6685,不接近于1,不适宜用差分法,另外由迭代答:本题中自相关系数法的F值及r2都大于差分法的值,故差分法的效果低于迭代法的效果;而普通最小二乘法的随机误差项标准差为0.09744,大于迭代的随机误差项标准差0.07296,所以迭代的效果要优于普通最小二乘法,所以本题中一次迭代法最好。
4.14 某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变
量是每周出场次x1和乐队的周点击率x2,数据见表4.14。
(1)用普通最小二乘法建立y与x1、x2的回归方程,用残差图及DW检验诊断序列的自相关性;
解:将数据输入SPSS,经过线性回归得到结果如下:
Adjusted R Model 1 R .541(a) R Square .293 Square .264 Std. Error of the Estimate 329.69302 Durbin-Watson .745 Model Summary(b)
a Predictors: (Constant), x2, x1 b Dependent Variable: y
ANOVA(b)
Sum of Model 1 Regression Residual Total Squares 2205551.678 5326177.036 7531728.714 df 2 49 51 Mean Square 1102775.839 108697.491 F 10.145 Sig. .000(a) a Predictors: (Constant), x2, x1 b Dependent Variable: y
aCoefficientsModel1(Constant)x1x2UnstandardizedCoefficientsBStd. Error-574.062349.271191.09873.3092.045.911StandardizedCoefficientsBeta.345.297t-1.6442.6072.246Sig..107.012.029a. Dependent Variable: y 由以上3个表可知普通最小二乘法建立y与x1、x2的回归方程,通过了r、F、t检验,说明回归方程显著。y与x1、x2的回归方程为:
y=-574.062+191.098x1+2.045x2
残差图ei(et)~ei1(et-1)为:
600.00000400.00000200.000000.00000ei1-200.00000-400.00000-600.00000-800.00000-800.00000-600.00000-400.00000-200.000000.00000200.00000400.00000600.00000Unstandardized Residual 从残差图可以看出残差集中在1、3象限,说明随机误差项存在一阶正自相关。 DW=0.745
查表得dl=1.46 du=1.63, 0 做变换:x1t’=x1t-ρx1(t-1), x2t’=x2t-ρx2(t-1) yt’=yt-ρyt-1 建立yt’与x1t’, x2t’的回归方程,SPSS输出为: bModel SummaryModel1R.688aR Square.473AdjustedR Square.451Std. Error ofthe Estimate257.85561Durbin-Watson1.716a. Predictors: (Constant), x2tt, x1ttb. Dependent Variable: ytt ˆ=257.86 DW=1.716>du 所以误差项间无自相关性。aCoefficientsModel1(Constant)x1ttx2ttUnstandardizedCoefficientsBStd. Error-178.77590.338211.11047.7471.436.629StandardizedCoefficientsBeta.521.269t-1.9794.4212.285Sig..054.000.027a. Dependent Variable: ytt 回归方程为:yt’=-178.775+211.11x1t’+1.436x2t’ 还原为:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1)) +1.436*( x2t-0.627x2(t-1)) (3)用一阶差分法处理序列相关,建立回归方程。 Adjusted R Model 1 R .715(b) R Square(a) .511 Square .491 Std. Error of the Estimate 280.98995 Durbin-Watson 2.040 Model Summary(c,d) a For regression through the origin (the no-intercept model), R Square measures the proportion of the variability in the dependent variable about the origin explained by regression. This CANNOT be compared to R Square for models which include an intercept. b Predictors: DIFF(x2,1), DIFF(x1,1) c Dependent Variable: DIFF(y,1) d Linear Regression through the Origin ˆ=280.99 DW=2.040>du,所以消除了自相关性,a,bCoefficientsModel1DIFF(x1,1)DIFF(x2,1)UnstandardizedCoefficientsBStd. Error210.11743.6921.397.577StandardizedCoefficientsBeta.544.274t4.8092.421Sig..000.019a. Dependent Variable: DIFF(y,1)b. Linear Regression through the Origin 差分法回归方程为: yt-yt-1=210.117(x1t-x1(t-1))+1.397(x2t-x2(t-1)). (4)用最大似然法处理序列相关,建立回归方程。 用SPSS软件的自回归功能,analyze——>time series——>autoregression: Iteration HistoryRegression Coefficients周演出场次x1周点击率x2191.0982.045210.8701.443211.0251.435012Rho (AR1).000.610.631Constant-574.062-489.203-487.097Adjusted Sumof Squares5326177.0363230345.6213228075.980aMarquardtConstant.001.001.000Melard's algorithm was used for estimation.a. The estimation terminated at this iteration, because the sum of squares decreased byless than .001%. Residual DiagnosticsNumber of Residuals52Number of Parameters1Residual df48Adjusted Residual Sum of3228075SquaresResidual Sum of Squares5326177Residual Variance66599.102Model Std. Error258.068Log-Likelihood-360.788Akaike's Information729.575Criterion (AIC)Schwarz's Bayesian737.380Criterion (BIC) Parameter EstimatesRho (AR1)RegressionCoefficientsConstantEstimates.631211.0221.436-487.145Std Error.11147.720.628241.355t5.6774.4222.285-2.018Approx Sig.000.000.027.049周演出场次x1周点击率x2Melard's algorithm was used for estimation. ˆ =0.631, ˆ=258.068, (5)用科克伦-奥克特迭代法处理序列相关,建立回归方程 Autocorrelation CoefficientRho (AR1).632Std. Error.112The Cochrane-Orcutt estimation method is used.Model Fit SummaryR.689R Square.474AdjustedR Square.441Std. Error ofthe Estimate260.560Durbin-Watson1.748The Cochrane-Orcutt estimation method is used.Regression CoefficientsUnstandardizedCoefficientsBStd. Error211.13948.1521.435.634-479.341245.124StandardizedCoefficientsBeta.522.269周演出场次x1周点击率x2(Constant)t4.3852.263-1.956Sig.000.028.056The Cochrane-Orcutt estimation method is used. ˆ =0.632, ˆ =260.560 , DW=1.748。 (6)用普莱斯-温斯登迭代法处理序列相关,建立回归方程。 Model Fit SummaryR.688R Square.473AdjustedR Square.440Std. Error ofthe Estimate258.066Durbin-Watson1.746The Prais-Winsten estimation method is used.ˆˆ =258.066 , DW=1.746。 =0.632, Regression CoefficientsUnstandardizedCoefficientsBStd. Error211.02547.7101.435.628-487.100241.353StandardizedCoefficientsBeta.521.269周演出场次x1周点击率x2(Constant)t4.4232.285-2.018Sig.000.027.049The Prais-Winsten estimation method is used. (7)比较以上各方法所建回归方程的优良性。 综合以上各方法的模型拟合结果如下表所示: 自回归方法 迭代法 差分法 ˆ ˆ 0ˆ' 0ˆˆ' ˆˆ' DW 1122ˆ 0.6275 —— —— —— -179.0 211.1 0 210.1 211.0 211.1 211.0 1.437 1.397 1.436 1.435 1.435 1.716 257.86 2.040 280.99 —— 258.07 1.748 260.560 1.746 258.066 精确最大似然 0.631 科克伦-奥克特 0.632 普莱斯-温斯登 0.631 -481.7 —— -479.3 —— -487.1 —— 由上表可看出:DW值都落在了随机误差项无自相关性的区间上,一阶差分法消除自相关最彻底,但因为=0.627,并不接近于1,故得到的方差较大,拟合效 ˆ值进行比较,就可知迭代法的拟合效果最好,果不理想。将几种方法所得到的以普莱斯-温斯登法次之,差分法最差。 4.15 说明引起异常值的原因和消除异常值的方法。 答:通常引起异常值的原因和消除异常值的方法有以下几条,见表4.10: 4.16 对第3章习题11做异常值检验。 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。 (1)利用SPSS建立y与x1,x2,x3的三元回归方程,分别计算普通残差,学生化残差,删除残差,删除学生化残差,中心化杠杆值chii,库克距离Di,见下表: 从表中看到绝对值最大的学生化残差为SRE=2.11556,小于3,但有超过3的个别值,因而根据学生化残差诊断认为存在异常值。绝对值最大的删除学生化残差为3.832,对应为第6个数据,因此判断它为为异常值。第6个数据的中心化杠杆值为0.64,位于第一大,大于2ch=23=0.6,且库克距离为3.21位于第一大,因10而从杠杆值看是第6个数据是自变量的异常值,同时库克距离大于1,故第6个数据为异常值的原因是由自变量异常与因变量异常两个共同原因引起的。 编号 y X1 X2 X3 残差 学生化 残差 1 2 3 4 5 6 7 8 9 10 160 70 35 1.0 260 75 40 2.4 210 65 40 2.0 265 74 42 3.0 240 72 38 1.2 220 68 45 1.5 275 78 42 4.0 160 66 36 2.0 275 70 44 3.2 250 65 42 3.0 -15.47481 12.82499 5.34434 -0.09088 33.22549 -25.19759 -17.55450 -20.00684 8.23435 18.69545 -.89353 0.62767 0.26517 -.00433 1.75400 -2.11566 -1.17348 -1.16281 0.40935 1.06462 删除残差 -28.35150 16.88052 7.22979 -0.11351 50.88273 -97.61523 -43.10665 -37.13868 11.18287 33.31486 删除学生化残差 -0.87604 0.59277 0.24349 -0.00396 2.29383 -3.83214 -1.22039 -1.20606 0.37902 1.07911 0.16609 0.03115 0.00620 0.00000 0.40874 3.21601 0.50110 0.28946 0.01500 0.22158 0.35418 0.14025 0.16079 0.09935 0.24 0.64187 0.49277 0.36129 0.16366 0.33883 Di chii (2) 删除第6组数据,然后做回归分析, 编号 1 2 3 4 5 7 8 9 10 y 160 260 210 265 240 275 160 275 250 X1 X2 X3 残差 70 75 65 74 72 78 66 70 65 35 40 40 42 38. 42 36 44 42 1.0 2.4 2.0 3.0 1.2 4.0 2.0 3.2 3.0 -12.50782 7.03274 -8.01315 -7.36736 14.09650. 0.71258 2.08767 -10.30176 14.26060 删除学生化残差 -23.06691 9.42586 -12.01962 -9.45592 27.95736 2.62393 6.13591 -17.26607 25.77938 学生化残差 -1.31247 0.62911 -0.75831 -.64493 1.53393 0.10566 0.27655 -1.03052 1.48152 删除学生化残差 -1.44994 0.58638 -0.72098 -0.60244 1.88562 0.09461 0.24927 -1.03859 1.76915 Di 0.36355 0.03367 0.07188 0.02948 0.57840 0.00749 0.03708 0.17948 0.44322 chii 0.34665 0.14278 0.22222 0.10976 0.38467 0.61732 0.54865 0.29224 0.33571 .由上表可知:删除第六组数据后,发现学生化残差的绝对值和删除化学生残差 绝对值均小于3,库克距离均小于1,中心化杠杆值的最大值为0.61732<2ch=230.667 ,说明数据不再有异常值。 9所以可判断异常值的原因是由于数据登记或实际问题有突变引起的。 因篇幅问题不能全部显示,请点此查看更多更全内容