您的当前位置:首页正文

数据分析spss作业汇总

2020-06-09 来源:独旅网


数据分析方法及软件应用

(作业)

题 目:4、8、13、16题 指导教师:

学 院:交通运输学院 姓 名: 学 号:

4、在某化工生产中为了提高收率,选了三种不同浓度,四种不同温度做试验。在同一浓度与温度组合下各做两次试验,其收率数据如下面计算表所列。试在α=0.05显著性水平下分析

(1)给出SPSS数据集的格式(列举前3个样本即可); (2)分析浓度对收率有无显著影响;

(3)分析浓度、温度以及它们间的交互作用对收率有无显著影响。 解答:(1)分别定义分组变量浓度、温度、收率,在变量视图与数据视图中输入表格数据,具体如下图。

(2)思路:本问是研究一个控制变量即浓度的不同水平是否对观测变量收率产生了显著影响,因而应用单因素方差分析。假设:浓度对收率无显著影响。

步骤:【分析-比较均值-单因素】,将收率选入到因变量列表中,将浓度选入到因子框中,确定。

输出:

變異數分析 收率 群組之間 在群組內 總計 平方和 39.083 80.875 119.958 df 2 21 23 平均值平方 19.542 3.851 F 5.074 顯著性 .016 显著性水平α为0.05,由于概率p值小于显著性水平α,则应拒绝原假设,认为浓度对收率有显著影响。

(3)思路:本问首先是研究两个控制变量浓度及温度的不同水平对观测变量收率的独立影响,然后分析两个这控制变量的交互作用能否对收率产生显著影响,因而应该采用多因素方差分析。假设,H01:浓度对收率无显著影响;H02:温度对收率无显著影响;H03:浓度与温度的交互作用对收率无显著影响。

步骤:【分析-一般线性模型-单变量】,把收率制定到因变量中,把浓度与温度制定到固定因子框中,确定。

输出:

主旨間效果檢定 因變數: 收率 第 III 類平方來源 修正的模型 截距 浓度 温度 浓度 * 温度 錯誤 總計 校正後總數 和 70.458 2667.042 39.083 13.792 17.583 49.500 2787.000 119.958 adf 11 1 2 3 6 12 24 23 平均值平方 6.405 2667.042 19.542 4.597 2.931 4.125 F 1.553 646.556 4.737 1.114 .710 顯著性 .230 .000 .030 .382 .648 a. R 平方 = .587(調整的 R 平方 = .209) 第一列是对观测变量总变差分解的说明;第二列是观测变量变差分解的结果;第三列是自由度;第四列是均方;第五列是F检验统计量的观测值;第六列是检验统计量的概率p值。可以看到观测变量收率的总变差为119.958,由浓度不同引起的变差是39.083,由温度不同引起的变差为13.792,由浓度和温度的交互作用引起的变差为17.583,由随机因素引起的变差为49.500。浓度,温度和浓度*温度的概率p值分别为0.030,0.382和0.648。

浓度:显著性<0.05说明拒绝原假设(浓度对收率无显著影响),证明浓度对收率有显著影响;温度:显著性>0.05说明不拒绝原假设(温度对收率无显著影响),证明温度对收率无显著影响;浓度与温度: 显著性>0.05说明不拒绝原假设(浓度与温度的交互作用对收率无显著影响),证明温浓度与温度的交互作用对收率无显著影响。

8、以高校科研研究数据为例:以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6、获奖数X8;建立多元线性回归模型,

分析它们之间的关系。解释变量采用逐步筛选策略,并做多重共线性、方差齐性和残差的自相关性检验。

解答:

思路:根据要求采用逐步筛选的解释变量筛选策略,利用回归分析方法建立多元线性回归模型,分析它们之间的关系,并且要求做多重共线性、方差齐性和残差的自相关性检验。

(1)步骤:【分析-回归-线性】,X5选入因变量,X2、X4、X6、X8选入自变量,方法选择【逐步】。【统计量】勾选【估计】、【模型拟合度】、【共线性诊断】与【Durbin-Waston(U)】。【绘制(T)按钮】,将*ZRESID添加到Y(Y)框中,将*ZPRED添加到X2(X)框中,勾选【正态概率图】,【保存(S)】按钮。在预测值与残差中勾选【标准化】选项。选择菜单【分析→相关→双变量】将标准化预测值和标准化残差选入【变量】框,在相关系数中选择Spearman,各项完成后点击【确定】。

输出:

變數已輸入/已移除 模型 1 變數已輸入 變數已移除 方法 逐步(準則:F-to-enter 的投入人年数 . 機率 <= .050,F-to-remove 的機率 >= .100)。 a. 應變數: 课题总数 a

模型摘要 模型 1 R .959 abR 平方 .919 調整後 R 平方 標準偏斜度錯誤 Durbin-Watson .917 241.9582 1.747 a. 預測值:(常數),投入人年数 b. 應變數: 课题总数 表中变量为投入人年数,参考调整的判定系数,由于调整的判定系数(0.917)较接近于1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,未能被解释的部分较少。方程DW检验值为1.747,残差存在一定的正自相关。

變異數分析 模型 1 迴歸 殘差 平方和 19379040.047 1697769.953 df 1 29 平均值平方 19379040.047 58543.791 F 331.018 顯著性 .000 ba 總計 21076810.000 30 a. 應變數: 课题总数 b. 預測值:(常數),投入人年数 被解释变量的总离差平方和为21076810.00,回归平方和及均方分别为19379040.047 和19379040.047,剩余平方和及均方分别为1697769.953和58543.791, 检验统计量的观测值为331.018,对应的概率 值近似为0。依据该表可进行回归方程的显著性检验。如果显著性水平 为0.05,由于概率 值小于显著性水平 ,应拒绝回归方程显著性检验的零假设,认为回归系数不为0,被解释变量与解释变量的线性关系是显著的,可建立线性模型。 係數 非標準化係數 模型 1 (常數) 投入人年数 a. 應變數\\: 课题总数 B -94.524 .492 標準錯誤 72.442 .027 .959 標準化係數 Beta T -1.305 18.194 顯著性 .202 .000 共線性統計資料 允差 VIF a 1.000 1.000 依据该表可以进行回归系数显著性检验,写出回归方程和检测多重共线性。可以看到,如果显著性水平 为0.05,投入人年数变量的回归系数显著性t检验的概率p值小于显著性水平 ,因此拒绝零假设,认为其偏回归系数与0有显著差异,与被解释变量与解释变量的线性关系是显著的,应保留在方程中。同时从容忍度和方差膨胀因子看,解释变量与投入人年数多重共线性很弱,可以建立模型。最终回归方程为,课题总数= -94.524+0.492投入人年数。 排除的變數 共線性統計資料 允差下模型 1 投入科研事业费(百元) 专著数 获奖数 a. 應變數: 课题总数 b. 模型中的預測值:(常數),投入人年数 Beta 入 .152 .023 .030 bbbaT 1.528 .182 .411 顯著性 .138 .857 .684 偏相關 .278 .034 .077 允差 .267 .188 .542 VIF 3.748 5.308 1.846 限 .267 .188 .542 该表展示回归方程的剔除变量,可以看到,如果显著性水平 为0.05,表中三个变量的回归系数显著性t检验的概率p值大于显著性水平 ,因此不拒绝零假设,认为其偏回归系数与0无显著差异,与被解释变量与解释变量的线性关系是不显著的,不应保留在方程中。同时从容忍度和方差膨胀因子看,解释变量与三个解释变量多重共线性严重,在建立模型的时候应当被剔除。 共線性診斷 模型 維度 特徵值 條件指數 變異數比例 a(常數) 1 1 2 a. 應變數: 课题总数 1.800 .200 1.000 3.001 .10 .90 投入人年数 .10 .90 依据该表可进行多重共线性检测,从方差比例上看第二个变量可解释常量的90%,也可解释投入人年数的90%,一次认为这些变量存在多重共线性。条件指数都小于10,说明存在共线性较弱,低个变量特征值小于0.7,说明线性相关关系较弱。 殘差統計資料 a 預測值 殘差 標準預測值 標準殘差 最小值 -57.642 -466.2850 -1.266 -1.927 最大值 3246.986 509.6787 2.845 2.106 平均數 960.000 .0000 .000 .000 標準偏差 803.7213 237.8914 1.000 .983 N 31 31 31 31 a. 應變數: 课题总数

数据点围绕基准线还存在一定的规律性,但标准化残差的非参数检验结果表明标准化残差与标准正态分布不存在显著差异,可以认为残差满足了线性模型的前提要求。

随着标准化预测值的变化,残差点在0线周围随机分布,但残差的等方差性并不完全满足,方差似乎有增大的趋势。但计算残差与预测值的Spearman等级相关系数为-0.176,且检验并不显著,因此认为异方差现象并不明显。

相關

Standardized Predicted

Standardized Residual

-.176 .344 31 1.000 . 31

Spearman 的 rho

Standardized Predicted Value

相關係數 顯著性 (雙尾) N

Standardized Residual

相關係數 顯著性 (雙尾) N

Value

1.000 . 31 -.176 .344 31 依据该表可以对标准化残差和标准化预测值的Spearman等级进行分析,可以看到,计算残差与预测值的相关性弱,认为异方差现象不明显。

13、利用1950年~1990年的天津食品消费数据,分析这段时间内的人均生活费用年收入的变化情况。要求:数据进行对数变换后,运用Holt线性趋势平滑模型分析。

(1)输出均方根误差和参数估计结果;

(2)输出ACF和PACF图形并对其特征进行分析,是否满足白噪声序列的条件; (3)给出1991-1992的预测值,并输出拟合图。 解答:

思路:根据题意,先不进行序列图和自相关、偏自相关的观察和检验阶段处理。直接利用指数平滑模型中的Holt线性趋势模型对数据进行分析,同时输出均方根误差和参数估计误差,ACF和PACF图像判断是否满足白噪音序列的条件;最

后然后对数据进行1991年、1992年做出预测,并用模型进行拟合。

步骤:【分析-预测-创建模型】,将人均生活费年收入选入【因变量】中,将【方法】选为【指数平滑法】;点击【条件】,在【因变量转换】中选【自然对数】,在【模型类型】中【Holt线性趋势】,【继续】。

【统计量】,在【拟合度量】中选择【平稳的R方、均方根误差】,在【个别模型的统计量】中选中【参数估计】,在【比较模型的统计量】中选中【拟合优度】,选中【显示预测值】,【确定】

【图表】,在【单个模型图】中选择【序列、残差自相关函数、残差部分自相关函数】,在【每张图显示的内容】中现则【观察值、预测值、拟合值】。

【选项】,在【预测阶段】选择第二个,在【日期】的【年】框中填入【1992】。 输出:

模型適合度 適合度統計資料 平穩 R 平方 R 平方 RMSE MAPE MaxAPE MAE MaxAE 標準化 BIC 平均數 SE 最小值 最大值 .221 .994 28.179 3.517 12.495 17.146 82.911 6.858 . . .221 .994 .221 .994 5 .221 .994 10 .221 .994 25 .221 .994 百分位數 50 .221 .994 75 .221 .994 90 .221 .994 95 .221 .994 . 28.179 28.179 28.179 28.179 28.179 28.179 28.179 28.179 28.179 . 3.517 3.517 3.517 3.517 3.517 3.517 3.517 3.517 3.517 . 12.495 12.495 12.495 12.495 12.495 12.495 12.495 12.495 12.495 . 17.146 17.146 17.146 17.146 17.146 17.146 17.146 17.146 17.146 . 82.911 82.911 82.911 82.911 82.911 82.911 82.911 82.911 82.911 . 6.858 6.858 6.858 6.858 6.858 6.858 6.858 6.858 6.858 模型統計資料 模型適合度統計資料 預測變數數模型 人均生活费年收入-模型_1 目 0 平穩 R 平方 .221 RMSE 28.179 Ljung-Box Q(18) 統計資料 16.360 DF 16 顯著性 .428 離群值數目 0 均方根误差为28.179,误差较小。

指數平滑化模型參數 模型 人均生活费年收入-模型_1 自然對數 Alpha(水準) Gamma(趨勢) 估計 1.000 .400 SE .157 .178 T 6.381 2.244 顯著性 .000 .031 模型的两个参数分别为:1.0和0.4,则具体模型为ft+m=1.0+0.4m,

虽然残差自相关函数和偏自相关函数绝大多数处于置信区间内,但两函数都具有明显减少趋势,且具有一定的季节性,因此不属于白噪音序列。

預測 模型 人均生活费年收入-模型_1 預測 UCL LCL 1991 1708.82 1887.02 1543.63 1992 1920.58 2274.43 1609.99 針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。

1991、1992年的预测值与1990年的观测值有较大的增长趋势。从整个数据来看,1950年至1980年这段时期较为平稳的增长,但是1980年之后迅速上升,最后预测值上升较为明显,这与实际趋势基本一致。且1991、1992年预测值分

别为1708.82、1920.58。

16、结合自己的研究方向、参与项目等,举出一个说明SPSS在交通运输中应用的例子。例子需包含问题说明、数据来源、统计方法、统计结果及其主要结论。

解答:

问题说明:利用1950年~2013年美国么历年定期航班旅客周转量(单位:“台亿客公里)历年数据数据,建立几种指数平滑模型,预测2016年美国定期航班旅客周转量。

数据来源:《从统计看民航(2014)》中国民航出版社,2014年11月第一版。

年份 定期航班旅客周转164.4 量/亿客公里 年份 定期航班旅客周转625.4 量/亿客公里 年份 定期航班旅客周转2131.3 量/亿客公里 年份 定期航班旅客周转3930 量/亿客公里 年份 定期航班旅客周转7314 量/亿客公里 年份 定期航班旅客周转11109.5 量/亿客公里 年份 定期航班旅客周转12998.7 量/亿客公里 13105.4 13247.5 13525.2 2010 2011 2012 2013 10444.8 10218.4 10389.6 11643.7 12446.9 12753.8 13120.5 12790 12570 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 7183 7651.4 7759 8199.8 8491.6 9214.8 9655.7 9847 10448.7 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 3950 4100 4460 4720 5279 5800 6470 6743 6948 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 2155.9 1453 2606 2621 2620 2882 3110 3640 4080 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 640.9 704.2 810.4 941.3 1105.2 1285.7 1605.8 1830.7 2017.3 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 211.8 250.3 292.1 331.6 391.8 444.5 503 506.9 585.3 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 解题思路:首先首先绘制和观察彩电出口量的序列图,通过图形观察和检验寻找规律,然后通过指数平滑模型—简单、HOIT线性趋势、Brown线性趋势三个模型进行分析预测,比较选择最佳模型预测2016年亿客公里数。

统计结果:

美国亿客公里时间序列图如下:

该序列图为平稳序列则可以直接进行建模分析。 (1)简单指数平滑模型

型號說明

模型 ID 亿客公里

模型_1

簡單

模型類型

模型統計資料 模型適合度統計資料 預測變數數模型 亿客公里-模型_1 目 0 平穩 R 平方 RMSE 統計資料 12.511 DF 17 顯著性 .046 Ljung-Box Q(18) 離群值數目 0 -.417 367.918 指數平滑化模型參數 模型 亿客公里-模型_1 自然對數 Alpha(水準) 估計 1.000 SE .122 T 8.175 顯著性 .000

預測

模型

亿客公里-模型_1

預測 UCL LCL

2014 13638.21 17502.48 10451.72 2015 13752.16 19474.79 9393.22 2016 13867.06 21137.62 8654.28 針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。

(2)HOIT线性趋势指数平滑模型

型號說明

模型 ID 亿客公里

模型_1

Holt

模型類型

模型統計資料 模型 預測變數數模型適合度統計資料 Ljung-Box Q(18) 離群值數目 平穩 R 平方 RMSE 統計資料 15.336 DF 16 顯著性 .050 目 亿客公里-模型_1 0 .610 417.990 0 指數平滑化模型參數 模型 亿客公里-模型_1 自然對數 Alpha(水準) Gamma(趨勢) 估計 .694 .117 SE .118 .062 T 5.893 1.895 顯著性 .000 .063

預測

模型

亿客公里-模型_1

預測 UCL LCL

2014 13940.78 17038.10 11286.08 2015 14300.63 18400.81 10926.81 2016 14680.08 19860.96 10585.12 針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。

(3)Brown线性趋势指数平滑模型

型號說明

模型 ID 亿客公里

模型_1

Brown

模型類型

模型統計資料 模型適合度統計資料 預測變數數模型 亿客公里-模型_1 目 0 平穩 R 平方 RMSE 統計資料 13.265 DF 17 顯著性 .047 Ljung-Box Q(18) 離群值數目 0 .548 402.232 指數平滑化模型參數

模型

亿客公里-模型_1 自然對數 Alpha 值 (水準與趨

勢)

估計 .540 SE .053 T 10.109 顯著性

.000

預測

模型

亿客公里-模型_1

預測 UCL LCL

2014 13775.93 17291.57 10825.41 2015 14077.67 19575.76 9827.23 2016 14456.70 22517.84 8779.99 針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。

结果分析:

在三个模型预测分析当中,简单指数模型均方根误差为367.918,HOIT线性趋势指数平滑模型均方根误差为417.990,Brown线性趋势指数平滑模型均方根误差为402.232,其中简单指数模型均方根误差最小。三个模型残差自相关函数和偏自相关函数图中,简单指数模型均方根完全落在置信区间,HOIT和Brown线性趋势指数平滑模型大部分落在置信区间。

综合上述分析,分别观察三个模型的简单指数模型你和效果图,可知简单指数模型你和效果最佳,2016年亿客公里预测值为13867.06。

因篇幅问题不能全部显示,请点此查看更多更全内容