一、实验名称和性质
所属课程 | 社会科学SPSS统计分析软件 |
实验名称 | SPSS线性回归方程的分析及检验 |
实验学时 | 8 |
实验性质 | 验证 |
必做/选做 | 必做 |
二、实验目的
掌握数据文件在SPSS的建立与管理
三、实验的软硬件要求
硬件环境要求:
IBM兼容机;奔腾2.0GHz以上CPU;1GB内存以上;CD-ROM光驱(用来安装);
10GB硬盘空间
使用的软件名称、版本号以及模块:
SPSS20.0所有模块
四、知识准备
前期要求掌握的知识:
了解计算机基本知识,会使用windows操作系统。
实验相关理论或原理:无
五、实验材料和原始数据:详见随书附带光盘资料。
六、实验要求和注意事项
按照相关的操作流程逐一操作,不要漏掉某些关键指标。
七、实验步骤及内容:SPSS中提供了进行回归分析的专门过程,利用这些过程,可以对数据的回归作更深入的分析。
1. 一元线性回归
下面通过一个例子对SPSS中一元线性回归的分析过程进行讲解
合金钢的强度y与钢材中碳的含量x有密切关系,为了冶炼出符合要求强度的钢,常常通过控制钢水中的碳含量来达到目的,因此需要了解y与x之间的关系。下面是10组不同的碳含量x(%)对应的钢的强度y(kg/mm2)数据
X | 0.03 | 0.04 | 0.05 | 0.07 | 0.09 | 0.10 | 0.12 | 0.15 | 0.17 | 0.20 |
Y | 40.50 | 39.50 | 41.00 | 41.50 | 43.00 | 42.00 | 45.00 | 47.50 | 53.00 | 56.00 |
具体方法如下:
首先点击菜单项中的“Analyze”|“Regression”|“Linear”
出现如图1所示对话框,
图1
对图1中对话框的一些参数介绍如下:
①Dependent:因变量
Independent:自变量。在进行一元回归时,在该窗口中输入一个变量名;进行多元回归时,在该窗口中输入多个变量名。
Method下拉列表框:在该控件中选择进行回归分析的方法。有Enter、Remove、Stepwise、Backward和Forward等5种方法。
Selection Variable:在该窗口中输入变量名,然后用“Rule”按钮输入选择数据的规则,确定对哪些个案的数据进行回归分析。
Case Labels窗口:在该窗口中输入变量名,用对应变量的值作为标签进行标注。
WLS Weight:对应变量的值作为加权处理的权重。
②Statistics按钮:打开“Linear Regression: Statistics”对话框,如图2所示,该对话框提供了多个统计量的显示控制。
图2
对图2中的一些参数简单介绍如下:
Ø Regression Coefficients方框:该方框内的选项控制有关回归系数统计量的显示:
包括:
² Estimates:默认时选择此项。计算并显示回归系数。
² Confidence intervals:计算并显示预测区间
² Covariance matrix:计算并显示回归系数的方差协方差矩阵,矩阵的对角线上为方差,对角线上下为协方差。
Ø Residuals方框:该方框中的选项进行有关残差的设置
Ø Model fit:默认时选择此项,计算并显示相关系数、相关系数的平方、调整的相关系数、标准误差和ANOVA表。
Ø R squared change:表示增删一个独立变量时相关系数的变化。如果增删某相关变量时相关系数变化较大,则说明该变量对因变量的影响较大。
Ø Descriptives:显示变量数据的均值、标准离差和单侧条件下的相关矩阵。
Ø Part and partial correlation:显示部分相关和偏相关矩阵。
Ø Collinearity diagnostics:进行共线性诊断
③点击Plots按钮,打开“Linear Regression:Plots”对话框如图3所示。在该对话框中进行设置,可以生成残差图、直方图、正态P-P概率图和局部回归图(Partial Regression Plot)
图3
图3中的左侧列表框中变量的含义如下:
DEPENDNT:因变量
ZRESID:标准化残差
ADJPRED:调节预测值
SDRESID:学生化剔除参差
ZPRED:标准化预测值
DRESID:剔除残差
SRESID:学生化残差
X窗口和Y窗口:在这两个窗口中分别输入变量名,则对应变量的数据作为图形X轴和Y轴的度量。
Standardized Residual Plots:在该方框中选择要生成图形的类型。
Histogram:直方图
Normal Probability:生成正态P-P概率图
Produce all partial plots:生成所有局部回归图。
④Save按钮
利用该对话框,可以保存过程运行中生成的部分或全部统计量。
⑤Option按钮:单击该按钮,打开如图4所示对话框
图4
图4中的对话框的含义如下:
Ø Stepping Method Criteria:选择该方框内的单选钮,并进行相关输入,确定设置进入值和剔除值的标准。
² Use probability of F:用变量的F显著性概率作为评判标准。在“Entry”窗口输入数值,作为评判进入值的标准值,当某变量的F显著性概率小于该数值时,此变量进入回归方程式;在“Removal”窗口输入数值,作为评判剔除值的标准值,当变量的F显著性概率大于该数值时,从回归方程式中剔除该变量。
² Use F value:用变量的F值作为评判标准。在“Entry”窗口中输入数值,当某变量的F值小于该数值时,此变量进入回归方程式;在“Removal”窗口中输入数值,当变量的F值大于该数值时,从回归方程中剔除该变量。
Ø Include constant in equation:默认时选择此项。选择此项,回归方程中包含有常数项
Ø Missing Values中的Replace with mean:用均值代替缺失值。
当按上述步骤进行设置后,结果和详细的解释如下:
Descriptive Statistics
| Mean | Std. Deviation | N |
y | 44.9000 | 5.60654 | 10 |
x | .1020 | .05750 | 10 |
上表是描述统计量表,其中列出了自变量和因变量的均值(Mean)、标准离差(Std.Deviation)和数据个数(N)
Correlations
| y | x | |
Pearson Correlation | y | 1.000 | .950 |
x | .950 | 1.000 | |
Sig. (1-tailed) | y | . | .000 |
x | .000 | . | |
N | y | 10 | 10 |
x | 10 | 10 |
上表为相关系数表。表中第二行为相关系数矩阵;第三行为不相关的显著性水平;第四行为数据组数。变量X和变量Y的相关系数为0.95,说明二者关系很密切。
Model Summary(b)
Model | R | Adjusted | Std. Error of the Estimate | Change Statistics | Durbin-Watson | |||||
R Square Change | F Change | df1 | df2 | Sig. F Change | ||||||
1 | ||||||||||
.950(a) | .903 | .891 | 1.85366 | .903 | 74.333 | 1 | 8 | .000 | .889 |
a Predictors: (Constant), x
b Dependent Variable: y
上表中为模型综述表,表中列出了模型的相关系数(R),相关系数的平方(R square)、调整的相关系数的平方(Adjusted R Square)、估计的标准误差(Std. Error of the Estimate)、变化统计量(Change Statistics)(包括相关系数的平方(R Square Change)、F值(F Change)、第一自由度(df1)、第二自由度(df2)和F值的显著性概率(Sig. F Change)等)和Durbin-Watson线性检验值(Durbin-Watson)。
ANOVA(b)
Model |
| Sum of Squares | df | Mean Square | F | Sig. |
1 | Regression | 255.412 | 1 | 255.412 | 74.333 | .000(a) |
Residual | 27.488 | 8 | 3.436 |
|
| |
Total | 282.900 | 9 |
|
|
|
a Predictors: (Constant), x
b Dependent Variable: y
上表为方差分析表。利用该表作回归系数的显著性检验。表中列出了回归项(Regression)和残差项(Residual)的平方和(Sum of Squares)、自由度(df)、均方和(Mean Square)、F值和显著性概率(Sig.)。由于显著性概率小于5%,所以拒绝原假设,即认为回归系数不为0,回归方程是有意义的。
Coefficients(a)
Model |
| Unstandardized Coefficients | Standardized Coefficients | t | Sig. | 95% Confidence Interval for B | Correlations | Collinearity Statistics | |||||
B | Std. Error | Beta | Lower Bound | Upper Bound | Zero-order | Partial | Part | Tolerance | VIF | ||||
1 | (Constant) | 35.451 | 1.243 |
| 28.522 | .000 | 32.584 | 38.317 |
|
|
|
|
|
x | 92.641 | 10.745 | .950 | 8.622 | .000 | 67.863 | 117.420 | .950 | .950 | .950 | 1.000 | 1.000 |
a Dependent Variable: y
上表中列出了变量X和常数项的非标准化系数(Unstandardized Coefficients,包括变量X的待定系数取值(B)、常数项取值(B)及标准误差(Std. Error)),标准化系数(Standardized Coefficients)(Beta值)、t值、显著性水平(Sig.)和自变量待定系数取值与常数项的95%置信区间(95% Confidence Interval for B)。自变量还列出了各种相关性指标和线性统计量。
Coefficient Correlations(a)
Model |
| x | |
1 | Correlations | x | 1.000 |
Covariances | x | 115.459 |
a Dependent Variable: y
上表为系数相关分析表。表中列出自变量间的相关系数(Correlations)和协方差(Covariances)
2. 多元线性回归
下面以一个例子简单的叙述多元线性回归的SPSS实现
某种水泥在凝固时放出的热量(单位:卡/克)Y与水泥中下列4种化学成分所占的百分比有关:
观测得到13组数据,如图5所示。要求建立热量与水泥化学成分之间的经验回归关系式。
图5
进行多元线性回归的基本步骤如下:
在数据编辑器中打开数据文件“Cement.sav”
按Analyze→Regression→Linear…的顺序选择菜单,打开“Linear Regression”对话框;
在“Dependent”文本框种输入变量名“yi”,在“Independent(s)”列表框中输入变量名“x1”,“x2”,“x3”和“x4”;
单击按钮“Options…”按钮,打开“Linear Regression: Options”对话框;
在“Stepping Method Criteria”方框中选择“Use F Value”单选钮,在“Entry”窗口中输入数值4,在“Remove”窗口中输入数值3.8,即采用F值4和3.8作为变量输入输出的标准。
单击“Continue”按钮,回到“Linear Regression”对话框;
然后可以选择不同的多元回归分析方法进行分析。
下面是选择全回归方法(Enter)输出的结果
Variables Entered/Removed(b)
Model | Variables Entered | Variables Removed | Method |
1 | xi4, xi3, xi1, xi2(a) | . | Enter |
a All requested variables entered.
b Dependent Variable: yi
上表为变量输入输出表。表中第二列为输入的变量,第三列为剔除的变量。第四列表示采用的方法是全回归法。从表中可以看出,4个自变量全部用做输入变量,没有变量被剔除。
Model Summary
Model | R | Adjusted | Std. Error of the Estimate | |
1 | .991(a) | .982 | .974 | 2.4460 |
a Predictors: (Constant), xi4, xi3, xi1, xi2
上表为模型综述表。包括采用全回归模型进行拟合时模型的相关系数(R)、相关系数的平方值(R Square)、调整的相关系数的平方值(Adjusted R Square)和估计值的标准误差(Std. Error of the Estimate)。相关系数等于0.991。说明自变量与因变量之间有比较好的相关性。等于0.982,表示这4个自变量在一起,可以解释因变量98.2%的变异。
ANOVA(b)
Model |
| Sum of Squares | df | Mean Square | F | Sig. |
1 | Regression | 2667.899 | 4 | 666.975 | 111.479 | .000(a) |
Residual | 47.864 | 8 | 5.983 |
|
| |
Total | 2715.763 | 12 |
|
|
|
a Predictors: (Constant), xi4, xi3, xi1, xi2
b Dependent Variable: yi
上表为方差分析表。由于显著性概率小于5%,拒绝原假设,即认为回归方程中各系数均不为0,回归方程有意义。
Coefficients(a)
Model |
| Unstandardized Coefficients | Standardized Coefficients | t | Sig. | |
B | Std. Error | Beta | ||||
1 | ||||||
(Constant) | 62.405 | 70.071 |
| .891 | .399 | |
xi1 | 1.551 | .745 | .607 | 2.083 | .071 | |
xi2 | .510 | .724 | .528 | .705 | .501 | |
xi3 | .102 | .755 | .043 | .135 | .896 | |
xi4 | -.144 | .709 | -.160 | -.203 | .844 |
a Dependent Variable: yi
上表为系数分析表。表中列出了常数项和各个自变量对应的非标准化系数(Unstandardized Coefficients)(包括常数项和变量系数的取值(B)及其标准误差(Std. Error))、标准化系数(Standardized Coefficients)(Beta值)、t值和显著性水平(Sig.)
综上信息,用全回归法最后得到多元回归方程式为
八、实验结果和总结
实验结果以打印的实验报告为准。理解测验报告,总结实验过程,完成实验报告。
九、实验成绩评价标准
本实验采用五级评分制
A:能够熟练掌握软件,正确导出测评报告;实验报告内容完整、书写规范,能正确理解实验结果;
B:能够熟练掌握软件,正确导出测评报告;实验报告内容完整、书写比较规范,基本理解实验结果;
C:能够熟练掌握软件,正确导出测评报告;实验报告内容基本完整、书写基本规范,基本理解实验结果;
D:能够掌握软件,正确导出测评报告;实验报告内容基本完整、书写规范性较差,不能完全理解实验;
E:不能够掌握软件,不能正确导出测评报告;实验报告内容不完整、书写不规范,不能正确理解实验结果;