《应用回归分析》自变量选择与逐步回归实验报告
实验名称: 自变量选择与逐步回归 实验目的: 1. 掌握自变量选择的几个准则 2. 掌握选择最优回归方程的三种方法:前进法、回退法、逐步回归法 3. 掌握SPSS 软件操作方法 实验设备与环境:计算机,SPSS22.0等。 一、实验内容: 在研究国家财政收入时,按定性分析,选取与因变量国家财政收入y 有较强的相关性变量:x1:农业增加值(亿元);x2:工业增加值(亿元);x3:建筑业增加值(亿元);x4:人口数(万人);x5:社会消费总额(亿元);x6:受灾面积(万公顷)。现从《中国统计年鉴》获得1978-1998年共21个年份的统计数据,如xt5.9.sav. 1.建立全模型回归方程; 2.用前进法选择自变量; 3.用后退法选择自变量; 4.用逐步回归法选择自变量; 5.根据以上结果分三种方法的差异。 二、实验步骤:(只需关键步骤) 步骤一:对六个回归自变量x1,x2……x6分别同因变量Y建立一元回归模型 步骤二:分别计算这六个一元回归的六个回归系数的F检验值。 步骤三:将因变量 y 分别与 (x1, x2),(x1, x3), …, (x1, xm)建立m-1个二元线性回归方程, 对这m-1个回归方程中x2, x3, …, xm的回归系数进行 F 检验,计算 F 值 步骤四:重复步骤二。 三、实验结果分析:(提供关键结果截图和分析) 1.建立全模型回归方程; — 1 —
由上图结果可知该问题的全模型方程为: Y=1347.986-0.1x1-0.317x2-0.413x3-0.002x4+0.671x5-0.008x6 2.用前进法选择自变量; 从右图上可以看出:依次引入了变量x5、x1、x2 最优回归模型为:Y^=874.583-0.611x1-0.353x2+0.637x5 — 2 —
最优模型的复决定系数 :R^2=0.996 调整后的复决定系数:R^2=0.995 3.用后退法选择自变量; 从上图上可以看出:依次剔除变量x4、x3、x6 最优回归模型为:y^=874.583-0.611x1-0.353x2+0.637x5 — 3 —
最优模型的复决定系数 R^2=0.996 调整后的复决定系数R^2=0.995 最优模型的复决定系数R^2=0.996 调整后的复决定系数R^2=0.995 4.用逐步回归法选择自变量; 从上图上可以看出:依次引入了变量x5、x1、x2 最优回归模型为:y^=874.583-0.611x1-0.353x2+0.637x5 — 4 —
最优模型的复决定系数 R^2=0.996 调整后的复决定系数R^2=0.995 5.根据以上结果分三种方法的差异。 前进法和后退法以及逐步回归法的计算结果完全一致,但是在其计算上又有很大的差异,前进法就是当自变量一旦被选入,就永远保留在模型中。后退法就是反向法,而逐步回归就比后退法更明确,逐步后退回归的方法。最终以逐步回归最能更好地解决该问题的回归问题。 — 5 —
四、实验总结:(包括心得体会、问题回答及实验改进意见,可附页) 前进法的特点是:自变量一旦被选入,就永远保留在模型中,前进法的缺点。不能反映自变量选进模型后的变化情况 。后退法的特点是,自变量一旦被剔除,就不能再选入模型 。后退法的缺点,开始把全部自变量都引入模型,计算量大。 前进法及后退法都有明显的不足,前进法可能存在的问题,既不能反应引进的新变量后的变化情况,也有可能因为某一个变量是显著的,当引入其他变量后就不显著了,但是也没有机会提出它,即一旦引入就是“终身制”的,这种只考虑引入而没有考虑剔除的做法显然是不全面的。后退发的不足,一开始就把所有自变量全部引入回归方程,这样计算量很大,对于一些不大重要的自变量一开始就不要引入,这样可以减少计算量。自变量一旦被剔除,它就不能引入回归方程了。后退法把全部m个变量引入回归方程,然后在这m个变量中选择一个最不重要的变量,将他从方程中剔除,后退法首先别除了x5。而逐步回归法将变量一个一个引入,每引入一个白变量后,对已选入的变量要进行逐个检验, 当原引入的变量由于后面变量的引入而变得不在显著时,要将其剔除。逐步回归法在第二步引入x5,说明两种方法对自变量重要性的认可是不同的,这与自变量之间的的相关性有关联。相比之下,后退法首先做全模型的回归,每个自变量都有机会展示自己的作用。
— 6 —