《应用回归分析》自变量选择与逐步回归实验报告

来源：华佗小知识

实验名称：自变量选择与逐步回归实验目的： 1. 掌握自变量选择的几个准则 2. 掌握选择最优回归方程的三种方法：前进法、回退法、逐步回归法 3. 掌握SPSS 软件操作方法实验设备与环境：计算机，SPSS22.0等。一、实验内容：在研究国家财政收入时，按定性分析，选取与因变量国家财政收入y 有较强的相关性变量：x1：农业增加值（亿元）；x2：工业增加值（亿元）；x3：建筑业增加值（亿元）；x4：人口数（万人）；x5：社会消费总额（亿元）；x6：受灾面积（万公顷）。现从《中国统计年鉴》获得1978-1998年共21个年份的统计数据，如xt5.9.sav. 1.建立全模型回归方程； 2.用前进法选择自变量； 3.用后退法选择自变量； 4.用逐步回归法选择自变量； 5.根据以上结果分三种方法的差异。二、实验步骤：（只需关键步骤）步骤一：对六个回归自变量x1,x2……x6分别同因变量Y建立一元回归模型步骤二：分别计算这六个一元回归的六个回归系数的F检验值。步骤三：将因变量 y 分别与 (x1, x2)，(x1, x3), …, (x1, xm)建立m-1个二元线性回归方程, 对这m-1个回归方程中x2, x3, …, xm的回归系数进行 F 检验，计算 F 值步骤四：重复步骤二。三、实验结果分析：（提供关键结果截图和分析） 1.建立全模型回归方程； — 1 —

由上图结果可知该问题的全模型方程为： Y=1347.986-0.1x1-0.317x2-0.413x3-0.002x4+0.671x5-0.008x6 2.用前进法选择自变量；从右图上可以看出：依次引入了变量x5、x1、x2 最优回归模型为：Y^=874.583-0.611x1-0.353x2+0.637x5 — 2 —

最优模型的复决定系数 :R^2=0.996 调整后的复决定系数:R^2=0.995 3.用后退法选择自变量；从上图上可以看出：依次剔除变量x4、x3、x6 最优回归模型为:y^=874.583-0.611x1-0.353x2+0.637x5 — 3 —

最优模型的复决定系数 R^2=0.996 调整后的复决定系数R^2=0.995 最优模型的复决定系数R^2=0.996 调整后的复决定系数R^2=0.995 4.用逐步回归法选择自变量；从上图上可以看出：依次引入了变量x5、x1、x2 最优回归模型为:y^=874.583-0.611x1-0.353x2+0.637x5 — 4 —

最优模型的复决定系数 R^2=0.996 调整后的复决定系数R^2=0.995 5.根据以上结果分三种方法的差异。前进法和后退法以及逐步回归法的计算结果完全一致，但是在其计算上又有很大的差异，前进法就是当自变量一旦被选入，就永远保留在模型中。后退法就是反向法，而逐步回归就比后退法更明确，逐步后退回归的方法。最终以逐步回归最能更好地解决该问题的回归问题。 — 5 —

四、实验总结：（包括心得体会、问题回答及实验改进意见，可附页）前进法的特点是：自变量一旦被选入，就永远保留在模型中，前进法的缺点。不能反映自变量选进模型后的变化情况。后退法的特点是，自变量一旦被剔除，就不能再选入模型。后退法的缺点，开始把全部自变量都引入模型，计算量大。前进法及后退法都有明显的不足，前进法可能存在的问题，既不能反应引进的新变量后的变化情况，也有可能因为某一个变量是显著的，当引入其他变量后就不显著了，但是也没有机会提出它，即一旦引入就是“终身制”的，这种只考虑引入而没有考虑剔除的做法显然是不全面的。后退发的不足，一开始就把所有自变量全部引入回归方程，这样计算量很大，对于一些不大重要的自变量一开始就不要引入，这样可以减少计算量。自变量一旦被剔除，它就不能引入回归方程了。后退法把全部m个变量引入回归方程，然后在这m个变量中选择一个最不重要的变量，将他从方程中剔除，后退法首先别除了x5。而逐步回归法将变量一个一个引入，每引入一个白变量后，对已选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不在显著时，要将其剔除。逐步回归法在第二步引入x5，说明两种方法对自变量重要性的认可是不同的，这与自变量之间的的相关性有关联。相比之下，后退法首先做全模型的回归，每个自变量都有机会展示自己的作用。

— 6 —

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文