spss数据分析的概论试题答案结果

来源：华佗小知识

《SPSS原理与运用》练习题

数据对应关系：06-均值检验； 07-方差分析； 08-相关分析； 09-回归分析； 10-非参数检验； 17-作图

1、以data06-03为例，分析身高大于等于155cm的与身高小于155cm的两组男生的体重和肺活量均值是否有显著性。分析：一个因素有2个水平用样本t检验，此题即身高因素有155以上和以下2个水平，因此用样本t检验（analyze->compare means->independent-samples T test）。报告：一、体重①m+s:>=155cm 时, m= 40.838kg; s= 5.117;

<155cm 时, m= 34.133kg；s= 3.816； ②方差齐性检验结果：P=0.198>0.05,说明方差齐性。

③t=4.056; p=0.001 < 0.01,说明身高大于等于155cm的与身高小于155cm的两组男生的体重有极显著性差异。

二、肺活量①m+s: >=155cm 时,m=2.404; s=0.402;

<155cm 时, m=2.016；s=0.423； ②方差齐性检验结果：P=0.961>0.05,说明方差齐性。

③t=2.512; p=0.018 < 0.05,说明说明身高大于等于155cm的与身高小于155cm的两组男生的体重有显著性差异。

2、以data06-04为例，判断体育疗法对降低血压是否有效。

分析：比较前后2种情况有无显著差异，用配对样本t检验， (analyze->compare means-> paired-samples T test).

报告：①m+s 治疗前舒展压：m=119.50; s=10.069; 治疗后舒展压：m=102.50; s=11.118;

②相关系数correlation=0.599; p=0.067>0.05,说明体育疗法与降低血压相关。 ③t=5.639;p=0.001<0.05,说明体育疗法对降低血压有效。

3、以data07-01为例，比较四种饲料对猪体重增加的作用有无不同。分析：一个因素多个水平用单因素方差分析。（analyze->compare means->One-way ANOVA）。操作中，contrast不用改;post-hoc中需勾Bonferroni和S-N-K; Options中需勾第1个descriptive和第3个Homegeneity of variance test.

报告：①m+s: A:m=133.36; s=6.808; B: m=152.04；s=6.957；

C:m=1.72; s=6.350; D: m=220.78；s=6.106； ②方差齐性检验结果：F=0.024;P=0.995>0.05,说明方差齐性。

③F=157.467; p=0.001 < 0.05,说明A B C D四种饲料对猪体重增加的作用有显著性差异。

④POST-HOC 检验表明：A B C D四种饲料对猪体重增加的作用效果从高到低依次为：D>C>B>A.(如何看图及如何排序，方法：如表格中显示D-A=87.415; D-B=68.735; D-C=31.055, 假设D=100,则易可计算出A B C的假设值，再根据假设值对ABCD进行排序即可)

4、以data07-10为例，分析四种药物对某生化指标有无显著性作用。分析：对一个样本重复测量时，作重复测量方差分析。（analyze->general linear model->repeated measure ）

操作：一、定义:factor name 中填med; number of levels中填4; ->add->define：将四个指标一

起添加到第一个框中去—》options中3个必要操作：1将med选到右边框中去，2勾选下边的compare main effect,在confident interval adjustment复选框中选Bonferroni；3 desplay框中选第1个Des„和第2个Esti..。->OK

报告：看结果时看第一个表descriptve statics和第5个表test of within-subject seffects表中的greenhouse-geisser结果F和Sig(即稍后要报告的p)即可 ①m+s：服药1后生化指标：m=26.40；s=8.7; 服药2后生化指标：m=15.60；s=6.542; 服药3后生化指标：m=15.60；s=3.847; 服药4后生化指标：m=32.00；s=8.000.

②F=24.759, p=0.001<0.01,说明差异显著，四种药物对某生化指标有显著性作用。且其中药物4所起的作用最大，药物3所起的作用最大小(据平均值可看出来)。

5、以data08-01为例，分析国民收入与城乡居民储蓄存款余额之间的关系。

分析：变量间不准确不稳定的变化关系称之为相关关系。相关分析种类很多，spss中有二列相关（Bivariate）、偏相关（partial）、距离分析(distances)3类。其中的二列相关分析（Bivariate）有3种：

⑴Pearson皮尔逊相关系数，即积差相关：就是2个变量标准分数乘积的算术平均数，它用于两个变量都是连续型变量时；

⑵Kendall’s tau-b:即肯德尔和谐系数，用于2（/3个以上）变量都是离散型变量时，可检验多个被试是否具有一致性。它分单维和双维。

⑶Speaman斯皮尔曼等级相关：用于两变量中有1个是离散型变量时。操作：Analyze—>Correlate—>Bivariate（此题符合Pearson相关） 1）Variables：选入这两个变量

2）Options：勾选Means and standard deviations即可。报告：①m+s国民收入m=128.5452，其S=106.18753；城乡居民储蓄存款m=14.1216，s=23.79747。 ②相关系数r=0.976**，相关极显著，且成正相关。

以data08-03为例，判断树木的月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度这4个气候因素的关系。

分析：此题用偏相关partial，偏相关用于分析事物间是否存在潜在的关系。但作偏相关都首先需作一般相关。

操作：第一步：二列相关

Analyze—>Correlate—>Bivariate（Pearson相关） 1）variables：选入所有变量

2）option：Means and standard deviations前打钩。

报告：① 5个变量的平均数和标准差：m+s（见截图） ②树木的月生长量与四个因子相关系数分别为：（看有无*，看*有多少）相关系数r=0.983**，相关极显著，成正相关。相关系数r=0.709**，相关极显著，成正相关。相关系数r=0.704*，相关显著，成正相关。相关系数r=0.374，无显著相关。第二步：偏相关

Analyze—>Correlate—>Paritable（Pearson相关） 1）Variables：树木的月生长量与月平均气温；

2）Controlling for：月降雨量、月平均日照时数、月平均湿度做其它两者之间的关系，操作类似，只是有点麻烦。

报告：r=0.977，其他因素对树木的月生长量与月平均气温之间的关系有影响； r=-0.491，„有影响；r=0.632，„有影响。（因为树木的月生长量与月平均湿度之间无显著相关，就没必要再做偏相关）

以data02-01为例，建立一个以初始工资、工作经验、受教育年数为自变量，当前工资为因变量的回归方程。分析：回归表示一个变量随另一个变量作不同程度变化的单向关系。根据自变量的多少克可分为一元回归分析与多元回归分析。

过程：先做散点图，判断是用线性回归还是曲线回归（一般用线性回归）

操作：一、打开data，选择REGRESSION——linear regression，选择因变量、自变量。二、在method 中选择stepwise

三、在statistics中增加选项 R squared change , descriptive 报告：①目前工资的平均值是...，标准差是... 初始工资的平均值是...，标准差是.. 工作经验的平均值是...，标准差是... 教育年数的平均值是...，标准差是... Descriptive Statistics Descriptive Statistics

Mean Std. Deviation N

Current Salary 34419.57 17075.661 474 Beginning Salary 17016.09 7870.638 474

Educational Level (years) 13.49 2.885 474 Months since Hire 81.11 10.061 474

②.解释力度为0.80，解释力度很大. Model Summary

Model R R Square Adjusted R Square Std. Error of the Estimate Change Statistics R Square Change F Change df1 df2 Sig. F Change 1 .880(a) .775 .774 8115.356 .775 1622.118 1 472 .000 2 .0(b) .792 .792 7796.524 .018 40.393 1 471 .000 3 .5(c) .801 .800 75.998 .008 19.728 1 470 .000 Coefficients(a)

1 (Constant) 1928.206 888.680 2.170 .031 Beginning Salary 1.909 .047 .880 40.276 .000 2 (Constant) -7808.714 1753.860 -4.452 .000 Beginning Salary 1.673 .059 .771 28.423 .000

Educational Level (years) 1020.390 160.550 .172 6.356 .000 3 (Constant) -19986.502 3236.616 -6.175 .000

Beginning Salary 1.6 .058 .779 29.209 .000

Educational Level (years) 966.107 157.924 .163 6.118 .000 Months since Hire 155.701 35.055 .092 4.442 .000 a Dependent Variable: Current Salary ③回归方程：

Y^=—19986.5+1.6*begining salary+966.107*educational level+155.701*months since Hire 掷一颗六面题300次，见data10-01a，问这颗六面体是否均匀？

分析：X2卡方是检验实际频数与理论频数之间差异的统计量。6面体如果均匀的话，6个面出现的频数应该是无显著差异。

操作：Analyse—Nonparametric Tests—Chi—square（卡方检验）将Imt加入到Test Variable List里 Options——勾选Descriptive

报告：由结果可知X2=8.960 P=0.111>0.05 ，说明无显著性差异, 所以，这颗六面体均匀。

某研究者就目前就业情况作调查，在68名男性大学生中，39人认为“很好”，29人认为“不好”，在57名女性大学生中，42人认为“不好”，15人认为“很好”，试问大学生的态度是否与其性别有关？分析：原理同上题，理论值和实测值如果有显著性差异，则与其有关，若无显著性差异，则无关。

操作：创建表：定义变量gender,attitude,num，输入数据 Data——weight case——num

选择 descriptive statistics——crosstabs ROW——gender , COLUMN——attidtude

STATISTICS中选择chi_square CELL DISPLAY 中增加选项 COUNTS:EXPECTED 报告：①.男性认为很好的实测值有39人，期望值为29.4人；男性认为不好的实测值有29人，期望值是38.6人；女性认为很好的实测值有15人，期望值为24.6人；女性认为不好的实测值有42人，期望值是32.6人。

②卡方检验结果：x2=12.173，P=0.001<0.01，表明学生态度受性别影响。（看第一行Pearson Chi-square那一行中的值）

有甲、乙两种药物，观察20名患者，其中10人各服甲、乙药物，试比较两种药物的疗效是否不同，数据见data10-06。

分析：本题采用非参数检验。假设检验的方法有参数检验和非参数检验2种。参数检验是根据样本信息对相应的总体参数的假设检验。它对数据要求高，如总体呈正态或近正态分布。但实际研究中出现总体状态不明，或总体状态呈非正态分布时，此时可采用非参数检验。操作1） analyse —Nonparametric Test—2 Independent samples test;

2）将ycss加入 test variable list 框中，将zb加入groouping variable中，在define group中定义分组;（在group中分别输入1、2） 3 test type中四个选项全选，option中选择descriptive 报告：①m+s: ycss: m=1.625 ; s=1.9655; Zb : m=1.50 ; s= 0.513; ②四种检验的P值如下:

Mann-Whitney Test检验：P1=0.036 <0.05 表明差异显著.

P2=0.035 <0.05 表明差异显著。 2)Moses-Test检验有2个P值，P1=0.291>0.05表明差异不显著； P2=0.686 >0.05，表明差异不显著。

3)Two-Sample Kolmogorov-Smirnov Test检验：P=0.1>0.05，表明差异不显著。 4)Wald-Wolfowitz Test检验:P(min)=0.019<0.05表明差异显著。

P(max)=0.414>0.05表明差异不显著。综合以上各种检验的P值来看，这两种药物之间的疗效差异不显著。

11、以data17-01数据文件生成1985-1994年某个城市12个月份平均气温的简单条形图。第11题：以data17-01数据文件生成1985-1994年某个城市12个月份平均气温的简单条形图。操作：1.题目分析：因为只有一个城市，所以用简单的画图 2. Graphs-bar（选第一个sample）

3.圆坨坨选最后一个 other statistic 把北京选入第一个框框variable 将月份选入第二个框框category axis 结果：

这是以北京市的情况为例的。 12、以data17-07数据文件为例，分别生成1993年俄罗斯每季度失业人口情况和部分独联体国家失业人口情况的圆图。步骤：题目分析：本题有两问

1. 1993年俄罗斯每季度失业人口情况，因为只有一个国家，所以用简单的画图 2. Graphs-pie（选第一个sample）

3.圆坨坨选最后一个 other statistic 把俄罗斯选入第一个框框variable 将季节选入第二个框框define slices

这是第一问，俄罗斯的情况

1.部分独联体国家失业人口情况的圆图，因为只有一个国家，所以用第二个画图 2. Graphs-pie（选第二个separate）

3.把部分独联体国家选入第一个大框框slices represent

Unit1

1. SPSS for Windows软件有几种运行方式？什么是混合运行方式，它有什么特点？ 2. SPSS for Windows 有几种类型的窗口，每个窗口主要功能是什么？答：3种，数据窗口（处理数据)；结果窗口（显示结果）；语句窗口（用来编程）

3. 什么是输出窗（或语句窗）的主窗，什么是主窗的标志？怎样把非主窗变成主窗？分出主窗和非主窗的作用是什么？以输出窗为例说明之。 4. 通过什么菜单项设置系统参数？Edit中的Options 5. SPSS的统计分析功能分布在何处？Analyze

6. 从何处可以获得帮助信息？系统提供的帮助有几种形式？

7种：Topics；Tutorial；Statistics Coach；对话框中的右键帮助；选择项的右键帮助；输出项的右键帮助；统计量解释的右键帮助 Unit4

1. 均值比较的T检验分几种类型？各自检验的假设是什么？

单一样本t检验，检验单个变量的均值是否与给定的常数之间存在差异。即样本均值与总体均值相等的假设。

两个样本的t检验用于检验两个不相关的样本来自具有相同均值的总体。配对样本t检验（Paired Sample T test）用于检验两个相关的样本是否来自具有相同均值的总体。

2. 要使用T检验进行均值比较的变量，应该具有怎样的分布特征？变量应该是正态分布的。如果分析变量明显是非正态分布的，应该选择非参数检验过程。

3.样本T检验对变量的齐性有什么要求？

被检验的两个样本方差要求具有齐性，如果不齐，使用校正公式计算T值和自由度。因此，在输出结果中，应该先检查方差齐性，根据齐性的结果，在输出表格中选择T检验的结果。 Unit5

简述方差分析的基本思想。用简单的表达式表示单因素方差分析的偏差平方和分解。通过分析研究中不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

方差分析的假定的前提条件有哪些？

（1）各处理条件下的样本是随机的。

（2）样本是相互的，否则可能出现无法解析的输出结果。（3样本分别来自正态分布总体，否则使用非参数分析。（4）方差齐性。

3. 什么是主效应？什么是交互效应？

一个因素的水平之间的平均数差异，称为该因素的主效应。当研究设计被呈现为一个矩阵，并且第一个因素定义行，第二个因素定义列的时候，行与行之间的平均数差异描述就是第一个因素的主效应，列之间的平均数差异描述的是第二个因素的主效应

当被试处理情境之间或单元之间的平均数差异显著不同于因素的全部主效应时，双因素之间的交互作用就发生了。或者可以这样理解，当双因素实验研究的结果以图形呈现的时候，如果存在不平行的折线，则说明存在交互作用

4. 简述协方差分析的基本思想。

统计复习题目

一.某公司管理人员为了解某化妆品在一个城市的月销售量Y（单位：箱）与该城市中适合使用该化妆品的人数X1（单位：千人）以及他们人均月收入X2（单位：元）之间的关系，

在某个月中对15个城市做调查，得上述各量的观测值如表A1所示.假设Y与X1，X2之间满足线性回归关系

yi01xi12xi2i,i1,2,,15 其中i同分布于N(0,2).

(1)求回归系数0,1,2的最小二乘估计值和误差方差的估计值，写出回归方程并对回归系数作解释；analyze-regression-linear,y to dependent,x1 x2 to indepents ,statistics-confidence intervals,save-unstandardized. Prediction individual-individual.ok Coefficients Standardized Unstandardized Coefficients Model 1 (Constant) x1 x2 a. Dependent Variable: y B 3.453 .496 .009 Std. Error 2.431 .006 .001 .934 .108 Coefficients Beta t 1.420 81.924 9.502 Sig. .181 .000 95% Confidence Interval for B Lower Bound -1.843 .483 .000 Upper Bound 8.749 .509 .007 a2

ANOVA b Model 1 Regression Residual Total Sum of Squares 53844.716 56.884 53901.600 df 2 12 14 Mean Square 26922.358 4.740 F 5.679E3 Sig. .000 a 2

a. Predictors: (Constant), x2, x1 b. Dependent Variable: y

回归系数0,1,2的最小二乘估计值和误差方差的估计值分别为：3.453,0.496,0.009和

2=4.740. 回归方程为y=0.496*x1+0.009*x2+3.453

回归系数解释：3.453可理解为化妆品的月基本销售量，当人均月收入X2固定时，适合使用该化妆品的人数X1每提高一个单位，月销售量Y将增加0.496个单位；当适合使用该化妆品的人数X1固定时，人均月收入X2每提高一个单位，月销售量 Y将增加0.009个单位 (2)求出方差分析表，解释对线性回归关系显著性检验的结果.求复相关系数的平方R的值并

解释其意义；

ANOVA Model 1 Regression Residual Total Sum of Squares 53844.716 56.884 53901.600 df 2 12 14 Mean Square 26922.358 4.740 F 5.679E3 Sig. .000 ab a. Predictors: (Constant), x2, x1 b. Dependent Variable: y Model Summary Adjusted R Model 1 R .999 aStd. Error of the Estimate R Square .999 Square .999 2.17722 a. Predictors: (Constant), x2, x1

由于P值=0.000<0.05，所以回归关系显著.R值=0.999，说明Y与X1，X2之间的线性回归关系是高度显著的…

(3)分别求1和2的置信度为0.95的置信区间；

coefficients的后面部分.1和2的置信度为0.95的置信区间分别为（0.483，0.509），（0.007,0.011）

(4)对0.05，分别检验人数X1及收入X2对销量Y的影响是否显著；

由于系数1，2对应的检验P值分别为0.000，0.000都小于0.05，所以适合使用该化妆品的人数X1和人均月收入X2 对月销售量Y的影响是显著的

(5)该公司欲在一个适宜使用该化妆品的人数x01220，人均月收入x022500的新城市中销售该化妆品，求其销量的预测值及置信为0.95的置信区间.

Y的预测值及置信度为0.95的置信区间分别为：135.5741和（130.59977，140.54305）在数据表中直接可以看见

二、某班42名男女学生全部参加大学英语四级水平考试，数据如下：（数据表为A2）

男生1 不合格1 26 合格2 2 2

女生2 8 6 问男女生在英语学习水平上有无显著差异？单击weight cases-weight cases by-x, ok, analyze-descriptive statistics-crosstabs,(列联表分析)sex to rows,score to column, exact-exact, statistics chi-square ,ok.

Chi-Square Tests Value Pearson Chi-Square Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases bAsymp. Sig. df aExact Sig. (2-sided) .010 Exact Sig. (1-sided) Point Probability (2-sided) 1 1 1 .005 .018 .007 7.721 5.578 7.369 .010 .037 .010 .010 .010 .010 .010 7.537 c 1 42 .006 .010 a. 1 cells (25.0%) have expected count less than 5. The minimum expected count is 2.67. b. Computed only for a 2x2 table c. The standardized statistic is 2.745.

原假设不显著，看这个（Asymp. Sig. (2-sided)）。Pearson Chi-Square（卡方检验） and Likelihood Ratio（似然比） all <0.05 男女生在英语学习水平上差异是显著的

三、将一块耕地等分为24个小区，今有3种不同的小麦品种(d)和2种不同的肥料(B1,B2)，现将各小麦品种与各种肥料进行搭配，对每种搭配都在4个小区上试验，测得每个小区产量的数据如表A3所示.

（1）假设所给数据服从方差分析模型，建立方差分析表，A与B的交互效应在0.05下是否显著？

3.0…Analyze-general linear model-univariate,x to dependent variable,a and b to fixed factor, ok Tests of Between-Subjects Effects Dependent Variable:x

Type III Sum of Source Corrected Model Squares 263.333 3650.667 190.333 54.000 19.000 44.000 3958.000 307.333 adf 5 1 2 1 2 18 24 23 Mean Square 52.667 3650.667 95.167 54.000 9.500 2.444 F 21.545 1.493E3 38.932 22.091 3.886 Sig. .000 .000 .000 .000 .040 a b a * b Error Total Corrected Total a. R Squared = .857 (Adjusted R Squared = .817) 由于交互效应检验P值=0.04<0.05，所以小麦(A)与肥料(B)之间的交互效应是显著的. （2）若A与B的交互效应显著，分别就B的各水平Bi(i1,2)，给出在A的各水平Aj上的均值ij的置信度为0.95 的置信区间以及两两之差的置信度不小于0.95的Bonferroni同时置信区间.

3.1….Analyze-general linear model-univariate,x to dependent variable,a to fixed factor,post hoc-a to post hoc tests for, bonferroni,options-a to display means for.ok

a Dependent Variable:x 95% Confidence Interval a 1 2 3 Mean 9.000 10.000 13.500 Std. Error .687 .687 .687 Lower Bound 7.445 8.445 11.945 Upper Bound 10.555 11.555 15.055 Multiple Comparisons x Bonferroni Mean Difference (I) a 1 (J) a 2 3 2 1 3 3 1 (I-J) -1.00 -4.50 1.00 -3.50 4.50 *** 95% Confidence Interval Std. Error .972 .972 .972 .972 .972 Sig. .991 .004 .991 .017 .004 Lower Bound -3.85 -7.35 -1.85 -6.35 1.65 Upper Bound 1.85 -1.65 3.85 -.65 7.35

2 Based on observed means. 3.50 *.972 .017 .65 6.35 The error term is Mean Square(Error) = 1.8. *. The mean difference is significant at the .05 level. 固定肥料的B1水平，

11,12,13的置信度为0.95的置信区间分别为

(7.445,10.555),(8.445,11.555),(11.945,15.055);

1112,1113,1213的置信度不小于

0.95的Bonferroni同时置信区间分别为（-3.85,1.85）,（-7.35,-1.65）,（-6.35,-0.65）

2. Analyze-general linear model-univariate, x to dependent variable,a to fixed

factor,post hoc-a to post hoc tests for,bonferroni,options-a to display means for,.ok a Dependent Variable:x 95% Confidence Interval a 1 2 3 Mean 10.500 12.000 19.000 Std. Error .866 .866 .866 Lower Bound 8.541 10.041 17.041 Upper Bound 12.459 13.959 20.959 Multiple Comparisons x Bonferroni Mean Difference (I) a 1 (J) a 2 3 2 1 3 3 1 2 Based on observed means. The error term is Mean Square(Error) = 3.000. *. The mean difference is significant at the .05 level. (I-J) -1.50 -8.50 1.50 -7.00 8.50 7.00 **** 95% Confidence Interval Std. Error 1.225 1.225 1.225 1.225 1.225 1.225 Sig. .755 .000 .755 .001 .000 .001 Lower Bound -5.09 -12.09 -2.09 -10.59 4.91 3.41 Upper Bound 2.09 -4.91 5.09 -3.41 12.09 10.59 固定肥料的B2水平，21,22,23的置信度为0.95的置信区间分别

(8.541,12.459),(10.041,13.959),(17.041,20.959)2122,2123,2223的置信度不小

于0.95的Bonferroni同时置信区间分别为（-5.09,2.09）,（-12.09,-4.91）,（-10.59,-3.41）四、数据表A4给出了我国31个省市自治区的的经济发展状况，所考察的八个指标为：x1：地区生产总值；x2：居民消费水平；x3：基本建设投资；x4职工平均工资； x5：居民消费价格指数；x6：商品零售价格指数；x7：货物周转量；x8：工业总产值。

(1)从样本相关系数矩阵R出发做主成分分析，求各主成分的贡献率及前三个主成分的累计贡献率；求出前三个主成分的表达式。

Analyze-data-reduction-factor将八个成分全部选入variables，extraction-extract-number of factors-8,ok

Total Variance Explained Component 1 2 3 4 5 6 7 8 Total 3.741 2.394 .738 .480 .437 .142 .060 .007 Initial Eigenvalues % of Variance 46.761 29.926 9.231 6.006 5.466 1.776 .745 .090 Cumulative % 46.761 76.687 85.918 91.923 97.3 99.165 99.910 100.000 Extraction Sums of Squared Loadings Total 3.741 2.394 .738 % of Variance 46.761 29.926 9.231 Cumulative % 46.761 76.687 85.918 a Extraction Method: Principal Component Analysis. Component Matrix 地区生产总值居民消费水平基本建设投资职工平均工资居民消费价格指数商品零售价格指数货物周转量工业总产值 1 .814 .766 .785 .604 -.314 -.397 .761 .823 2 .556 -.493 .558 -.572 .599 .721 -.181 .540 3 -.116 .195 -.141 .016 .666 -.006 .458 -.116 Component 4 .031 -.076 .085 .465 .298 -.131 -.380 .020 5 -.035 .212 -.083 .2 -.091 .552 -.005 -.042 6 -.028 -.285 -.013 .149 -.051 .029 .185 .019 7 -.094 .005 .196 -.002 -.007 .013 .017 -.109 8 -.061 .006 .003 -.002 .001 .000 -.004 .058 Undefined error #11401 - Cannot open text file \"F:\\SPSS\\spss\\lang\\en\\spss.err\": No such file or dire a. 8 components extracted.

各主成分的贡献率分别为46.761%，29.926%，9.231%，6.006%，5.466%，1.776%，0.745%，0.09%.前三个主成分的累计贡献率为85.918%.

y1=0.814x1+0.766x2+0.785x3+0.604x4-0.314x5-0.397x6+0.761x7+0.823x8 y2=0.556x1-0.493x2+0.558x3-0.572x4+0.599x5+0.721x6-0.181x7+0.540x8

y3=-0.116x1+0.195x2-0.141x3+0.016x4+0.666x5-0.006x6+0.458x7-0.116x8

(2)本相关系数矩阵R出发做因子分析，提取三个公共因子F1，F2，F3，说明每个公共因子各由哪些指标解释，并解释每个公共因子的具体意义。 1.求出三个公共因子F1，F2，F3的表达式。

Analyze-data-reduction-factor将八个成分全部选入variables，extraction-extract-number of factors-3,descriptives-correlation matrix- coefficients, rotation-method- varimax, scores-save as variables,display factor score coefficient matrix, ok

Component Score Coefficient Matrix 地区生产总值居民消费水平基本建设投资职工平均工资居民消费价格指数商品零售价格指数货物周转量工业总产值 1 .341 -.031 .343 -.036 -.085 .114 -.021 .339 Component 2 -.075 .380 -.097 .258 .220 -.254 .468 -.069 3 -.062 .092 -.0 -.125 .910 .157 .460 -.065 Undefined error #11401 - Cannot open text file \"F:\\SPSS\\spss\\lang\\en\\spss.err\": No such file or dire Undefined error #11408 - Cannot open text file \"F:\\SPSS\\spss\\lang\\en\\spss.err\": No such file or dire F1=0.341x1-0.031x2+0.343x3-0.036x4-0.085x5+0.114x6-0.021x7+0.339x8 F2=-0.075x1+0.38x2-0.097x3+0.258x4+0.22x5-0.254x6+0.468x7-0.069x8 F2=-0.062x1+0.092x2-0.0x3-0.125x4+0.910x5+0.157x6+0.460x7-0.065x8

2.根据三个公共因子F1，F2，F3的得分，对31个省市自治区进行分层聚类分析，要求样本间用欧氏平方距离，类间用类内平均连接法，如果聚为4类，写出每一类成员。

Analyze-classify-hierarchical cluster,F1.F2.F3 to variables,地区 to label cases by, statistics-cluster member ship-single solution-number of cluster-4. method-cluster method-median clustering,save- cluster member ship-single solution-number of cluster-4.ok

分类在表的最后一列可以读出。

五、表B1给出了煤净化过程的一组数据，Y为净化后煤溶液中所含杂质的重量，这是衡量净化效率的指标，X1 表示输入净化过程的溶液所含的煤与杂质的比，，X2是溶液的PH值，X3是溶液的流量。假设Y与X1，X2和X3之间满足线性回归关系 yi01xi12xi2i3i,i1,2,,12 其中i同分布于N(0,2). (1) 求回归系数

0,1,23的最小二乘估计值和误差方差2的估计值，

写出回归方程并对

回归系数作解释；

analyze-regression-linear,y to dependent,x1 x2 x3to independent ,statistics-confidence intervals, save-unstandardized. Prediction individual-individual .ok

Coefficients Standardized Unstandardized Coefficients Model 1 (Constant) B 397.087 -110.750 15.583 -.058 Std. Error 62.757 14.762 4.921 .026 Coefficients Beta t 6.327 -.841 .355 -.255 -7.502 3.167 -2.274 Sig. .000 .000 .013 .053 95% Confidence Interval for B Lower Bound 252.370 -144.792 4.236 -.117 Upper Bound 541.805 -76.708 26.931 .001 a x1 x2 x3 a. Dependent Variable: y ANOVA b Model 1 Regression Residual Total Sum of Squares 31156.024 3486.2 342.917 df 3 8 11 Mean Square 10385.341 435.862 F 23.827 Sig. .000 a a. Predictors: (Constant), x3, x2, x1 b. Dependent Variable: y 回归系数

0,1,2,3的最小二乘估计值和误差方差2的估计值分别

为:397.087,-110.75,15.583,-0.058和435.862 y=-110.750*x1+15.583*x2-0.058*x3+397.087

回归系数解释：397.087可理解为杂质的基本重量，当PH值X2和溶液流量X3固定时，输

入净化过程的溶液所含的煤与杂质的比 X1每提高一个单位，杂质的重量 Y将减少110.75个单位；当输入净化过程的溶液所含的煤与杂质的比X1和溶液流量X3固定时，PH值X2每提高一个单位，杂质的重量Y将增加15.583个单位；当输入净化过程的溶液所含的煤与杂质的比X1和PH值X2固定时，溶液流量X3每提高一个单位，杂质的重量Y将减少0.058个单位。

(2)求出方差分析表，解释对线性回归关系显著性检验的结果.求复相关系数的平方R的值并解释其意义； ANOVA Model 1 Regression Residual Total Sum of Squares 31156.024 3486.2 342.917 df 3 8 11 Mean Square 10385.341 435.862 F 23.827 Sig. .000 ab2 a. Predictors: (Constant), x3, x2, x1 b. Dependent Variable: y Model Summary Adjusted R Model 1 R .948 aStd. Error of the Estimate R Square .9 Square .862 20.87730 a. Predictors: (Constant), x3, x2, x1 2

由于P值=0.000<0.05，所以回归关系显著.R值=0.9，说明Y与X1，X2，X3之间的线性回归关系是显著的

(3)分别求1，2和3的置信度为0.95的置信区间；

2和3的置信度为0.95的置信区间分别为coefficients的后面部分1，（-144.792，-76.708），

（4.236，26.931），（-0.117，0.001）

(4)对0.05，分别检验X1， X2和X3对Y的影响是否显著；

由于系数1，2对应的检验P值分别为0.000，0.013都小于0.05，所以X1和X2 对Y的影响是显著的.而3对应的检验P值为0.053大于0.05，所以X3对Y的影响是不显著的。 (5)若有X1，X2，X3的值(x01,x02,x03)(2,8,1400)，求Y的预测值及置信度为0.95的置信区间.

Y的预测值及置信度为0.95的置信区间分别为：218.484和（166.93687，270.35282）在数据表中直接可以看见

六、考察四种不同催化剂对某一化工产品得率的影响，在四种不同催化剂下分别做了6次实验，得数据如表B2所示.假定各种催化剂下产品的得率服从同方差的正态分布，试在

0.05下，检验四种不同催化剂对该化工产品的得率有无显著影响.要写出方差分析表。

方差分析表:

Analyze—compare means -one-way anova,x to dependent list,a to factor ,ok ANOVA x Between Groups Within Groups Total Sum of Squares .006 .030 .036 df 3 20 23 Mean Square .002 .001 F 1.306 Sig. .300 由于检验P值=0.300>0.05，所以认为四种不同催化剂对该化工产品的得率在水平0.05下无显著差异。

七、为了研制一种治疗枯草热病的药物，将两种成分（A和B）各按三种不同剂量（低、中、高）混合，将36位自愿受试患者随机分为9组，每组4人服用各种剂量混合下的药物，记录其病情缓解的时间（单位：小时）数据如表B3所示.

（1）假设所给数据服从方差分析模型，建立方差分析表，A与B的交互效应在0.05下是否显著？

B3.0….Analyze-general linear model-univariate,x to dependent variable,a and b to fixed factor, ok Tests of Between-Subjects Effects Dependent Variable:x Type III Sum of Source Corrected Model Squares 373.105 1857.610 220.020 123.660 a df 8 1 2 2 Mean Square 46.638 1857.610 110.010 61.830 F 774.910 3.086E4 1.828E3 1.027E3 Sig. .000 .000 .000 .000 a b

a * b Error Total Corrected Total 29.425 1.625 2232.340 374.730 4 27 36 35 7.356 .060 122.227 .000 a. R Squared = .996 (Adjusted R Squared = .994) 交互效应检验P值=0.000<0.05，所以成分 (A)与成分(B)之间的交互效应是显著的（2）若A与B 的交互效应显著，分别就A的各水平Ai(i1,2,3)，给出在B的各水平Bj上的均值ij的置信度为0.95 的置信区间以及两两之差的置信度不小于0.95的Bonferroni同时置信区间.

B3.1….Analyze-general linear model-univariate,x to dependent variable,a to fixed factor,post hoc-a to post hoc tests for, bonferroni,options-a to display means for.ok b Dependent Variable:x 95% Confidence Interval b 1 2 3 Mean 2.475 4.600 4.575 Std. Error .110 .110 .110 Lower Bound 2.226 4.351 4.326 Upper Bound 2.724 4.849 4.824 Multiple Comparisons x Bonferroni Mean Difference (I) b 1 (J) b 2 3 2 1 3 3 1 2 Based on observed means. The error term is Mean Square(Error) = .048. *. The mean difference is significant at the .05 level. (I-J) -2.1250 -2.1000 2.1250 .0250 2.1000 -.0250 **** 95% Confidence Interval Std. Error .15546 .15546 .15546 .15546 .15546 .15546 Sig. .000 .000 .000 1.000 .000 1.000 Lower Bound -2.5810 -2.5560 1.6690 -.4310 1.40 -.4810 Upper Bound -1.6690 -1.40 2.5810 .4810 2.5560 .4310

固定成分(A)的A1水平，

11,12,13的置信度为0.95的置信区间分别为

(2.226,2.724),(4.351,4.849),(4.326,4.824);

1112,1113,1213的置信度不小于0.95

的Bonferroni同时置信区间分别为（-2.581,-1.669）,（-2.556,-1.4）,（-0.431,0.481）

B3.2….Analyze-general linear model-univariate,x to dependent variable,a to fixed factor,post hoc-a to post hoc tests for, bonferroni,options-a to display means for.ok b Dependent Variable:x 95% Confidence Interval b 1 2 3 Mean 5.450 8.925 9.125 Std. Error .127 .127 .127 Lower Bound 5.162 8.637 8.837 Upper Bound 5.738 9.213 9.413 Multiple Comparisons x Bonferroni Mean Difference (I) b 1 (J) b 2 3 2 1 3 3 1 2 Based on observed means. The error term is Mean Square(Error) = .065. *. The mean difference is significant at the .05 level. (I-J) -3.4750 -3.6750 3.4750 -.2000 3.6750 .2000 **** 95% Confidence Interval Std. Error .18028 .18028 .18028 .18028 .18028 .18028 Sig. .000 .000 .000 .888 .000 .888 Lower Bound -4.0038 -4.2038 2.9462 -.7288 3.1462 -.3288 Upper Bound -2.9462 -3.1462 4.0038 .3288 4.2038 .7288

固定成分(A)的A2水平，

21,22,23的置信度为0.95的置信区间分别为

(5.162,5.738),(8.637,9.213),(8.837,9.413)；

2122,2123,2223的置信度不小于0.95

的Bonferroni同时置信区间分别为（-4.0038,-2.9462）,（-4.2038,-3.1462）,（-0.7288,0.3288）

B3.3….Analyze-general linear model-univariate,x to dependent variable,a to fixed factor,post hoc-a to post hoc tests for, bonferroni,options-a to display means for.ok b Dependent Variable:x 95% Confidence Interval b 1 2 3 Mean 5.975 10.275 13.250 Std. Error .130 .130 .130 Lower Bound 5.682 9.982 12.957 Upper Bound 6.268 10.568 13.543 Multiple Comparisons x Bonferroni Mean Difference (I) b 1 (J) b 2 3 2 1 3 3 1 2 (I-J) -4.3000 -7.2750 4.3000 -2.9750 7.2750 2.9750 ****** 95% Confidence Interval Std. Error .18333 .18333 .18333 .18333 .18333 .18333 Sig. .000 .000 .000 .000 .000 .000 Lower Bound -4.8378 -7.8128 3.7622 -3.5128 6.7372 2.4372 Upper Bound -3.7622 -6.7372 4.8378 -2.4372 7.8128 3.5128 Based on observed means. The error term is Mean Square(Error) = .067. *. The mean difference is significant at the .05 level. 固定成分(A)的A3水平，

31,32,33的置信度为0.95的置信区间分别为

(5.682,6.268),(9.982,10.568),(12.957,13.543);3132,3133,3233的置信度不小于0.95的Bonferroni同时置信区间分别为（-4.8378,-3.7622）（,-7.8128,-6.7372）（,-3.5128,-2.4372）.

八、表B4给出了1991年我国30个省、区、市城镇居民的月平均消费数据，所考察的八个指标如下（单位均为元/人）x1：人均粮食支出；x2：人均副食支出；x3：人均烟酒茶支出；

x4人均其他副食支出； x5：人均衣着商品支出；x6：人均日用品支出；x7：人均燃料支

出；x8：人均非商品支出

（1）从R出发做主成分分析，求各主成分的贡献率及前两个主成分的累计贡献率； Analyze-data-reduction-factor将八个成分全部选入variables，extraction-extract-number of factors-2,ok

Total Variance Explained Component 1 2 3 4 5 6 7 8 Total 3.096 2.367 .920 .706 .498 .230 .131 .051 Initial Eigenvalues % of Variance 38.704 29.590 11.500 8.824 6.231 2.874 1.635 .3 Cumulative % 38.704 68.294 79.794 88.618 94.848 97.722 99.357 100.000 Extraction Sums of Squared Loadings Total 3.096 2.367 % of Variance 38.704 29.590 Cumulative % 38.704 68.294 Extraction Method: Principal Component Analysis. 第一，第二,…,第八主成分的贡献率分别为：38.704%，29.59%，11.5%，8.824%，6.231%，2.874%，1.635%，0.635%. 前两个主成分的累计贡献率68.294%. (2)求出前两个主成分并解释其意义.

Component Matrix a x1 x2 x3 x4 x5 x6 x7 x8 Component 1 .439 .914 -.033 .447 .038 .867 .558 .6 2 -.371 -.058 .731 .828 .885 .207 -.401 -.134 Undefined error #11401 - Cannot open text file \"C:\\Program Files\\SPSSInc\\SPSS16\\lang\\en\\spss.err\": N a. 2 components extracted. y1=0.439x1+0.914x2-0.033x3+0.447x4+0.038x5+0.867x6+0.558x7+0.6x8

y2=-0.371x1-0.058x2+0.731x3+0.828x4+0.885x5+0.207x6-0.401x7-0.134x8

y1yy12反映了居民的综合支出，的值越大，表明人均综合支出越大。反映了必需品消费y和奢侈品消费对比，2的绝对值越大，表明必需品消费和奢侈品消费的差异越大。

九、欲按能耗，糖耗将运动项目分类，以便针对不同能耗，糖耗的运动员提供不同的膳食，使运动员既能得到能量的补充，又不造成多余的体脂堆积.某单位对上海划船队员做了能量代谢测定，得13个项目的平均分数据见B5，试用下列方法对13个项目做谱聚类分析. （1）最短距离法，给出聚为4类的结果；

Analyze-classify-heirarchical cluster-y1.y2to variables and 运动项目to label cases by.statistics-single solution number of clusters-4.method-nearest neighbor.(save- single solution number of clusters-4)

用最短距离法的聚类结果为：(负重下蹲，高力翻，引体向上，仰卧蹬腿，快挺，趴拉，曲臂，仰卧起坐) (提铃，腰腹转，手脚并举) (卧推) (俯卧撑) (2)最长距离法，给出聚为4类的结果；

Analyze-classify-heirarchical cluster-y1.y2to variables and 运动项目to label cases by.statistics-single solution number of clusters-4.method-furthest neighbor.(save- single solution number of clusters-4)

用最长距离法的聚类结果为：(负重下蹲，高力翻，引体向上，仰卧蹬腿，快挺，趴拉，曲臂，仰卧起坐) (提铃，腰腹转，手脚并举) (卧推) (俯卧撑) （1）类平均距离法，给出聚为4类的结果；

Analyze-classify-heirarchical cluster-y1.y2to variables and 运动项目to label cases by.statistics-single solution number of clusters-4.method-median clustering.(save- single solution number of clusters-4)

用类平均距离法的聚类结果为：(负重下蹲，高力翻，引体向上，仰卧蹬腿，快挺，趴拉，曲臂，仰卧起坐) (提铃，腰腹转，手脚并举) (卧推) (俯卧撑) (4)重心法，给出聚为4类的结果.

Analyze-classify-heirarchical cluster-y1.y2to variables and 运动项目to label cases by.statistics-single solution number of clusters-4.method-centroid clustering.(save- single solution number of clusters-4)

用重心法的聚类结果为：(负重下蹲，高力翻，引体向上，仰卧蹬腿，快挺，趴拉，曲臂，仰卧起坐) (提铃，腰腹转，手脚并举) (卧推) (俯卧撑)

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

spss数据分析的概论 试题 答案 结果

spss数据分析的概论试题答案结果