第一节 SAS与统计分析
SAS系统是美国SAS软件研究所的产品,是一个用于决策支持的大型集成信息系统。SAS系统经过二十多年的发展,以其卓越的数据处理能力,为在线数据分析、数据仓库、数据挖掘和决策支持提供了全面的解决方案。SAS系统的发展始终离不开它的强大的数据分析功能,而且随着SAS系统的发展,其分析功能也与它在信息技术上的发展相辅相成,发展得更加深入、广泛和强大。
SAS系统的分析功能是散布在几乎所有的模块之中,较为集中的具有统计分析功能的是SAS/STAT、SAS/QC、SAS/INSIGHT、SAS/ETS等一些模块。SAS系统的分析功能也在不断的发展之中,它随时地把用户需要的和学术研究中得到的一些有效的实用分析方法加入到SAS的不同模块之中,例如多变量分析中的偏最小二乘法便是一例。
在SAS系统分析功能的使用上,除了提供编程调用外,SAS对一些常用的分析功能都提供了简便的菜单系统,使用户不用编程就可以享用SAS的许多深入的分析功能。对常用的一些统计分析方法而言,SAS/INSIGHT、分析员应用和直接编程都可以达到同样的目的。一般来说,SAS/INSIGHT最为直观,便于步步深入;分析员应用可提供自动形成的程序,而且在属性数据分析和功效函数计算方面较INSIGHT强;编程是功能最强的,尤其是一些特殊或深入的分析功能只能用编程实现,但相对来说,编程较难熟练掌握。下面我们就结合SAS/INSIGHT和分析员应用来介绍常用的一些统计分析方法。
第二节
SAS/INSIGHT
SAS/INSIGHT是一个交互式的数据探索和分析的工具,用这一软件
可以:
l 通过多窗口连动的图象和分析结果,对数据进行探索 l 分析单变量分布
l 用相关和主成分研究多变量间的关系
l 用方差分析和回归分析说明、拟合变量间关系的模型
一、 区间型变量 ( interval variable ) 和列名型变量( nominal variable ):
在SAS数据集中,变量的两种类型为: l 字符型变量 l 数值型变量;
1
在SAS/INSIGHT中,为了区分变量在分析中的不同作用,变量又按其测 量水平分为:
l 区间型变量: 区间型变量必须是数值型变量,可以对其观测值进行
各种四则运算,计算各种统计量; l 列名型变量:列名型变量可以是数值型的,也可以是字符型的,在
INSIGHT中常起分类作用。 字符型变量只能是列名型的,对取值不多而用以区分不同类别的数值型变量也可看作列名型的。
在缺省情况下,INSIGHT对所有数值型变量冠以区间型测量水平,对所 有字符型变量冠以列名型测量水平。在有需要时,也可将数值型变量冠 以列名型测量水平。
二、 调用SAS/INSIGHT:
1、 方法1:在命令行键入Insight → 打开数据集(DTS. BCLASS);
2、 方法2:打开下拉菜单选 解决方案 → 分析 → 交互式数据分析
→ 打开数据集(DST. BCLASS)。
3、 数据窗口介绍:
1) 窗的左上角给出了变量数和观测值个数;
2) 每个观测值置以一个观测序号,观测序号前的符号表示该观 测在作图时使用的符号和颜色;
3) 数据集的变量在数据窗的顶部标明,每个变量都标以区间型 ( Int ) 或列名型 ( Nom ) 的。
三、 Insight功能概述:
l File 栏目下提供读入数据集,存储数据集、分析结果的表格和图形
的管理;
l Edit 栏目下提供对打开数据集的变量、观测进行增删、设定数据
显示格式和窗口管理的功能;
l Analyze 提供了作图和分析的功能,其分析功能归为分布拟合、线
性模型(包括回归分析、方差分析等)、多变量分析三类;
l Tables , Graphs , Curves , Vars 栏目下随不同的分析项目提供不
同的功能,Tables提供显示分析结果的各种表的功能,Graphs提供生成与分析有关的各种图形的功能,Curves提供与分析有关的各种曲线的功能,Vars提供由分析结果形成的新的变量的功能。
四、 INSIGHT中的有关操作:
1、 设置测量水平:
在列的顶部单击鼠标右键,弹出菜单进行选择。
2、 在数据窗中移动列:
l 移到最先或最后:
单击数据表左上角尖头,弹出菜单,选 1) Move to First: 2) Move to Last:
2
l 移到某两列中间:
选Edit → Windows → Tools → 手;
选定移动变量的顶部,按住鼠标左键拖动到适当的地方 3、 对数据集排序:
单击数据表左上角尖头,弹出菜单,选Sort,把要排序的变量移 到Y中,可同时根据多个变量进行排序,默认是升序排序,可 单击Asc/Des切换到降序。(按姓名字母进行升序排列,按年龄
进行降序排列) 4、 创建新的变量:
选Edit → Variables → Other可通过原变量的关系定义新的
变量(根据学生体重与身高之比建立新变量WHRATIO,并在 Label中注明体重身高比)。 5、 建立数据集的子集:
1) 选Edit → Observations → Find确定建立新数据表的关系 式(找出所有男生的观测);
2) 单击数据表左上角尖头,弹出菜单,选Extract;
3) 若要存库,可选File → Save → Data
6、 直接输入数据建立新数据表:
1)选File → New
2)单击数据表左上角尖头,弹出菜单,选New Variables,输入 变量个数,再选Define Variables,输入变量名及属性。 3)在单元格内输入收据
第三节 分析员应用
一、 调用分析员应用:
方法1: 在命令行键入Analyst → 打开数据集(文件→ 打开 SAS → 数据集)(打开DST. BCLASS);
方法2: 在菜单中选 解决方案 → 分析 → Analyst → 打开数 据集( 文件 → 打开SAS → 数据集)。 二、 功能概述:
分析员应用画面的左侧随着分析的进行将形成一棵目录树,树的第一 级分支记录着所进行的各项分析任务,第二级分支包含该任务的输出 结果、输出图形和产生结果的SAS程序。可以像使用Windows的资源 管理器一样来查询所进行的分析结果。
l 文件 栏目下是有关数据文件新建、读、写、转换、打印和传输的
许多功能;
l 编辑 栏目下是关于修改选项的一些功能;
l 查看 和 数据 栏目下是对读入数据表加工的一些功能,例如对数
据表行列的增删,行列排序,行列转置和对数据集的随机取样; l 图形 栏目下是图形功能,包括直方图、盒形图、等高线图、三维
散点图和曲面图等;
3
l 统计 栏目下是主要的统计分析功能,包括描述统计量计算、列联
表分析、假设检验、方差分析和回归分析等。
三、 分析员应用的有关操作
1、已打开的数据表可处于浏览或编辑两种不同的方式,
浏览方式只允许显示变量的标题名,编辑方式允许修改数据表的内 容。可通过 模式 → 编辑 进行切换。
2、改变变量显示的次序:
选 查看 → 列 → 移动,点击变量名后,使用上下箭头改 变变量显示的次序。
3、对数据集排序:
选 数据 → 排序,把按排序的变量选入右框。(可选多个变量,但 只能按升序排列);(按姓名字母进行升序排列)
4、创建新的变量:
1)直接插入变量,选 编辑 → 插入列 → 指定变量类型; 2)根据原变量的关系得到新变量:
选 数据 → 变换 → 计算 ,确定变量关系式。
(加入一个名为ratio的数值型胖瘦指标,等于WEIGHT / ((HEIGHT / 100)2))
5、建数据集的子集:
选 数据 → 过滤 → 子集数据,确定子集的关系式;若要保存,可 选 文件 → 另存为 SAS 。 (找出所有男生的观测)
6、由数据集随机抽样:
选 数据 → 随机抽样,在菜单中,可设定样本的容量或抽取 的比例,若要保存,可选文件 → 另存为 SAS。(建一个容量为10
的样本)
7、数据集的转置:
在SAS的许多具有分析功能的过程中,例如方差分析和制作控制 图时,经常需要改变数据存放的格式,这时就要用到数据的转置。 1)将行列进行对换(整个进行):
选 数据 → 转置 →把列名选入右上框,列变行;若要保 存,可选文件 → 另存为 SAS 。
(把DST. V2的五个变量的行列进行对换,把它存为临时库的 数据集TEM)
2)按某个变量的值分组进行:
在上面的步骤后,还要把某个变量的值选入右下框。 (把TEM按变量_NAME_的不同值分组进行转换)
4
第四节 统计分析基本概念
一、 总体 ( population )、样本( sample )和统计量( statistics)
1、 一个总体就是所有感兴趣的对象的全体。
2、 从总体中抽取部分的做法称为抽样(sampling),抽样所得到的总体的一个子集就称为样本(sample)。
3、 常用的抽样是简单随机抽样,此外还有系统抽样和分层抽样。 4、 统计量:由样本数据加工得到的量的统称。 5、 一个总体可以通过抽样得到不同的多个样本。
6、 由于条件的,我们都是通过研究样本的性质来推断总体的性
质。
二、 描述性统计和推断性统计:
利用样本的各种统计量(包括图形)可以: 1)进行描述统计,即描述样本的各主要特征;
2)进行推断统计,即扩大所收集到的信息的使用范围,用样本的特征 来推断总体的特征。
三、 统计的过程:
总 体 抽 样 推
样 本 断 计算 描 统计量 述 统计量
四、 总体的分布:
数值型变量 ( numerical variable ): 用数值进行记录
1、变量 字符型变量 ( characteristic variable ): 用字符进行记录 2、分布:
作为总体的指标,最重要的是了解它可能取什么值,以及取各个 不同值的个体所占的比例。
一个变量取不同数值的比例就称为这个变量的分布。 分布最完整地描述了变量取值的特性。 3、累计分布 ( cumulative distribution ):
一般地,若一个变量X所有可能取到的值为x1,x2,…,xn,…,则 X的分布列为:
5
x1 x2 … xn … p1 p2 … pn …
其中pi = P ( X = xi) 表示变量X取值xi 的概率(或比例),用 di =∑pj 表示累计分布。
xj≤xi
4、累计分布函数 ( cumulative distribution Function ):
对于取值可能充满某个区间的数值型变量,例如测量的误差,某个 地区学生的体重,我们无法或者没有必要将其可能的值一一列举, 而只需要给出它落在不同范围的比例,例如误差为正的比例,误差 绝对值小于0.1的比例。对这类变量,常用 累计分布函数 表示其 在不同范围取值的可能性。 F( x ) = P( X = x )
其中P( X = x ) 表示变量X取值不超过x 的概率(比例),这个比 例随x的增加而增加,作为x的函数F(x)就称为累计分布函数, 也简称分布函数。
5、分布密度:
分布函数的导数称为分布密度。
五、 分布的均值 ( mean )和方差 ( variance ):
1) 均值是表示数值变量取值平均的一个指标; 2) 方差是描述变量取值分散程度的一个指标;
六、 分布的偏度 ( skewness )和峰度 ( kurtosis ): 偏度和峰度是描述分布形态的指标。
1)偏度
偏度度量数据的一侧较另一侧更为扩展的趋向。
l 关于均值对称的数据其偏度为0;
l 在左侧更为扩展的数据,其偏度为负; l 在右侧更为扩展的数据,其偏度为正。
6
2)峰度
峰度度量数据向分布尾端散布的趋势。 在SAS中,一个分布若
l 近似于正态分布,则峰度接近于零; l 尾部较正态分布更粗,则峰度为正; l 尾部较正态分布更细,则峰度为负。
七、 相关系数 ( coefficient of correlation ):
相关系数是描述变量之间线性联系程度的一个常用指标。
第一章 练 习
1、看数据表:
数据集SASUSER.CLASS包含一个学校19个中学生的基本数据,包含以 下的变量:
NAME 学生的姓名 SEX 学生的性别 AGE 学生的年龄
HEIGHT 以英寸为单位的身高数值 WEIGHT 以磅为单位的体重数值
1)对数据集SASUSER.CLASS打开其窗口,这一数据集有多少个变量, 多少个观测值?
2)对以下变量确定其类型和测量水平:
变量 类型 测量水平 SEX AGE WEIGHT
3) 在数据集中标题名,对变量NAME加标题名Students Name。 2、数据集排序:
1)按AGE对数据集排序,找出年龄最大的学生的身高和体重;
2)按变量AGE和HEIGHT排序,找出15岁的学生中身高最大的数值。 3、建立新变量:
创建一名为WHRATIO的新变量,其值等于体重与身高的比,并在其标 题名中注明:体重身高比。 4、建数据集的子集:
将数据集中的所有男生抽取出来,形成新的数据集,并把它另存为 SASUSER.ZCLASS。
7
第二章 统计量计算
第一节 频数统计与柱状图
一、
概述:
虽然频(个)数统计只是一个简单的过程,但通过它可以了解样本中变量 取值的分布,并进一步估计总体的分布。此外,从样本取值的分布中也 可发现一些明显不合理的例外记录,从而帮助我们剔除不合理的数据。 因此,进行频数统计也是数据预处理中发现例外记录的一种重要的方法。
年龄 频数 百分数 累计频数 累计百分数 12 8 20 8 20 13 7 17.5 15 37.5 14 12 30 27 67.5 15 7 17.5 34 85 16 3 7.5 37 92.5 17 3 7.5 40 100
二、 用SAS/INSIGHT作频数统计和直方图:
1 ) 作直方图:
选Analyze → Histogram/Bar Chart (Y) → 选定变量;
(对数据集DST. BCLASS作变量SEX和WEIGHT的直方图) 2)作频数统计:
选Analyze → Distribution (Y) → 选定变量 → Output → Frequency Counts.
(作DST. BCLASS中SEX和AGE的频数和百分数)
三、 用分析员应用作频数统计和直方图:
选 统计 → 描述 → 频数计数 → 选定变量
→ Tables(选定统计内容)→ Plots(选定直方图类型)。 (作作DST. BCLASS中SEX和AGE的频数统计和直方图)
第二节 常用描述性统计量计算
一、 概述:
对于数值型变量,分布是最全面地描述其取值特性的,但是要确定一个分 布需要较多的信息。所以常用变量取值的某一方面的特征来描述变量,例 如:均值、方差等等。对于样本也是如此,也常使用描述它某一方面的特 征的各种统计量来描述样本,同时也对总体特征进行估计和推断。
8
1、位置的度量: 1)均值(Mean):
样本均值就是X1 ,X2 , … ,Xn的平均值,即
X
1n
=∑Xi ni=1
是描述样本取值中心位置的一个度量
2)中位数(Median):
中位数是描述样本数据中心位置的统计量,大体上比中位数大(小) 的数据为整个样本的一半。中位数的一个优点是它不受个别极端数 据变化的影响,具有稳健性。
Xn=1 n为奇数;
(2)
中位数=
1
(Xn+Xn) n为偶数;
(+1)2(2)2
当分布比较有规则即不存在极端的值时,用均值代表分布的中心比 较好;而在有极端值时则用中位数更合适。
3)分位数(Quartile):
分位数是描述样本分布和位置的统计量。p分位数又称为第100×p 个百分数。0. 5分位数就是中位数,0.75分位数和0.25分位数又分别 称为上、下四分位数,并分别记为Q3和Q1,上下四分位数之差Q3 –Q1称为四分位极差或半极差。
2、分散性的度量:
1)方差(Variance):
样本方差是描述样本取值分散性的一个度量,它是样本数值相对于 其均值的偏差平方的平均。(样本方差的量纲与原变量不一致)
1n2
S=(Xi —X) (在此采用n -1的目的是为了 ∑n−1i=1
2
保证估计的无偏性。)
2)标准差(Standard deviation):
样本方差的开方称为样本标准差。(样本标准差的量纲与原变量一致) S=S2
方差和标准差所反映的是数据对其均值中心的某种离散程度,标准 差(或方差)较小的分布一定是比较集中在均值附近的;反之则是 比较离散的。
9
3)极差(Range):
极差=X(n)−X(1)=maxXi−minXi
4)半极差(Interquartile range): 上下四分位数之差Q3 –Q1称为四分位极差或半极差。
5)变异系数(coefficient of variation ):
将标准差表为均值的百分数,是变量分散性的一个度量。它在比较 用不同单位测量的变量的分散性时是有用的。 CV=100×
s X
一般来说,样本均值是对分布中心的最普通的度量,而样本标准差则是 对分布形状的最常用的度量。
3、形态的度量: 偏度和峰度。
4、样本的均值和方差分别是总体均值和方差的估计量。 与均值方差有关的还有以下统计量:
a. 标准误 (standard error ): 是均值X分布的标准差; StdMean=
s n
c. 校正平方和 ( corrected sum of squares ): CSS=∑(Xi−X)2
i=1n
d. 未校平方和 ( uncorrected sum of squares ): USS=∑Xi2
i=1n
5、矩统计量(Moment Statistics):
均值和方差都是由样本数值(或减去均值后)的某一次方的平均,这 类统计量统称矩统计量,均值和方差分别称为一阶矩和二阶矩,常用的 矩统计量还有偏度和峰度。
6、众数 ( Mode ):
众数指的是数值变量取值频数统计中对应频数最大的那个值。
10
二、 用Insight计算常用描述性统计量:
( 在Insight环境中,只对区间型变量提供计算描述性统计量的功能)
以DST. BCLASS为例,计算HEIGHT和WEIGHT的描述性统计量: 1) 选 Analyze → Distribution ,HEIGHT、WEIGHT → Y, OK;
2) 可以看到,对每个变量都有两张表,第一张为矩统计量(Moment)表, 在表中,N表示有效记录数(从样本容量中扣除了缺失值个数),Sum Wgts 表示权数之和,在此没有特别指定权数,故约定每个记录的权都 是1。第一张为分位数(Quantile)表,列举了各种分位数、众数和由 分位数导出的一些统计量。
3)点击每个表左上角的尖头可弹出一个菜单,选Format 可改变表中数 据显示的格式;选Save可将该表输出到Output窗口供进一步处理。
三、 用分析员应用计算常用描述性统计量:
在分析员应用环境下,有两种方法获得变量的描述性统计量。 1)方法一:(有选择地计算矩统计量或极值)
选 统计 → 描述 → 汇总统计量,HEIGHT、WEIGHT →Analysis, (点击Statistics可选定输出的统计量,点击Output可定义输出格式 还可以把某个变量选入Class进行分组计算统计量) 2)方法二:(提供详细的矩统计量和分位数)
选 统计 → 描述 → 分布 ,HEIGHT、WEIGHT →Analysis; (还可以把某个变量选入Class进行分组计算统计量,例如性别) 表中每个变量的信息包含五部分: 第一部分:为矩统计量的数值; 第二部分:为基本统计测量;
第三部分:为位置参数检验的结果(将在第三章介绍); 第四部分:为分位数;
第五部分:为极值,包括最大、最小的五个值及相应的观测。
第三节 直方图、盒形图和分布拟合图
一、直方图:
对于数值型变量,常用直方图来展示变量取值的分布。直方图的宽度
就是区间的宽度,高度可以是频数、百分数或比率。还有一种常用的 密度直方图,它以密度为纵坐标,用以估计总体分布密度。在此,分 组区间的宽度对直方图的形态有很大的影响,一个合适的分组是希望 直方图的形态能接近总体的分布密度,SAS软件会根据样本容量在样 本取值范围内自动地确定一个分组方式,也提供了设定分组的方法。 二、盒型图:
盒型图是用更为简洁的方法表现某一变量数据在数轴上的分布及其特 点的图形。
11
下四分位数 中位数 均值 上四分位数 1.5倍四分位极差以外的数据点
1.5倍四分位极差范围内最远的数据点的位置
从盒型图上可以大体看出数据集中在什么范围,左右两侧是否对称等
等。1.5倍四分位极差以外的数据点可能是例外数据点,提示我们去考 察它在分析时是否需要剔除它。 三、分布拟合:
密度直方图可以作为样本对总体分布密度的一个估计量。但由于直方
图本身构造的,它顶端的形态曲线只能是折线,而常用的一些分 布密度曲线如正态分布等,都是一些有一定形态的光滑曲线,这就要 用到分布拟合。
参数分布拟合就是在限定的参数分布类(如正态分布)中通过对参数 的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形 态。在SAS系统中提供的参数分布类型有: l 正态(Normal)分布;(最为常用的分布) l 对数正态(Lognormal)分布; l 指数分布; l Gamma分布; l Weibull分布;
除了参数分布拟合,SAS系统还提供了几种非参数分布密度拟合的方法。
四、QQ图(Quantile – Quantile Plot): 不论直方图或累计分布图,要从图上鉴别样本的分布是否近似于某种类
型的分布是较困难的。QQ图可以帮助我们方便地鉴别样本的分布是否近似于某种类型的分布。
QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图。
要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值。 用QQ图还可获得样本偏度和峰度的粗略信息。
12
五、用SAS/INSIGHT作分布图形: 1、作直方图、盒型图:
选Analyze → Distribution(Y)→ WEIGHT → Y;
点击直方图菜单中的Ticks可改变区间的分组,有时直方图的分组 会改变它的形态;点击菜单中的Value,可在每个柱上标出柱的高度。 点击盒形图菜单中的Means可在盒形图上画一个菱形,其垂直的对 角线表示均值的位置,左右两个顶点分别向左右延伸一倍标准差的 距离;点击菜单中的Value可在图上标出中位数、四分位数等的数 值。
2、拟合分布密度曲线:
在制作了直方图后往往还希望拟合一个参数分布的密度曲线,例如 正态分布的密度曲线,以估计总体的分布。
选Curves → Parametric Density(默认值为利用样本估计量进行正 态分布拟合)。
在显示的图形中用红色的曲线表示拟合的正态分布密度曲线。
3、作QQ图:
选 Graphs → QQ Plot,在对话框中选中一个分布,如正态分布。 为了进一步考察QQ图上的点是否在一条直线附近,可以拟合一条 直线或画一条特定的直线供比较:
选 Curves → QQ Ref Line(默认为用最小二乘法拟合)。
4、作累计分布图:
若想得到变量的累计分布图,可在下拉菜单中 选 Curves → Empirical CDF
六、用分析员应用作分布图形:
1、作直方图、盒型图与QQ图:
选 统计 → 描述 → 分布 ,WEIGHT → Analysis,点击 Plots , 在相应的圆圈中点击想作的图形; 2、拟合参数分布密度曲线:
在分析员应用环境中,要对直方图拟合参数分布密度曲线是作为制 作直方图的附加选项进行选择的。如对变量WEIGHT的直方图拟合 正态分布密度曲线,其均值方差就取样本的均值和方差,则应: 选 图形 → 直方图 → 选定变量 → Fit → 点击Normal。
13
第二章 练 习
1、生成直方图和柱状图: 1) 用数据集SASUSER.CLASS对变量SEX、AGE、WEIGHT和HEIGHT 生成直方图/柱状图。
2)用这些直方图/柱状图察看数据。你能对这些变量作出什么初步的结 论?
2、生成盒形图:
1)对变量WEIGHT用NAME作标题名生成盒形图,是否有例外值? 2)在同一坐标系下生成变量WEIGHT的两个盒形图,每种性别一个。 3)在两个盒形图里是否有例外值?若有,分别是谁。 4)关于这两个盒形图,你能得出什么初步结论?
3、分析变量的分布:
1)用Distribution更细致地看变量WEIGHT的分布。 2)这个变量的均值是什么?中位数是什么? 3)WEIGHT的分布是否偏向一侧?
4)WEIGHT的标准差和极差是什么?这些信息告诉你什么? 5)WEIGHT的分布是否服从正态分布?
6)对每种性别察看变量WEIGHT的分布并填写下表: SEX 均值 中位数 标准差 极差 M F
14
第三章 置信估计与假设检验
第一节
一、概述: 1、点估计:
X 估计µ , S估计s;
(样本均值估计总体均值,样本方差估计总体方差)
像这种用样本的统计量估计总体的统计量,称为点估计。 注意到,样本是具有随机性的,不同的样本产生总体均值的不同的估计值,
这些估计值间的差异就是总体均值估计量的差异,所以不能把样本均值作 为总体均值绝对精确的估计,而是需要总体均值的置信区间来估计总体均 值。我们把具有一定可靠性和精度的估计称为置信估计。
2、中心极限定理(Control Limit Theoren):
中心极限定理我们,对几乎任何总体的随机样本,当样本容量足够大 时: l 样本均值的分布接近于正态分布; l 样本均值接近于总体均值。
3、正态分布:
置信区间
正态分布描述落入不同范围的概率。例如,近似地有 l 68%的数据落入均值为中心一倍标准差的范围内; l 95%的数据落入均值为中心两倍标准差的范围内; l 99%的数据落入均值为中心三倍标准差的范围内;
若样本均值的分布为正态的,当构造置信区间时就可用正态分布规定的概 率,这一概率对应于置信水平。所以,构造一个95%的置信区间,这个置 信区间就有95%的概率包括总体均值。95%就为置信水平。
15
4、置信区间: 1)
上述图形是样本均值的分布密度曲线,铃型区域包含了分布密度曲线 下的区域面积的95%。
当构造一个95%的置信区间时,这个置信区间
l 包含以总体均值µ为中心的样本均值分布密度曲线下面积的95%; l 它应以95%的概率包含总体均值。 所以,若样本均值X落入样本均值分布的铃型区域时,所构造的置信 区间包含总体的均值。
2)SAS软件用以下公式生成均值的置信区间: (X−tsx,X+tsx) (1)其中:X是样本均值;
t 是对应于置信水平和样本容量的一个 t 分布的值; sx是均值的标准误。
(2)t 分布是一个自由度为n-1的对称的分布,SAS软件中有专门 的函数计算它的分位数。
(3)置信区间的长度取决于置信水平、数据的波动和样本容量:
l 置信水平越高,置信区间长度越大; l 样本方差越大,置信区间长度越大; l 在相同的置信水平和方差的情况下,增加样本的容量可以
减少置信区间的长度。
选择置信水平和样本容量使置信区间有实用价值是重要的,一 个很高的置信水平和很小的样本容量可使置信区间长得毫无 实用价值。
计算置信区间的两种方法:
l 当总体方差未知时,使用t值法; l 当总体方差已知时,使用z值法;
由于总体方差不易求出,所以大多使用t值法,SAS中的置信区间也是 使用此法求出。
16
二、用SAS/INSIGHT作均值、标准差、方差的置信区间:
在INSIGHT中提供了计算正态总体均值的置信区间的功能,例如要从 数据集DST. BCLASS得到变量HEIGHT的置信水平为95%的置信区 间:
选 Analyze → Distribution ,HEIGHT →Y →Output →点击Basic Confidence Interval,则可在结果中看到一名为95% Confidence
Interval的列表,表中给出了均值、标准差、方差的估计量以及下置 信极限和上置信极限。
若要得到其它置信水平的置信区间,例如要97.5%的置信区间,可 选Tables → Basic Confidence Interval → Others。
可以看到,由于置信水平的提高,置信区间的长度在增加。
三、用分析员应用作置信区间:
在分析员应用中,置信估计是假设检验功能的一部分。因此,要得到某 一参数的置信区间,需要从关于这参数的检验菜单进入。例如要从数 据集DST. BCLASS得到变量HEIGHT的置信区间: 1)均值的置信区间:
选 统计 → 假设检验 → 对于一均值的单样本T检验,HEIGHT → Variable,点击Test,选定置信估计类型和置信水平,在显示的结果 中,有一部分为关于置信估计的。 2)方差的置信区间:
选 统计 → 假设检验 → 对于一方差的单样本T检验,HEIGHT → Variable,在Var=后输入任一正数,例如1,点击Intervals,选定置 信估计类型和置信水平。 3)比例的置信区间:
选 统计 → 假设检验 → 对于一比例的单样本T检验,SEX → Variable,点击Level of Interest框右侧的下拉尖头,选男,点击 Intervals,选定置信估计类型和置信水平。
第二节 假设检验
一、判决的类比:
在刑事庭上,因为怀疑某人在一个案子中犯罪而将他作为被告进行审判。审 判的过程是如何进行的呢?
1、确定原假设(null hypothesis)和备选假设(alternative hypothesis)。备选 假设是最初研究的假设(被告是有罪的),原假设是与备选假设在逻辑上
对立的假设(被告是无罪的)。
2、选一个显著水平(significance level),一个拒绝原假设所需要的证据的数 量。在法庭上,证据必须证明罪犯超过了“合理怀疑”的水平。 3、收集证据。
17
4、运用决策规则判决,若
l 证据是足够的有力,拒绝原假设;
l 证据不是足够的有力,不能拒绝原假设。注意不能证明是有罪的并
不是证明无罪的。
统计假设检验也按同一思路进行。
二、钱币例子类比:
为了检验投一个钱币两面出现是否公平
1、你怀疑正反面出现是有偏的,对照法庭的例子先假定钱币两面出现是公 平的。
2、选一个显著水平,若一次连续看到五次正面或五次反面,就认为是有偏 的,否则将证明有偏的证据不足。 3、投币五次并记录正反面出现的次数。 4、将决策规则用于试验的数据并作出决定:
l 或者有足够的证据拒绝钱币是公平的假定; l 或者无足够的证据拒绝钱币是公平的假定。
三、两种错误类型:
1、第一类错误:
原假设成立时拒绝原假设称为第一类错误。
第一类错误的概率常以a表示,它是原假设为真时拒绝原假设的概率, 它也被称为检验法的显著水平,a常取0.05。
l 在法庭审判的例子里,就是他无罪时而法庭作出有罪的判决的概率; l 在投币的例子里,就是钱币是公正的而被认为是不公正的概率。 2、第二类错误:
原假设不成立时接受原假设成为第二类错误。
第二类错误的概率常以ß表示,它是原假设不对时没有拒绝原假设的概 率。
l 在法庭审判的例子里,就是他有罪时而法庭作出无罪的判决的概率; l 在投币的例子里,就是钱币是有偏的而未能断定它是有偏的概率。
四、统计假设检验:
确立和解决一个假设检验问题有以下几步:
1、根据问题确立原假设H0和备选假设H1 ,H0通常是一个等式; 2、确定一个显著水平a,它是衡量稀有性的标准,常取为0.05;
3、选定合适的检验用统计量,并由样本观测值计算统计量的观测值和衡量
观测结果极端性的p值。p=P(Z>z)。
(已知总体方差时,用Z统计量,总体方差未知时,用t统计量) 4、比较p和a作判断:
p〈 a,拒绝原假设;p = a,接受原假设
在SAS系统中,用户只需根据软件提供的p值就可应用于不同的显著水平, 作出拒绝或接受原假设的决定。
18
五、用Insight作均值检验:
在Insight中要根据样本数据对某个变量的均值进行检验,例如要从DST. BCLASS出发检验变量WEIGHT的均值与50公斤是否有显著差异。常用的 做法是先从Analyze → Distribution(Y)进入得到了该变量的描述性统计 量。然后从菜单中选 Tables → Tests for Location → 输入50。 从显示结果可以看到三种检验法计算出的p值都大于0.05,所以不能拒绝原 假设,即总体的均值与50无显著差异。
六、用分析员应用作参数检验:
在分析员应用中,打开数据集后,要利用打开的数据集进行参数检验都从以 下方式进入:
选 统计 → 假设检验,在弹出的菜单中列举了8种检验法,其前4种为单 样本的参数检验法: l 单样本均值Z检验法; l 单样本均值t检验法; l 单样本比例检验法; l 单样本方差检验法。
1、均值检验:
以数据集DST. BCLASS为样本数据集,希望通过样本数据检验变量 WEIGHT均值的如下假设:
H0: μ=52, H1:μ〈 52。
由于此时的方差未知,所以使用t检验法。点击t检验法后弹出菜单, 选 WEIGHT → Variable,在假设框中Mean=后填原假设的均值数据52 并回车,点击备选假设中的Mean〈 52 → OK。
显示结果表明t统计量的p值为0.0048〈 0.05,所以要拒绝原假设,即 认为总体的均值显著地小于52
2、概率检验:
检验总体中男女生比例是否相同,选单样本比例检验法,若p表示总体 中男生的比例,则检验的是:
H0:p = 0.5, H1:p ≠ 0.5;
选 统计 → 假设检验 → 对于一比例单样本检验,SEX → Variable; 点击 Level of Interest 框右侧的下拉尖头,选男,OK;
显示的结果表明样本中男生的比例为0.55,检验用地Z统计量的p 为0.5271 〉0.05,所以接受原假设,总体中男女生比例无显著差异。
19
第三节 总体参数比较
一、概述:
上一节介绍了总体分布参数的比较,在实用中还常遇到另一类检验问题。例 如学校中的男女生分别看为两个总体,希望检验男女生的身高或体重是否有 显著差异。一个产品在生产过程中改变了原材料的配方或生产工艺,希望检 验改变前后产品质量是否有显著差异。。
1、样本的均值比较:
对男女生身高体重比较和工艺改变前后质量的比较,可以用以下模型处 理。若总体A和B分别是正态分布的,X1,X2,…,Xn和Y1,Y2,…Ym 分别是总体A和B的样本,要检验的假设为: H0:μi =μ2 ,H1:μi,≠μ2
若原假设成立,X和Y比较接近,T
的值较小,所以T很大是稀有
的极端情况。因而根据样本观测值计算得到的统计量T的观测值t,可 以求得p值,并与显著水平a比较而作出判断。这样的方法称为两样本 t检验法。
用分析员应用作参数比较:
选 统计 → 假设检验 → 对于均值的双样本T检验,HEIGHT →
Dependent,Sex → Group(可看到有两个组),若要得到μi -μ2的置信 区间,可点击Test,选上Interval。
在显示的结果中包括了方差相等和不等的两种情形,可以看到p值小于 0.05 = a,所以要拒绝原假设,即男女生的身高有显著差异,从显示的均 值之差的置信区间可以看到,以95%的把握,男女生的身高之差在1.16 到13.的范围内。
2、配对观测的均值比较:
在药品疗效的比较中,往往需要对同一个病员在服药前后的某个生理指 标进行测量。例如鉴定降血压药物的疗效,需要比较同一个患者在服药 前后血压(Xi,Yi)的变化,获得的是配对的观测值(X1,Y1), ….., (Xn,Yn),这时X1,…,Xn与Y1,…,Yn的假定也难保证,所 以通常只假定(Xi,Yi)是二元正态分布的。 用分析员应用作参数比较:
为了考察一种减缓心跳的药物的疗效,检验假设:
H0:μi =μ2 ,H1:μi,≠μ2
其中μi ,μ2分别表示服药前后心跳的均值。 1、在分析员应用中打开DST. PULSE;
2、选 统计 → 假设检验 → 对于均值的双样本成对T检验; 3、PRE → Group1,POST → Group2,OK;
4、点击Tests → Interval后可设定置信区间的要求;
显示的结果表明,t统计量的p值小于0.05,拒绝原假设,所以服药前后 心跳次数是有差异的。前后差异的95%置信区间为(0.18,2.75)。
20
第三章 练 习
1、均值的置信区间:
1)用数据集EXE. COUNTIES,作出变量BUDGET均值95%的置信区间; 2)如何说明这一区间;
3)要把这一区间变窄你要如何做? 2、对均值做假设检验:
1)要确定HUDGET的均值是否为¥1,000,000,原假设和备选假设分别是什么?
2)做出检验,t统计量的值是什么? p值是什么 ?用α=0.05,对原假设得到什么结论?
3、运用单样本t检验:
确定数据集EXEC. BOSTON中参加者跑完全程时间的均值与8891.37秒(这是 前87名男子参加者的均值)是否有显著的差异?
第四章 方差分析
第一节 单因素方差分析
一、概述:
1、方差分析的问题与模型:
为了比较不同配方和工艺条件对产品产量和质量的影响,往往需要进行 多个总体均值的比较。方差分析就是对两个或多个总体均值进行比较最 常用的一种统计方法。
例如有m种不同的工艺条件,统计上也称每种工艺条件为一个水平,在 每个水平下,例如在第i种水平下,产品产量记录全体为一个总体,对 此总体得到了产品产量记录的样本为Xi1, Xi2, …. Xin,.希望由此对不同水 平下总体的均值进行比较。对此,观察到的Xij常用以下的模型表示: Xij = μi +εij , 1 ≤ j ≤ n ,1 ≤ i ≤ m 其中μi 表示第i种水平下产量的均值,εij 为产量记录所包含的随机误 差,在方差分析中为了得到有效的检验法还常假定εij 满足:
l εij 为相互的,即不同水平下的记录的样本是相互的; l εij 都是正态分布的,即εij 的均值都为0,方差也相同。 在上面的模型中,观测到的数据的均值受一个因素不同水平的影响,即 μi依赖于一个变量i,这类问题称为单因素问题,用以处理这类问题的 统计方法称为单因素的方差分析。要分析的变量Xij称为因变量、响应变 量或分析变量。
比较不同水平下均值是否相同的问题就归为检验如下的假设: H0:μi =μ2 = …=μm ,H1:μi,μ2 ,…,μM不全相等;
21
二、用Insight作单因素方差分析:
1)探索数据:
在使用方差分析之前,利用图形直观地比较结果是有益的。
在Insight中打开DST . VENEER,比较不同牌子的胶合板磨损指数: 选Analyze → Box Plot/Mosaic Plot(Y), BRAND → X, WEAR → Y。 为了更清楚地显示不同牌子的胶合板的均值和方差的信息: 可在下拉菜单中选上Means、Values和取消Observations。
从图上可以看出,四种牌子测试结果标准差的差异并不显著(菱形的高 度差异不大),均值间有一定的差异。但在统计上差异是否显著还需要进 行方差分析。
2)方差分析:
探索完数据以后,就可以进行方差分析了。在使用Insight进行方差分 析时自变量必须是列名型的。 选Analyze → Fit(X Y),BRAND → X, WEAR → Y。 在随即显示的分析结果中包含若干个表:
第一个表提供拟合模型的一般信息:
1) WEAR = BRAND表示这个分析是以WEAR为因变量,BRAND为 自变量的线性模型;
2) 响应分布是正态分布,因为这是缺省的分布,要这一分析成立,误 差项应该是近似正态分布的。
3) 关联函数提供数据中响应变量和模型中的响应变量间的联系。在这 个例子中,因为在模型拟合前不对响应变量进行任何变换,所以关 联函数是恒等函数。
第二、第三张表提供自变量的取值水平的信息:
即BRAND为列名型的,有四个水平,在设定标识变量的时侯, P-2、P-3、P-4、P-5分别为ACME、AJAX、CHANP和TUFFY四 个牌子的标识变量。
第四张表给出响应变量均值关于自变量不同水平的模型方程式: 若变量牌子为ACME,则P-2为1,其他为0;若牌子为AJAX, 则P-3为1,其他为0,以此类推。
第五张表给出模型拟合的汇总信息:
1、响应的均值(Mean of Response)即变量WEAR的均值;
2、均方差平方根(Root MSE)为误差项(假定误差项有等方差) 的标准差的估计值。
3、R平方是判定系数(coefficient of determination),阐明了自变 量所能描述的变化在全部校正平方和中的比例。它的值总在0 和1之间,若其值
1)接近于0,自变量不能说明数据的许多变化;
22
2)接近于1,自变量说明数据的变化中的一个相对较大的比例 虽然希望R平方接近于1,但对R平方大小的判定还依赖于问题 的具体内容。
4、校正R平方(Aaj R-Sq)是类似于R平方的,但它随模型中的参 数的个数而修正,尤其在回归分析中比较拟合同一数据的不同模 型时,校正R平方是有用的。
第六张方差分析表包含对模型效果显著性的假设检验: 1、一般,自由度(DF)可想象为信息源的个数。 1) 模型自由度(Model DF)是处理数减1; 2) 校正的总自由度(C total)是样本容量减1; 2、模型平方和(SS Model)汇总了组间差异; 误差平方和(SS Error)汇总了组内差异; 全部校正平方和(SS C-Total)= SSM + SSE。
3、均方(Mean Square)是由平方和被相应的自由度相除而得到的。 F统计量 = 模型均方(MS Model)/ 误差均方(MS Error)
比较F统计量相应的p值,若p〈 0.05 =α,则拒绝原假设,反 之则接受原假设。
在这里,p值小于0.05,所以拒绝原假设,即不同牌子的胶合板 的磨损指数有显著差异。
对单因素方差分析,第七张表提供与第六张表相同的内容
在参数估计表中,有关于不同水平下磨损指数差异的估计和检验: 1、根据标识变量规定的方法,Intercept后的估计2.6000是对应牌子
TUFFY的磨损指数的均值,其后的t检验是检验这一均值是否
为0。
2、ACME后的估计-0.2750是牌子ACME与TUFFY磨损均值之差 的估计值,其后的t检验也是检验这两个磨损均值之差是否为0。 由于p值为0.0267〈0.05,所以ACME和TUFFY两个牌子的磨 损指数是有显著差异的。其它分析类似。 3、在表中还有容忍限(Tolerance)和方差膨胀因子(Variance inflation factors),在这类分析中是用不到的,在多元回归分析中将考察这 些统计量。
3)考察模型假定:
在显示窗的底部有一个余差和预测值的散点图,这个图可以帮助校验 模型的假定。从图中看出,余差有大体相同的散布,它表明等方差的 假设并没问题。
为了验证余差为正态分布的假定,回到数据窗。
可以看到余差和预测值已加到数据集之中,可以用Distribution(Y) 来验证余差的正态性。选: 1、Analyze → Distribution(Y),R-WEAR →Y,OK;
23
2、Curves → Test for Distribution,OK。
在Test for Distribution表中看到,p值大于0.05,不能拒绝原假设,表 明没有破坏正态性的假定。 三、用分析员应用作单因素方差分析: 1、在分析员应用中打开DST.VENEER;
2、统计 → ANOVA → 单向ANOVA;
3、BRAND → Independent,WEAR → Dependent; (若要作图,可点击Plot)
在显示的结果中,提供了自变量的各个水平和单因素方差分析表,有关 说明可参见前面例子。
第二节 多因素方差分析
一、概述:
在上面的单因素方差分析中,研究的是数据的均值受一个因素不同水平的影 响。但在一些实际问题中,影响总体均值的因素不止一个,这就要考虑两个 或多个因素的问题。这些因素间可能还存在交互作用。
二、不存在交互作用的多因素方差分析:
例:在数据集DST.PESTCIDE中,记录了用五种不同配方的驱虫剂在三个 住宅中实验的结果,变量PCTLOSS记录了驱虫剂使用一周后药效损耗 的百分比,这是衡量驱虫剂持续使用效果的主要标志,变量BLOCK和 BLEND分别表示该实验所在的住宅和驱虫剂的代号。确定哪种驱虫剂 最长效是实验的主要目的。但是因为环境条件不同一种驱虫剂在不同的 住宅可能有不同的效果。若将不同驱虫剂使用于不同的住宅,则会将驱 虫剂不同的差异与住宅不同的影响混淆在一起,无法区分出好的驱虫 剂,为此可在每个住宅的不同房间随机地试用一种驱虫剂。要用方差分 析将驱虫剂不同和住宅不同的影响区分开来。这种实验方式又称随机化 实验。每个住宅称为一个区组。
较为一般的是考虑有重复观测的情形。若第一个因素A有l个水平,第 二个因素B有m水平。在因素A的第i个水平和因素B的第j个水平 下进行了多次观测,记为{ Xijk,1 ≤ k ≤ n},对Xijk考虑以下模型: Xijk = μ + αi + τj + εijk , 1 ≤ j ≤ n ,1 ≤ i ≤ m 其中μ表示平均的效应,αi 和τj分别表示因素A的第i个水平和因素 B的第j个水平的附加效应,εijk为余差,同样这里的余差也假定它 是的并且是等方差的正态分布。
要说明因素A有无显著影响,就是要检验如下假设:
H0:αi =α2 = …=αl ,H1:αi,α2 ,…,αl不全相等; 要说明因素B有无显著影响,就是要检验如下假设:
H0:τi =τ2 = …=τm ,H1:τi,τ2 ,…,τm不全相等; 而模型无显著效果是指以上两个假设的原假设同时成立。
24
A、下面通过用Insight作多因素方差分析进行说明: 1、在Insight中打开DST.PESTCIDE;
2、由于在Insight中,要求方差分析中的自变量必须是列名型的,故 先把变量BLOCK的测量水平由区间型改为列名型; 3、Analyze → Fit(X Y),BLOCK → X,BLEND → X,PCTLOSS → Y; 在随即显示的分析结果中的表的含义与单因素方差分析相应的表的功 能是类似的:
第一张表提供了模型的一般信息:
第二张表列举了作为分类变量的BLOCK和BLEND的水平的信息:
第三张参数信息表给出了标识变量P-i的定义
当BLOCK=1时,P-2 = 1,否则P-2 = 0,其他类似; 当BLEND=A时,P-5 = 1,否则P-5 = 0,其他类似。
第五张表给出了模型方程:
利用参数信息表中标识变量的定义可以推算出在各个因素不同水 平下变量PCTLOSS均值的信息。
第六张拟合汇总表中:
提供了变量PCTLOSS的整个样本均指为17.54,判 定系数为 0.6583等;
在第七张方差分析表中:
检验模型显著性的F统计量为2.5179,相应的p值为0.1133 > 0.05=α;
所以无法拒绝BLEND和BLOCK对分析变量PCTLOSS无显著影响的假 设,即模型是不显著的。
在第八张Ⅲ型检验表中:
进一步将模型平方和分解为属于BLOCK和BLEND的平方和。 在模型显著的情况下常需要进一步分析两个因素是否都有显著影
响或者只有一个因素是显著的,这时就需要用到这张表提供的信 息。在这里两个因素的p值都大于0.05,再一次说明了这两个因 素都无显著影响。
第九张参数估计表:
参数估计表也是根据标识变量的定义,对参数或不同水平下参数之 差进行估计和检验。例如第一行是对BLOCK=3,BLEND=E水平下均 值的估计和检验,第二行是BLOCK=1,BLEND=E水平下的均值与 BLOCK=2水平下的均值之差的估计与检验。根据t统计量的p值来 检验两个水平下均值是否有显著差异。
25
考察模型假定:
在显示窗的底部有一个余差和预测值的散点图,可以象单因素分析 一样考察余差分布的正态性假定。
B、用分析员应用作多因素方差分析: 在分析员应用环境下调入数据后,选:
统计 → ANOVA → 因子ANOVA,PCTLOSS → Dependent, BLEND、BLOCK → Independent;
若要得到用图形表示的两个因素不同水平下均值和标准差的信息,可选 Plots,在Means中选上Plots Dependent Means for Main Effects(作主效 应响应均值图)。
三、存在交互作用的多因素方差分析:
在多因素的问题中,例如考察添加剂和工艺条件对产品产量的影响,不同 的添加剂会要求不同的工艺条件,在一种工艺条件下有效的添加剂,在另 一种工艺条件下可能是完全无效的。这种现象,就是两者对产量的影响不 是两者效果的简单叠加。在方差分析中称为两个因素存在交互作用。 例:在数据集DST.FCTORIAL中,记录了不同的种子处理方法和不同施 肥水平对作物产量的影响。变量YIELD表示产量,METHOD和 VARIETY分别表示处理方法和施肥水平。关心的是这两个因素对产 量的影响,在这个例子中,不同的种子处理方法对不同的施肥水平可 能有不同的反应,所以要考虑存在交互作用的模型。 对于存在交互作用的观测{ Xijk},采用以下的模型:
Xijk = μ + αi + τj + γij + εijk , 1 ≤ k ≤ n ,1 ≤ i ≤ l ,1 ≤ j ≤ m
其中μ表示平均的效应,αi 和τj分别表示因素A的第i个水平和因 素B的第j个水平的附加效应,γij 表示因素A的第i个水平和因素 B的第j个水平交互作用的附加效应。
εijk为余差,这里也假定它是的并且是等方差的正态分布。
要说明交互作用有无显著影响,就是要检验如下假设:
H0:γ11 =γ12 = …=γlm ,H1:γ11 、γ12 、 …、γlm不全为零;
所以在多因素方差分析中,在单因素方差所作的检验的基础上,还要 加上交互作用的检验。
A、下面通过用Insight作多因素方差分析进行说明: 1、在Insight中打开DST.FCTORIAL;
2、由于在Insight中,要求方差分析中的自变量必须是列名型的,故 先把变量VARIETY的测量水平由区间型改为列名型; 3、Analyze → Fit(X Y),VARIETY → X,METHOD → X,YIELD → Y; 4、为了考虑变量VARIETY和METHOD的交互作用, 同时选上VARIETY、METHOD → Cross,
注意到在右框中多了VARIETY*METHOD一行。 在随即显示的分析结果中也包括类似的许多表:
26
在参数信息表中:
较无交互作用的情形多了表示两个因素各个水平组合下的标识变量;
在方差分析表中:
检验模型显著性的F统计量为4.8674,相应的p值为0.0001〈 0.05, 所以模型的效应是显著的;
在Ⅲ型检验表中:
进一步将模型平方和分解为两个因素和他们的交互作用,从表中可以看 出,检验变量VARIETY效应的p值为0.9648 〉 0.05,所以从总体上 看变量VARIETY的效应不显著;
检验变量METHOD效应的p值为0.0001〈 0.05,所以变量MEATHOD的 效应是显著的;
检验两者交互作用的p值为0.0241〈 0.05,所以交互作用的影响也是 显著的。
在模型方程表和参数估计表中也提供了两因素不同水平组合下因变量 YIELD均值的估计和比较的信息。因为这里是考虑存在交互作用的情 形,所以较为复杂一些。
B、用分析员应用作多因素方差分析: 在分析员应用环境下调入数据后,选:
1、统计 → ANOVA → 因子ANOVA,YIELD → Dependent, METHOD、VARIETY → Independent; 2、点击Model,在弹出的建模菜单中选:
StandardModels → Effects up to 2-way interactions。
注意表示交互作用的VARIETY*METHOD加入了模型效应拦。 显示的结果也包含方差分析表和汇总信息。
第三节 均值估计与比较
一、概述:
在方差分析中,不论是单因素或多因素的实验结果,都是检验关于参数的一 个整体的假设。若原假设被拒绝,表明某个因素各个水平下的响应有显著差 异或因素间存在交互影响,但并不了解某两个水平下响应是否有差异。所以 在方差分析后,还常需要对各水平下响应的均值进行估计和比较。
二、用分析员应用进行均值比较:
1、对于单因素方差分析的均值比较:
1)在分析员应用中打开DST. VENNER;
2)统计 → ANOVA → 单向ANOVA,BRAND → Independent,
WEAR → Dependent;
27
3)点击Means → Comparisons:
4)在主效应栏选BRAND,在弹出的比较方法菜单中选择一种比较法,例如Tuck‘s HSD → Add;
若需要用其它方法比较,可以点击比较方法右侧的尖头,然后在弹出 菜单中选择一种方法,例如Fisher‘s LSD → BRAND → Add。
在随即显示的结果中,在方差分析之后,就是关于均值比较的结果: A、使用Tucky的诚实显著差异(HSD)检验法的结果: 它先提示这一检验法是控制整体的第一类错误的,但它的第二类错误 一般比REGWQ方法要高。
然后指出根据所用的方法,均值间显著差异最小值为0.3235,即不同 水平间均值之差超过0.3235,就表明这两个水平下的均值是有显著差 异的。
在接着的一张表中,不同水平下响应变量的均值自大至小排成一列, 无显著效应的水平在左侧用同一字母标出。
B、使用Fisher最小显著差异(LSD)检验法的结果:
它先提示这一检验法只控制对状比较的第一类错误,并不控制全部 比较的第一类错误。
用这一方法均值间显著差异最小值为0.2374,以下也将不同水平下 响应变量的均值自大至小排成一列,无显著效应的水平也在左侧用 同一字母标出,可以看到:TUFFY与CHANP无显著差异,CHAMP 与ACME无显著差异,AJAX与其它牌子都有显著差异。
2、对于多因素方差分析的均值比较:
1)在分析员应用中打开DST. FCTORIAL;
2)统计 → ANOVA → 因子ANOVA,YIELD → Dependent, METHOD、VARIETY → Independent; 3)点击Model,在弹出的建模菜单中选:
StandardModels → Effects up to 2-way interactions 4)点击Means → Comparisons:
VARIETY → Fisher‘s LSD → Add; METHOD → Fisher‘s LSD → Add; METHOD → Tuck‘s HSD → Add。
在显示方差分析结果的后面,有关于均值比较的三个表。 用Fisher最小显著差异检验五种施肥水平下产量无显著差异;
使用Fisher最小显著差异和Tucky诚实显著差异对种子不同处理方法下 产量的比较中,有类似的结果,即B、C两种处理法无显著差异,A与 其他的处理法有显著差异。
28
第四节 练 习
一、进行数据探索:
考察一个实验,它研究四种广告的效果:当地报纸广告(paper),当地广播 广告(ratio),店内销售员(people),店内展示(display),该省共分为144 个销售点,每种广告方式随机地在36个销售点实施。在每个销售点以千美 元为单位计量其销售水平,要考察各种广告方式下其平均销售水平是否有显 著差异。数据集EXEC. ADS中包含这些变量的数据: AD 广告类型
SALES 以千美元记录的销售水平
1)对数据集中的变量AD和SALES生成直方图/拄状图,用这些直方图/拄 状图分析数据,从这些图可有什么初步结论?
2)对变量SALES按广告类型生成并列盒型图,在数据集中是否有异常观 测?有什么初步结论?
二、进行方差分析:
1)检验四种广告方式下销售均值相等的假设,原假设和备选假设是什么? 2)R平方的值是什么?如何说明这一变量?
3)这一检验的p值是什么?预设α=0.01,可得到什么结论? 4)查看余差-预测值散点图,从图上是否能看出违反假定的根据? 5)查看余差的分布并作正态性检验,余差是否为正态性分布?
6)以错误概率α=0.05进行所有广告方式两两比较,哪些类型的广告效果有显著的不同?
三、分析随机化区组设计的数据:
假若在设计上一个问题关于广告效果的实验时必须考虑省的不同区域间的 差异。您并不特别感兴趣这一差异,但希望排除这一因素的影响。数据集 EXEC. ADS1中包含下列变量的数据:AD 广告类型,AREA 省的类型, SALES 销售水平(千美圆)
1)检验均值相等的假设,在模型中包含所有的变量,从分析中可有什么结 论?在模型中加入区组因素AREA,对分析是否是有益的?
2)以错误概率α=0.05进行各种广告方式的两两比较,哪些类型的广告效 果有显著的不同?
29
第五章 回归分析
第一节 散点图和相关系数
一、概述
从观测到的数据中探索变量之间的关系也是统计分析的主要内容。事实上,方差分析也是要描述变量间的关系的,不过在方差分析中,描述因素不同水平的自变量取值往往是离散的,它所取的值往往只是很少的几个,不能是一个连续变化的变量,而描述响应的因变量必须是一个数值型变量。
1、 散点图:
要了解数值型变量间的联系形式或程度,制作变量的散点图是一个最常用和直观的方法,下图是常见的一些连续型变量间的散点图:
上述四幅图分别说明了以下几种可能的关系: 1、可用直线描述变量间的关系;(变量间联系中最简单的一种) 2、显示变量间有曲线关系; 3、可能有季节性的周期变化;(在受季节影响的经济指标中常会遇到) 4、变量间无明显的关系。
2、相关系数:
两个区间型变量间的关系有很多种可能,在考察散点图后,可用相关
统计量将两个变量的关系定量化。若两个变量间存在一个线性关系,则他们为相关的,否则,变量间的相关是不强的。
相关系数是描述变量间线性联系程度的一个量,统计中有多个描述相关的指标,最常用的是Pearson相关系数,简称相关系数。
相关系数的值为 l -1和+ 1之间;
l 若两个变量间有高度线性关系其值接近任一个极端值; l 若两个变量间无高度线性关系其值接近于零; l 若有正相关其值大于零;(即两者同时增大) l 若有负相关其值小于零;(即两者同时减小)
30
在使用相关系数说明问题时要注意的是:
1) 相关系数很强并不表示变量间有因果关系,也可能是两个变量
同时受第三个变量的影响而使他们有很强的相关;(如学习能力和鞋码大小)
2) 相关系数是说明线性联系程度的。相关系数接近于0的变量间
可能存在非线性联系;(可能是曲线关系) 3) 有时个别极端数据可能影响相关系数。
二、用Insight制作散点图和计算相关系数: 1、制作散点图:
在Insight中,制作散点图的变量只能是区间型变量。 1)打开DST. BCLASS,研究学生的身高与体重的关系;
2)Analyze → Scatter Plot,WEIGHT → Y,HEIGHT → X,OK; (可以看到身高随着体重的增加而增加,正相关) 可用不同的颜色和符号来描绘每个点: 3)Edit → Windows → Tools; 为给不同性别加上不同的颜色,在工具窗中选中一种颜色,例如红色,即打开观测着色窗,选SEX → = → 男,→ OK。
所有的男生都用红色的点表示,而其他黑色的点就表示女生; 若对不同年龄的点要用不同的符号表示:
4)在工具窗中选中一个符号,例如 +,即打开观测画符号窗, 选AGE → = → 14,OK;
所有的14岁的学生不论男女都用 + 号表示,类似地,还可用其他符号表示其他年龄的学生。这样,散点图不仅提供了体重、身高关系的信息,也显示了男女生和不同年龄学生身高、体重的信息。
在散点图上,点击任一个点就显示该点的序号,双击任一个点就弹出该点
的全部信息。
可以利用放大镜对散点图进行研究。
2、 制作散点图矩阵:
若要考察多个变量间之间的关系,制作他们之间的散点图阵是有用的。 1)打开DST. CARS,建立变量MIDPRICE、CITYMPG、EGNSIZE、RPM、FUELTNK和PERFORM间的散点图。 2)Analyze → Scatter Plot(Y X); 3)把前面这些变量选入 Y;
4)按3)的顺序把变量选入 X,OK; 在散点图矩阵里:
1)在同一行里,这一行散点图的垂直坐标轴的变量为同一个变量; 2)在同一列里,这一列散点图的水平坐标轴的变量为同一个变量; 观察散点图矩阵,可以得到关于反常数据和变量间关系的直观印象。
31
3、 建立旋转图:
旋转图是一个三维图,他使你在一个坐标系中看三个区间变量。
1)打开DST. CARS,对变量MIDPRICE、EGNSIZE和PERFORM建立三维图;
2)Analyze → Rotating Plot(Z Y X);
3)MIDPRICE → Z,EGNSIZE →Y,PERFORM → X,OK;
4、相关系数计算:
为了定量地描述变量间的线性联系程度,就需要计算他们间的相关系数。 1)打开DST. CARS,Analyze → Multivariate(Y); 2)选MIDPRICE、CITYMPG、HWYMPG、EGNSIZE、RPM和PERFORM → Y,即选这些变量为分析变量,计算他们之间的相关系数,OK。 多元分析生成分析变量的单变量统计量和相关矩阵; 为了得到检验相关系数是否为零的原假设的p值,可选: Tables →CORR P-Values; 基于这些p-值,仅有的不显著的不为零的相关系数是RPM和MIDPRICE间的相关。
5、 置信椭圆:
为了图形地说明变量间的相关,可以在多变量窗口生成散点图矩阵和置信椭圆,这些椭圆生成的假定是每一对变量是两元正态分布的。 可以生成两类椭圆:
均值置信椭圆 预测两变量分布均值的置信区域; 预测值置信椭圆 预测两变量分布个别观测值的置信区域 有两种方法说明预测值置信椭圆:
1) 作为置信曲线,在变量为两元正态分布的假定下他们显示数据以设
定的百分率落入的区域,落入预测置信椭圆的观测值的百分率应该接近于设定的置信水平;
2) 作为相关的指标。若两个变量不相关,椭圆应该为圆;两个相关的
变量有拉长的椭圆,可以用椭圆长短轴之比来衡量相关的程度。 对数据集DST. CARS中的已经计算相关的变量生成95%预测值置信椭 圆,可在多变量窗口中选:
CURVES → Scatter Plot Conf Ellipse → Prediction:95%;
变量HWYMPG和CITYMPG间散点图上的这个椭圆被拉得很长,表明 变量HWYMPG和CITYMPG之间有很强的相关。
三、用分析员应用计算相关系数:
1、在分析员应用中打开DST. FITNESS;
2、选 统计 → 描述 → 相关,选中OXYGEN、RSTPULSE、RUNPULSE
和RUNTIME → Correlate,
3、若要制作散点图和置信椭圆,可点击Plot进行选择,OK;
32
第二节 简单线性回归
一、概述:
研究变量间的相关是指了解变量间的关联的形式和程度,而要确定变量
间的关系,用一些(连续变化)变量的变化说明另一个变量的变化,并进一步对另一个变量的取值进行预测,则是回归分析的课题。 回归分析中的因变量和自变量:
因变量:要说明其变化的和要对其进行预测的变量称为因变量; 自变量:用以说明或预测因变量的变量称为自变量。 因变量和自变量都必须是可连续变化的数值型变量。
二、简单线性回归分析:
1、简单线性回归分析的要求是:
1)评价自变量说明因变量变化或因变量行为的显著性; 2)在给定自变量的值时预测因变量的值。
2、简单线性回归的假定:
简单线性回归的一个假定是因变量的均值线性地依赖于自变量的值,也
就是说,对应自变量各个值的因变量的均值以直线相连。
3、简单线性回归模型:
因变量和自变量的关系可以用以下方程表示:
Y = β0 + β1X + ε
在这里,X表示自变量,Y表示因变量;
β0是截距参数,它对应自变量为0时因变量的均值;
β1是斜率参数,它对应自变量改变一个单位时因变量均值的 改变量;
ε表示Y关于β0 + β1X的余差,同样假定它是的,等方
差的正态分布。
估计线性回归模型的目的就是要从观测(Xi,Yi)出发对模型中的未知
参数β0 ,β1和σ2进行估计;从图形上看就是要从观测点(Xi,Yi)出发,拟合直线Y = β0 + β1X。
未知总体参数β0 和β1的估计是由最小二乘法得到的,这个方法提供的
估计使由此估计确定的直线满足观测值和直线间纵向距离的平方和为最小。换言之,拟合的回归直线尽可能地靠近所有的数据点。
4、模型检验的假设为:
H0:β1 = 0, H1:β1 ≠ 0;
检验结果若拒绝原假设就表示回归的作用是显著的,接受原假设就表
示引进X的回归的作用并不显著。
5、回归分析的目的:
对自变量给定的值预测因变量的值。
33
三、用Insight拟合简单线性回归:
从相关分析可以看到,数据集DST. CARS中 ,与变量MIDPRICE有最
强相关的变量为PERFORM,为预测MIDPRICE,以PERFORM为自变量,即预测变量,以MIDPRICE为因变量,即响应变量,作简单线性回归,选: 1)Analyze → Fit(Y X),MIDPRICE → Y,PERFORM → X,OK;
可以看到回归分析的输出类似于方差分析的输出,同样分为若干个表: 第一个表提供关于拟合模型的一般信息;
第二个表给出模型的方程,方程表明截距的估计值为 – 4.5122,斜率的
估计值为514.178。
第三个表是带有回归线的散点图,给出了回归的图形表示; 图的下面是参数回归拟合表
第四个表提供模型拟合的汇总度量:
响应的均值是变量MIDPRICE的平均值,模型的R平方是0.4543,
指出了价格变异的大约百分之四十五可由变量PERFORM来说明。
第五张方差分析表包含对模型作用是否显著的假设检验:
p值小于α表明可拒绝原假设并有足够的证据断定回归直线的斜率 不为0,所以,这一模型说明自变量阐明了因变量变化的显著的一 部分;
对简单线性回归,第六张Ⅲ型检验表提供与方差分析表一样的检验
第七张参数估计表给出了:
截距和斜率的估计值以及假设检验;
在这个例子里,截距的检验并不适合,因为没有性能接近于零的值, 变量PERFORM斜率的检验等价于方差分析表中的整个检验。
2)验证假定:
在显示窗的底部有一个余差和预测值的散点图,这个图可以帮助校验模
型的假定。从图中看出,数据点随机地散布在零线附近,表明等方差的假设并没问题。
为了验证余差为正态分布的假定,回到数据窗。
可以看到余差和预测值已加到数据集之中,可以用Distribution(Y) 来验证余差的正态性。选: 1、Analyze → Distribution(Y),R-MIDPRICE →Y,OK; 2、Curves → Test for Distribution,OK。
在Test for Distribution表中看到,p值大于0.05,不能拒绝原假设,表 明没有破坏正态性的假定。
34
3)产生预测值:
利用建立的模型来求性能(Perfoem)为0.03,0.04,0.05和0.06的汽 车的中间价的预测值是什么? 1、回到数据表并移到表的底部;
2、在第一个空行中,在PERFORM列填入0.03,并按Enter键; 3、会自动地计算MIDPRICE的预测值并将结果显示在P-MIDPRICE列
之中,这样可以得到任意多个预测值。
注意:仅当拟合窗口打开时才可生成一个模型的预测值。
第三节 多元线性回归模型
一、多元线性回归的模型:
简单线性回归使用一个变量x说明或预测应变量Y。用多个变量x1,…,
xk的线性关系说明或预测因变量Y的是多元线性回归模型: Y = β0 + β1X1 + … + βkX2 + ε; 在这里,X表示自变量,Y表示因变量;
β0,… ,βk,是未知的参数,也称回归系数;
ε是随机误差,同样假定它是的,等方差的正态分布。
二、模型检验的假设为:
H0:β1 = β2 = … =βk = 0, H1:β1 ,β2 ,… ,βk 不全为0; 检验结果若拒绝原假设就表示回归模型的作用是显著的,即自变量X1在说 明Y的变异时是有显著作用的,接受原假设就表示回归模型的作用并不 显著,即自变量X1在说明Y的变异时是有没有显著的作用。
三、用Insight拟合多元线性回归:
用Insight拟合多元线性回归的做法与拟合简单线性回归的做法是类似 的,只需要在选定回归自变量X时选择多个自变量即可。 以数据集DST. CARS为例,对车价建立一个好的模型。
从前面知道,用单一的变量PERFORM,模型的R平方约未45%,用 数据集中的其他变量可以改进模型,用变量CITYMPG、HWYMPG、 EGNSIZE、RPM、REVLTNS、FUELTNK和PERFORM作为自变量建立一 个模型,选:
1)Analyze → Fit(Y X),MIDPRICE → Y;
2)用Ctrol点击在变量表中选CITYMPG、HWYMPG、EGNSIZE、RPM、 REVLTNS、FUELTNK和PERFORM → X,OK;
拟合窗即显示拟合多元回归的的有关信息,前两张表包含模型和方程的信 息;
第三张拟合汇总表中表明R平方为0.6870,比简单线性回归模型有不小的 提高。在模型中增加自变量总能提高R平方,但有时并不显著;校正R平 方是类似于R平方的,但它考虑假如模型的变元数,在比较不同模型时用
35
校正R平方更合适,如在这里它为0.6610,而在简单模型中为0.4272,说 明这一模型比简单线性模型更多地说明变量MIDPRICE的变化。
第四张方差分析表中,看到p值为0.0001,拒绝原假设并可作出至少有一个 回归系数不为零的结论。
Ⅲ型检验窗必须小心地考察,F统计量和相联系的p值检验各个自变量的回 归系数为零的假设,但是,它是在所有其他自变量加入的情况下检验各个变 量加入的显著性。结果,若模型中的一个自变量与另一个自变量有较强的相 关时,在这一检验中两个变量的显著性都可能被隐蔽起来,所以从模型中 删除变量时,必须逐个删除,并在删除每个变量后,注意观察所引起的其他 变量的p值变化。检验的显著水平并不依赖于变量在模型中排列的次 序,但它依赖于哪些变量进入了模型。
参数估计表也给出了排除其他因素时各回归系数的显著性检验,它还包括 截距的显著性检验。
在拟合窗中最后一个图是余差与预测值的散点图,与简单线性回归一样,点 应该随机散布在零线附近,没有出现任何破坏模型假定的迹象。象以前一样, 用Distribution(Y)检验余差分布的正态性。
3)剔除自变量:
对已拟合的回归,若有证据表明某个自变量的作用并不显著,就要考察 剔除这个变量后拟合的回归。
例如在上面的例子中要考虑剔除变量HWYMPG后拟合回归的效果,对 此不必重新拟合,只需在拟合窗的任一处选中变量HWYMPG使它变亮, 再从下拉菜单选:Edit → Delete,所有的结果就会修改为不含HWYMPG 的拟合结果。
第四节 回归诊断
一、概述:
前面所介绍的简单和多元线性回归的拟合、检验和预测,这些做法大多在关 于模型的一定的假定下才是合理的。这样就存在以下的四个共同问题: 1)方差不等; 2)误差项相关;
3)存在有影响的观测; 4)共线性。
这些问题在回归中都可能发生,其中的前两项可以通过余差和预测值的散点 图来进行识别,下面着重来讨论后两者。
36
二、识别有影响的观测:
存在有影响的观测可以破坏假定,但并不总是这样。 1、有影响观测的识别,可以通过以下方法进行识别:
l Cook D统计量 l DFFITS统计量
2、两种方法在Insight中的实现: 1)生成Cook D统计量:
选Vars → Cook‘s D,并没有内容加到拟合窗,但在数据集最后加 入一列。
若Cook D统计量大于4/n,则表明是一个有影响的观测,在这里,n 等于92,所以要确认Cook D统计量是否大于0.04348 找到这些观测的一个方法是在数据集窗口的下拉菜单选: 1、Edit → Observation → Find,D-MIDPRICE-1→ > → 4.2165947; 2、在数据表的弹出菜单中选Extract,该数据子集包含9个观测。 即这9个对应的观测是有影响的观测。
2)生成DFFITS统计量:
选Vars → Dffits,并没有内容加到拟合窗,但在数据集最后加 入一列。
若DFFITS统计量绝对值大于2
p/n,则表明是一个有影响的观
测,在这里,n等于92,p等于8,所以要识别DFFITS统计量的绝 对值是否大于0.577。
先建立一个新的变量,它是DFFITS的绝对值:
1、选Edit → Variables → Other,F-MIDPRICE-1 → Y,abs(Y) 为变换;
2、命名新变量为ABS-DFF,OK;
寻找并选中DFFITS绝对值超过建议的临界值的观测,选: 3、Edit → Observation → Find,ABS-DFF → > → 0.5857;
4、在数据表的弹出菜单中选Extract,该数据子集包含10个观测。 即这10个对应的观测是有影响的观测。
它虽然与由Cook D统计量挑出的有影响观测不完全一致,但这里的 大部分车的Cook D统计量也超过了其临界值。
三、如何处理有影响的观测:
l 复验数据,确认并无数据输入错误发生; l 若数据是有效的,模型可能不合适,拟合此数据可能需使用高阶的模型; 另一种可能是观测虽然是有效的,但可能是反常的。若你有一个较大容 量的样本,可能有若干个这样的反常观测,你可能必须收集更多的数据以确 认被有影响观测提供的关系
一般,不剔除数据。在许多情况下,某些有影响观测包含重要的信息,
若要剔除某些数据,应该给出剔除观测的描述和说明。这时,还应该在最后 报告中讨论所得到结论的局限性和可能的例外。
37
四、共线性诊断:
共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似的线 性关系,它并不会破坏线性回归模型的假定,但会增加拟合的模型的方差, 也会产生一个很不稳定的模型。 共线性诊断的指标: l 方差膨胀因子(VIF) VIF > 10,表明存在共线性的问题; l 条件指数和方差比例; 若条件指数值
u 在10与30之间为弱相关; u 在30与100之间为中等相关; u 大于100表明有强相关。
一般建议,大的条件指数伴随着一个变量超过0.5的方差比例,就可以认为 该自变量有共线性问题存在,并由此选定相关的变量集。
五、用Insight作回归诊断:
用Insight拟合模型时,方差膨胀因子(VIF)自动地包含在拟合窗参数估计 表的最后一列,CITYMPG和HWYMPG的方差膨胀因子都超过10,表明有 共线性问题。 下面将条件指数和方差比例加入拟合窗: 1、Edit → Windows → Renew;
2、在Fit(Y )对话窗选Output,→ Collinearity Diagnostics,OK;
共线性诊断加入到拟合窗中参数估计表之后
看到,最大的条件指数超过30,但小于100,表明自变量间有中度的 相依性。与最大条件指数一起而方差比例超过0.5的只有截距。这一现象 表明,常数项与其它自变量间有共线性问题。但一般并不轻易剔除常数项。 下一个最大的条件指数表明CITYMPG和HWYMPG为共线性的,其中之 一应从模型中剔除。
当确定哪一个变量要从模型中剔除时,应考虑专家对哪些变量要保留 的意见,也可以考察VIF和p值,剔除具有较大VIF或p值的变量。
第五节 练习
一、运用初步的数据探索:
某区域最近卖出的住屋的数据存储在数据集EXEC. HOMES中,包含下列 变量:LAND 与住屋一起出卖的土地大小(英亩); TAXRATE 每1000美圆的财产税; PTRATIO 当地学校的学生教师比; BEDROOM 住屋中卧房数; ROOMS 住屋中房间数;
AREA 活动空间大小(平方英尺); PRICE 住屋售价;
38
若要确定住屋售价与其他变量间的关系:
1、生成变量LAND、TAXRATE、AREA和PRICE的直方图,用这些直方 图考察数据,有何初步的结论?
2、生成这些变量间的散点图矩阵,能观察到什么?
二、考察相关:
1、求数据集中所有变量间的相关系数,数据集中哪些变量与PRICE有最强 的相关?其他有哪些变量间有很强的相关?
2、在多变量窗中加入相关的p值表,原假设和备选假设是什么?变量 TAXRATE和PRICE相关系数的p值是什么?您能有什么结论?
三、作简单线性回归:
1、以PRICE为因变量,AREA为自变量作简单线性回归。 2、模型方程是什么?
3、模型的R平方是什么?如何说明他?
4、方差分析表中检验的假设是什么? P值是什么?假定α=0.01可得到什 么结论?
5、考察余差与预测值的散点图,是否有任何现象表明回归分析的假设被破
坏?
四、作多元回归:
1、用数据集EXEC. HOMES作多元回归。PRICE为因变量,所有其他变量 为自变量。
2、考察模型方程,变量ROOMS的回归系数是什么?他说明什么?这个值 是否合理?
3、这个模型的R平方和校正R平方是什么?这个模型是否是前面模型的改 进?
4、考察方差分析表,检验的是什么假设?假定α=0.01可得到什么结论? 5、基于Ⅲ型检验,哪一个变量对预测PRICE是有用的?为什么这些检验会 误导?
五、验证假定:
1、考察余差与预测值的散点图,是否有违反假定的迹象? 2、检验余差的正态性,有何结论?
六、识别有影响的观测值:
1、对模型Cook D统计量,是否有观测影响较大?
七、考察共线性:
1、考察方差膨胀因子(VIF),在这个模型中是否有共线性的问题?
2、生成共线性诊断,最高的条件指数是什么?是否表明有共线性的问题? 若有,哪些变量与此有关,如何校正这个问题?
39
八、简化模型:
1、从模型中除去变量ROOMS并考察方差膨胀因子和共线性诊断。这个措 施是否校正了共线性问题?
2、从p值最大的变量开始,除去模型中p值较大的变量,完成以下的表:
进入模型的因变量 R平方 校正R平方
LAND、TAXRATE、PTRATIO、BEDROOMS、 0.9542 ROOMS、AREA
LAND、TAXRATE、PTRATIO、BEDROOMS 0.9540 AREA
LAND、TAXRATE、BEDROOMS、AREA LAND、BEDROOMS、AREA LAND、AREA
0.9512 0.9515
基于表上记录的信息,哪一个模型被选为最佳模型?
第六章 属性数据分析
一、属性数据及其分析: 从变量的测量水平来看,
连续变量:数值可以连续变化,例如身高、体重等; 分为两类 有序的(Ordinal) 属性(Categorical)变量: 无序的,称为列名的(Nominal)
属性变量常作为分类变量,需要了解它取不同值的频数和百分率。 当我们关心一个属性变量,希望用其他变量来说明或预测这一属性变量的取 值时,不论这些其他变量是属性的或连续的,使用的统计方法都统称为属性 数据分析。
二、用Insight作拼花图:
拼花图(Mosaic Plot)是用小方块来显示两个属性变量频数分布信息的图形, 对X轴变量的每个值和Y轴变量的每个值的组合都对应一个小方块,小方 块的宽度与X轴变量该值的频数(或百分比)成比例,小方块的面积与该 变量组合的频数(或百分比)成比例。
以DST. SALES为例,用拼花图表示不同收入顾客购买情况的分布,其中变 量PURCHASE表示购买价值(1=100元或更多,0=小于100元),AGE表 示顾客年龄,GENDER表示顾客性别(Male,Female),INCOME表示年收 入(Low,Middle,High)。
1、调入数据表,把PURCHASE的测量水平改为列名型的; 2、Analyze → Box Plot/Mosaic Plot(Y);
40
3、PURCHASE → Y,INCOME → X,OK; 4、点击左下角的下拉菜单,选中Values。
从拼花图可清楚地看出,表示中等和低收入且购货100元以下的方块有相同 的高度,这表示中等和低收入的顾客有相似的购买行为,而高收入顾客购买 100元以上的比例比其他收入水平的顾客要高。
三、用分析员应用作双向频数统计:
对变量PURCHASE与INCOME、GENDER分别作双向频数统计: 1、在分析员环境下打开DST. SALES; 2、统计 → 表分析,PURCHASE → Row,GENDER、INCOME → Column; 3、点击Tables 选上Cell和Row,OK,OK。
在表中,可以看到每个格子有四行,分别是频数、单元格百分数(即占总体 的百分数、按行和按列计算的百分数,右侧和下侧还有单变量的频数和百分 数。
四、关联性分析:
对于不同的属性变量,从列连表中可以得到他们联合分布的信息,也可以获 得一个变量取不同数值时,另一个变量的分布是否有显著的不同。在SAS 软件中有多个统计量度量关联性检验。
用分析员应用作关联性分析: 1、打开DST. SALES;
2、统计 → 表分析,PURCHASE → Row,GENDER → Column; 3、点击Statistics → 选上Chi-square statistics,OK,OK。
在结果的前几行都是关于关联性检验的统计量和相应的P值:
1、第一行是检验行变量(PURCHASE)和列变量(GENDER)无关联这一 原假设的X平方统计量,P值为0.031〈 0.05,所以要拒绝原假设,即 男女的购买行为有显著的不同 2、Fisher‘s Exact Test后的数据是对2*2列联表提供的用精确分布计算的单 侧和双侧的P值,当样本容量较小时,应使用这里的P值作为检验关联 性的依据。
五、Logistic回归分析:
对于用属性变量Y表示的特性,例如节目是否受欢迎,产品是否被接受, 信用卡是否被欺诈等等。描述这一特性发生与否的统计特征是它发生的 可能性大小,即概率。这一可能性本身也受其他因素的影响。因而也希望 用一些自变量来说明和预测所关心的特性发生的可能性大小。当Y是连续 变量时,可用方差分析和回归分析处理;当Y时属性变量时,则用Logistic 回归分析处理。
拟合Logistic回归模型不采用通常的最小二乘法,而是采用最大似然法。 对于拟合的结果,检验模型或参数的显著性,也不是使用线性模型中的方差 分析方法,而是使用与最大似然估计法相联系的X平方统计量进行检验。 原假设是模型无显著影响或回归系数全为零。
41
六、用分析员应用作Logistic回归分析:
用数据集DST. SALES的数据来拟合预测PURCHASE的Logistic回归。
PURCHASE只取0,1两个值,所以用两值Logistic回归。先用GENDER 作预测变量。由于Logistic回归要求自变量必须是数值型的,所以改用 已经把Male换成0,Female换成1的DST. SALES1,并用GEN作自变 量,要预测的是PURCHASE =1的概率。 1)打开DST. SALES1;
2) 统计 → 回归 → Logistic;
3)PURCHASE → Dependent,GEN → Quantitative,点击Model右侧的向下尖头,选1;
4)点击Statistics → Intervals,选中Profile Likelihood Limits,OK,OK; 在结果的第一部分模型信息中得知变量有两个水平,对因变量取1得 概率使用的变换(Link Function)为Logistic,然后在响应剖面表中给 出取值的频数统计。
在模型拟合统计量中有三个比较模型的统计量,数值越小表示越合适; 检验全局零假设中统计量的P值都小于0.05,表示自变量在回归中的 作用是显著的;
在最大似然估计分析中给出了回归系数的估计值;
在Odds比估计中可以看到优比率为1.549,表示拟合的回归预测女性 购买100元以上货物的优比为男性的1.549倍,优比率的95%的置信 区间为(1.043,2.312)
在预测的概率合观测的响应的相关中给出了利用数据对中预测和实际 观测趋向一致与不一致对数的统计及由此导出的统计量数值。因为原 始记录中有162个观测PURCHASE=1,269个为0,所以可配成 162*296=43578个对。其中30.1%用拟合的回归模型预测时其趋势是 与实际的结果一致的。19.5%是不一致的。Somers‘D等4个量是与一 致对个数有联系的秩相关指标,指标值高的模型有较高的预测能力。 一致对:两个变量的变化趋势相同; 不一致对:两个变量的变化趋势相反;
42
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务