您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页零基础小白STATA数据分析实用常见命令整理

零基础小白STATA数据分析实用常见命令整理

来源:华佗小知识
STATA基础入门零基础实用命令整理

第一章 数据的读入与熟悉

1.读入文件中的部分变量 . use[变量] using [文件名]

Eg . use age sex height weight using [文件名] 2.读入文件中的部分观察量 . use[文件名] in X/Y

. use \"I:\\stata\\chapter3.dta\" in 601/1000

软件只读入从第601个观察到第1000个观察之间的400个观察量 3.描述、管理数据的基本命令

命令 . describe . list . list [变量名] . list [变量名] in X/Y 功能 描述数据的基本情况:样本总量、变量总数、变量的格式等 -列出数据中所有变量的分布,从第一个样本到最后一个样本 -列出选定变量的分布 列出数据中被选定的变量分布。in 限定数据的观察值范围。比如,若只想查看第100个-200个观察值的分布,则将X/Y替换成100/200 按选定变量排序。比如,样本的编号、年龄、性别、教育程度,……,等 将所有变量从 a-z 排序 给变量贴上标签 . order [变量名] . aorder . label variable

命令 . sort [变量名] 功能 -将某个变量的数值进行排序。一般情况下,排序的方式是从小到大 -可同时排序多个变量 -Stata将缺失值描述为最大数值,故排列在最后 . sort [变量名] [in] 对某些变量的某个取值范围进行排序;没有指定的取值范围保持在原地方 . gsort [+|-][变量名] -可从小到大和从大到小 -若变量名前没有任何符号或加上+号,则按升序排列;若在变量名前加上-号,则按降序排列 -变量可以是数值型、也可以是字符型 . gsort [+|-][变量名] ,mfirst -mfirst指定将缺失值置于所有有效数值之前 . gsort -age

命令.describe.describe, short.describe, detail.describe, fullname功能描述数据的基本情况:样本总量,变量总数,变量的具体情况等等通过“short”命令,Stata只列出样本和变量的数量该命令与“describe”基本相同,列出具体的变量名称及其表现形式与上述命令基本相同描述数据中每个变量的具体内容,包括变量的类型(比如,数值型变量、分类变量),极差(最大值与最小值),特殊值,均值,标准差,单位,缺失样本量,百分位数类似频数分布,但提供更详细的资料.codebook.inspect girl第二章 变量的生成与处理

1.离散和连续测量

离散方式(discrete measure):由定性测量和定序测量组成;适用于低层次数据

连续方式(continuous measure):由定距测量和定比测量组成。适用于高、低层次数据

2.Stata有四个基本的生成和修改变量的命令:gen、egen、replace和recode . gen和egen分别是generate和extended generate的缩写,它们用于生成新变量

. replace和recode用来改变现存变量的属性或数值 . replace需要与gen一起使用;二者的区别在于,gen用于生成新变量,replace用于重新定义已经存在的变量

. recode也可以与gen一起使用 3.变量生成的规则

数值型变量的缺失值用一个实心小圆点(.)或在26个字母前加一个实心小圆点(如.a, .b, .c,……, .z)表示。

字符型变量的缺失值以双引号表示,引号中什么也没有。 4.系统变量_n

系统变量_n表示每个观察值的位置(numbering observations)。其原则是: 当前观察值:[n]

总观察值(最后一个观察值[_n]):[N] 第一个观察值:[1] 最后一个观察值:[N]

滞后一个(lag)观察值:[n-1] 前移一个(lead)观察值:[n+1] 第27个观察值:[27] Eg.每个孩子在省内的排序 步骤1:Sort province

步骤2:By province:gen order=_n 5. 系统变量_N

系统变量_N代表样本总数。最后一个样本_n即是_N Eg.使用前面的数据,看看每个省共有几个孩子在样本中 步骤1:sort province

步骤2:. by province: gen ceb=_N 6.滞后变量和移前变量

生成滞后(lag)变量或移前变量(lead)作为数据扩充 gen a = b[_n-1] gen a = b[_n+1]

①:需要生成的新变量的名称 ②:现有变量的名称

③:将现有变量的取值下移一行([_n-1])或前移一行([_n+1])的基本命令

使用系统变量 _n或 _N检查重复样本

第一步:对关键变量(ID)进行排序

第二步:使用_n或_N 将该ID的数值下置一行,如果下置的数值与当前ID相等的话,则该样本是重复样本

Eg.sort IID2016 drop order gen order=_n

count if IID2016[_n]== IID2016[_n-1] 7.生成字符型变量 Eg.gen boy=\"nanhai\" 在字符型变量中,“=”后面表达式的内容需置于双引号中 并不是每个样本都是男孩,故需替代上述命令的部分结果 . replace boy=\"nvhai\"if girl==1

命令replace与if条件句相结合,改变变量的取值。当变量girl的取值为1时,将变量boy的取值替换为nvhai,其他值不变

定义缺失值

. replace boy=\"none\" if boy==\" \" 8.生成数值变量

. recode [原变量] ([原变量取值] = [新变量取值]) *= [其他取值], gen [新变量]

Eg.drop edu

. recode yrsch 0=0 11=1 12=2 13=3 14=4 15=5 16=6 21=7 22=8 23=9 24 27=10 25 28=11 26 29=12 31=13 32=14 *=.,gen (edu)

该命令在原变量yrsch的基础上生成一个新变量(edu) 新变量对原变量的取值重新编码。原变量照旧保存着 若无gen(edu)部分,则仅取代原有变量的取值 *表示所有其他没有列出的数值(others) 9.基本运算符及含义

逻辑关系:!~竖 & 否否或和

关系(Relational)符号10.生成分组变量:不重原则 =使等号左边的值等于等号右Eg.按年龄划分成四组,分别是0~4 5~9 10~14 边的值;不能用于“if”命令中;可用于“gen”命令15及以上 中;可用于取代原来的值gen agegrp=0

==等于;等号左边的值是否等. replace agegrp=1 if age>=0 & age<=4 于等号右边的值. replace agegrp=2 if age>=5 & age<=9 !=不等于,相当于~=. replace agegrp=3 if age>=10 & age<=14 <小于>大于. replace agegrp=4 if age >=15 >=大于或等于. replace agegrp=. if age == . <=小于或等于egen agegrp = cut(age), at(0,5,10, 15,20)

11.生成虚拟变量

方法1:gen [新变量名] = b [条件]

Eg. gen xiaoxue = edu<7或. gen xiaoxue =edu<=6或. gen byte xiaoxue = edu<7或. gen byte xiaoxue =edu<=6

方法2:gen [变量名] =1 if[取值为1的条件] . replace([变量名]=0 if[取值为0的条件]

Eg.replace xiaoxue = . if edu == . (注意空格以及edu后两个等号) 12.使用egen生成分类变量

egen[新变量名]=cut[旧变量名],at[旧变量取值的下限] at()指名每个组群的最小值

Eg.将年龄分为四组,如2-6岁7-12岁13-20岁 Egen agegrp1=cut (age),at(2,7,13,21)(注意括号和逗号) 13. 使用egen变量生成某一变量的均值变量 egen a_mean = mean(a), by(b)

该命令生成的变量是按变量b的分类计算的均值 egen avg=rmean(b c)

这里,rmean告诉Stata,生成一个变量b和c的行均值变量(avg),忽视缺失值。不可与选项by连用

若在rmean的后面指定两个变量,某个变量的一些观察值有缺失值,则Stata按照没有缺失值的样本计算均值

Eg.生成家庭的平均身高作为新变量 egen hgtmean=mean( height ),by( hhid )

egen还可以是生成其他统计量,包括min(最小值)、 max(最大值)、 sd(标准偏差)、median(中位数)、kurt(峰度)、 iqr(四分位差)等

在计算统计量时,egen可以与by选项连用 14.给数据、变量和变量的属性贴标签 对数据库作说明

Eg . label data \"Chapter4;创建于2006年9月,最近的修改日期为2007年1月“

引号里的内容是对数据库说明的具体内容 给变量下定义

Eg . label variable province “被调查省份“ 引号里的内容是变量的标签 给变量的属性下定义

步骤1:给变量的取值贴标签

. label define urban 0 \"rural\" 1 \"urban\" 步骤2:将取值标签指定给变量 . label values urban urban

步骤3:数值与标签(可有可无) . numlabel urban, add mask(\"#. \")

第三章 数据的合并与转换

1.数据合并类型

增加观察值(即样本量):纵向合并

若有一个城市儿童数据和一个农村儿童数据,二者的内容基本相同 可进行分析或整合后作为整体样本的次样本分析 增加变量:横向合并

若有一个社区数据和一个家庭数据,家庭寓于社区中,若想将二者合二为一,从而使家庭数据包含社区的基本特征,则需将数据进行横向合并

2. 数据合并的概念

主要数据(Master dataset):指当前在Stata界面的数据,又称当前数据(current dataset)、窗口数据或记忆空间数据

使用数据(using dataset) :指当前不在Stata界面、但行将被合并到当前数据的数据,也称辅助数据。该名词主要用于数据的合并

关键变量(Key variables),也称标识符(identifiers)或合并变量(match variables):横向合并的专有词汇,用来合并两个数据的变量。该变量必须同时存在于主要数据和使用数据中,且在使用前必须排序。主要变量可以是一个,也可以是两个或多个

3.纵向合并

. append using [使用数据的路径和名称]

②:使用数据的路径和名称(目前记忆空间的数据是主要数据) . append using [使用数据的路径和名称], keep[变量名] ①

①:在合并使用数据时,只保留keep后面指定的变量 Eg.use \"E:\\stata\\Chapter5_umerge.dta\"(使用数据) describe

use \"E:\\stata\\Chapter5_rmerge.dta\(主要数据) describe

append using \"E:\\stata\\Chapter5_umerge.dta\" describe list

*sort mothid

save \"E:\\stata\\Chapter5_rumerge.dta\ 4.横向合并

横向数据合并中,主要数据和使用数据都必须按照主要变量进行排序,否则合并无法进行,还会得到错误的提示,纵向数据合并无需对哪个变量进行排序

横向数据合并需要关键变量,纵向数据合并无需关键变量

.append将两个变量类似、但观察个案不同的数据整合在一起;.merge将具有不同变量的两个数据整合在一起

步骤:

先看使用数据:

. use [文件路径名称] . sort [关键变量]

. save [文件路径名称], replace

再看主要数据:

. use [文件路径名称] . sort [关键变量]

. merge [关键变量] using [文件路径名称], keep [变量]

关键变量即为sort后面的变量;利用该变量匹配两个数据 一对一合并

每个文件中同样的观察值合并

Eg.先对主要数据 使用数据use sort关键变量

merge husbid using \"I:\\stata\\hhwk_husb00.dta\unique (unique只适用于一对一合并) 一对多合并

merge mothid using “I:\\stata\\ru_merge.dta”,uniqmaster 多对一合并

merge mothid using \"I:\\stata\\muqin_merge\uniqusing

选项unique:只能用于使用关键变量的一对一的合并中。

一对多的合并可以使用uniqmaster 选项;多对一的合并可以使用uniqusing选项。

6. 样本的取舍 keep if _merge==3

Or . drop if _merge ==1 | _merge ==2 (N observations deleted)

这样实际上是去掉了两个原始数据中不匹配的观察值。 剩余的观察值就是在两个文件中都有的 7. 重复值问题

方法1:sort[关键变量]

List [关键变量] if[关键变量]=[_n-1] 方法2:sort [关键变量] By [关键变量]:assert_N==1

方法3:duplicates report [关键变量] 方法4:isid [关键变量]

方法5:tab [关键变量](当观察值不多时使用) 8. 数据的转换

从长数据到宽数据的转换

reshape wide [转换的变量], i[观察值的标识符] j[次标识符]

③:选项i及括号内的变量一起,指定观察值的标识符,或取值独一无二、代表每个逻辑观察值的变量。在家庭户数据中,每个家庭构成一个逻辑观察值

④: 选项j及括号内的变量一起,指定观察值的次标识符,或在每个逻辑观察值中,其独一无二的取值代表每个次观察的变量。在家庭户数据中,次观察即每个家庭中的个体。它也告诉Stata,在生成新变量的时候,使用哪个原有变量的取值

从宽数据到长数据的转换

reshape long [变量名称], i[观察值的标识符] j[次标识符] 9.从宽数据到长数据的转换

reshape long kidid age girl yob, i(mothid) j(order)

保留有效数据

Eg. keep if kidid!=. 或. drop if kidid==. (7996 observations deleted)

(只保存kidid 为有效值的样本;共有7996观察值被删除)

宽数据变量的尾缀不能以0开头的。虽然Stata依旧工作,但其结果却是有问题的

10.数据的分组——sort 11.数据的集合

命令collapse和contract对记忆空间的数据进行集合,生成一个新的高层次数据

前者用于生成均值、中位数等统计量的数据 后者用于生成频数或比例的数据 集合频数或比例的路径:

Data – Create or change variables – Other variable transformation commands – Make dataset of frequencies(contract)

集合统计量的路径

Data – Create or change variables – Other variable transformation commands – Make dataset of means, medians, etc(collapse)

第四章 描述性分析

1.单变量频数分布 tab [变量名] Eg.tab girl

2.多变量频数分布

tab1 [变量a 变量b 变量c], missing plot

missing和plot均属选项。前者告诉Stata输出缺失值,后者告诉Stata绘制一幅频数分布的茎叶图

3.条件频数分布

条件频数分布也称交叉频数表为或列联表,同时生成两个变量之间关系的频数分布,属于相关分析中的一种

.tab提供、且只能提供双变量的交叉分析,生成二者之间的交叉频数分布,相当于命令tabulate

若其令后面仅有一个变量,则Stata输出该变量的频数分布

Stata的默认方法是,tab后面的第一个变量被当成行变量,第二个变量被当成列变量

.tab2也提供双变量的交叉分析表

.tab和tab2的主要区别在于,前者仅可以用于两个变量的交互分析(tab后面最多只能有两个变量);tab2可同时生成多个两两变量之间的交互频数分布表

Eg.tab girl enroll, chi2 column row miss nokey (书P212 对表格的解读) ①: 提供两个变量关系的卡方 ②: 提供列变量的百分比 ③: 提供行变量的百分比 ④: 提供缺失变量的比例 ⑤: 压缩单元格内容的提示 4.变量的趋势(central tendency)和离散趋势( tendency of dispersion ) 众数(mode)集中趋势:算术均值(mean,average)集中趋势:中位数(median) 极差或者全距(range,R):表示变量取值中最大值和最小值之差。适合所有分布类型的数据 描述离散趋势的方法包括:级差、方差、标准差

方差(variance):表示一组变量取值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势

离散趋势:标准差(standard deviation) 适合描述近似正态分布资料的离散趋势 方差或标准差都是根据全部数据计算的,反映了每个数据与其均值相比平均相差的数值,因此能准确地反映数据的离散程度

自由度:一组数据中可以自由取值的个数。当样本的个数为n时,若样本均值确定后,必有一个数据不能自由取值。因此,只有n-1 个数据可以自由取值

在抽样估计中,当用样本方差去估计总体方差时,样本方差是总体方差的无偏估计量

5.sum[连续变量]

该命令给出标准统计量。输出结果包括:

Obs Mean Std. Dev. Min Max

(观察量) (均值) (标准差) (最小值) (最大值) sum[连续变量],detail(P218 219)

6. 均值估计(mean)比例估计(proportion) 7. 使用table命令描述数据

table [变量a], contents[mean 变量b sd 变量b] . table a b, contents(mean c sd d)

按变量a和b的分类,计算变量c的均值、d的标准差 8.使用tabstat命令描述数据 tabstat a b c d

输出的统计量是可选择的。若不选择,则默认值为均值。其主要选项包括: . tabstat a b c d, by(e) statistics(mean sd) columns(statistics)

②:需要得到的统计量,可多选,不同统计量之间需用空格隔开,如 statistics(mean sd skewness kurtosis)

③:输出结果的格式可以选择 ④:选择 columns(statistics),则竖列表述的是统计量,横行表现的是变量。若选择 columns(variables)格式,则反之

9.使用tabulate, sum命令描述数据 tab a b, sum(c)

①:接变量a、b的分类变量,计算变量c的统计量,并输出a、b的频数分布

③:sum后面接一个需要输出统计量的数值型变量 ②:分类变量;④:连续变量 10.列联表

Eg.tab urban enroll,row col nokey(书P228 229解读) tabulate urban enroll, exact lrchi2 nokey 11.相关度测量

tabulate urban enroll, chi2 exact expected gamma lrchi2 taub V nokey tabulate urban enroll, expected row col cell cchi2 clrchi2(书P234)

第五章 图形制作与数据的描述

1.散点图 scatter y x

scatter height age, ① title(\"Height of Children\") ② subtitle(\"Stata Example\") ③ note(\"1\") ④ caption(\"Source: Chapter7\") ⑤ scheme(economist) ⑥

①: 生成height和age散点图的基本命令 ②: 给图形附上标题,标题在括号内

③:给图形添加副标题,副标题在括号内 ④:给图形编号

⑤:给图形提供注释,note和caption的意思基本是一样的

⑥: 定义图形的外观,括号内的economist告Stata输出一个经济型的图形 逗号后面所有的内容都属于选项,在所有图形中都是通用的 xsize (4) ysize (4)

①:横轴(宽度)的选项

②:横轴的宽度;这里将其定义为4英寸 ③:纵轴(高度)的选项

④:纵轴的高度;这里将其定义为4英寸 散点图的选项:数轴(axis)

(a)数轴标题:ytitle,xtitle(“”)

(b)数轴的标签和刻度:ylabel(“”),xlabel

(c)数轴的范围(ylabel(minmax)或ylabel(0(20)180) (d)网络线格式:xlabel(,grid) ylabel(,nogrid) (e)添加线条:yline(130)

(f)多个数轴:yaxis(1) || yaxis(2)

scatter height age, mcolor(red)msize(5)msymbol(oh) ①:符号的颜色(mcolor=marker color),这里将散点定义为红色 ②:符号的大小(msize=marker size),这里将散点定义为5 ③:符号的性状(msymbol=marker symbol,可简写为ms),这里将散点的形状定义为空心圆

散点图的选项:添加文字(P253) Eg.egen weightm=mean(weight), by(age)

.scatter height age || line weightm age,yaxis( 1 2) xaxis(1 2)title(This is the Title)subtitle(This is the Subtitle)caption(This is the caption)note(This is the Note)ytitle(Height of Children, axis(2))ytitle(Weight of Children)xtitle(Age of Children)xtitle(Child Age, axis(2))ysize(4)xsize(5)

2.线图 line y x

注意点:1.将X变量排序2.将y轴的数据转换为均值

Eg.graph twoway line heightm age || line weightm age || line edum age if

edum~=.,yaxis(2) legend(row(3)position(10)ring(0))xtitle(\"\") ytitle(Height and Weight)ytitle(Average Year of Schooling, axis(2))ysize(3)xsize(4)

legend(row(3)position(10)ring(0)将图例分为三排,置于十点钟位置,且与绘图区之内。

线条的格式(P262)

connect(line line stairsteps) clpattern(longdash solid dash) lcolor(grey blue red) lwidth(0.5 0.5 0.5 )

legend(row(3) position(3)ring(0)) xtitle(\"\") 3.条形图

条形图分为纵向和横向条形图 .graph bar 生成纵向条形图,即柱形图,在这类柱形图中,y轴是连续变量,而x则可以是分类或连续变量。

.graph bar (mean) [连续变量], over[分类变量]

.graph hbar生成横向条形图。y轴是连续变量,且是横向的;x轴则可以是分类或连续变量,且是纵向的:

.graph hbar (mean) [连续变量], over[分类变量] 统计量“mean”是stata默认的,可以选择其它统计量:包括median(中数)、sum(算术和),p(四分位数、十分位数、百分位数,等分位数)和count(计数),故可将上述命令换成:

.graph hbar (sum) [连续变量], over[分类变量] 条形图的选项:blabel

该选项有两个功能。其一,增加图表的信息量——通过(blabel(bar))和blabel(total))将变量的取值添加到图形中;其二,通过(blabel(name))和blabel(group))选项改变bar的名称和组合。该选项只适用于graph bar和graph hbar命令。其次选项主要有:

blabel(what, where,how)(什么、什么地方、如何):指定标签的内容以及相对于bar而言标签的位置

blabel(bar):标签为bar的高度

blabel(total):标签为bar的累积高度,该选项只与stack连用

blabel(group):指明标签为第一个over选项中分组变量每个组别的名称 条形图的选项:bar

与bar的位置、形状、色彩等有关。主要次选项: outergap(*#)和outergap(#)

前者指定bar到绘图区边缘的距离,包括第一个bar和最后一个bar,改变默认值

outergap(*1.2)将间隔增加20%;outergap(*.8)则将间隔减少20%

outergap(#)指定间隔与bar宽度的比例(如,outergap(50) 将间隔缩为bar宽度的一半)

bargap(#):bar之间的间隔,定义为与bar宽度的比例。默认值为bargap(0),即各bar相连。bargap()可为正、负值

bargap(10)将缩小bar之间的间隔(bar宽的10%)

bargap(-30)将使bars之间有30%的重合

值得注意的是,bargap()只影响y变量的bars

bar(#, barlook_options):bar的外观选项。比如,bar(1, ...)是指第一个bar,bar(2, ...)是指第二个bar(2, ...),如此类推。这里的...是bar的具体定义。最有用的选择是色彩,(colorstyle),其功能是定义bar的颜色。如:命令bar(1, color(red))将使第一个bar呈红色

intensity(#)和intensity(*#):指明填充bar的颜色的强度 . intensity(#) 直接指定某个强度

. intensity(*#)指明相对于默认值的强度

默认值是,bar内的填充颜色与其边框的颜色一致 若指定#<1,则颜色变淡,若指定#>1,则加深颜色 若无需填充bar,则使用intensity(0)

. lintensity(#)和lintensity(*#):指定bar边缘线条的强度 . lintensity(#)指定某个具体强度

. lintensity(*#)指定的强度是相对于默认值而言的 若需颜色最深,则使用lintensity(255)

Eg.graph bar (mean) edu if edu !=., blabel(bar, position(top)format(%4.2f)size(5)) ysize(4)xsize(3)over(girl, relabel(1 Boy 2

Girl)label(labcolor(black)labsize(medium)))ylabel(\"\")over(urban, relabel(1 Rural 2 Urban))ytitle(\"\") bar(1,fcolor(blue)lcolor(gold)lwidth(thick))

Eg.graph bar (mean) weight height, over(sibs,relabel(1 \"no sibling\" 2 \"1 sibling\" 3 \"2+ siblings\"))bargap(-30)legend( label(1 \"weight\") label(2 \"height\") )ytitle(\"Height and weight\")title(\"Height and weight of Children \")subtitle(\"by Number of Siblings\") blabel(bar, position(inside) format(%9.1f) color(white))note(\"Source: xyz\")ytitle(\"\")ylabel(\"\")

4.直方图

histogram [变量] bin(#)和width(#)

二者可互换、但不能同时使用

.bin指定数据将被如何集合成在bin中。bin()指直方图中条柱的数量,“#”代表具体数目,因需而异。若不注明,则Stata自动地根据变量的取值决定条柱的宽度

.width()指明柱子的宽度;使用width()选项将会改变图形的计算方式 若没有其中任何一个选项,Stata将自行决定bin的数目 .start(#)

表示数轴的起点,或者是变量的理论最小值。默认值为start(m),其中m表示最小值(minimum)。括号中的数值一定小于或等于最小值,否则就会得到一个红色的错误提示

discrete

该选项告诉Stata需要生成直方图的变量属于分类变量,故变量的每个分类都应该有一个条柱(bar)

. width(#)

该选项在分类变量中很少使用。与连续变量一样,它指明柱子的宽度。默认的形式是width(d)——d (difference)代表观察到变量特殊值的最小差别。当变量的

分类较少时,可重新设置柱子的宽度

. start(#)

在分类变量中也不常用。其使用方法连续变量 (1) y轴的统计量。主要有四种

density:它是默认的统计量;Stata按比例绘制柱子的高度,从而使所有条柱面积之和等于1

fraction:按比例绘制柱子的高度,所有柱子的高度之和等于1 frequency:按比例绘制柱子的高度,从而使每个柱子的高度等于该类别的观察量,故条柱的高度之和等于总观察值

percent:按比例绘制条柱的高度,条柱高度之和等于100%。用百分比得到的图形和用频数所得到的形状一样;只是量纲不同而已

(2)柱子之间的距离:gap(#)

可缩小柱子的宽度(%)定义相邻柱间的距离。默认的方式是gap(0)——相邻的柱子挨着。距离介于0和100之间

(3) 正态密度曲线:normal

在分布图上添加一条基于样本均值和标准差的正态分布密度曲线,所谓的正态是指它拥有与数据同样的均值和标准误差。也可添加其它类型的曲线

(4)柱子的标签:addlabels

在每个柱子的顶端,附上统计量,表明其高度 addlabopts(marker_label_options):指明如何表现柱子的标签,即条柱高度和表现形式

在散点图的marker_label选项中适用的选项,也适用于该选项 (5)其它选项

Y-Axis, X-Axis, Title, Caption, Legend, Overall, By等在twoway关系图中使用的选项在直方图中也基本适用,比如:

title(“Child Age”): 给该图形指定一个题目

xlabel(0(1)14) :0表示x轴从0开始,1表示数轴上数值的间隔为1,共有14个数值

xlabel(14):表示共有14个条形柱

ylabel(0(20)100) 或ytick:表示y数轴从0开始,数值间隔为20,最大数值为100;实际定义因需而异

Eg.histogram edu, by(girl urban)percent ytitle(Percent of Year of Schooling)ylabel(0(4)16) xtitle(\"\") xlabel(0(3)15) start(0) width(1) gap(1.5)ysize(3)xsize(4)

5.饼图 graph pie

Eg.graph pie,over(sibs)pie(2, explode

color(red))pie(3,explode)note(\"Source:xyz\")title(\"Percent of Sibling Distribution\")legend(row(3)position(6))ysize(4)xsize(3)

Percent of Sibling Distribution graph pie, over(sibs) plabel(_all

percent,format(%9.1f)size(large)color(white)gap(3)) pie(2, explode color(red)) pie(3,explode)note(\"Source:xyz\")title(\"Percent of Sibling Distribution\")legend(row(3)position(6))ysize(4)xsize(3)

Percent of Sibling Distribution5.3%32.8%61.8% 6.箱线图

graph box [变量a],over[变量b] graph hbox a, over(b)

y依然是数值型变量,x轴仍旧是分类变量,但y是横轴,x是纵轴 Eg. graph hbox edu, over(sibs) over(urban, relabel(1 Rural 2 Urban)) yline(6, lcolor(red) lwidth(0.5))ysize(4)xsize(3)

Eg.graph hbox edu, over(sibs) by(urban) yline(6, lcolor(red) lwidth(0.5))ysize(3)xsize(4)

7.矩阵图

graph matrix a b c d

①:生成矩阵图形的基本命令

②:生成矩阵图形的变量:a、b、c、d .graph matrix a b c d, half msymbol(oh) ①:只显示一半的矩阵

②:散点采用小空心园点为标志 8.图形的替代 graph box y x

生成一个y与x的箱线图 . graph save yx

将新生成的箱线图命名为yx,并以.gph的形式保存起来 然后,我们对图形做些修改,并以同样的名称重新保存: . graph save yx

我们会得到以下的错误提示,告诉我们同名图形已经存在: (file fig_yx.gph already exists)

若需要替代现有的图形,需要在命令中添加replace的选项 . graph save yx,replace (file fig_yx.gph saved)

9.在word文件中编辑图形(edit) 将图形复制到word文件中;

右键点击图形,并选择“编辑图片”

修改图形:改变字号、线条的粗细和格式、添加文字、删除数轴、添加或删除大小刻度或其它需要改变的地方

当对图形进行编辑的时候,纵轴的标题自动地变成横向的。处理方法是:点击一次横向文字,文字框就被突出出来;再通过两种方法调整文字的方向

从格式菜单找到文字方向,选择纵向 当突出显示标题的时候,同时产生一个工具条,工具条的最后一个选项可以用来旋转文字的方向

第六章 参数估计

1.区间估计 ci a b c

①:区间估计的基本命令 ci即confidence interval

提供变量的观察数、均值、标准误和默认的95%的置信区间 ②:需要计算区间估计的变量,可以是一个,也可以是多个 Eg.ci edu height weight if age >14,level(99)

默认95%置信水平 level(99)表示99%置信水平 2. 使用mean的命令进行参数估计 Eg.mean edu height weight if age>14

mean edu height weight if age>14,over(urban)

命令ci在计算点估计和区间估计时,只考虑单个变量的有效值,而mean在进行参数估计时,考虑命令后面所有变量的有效值——只对命令中列出的所有变量都不缺失的有效值进行估计

3. 使用ttest命令进行参数估计

.ttest a = [取值]:单个样本均值的检验 ①:假定检验的基本命令 ②:需要检验的变量名

③:假定的(有待检验的)变量a的取值 .ttest a, by(b):两个样本均值的比较 4.方差分析

单因素方差分析 oneway y x 多因素方差分析anova y a

①:双(多)因素方差分析的基本命令,分析y的均值是否因a的不同类别而异

. anova y a b

分析y的均值是否因变量a、b的不同类别而异 . anova y a b a*b

分析y的均值是否因变量a、b的不同类别及两个自变量类别之间的互动而异。在anova命令中,若想纳入互动变量,只需在两个变量之间加上*号即可

. anova y a b c

分析y的均值是否因变量a、b、c的不同类别而异 . anova y a b c a*b a*c b*c a*b*c

分析y的均值是否因变量a、b、c而异,且检验变量a与b、a与c、b与c、a与b与c之间的互动

协方差分析

anova a b c d, cont(d) ① ② ①: 协方差分析的基本命令

②: 指明协变量为连续变量;cont即continuous。这里Stata将以d为协变量进行分析。在不指定连续变量时,Stata视除因变量以外的所有变量为分组变量

. anova a b c d, category(d) ①

①: 指明自变量d为分类变量,从而暗示其它自变量为连续变量。但分析结果不变

anova y a b c d a*b, cont(c d) regress

regress告诉Stata,除提供常规的方差表外,还提供回归分析结果

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务