张学工《模式识别》教学课件
第十章 模式识别系统的评价
Xuegong Zhang, Tsinghua University 1
张学工《模式识别》教学课件
10.1 监督模式识别方法的错误率估计
10.1.1 训练错误率
几个同义词:
训练错误率(Training Error Rate或简称作Training Error)视在错误率(Apparent Error) 重代入错误率(re-substitution error) 经验风险 偏乐观
经验风险与期望风险的关系:《统计学习理论》
Xuegong Zhang, Tsinghua University
2
张学工《模式识别》教学课件
10.1.2 测试错误率
的测试集
ˆkN
N:测试集样本数;k:测试集错分样本数最大似然估计
Xuegong Zhang, Tsinghua University
3
张学工《模式识别》教学课件
10.1.3 交叉验证
n倍交叉验证(n-fold cross validation)
Xuegong Zhang, Tsinghua University
4
张学工《模式识别》教学课件
留一法交叉验证(Leave-one-out cross-validation或简称作LOOCV)
10.1.4 自举法与.632估计
B.632(1w)AEwB1B.632=0.368 x AE + 0.632 x B1
Xuegong Zhang, Tsinghua University
5
张学工《模式识别》教学课件
10.2 有限样本下错误率的区间估计问题
10.2.1 问题的提出
例如:怎样比较不同方法的性能或不同数据的可分性?
Xuegong Zhang, Tsinghua University
6
张学工《模式识别》教学课件
问题:Bengio Y & Grandvalet Y, No unbiased estimator of the variance of k-fold cross-validation, Journal of Machine Learning Research, 5: 10-1105, 2004
Xuegong Zhang, Tsinghua University 7
张学工《模式识别》教学课件
10.2.2 用扰动重采样估计SVM错误率的置信区间
Bo Jiang, Xuegong Zhang and Tianxi Cai, Estimating the confidence interval for prediction errors of support vector
machine classifiers. Journal of Machine Learning Research, 9:521-540, 2008
Xuegong Zhang, Tsinghua University 8
张学工《模式识别》教学课件
10.3 特征提取与选择对分类器性能估计的影响
样本数目很少时,CV1可能会导致对分类性能的估计偏乐观,极端情况下可能会引导到错误的结论。
Xuegong Zhang, Tsinghua University 9
张学工《模式识别》教学课件
10.4 从分类的显著性推断特征与类别的关系
Xuegong Zhang, Tsinghua University 10
张学工《模式识别》教学课件
Xuegong Zhang, Tsinghua University 11
张学工《模式识别》教学课件
10.5 非监督模式识别系统性能的评价
紧致性(compactness)或一致性(homogeneity)
连接性质(connectedness)
分离度(separation)
Xuegong Zhang, Tsinghua University
12
张学工《模式识别》教学课件
Silhouette值:同时反映类内距离和类间距离的指标
Dunn指数(Dunn Index)
Xuegong Zhang, Tsinghua University 13