您的当前位置：首页 lecture10

lecture10

来源：华佗小知识

张学工《模式识别》教学课件

第十章模式识别系统的评价

Xuegong Zhang, Tsinghua University 1

张学工《模式识别》教学课件

10.1 监督模式识别方法的错误率估计

10.1.1 训练错误率

几个同义词：

训练错误率（Training Error Rate或简称作Training Error）视在错误率（Apparent Error）重代入错误率（re-substitution error）经验风险偏乐观

经验风险与期望风险的关系：《统计学习理论》

Xuegong Zhang, Tsinghua University

张学工《模式识别》教学课件

10.1.2 测试错误率

的测试集

ˆkN

N：测试集样本数；k：测试集错分样本数最大似然估计

Xuegong Zhang, Tsinghua University

张学工《模式识别》教学课件

10.1.3 交叉验证

n倍交叉验证（n-fold cross validation）

Xuegong Zhang, Tsinghua University

张学工《模式识别》教学课件

留一法交叉验证（Leave-one-out cross-validation或简称作LOOCV）

10.1.4 自举法与.632估计

B.632(1w)AEwB1B.632=0.368 x AE + 0.632 x B1

Xuegong Zhang, Tsinghua University

张学工《模式识别》教学课件

10.2 有限样本下错误率的区间估计问题

10.2.1 问题的提出

例如：怎样比较不同方法的性能或不同数据的可分性？

Xuegong Zhang, Tsinghua University

张学工《模式识别》教学课件

问题：Bengio Y & Grandvalet Y, No unbiased estimator of the variance of k-fold cross-validation, Journal of Machine Learning Research, 5: 10-1105, 2004

Xuegong Zhang, Tsinghua University 7

张学工《模式识别》教学课件

10.2.2 用扰动重采样估计SVM错误率的置信区间

Bo Jiang, Xuegong Zhang and Tianxi Cai, Estimating the confidence interval for prediction errors of support vector

machine classifiers. Journal of Machine Learning Research, 9:521-540, 2008

Xuegong Zhang, Tsinghua University 8

张学工《模式识别》教学课件

10.3 特征提取与选择对分类器性能估计的影响

样本数目很少时，CV1可能会导致对分类性能的估计偏乐观，极端情况下可能会引导到错误的结论。

Xuegong Zhang, Tsinghua University 9

张学工《模式识别》教学课件

10.4 从分类的显著性推断特征与类别的关系

Xuegong Zhang, Tsinghua University 10

张学工《模式识别》教学课件

Xuegong Zhang, Tsinghua University 11

张学工《模式识别》教学课件

10.5 非监督模式识别系统性能的评价

紧致性（compactness）或一致性（homogeneity）

连接性质（connectedness）

分离度（separation）

Xuegong Zhang, Tsinghua University

张学工《模式识别》教学课件

Silhouette值：同时反映类内距离和类间距离的指标

Dunn指数（Dunn Index）

Xuegong Zhang, Tsinghua University 13

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文