本文共 1510 字,大约阅读时间需要 5 分钟。
混淆矩阵(confusion matrix)衡量的是一个分类器分类的准确程度。理解其概念本身容易理解,但一些特定术语易被混淆。
混淆矩阵适用于包含多个分类器的问题,本文为了让读者理解更加容易,以二元分类的混淆矩阵为例进行讲解。
观察混淆矩阵,可得如下结论:
重要概念:
混淆矩阵延伸出的各个评价指标
1.正确率(Accuracy):被正确分类的样本比例或数量
(TP+TN)/Total = (35+50)/100 = 85%
2.错误率(Misclassification/Error Rate):被错误分类的样本比例或数量
(FP+FN)/Total = (5+10)/100 = 15%
3.真阳率(True Positive Rate):分类器预测为正例的样本占实际正例样本数量的比例,也叫敏感度(sensitivity)或召回率(recall),描述了分类器对正例类别的敏感程度。
TP/ actual yes = 35/40 = 87%
4.假阳率(False Positive Rate):分类器预测为正例的样本占实际负例样本数量的比例。
FP/actual no = 10/60 = 17%
5.特异性(Specificity):实例是负例,分类器预测结果的类别也是负例的比例。TN/actual no = 50/60 = 83%
6. 精度(Precision):在所有判别为正例的结果中,真正正例所占的比例。TP/predicted yes = 35/45 = 77%
7.流行程度(Prevalence):正例在样本中所占比例。
Actual Yes/Total = 40/100 = 40%
关键术语:
以上为译文
本文由北邮老师推荐,组织翻译。
文章原标题《Understanding the Confusion Matrix》,作者:Sunil Kappal,译者:Elaine,审校:袁虎。
文章为简译,更为详细的内容,请查看
转载地址:http://klcjo.baihongyu.com/