3653 字

18 分钟

机器学习笔记：评估指标——如何科学地给“炸鸡师傅”打绩效

2026-01-18

2026-02-02

Intelligence

MachineLearning

前言#

注意
本文基于《机器学习》写就的笔记。草稿源于本年1月18日。

如果说第一章是让我们在潮州城牛肉摊前建立“识肉模型”，那么这一章就是要解决一个更核心的问题：如何衡量这个模型好不好？

在机器学习的世界里，没有绝对的完美，只有在不同业务场景下的取舍 (Trade-off)。

查准率 vs 查全率：宁可错杀，还是追求极致？#

很多时候，我们追求的不仅仅是精度（Accuracy）。在不同的业务场景下，我们需要在 查准率（Precision）和查全率（Recall） 之间做一场“魔鬼的交易”。

查准率 (Precision)：你给出的结果里，有多少是真的？（追求精准，不想误报）
查全率 (Recall)：所有的真东西里，你抓住了多少？（宁可错杀，不能漏掉

案例：图书馆的 ISBN 之谜假

设我们要录入所有学生的信息或图书馆书籍。

场景 A：为了数据的完整性，我们把所有疑似学生的信息全部录入，哪怕其中混进了一些错误数据。这时候，查全率是 100%，但查准率惨不忍睹。
场景 B：比如通过 ISBN 录入图书。如果 ISBN 码是对的，但由于录入系统问题，导致书籍的序号、类别全标错了。虽然你把这本书“抓”到了（查全率高），但数据的准确性（查准率）却极低。

在机器学习中，我们通常用 F1 分数来平衡这两者：

F1 = \frac{2 \times P \times R}{P + R}

代价驱动的取舍：误诊 VS 漏诊#

你有没有发现，医疗剧里的主角医生经常因为’疑似某重病’而给病人开出一堆昂贵的检查，最后虚惊一场？这其实是美国防御性医疗的典型表现——医生在面对极度不对称的代价矩阵时，选择最大化召回率（不漏诊），哪怕这意味着极高的假阳性率（误诊）。

2.1 极度不平衡的代价矩阵 (Asymmetric Cost Matrix)#

在算法评价中，我们通常默认“分错一类”的代价是相等的。但在医疗这个赛道， FP（假阳性/误诊） 和 FN（假阴性/漏诊） 的代价天差地别：

真实情况 \ 预测结果	预测为“有病” (Positive)	预测为“健康” (Negative)
真实有病	正确识别 (TP)	漏诊 (FN) —— 代价极高
真实健康	误诊 (FP) —— 代价有限	正确排除 (TN)

误诊 (FP) 的代价：多花几千块钱检查、虚惊一场、可能有一点药物副作用。用程序员的话说，这叫 “冗余报警”，虽然烦人，但系统没崩。
漏诊 (FN) 的代价：病人回家，病情恶化，最终“一命呜呼”。这叫 “系统致命崩溃”，且没有备份，不可逆转。

如果用数学公式表达期望损失 ( $Expected Loss$ )，医生（模型）的目标是：

\min (Cost_{FP} \times P_{FP} + Cost_{FN} \times P_{FN})

既然 $Cost_{FN}$ （生命代价）趋于无穷大，那么为了让总损失最小，模型必须拼命压低 $P_{FN}$ （漏诊率）。

广州地铁的换乘哲学
代价是相对的。就像坐广州地铁：

效率党：代价是“时间”。他们会选择换乘次数最少的路径，即使要走很久。

舒适党：代价是“拥挤和走路”。他们宁愿多转几次线，也要避开珠江新城或体育西路的恐怖人潮。

懒人党：代价是“转线次数”。他们追求直达，哪怕多坐 10 站。

2.2 阈值移动：那个被按下的“恐慌按钮”#

为了做到“宁可错杀，不可放过”，模型在后台偷偷移动了分类的阈值 (Threshold)。

常规模型：50% 的确定性才报有病。
医疗/地震预警模型：只要有 5% 甚至 1% 的疑点，质检员（医生）就会按下报警铃。

戏剧冲突的来源:
编剧最喜欢拍的就是这个 “阈值博弈”。医生在 1% 的可能性面前，赌上职业生涯去推行一个极端的治疗方案。如果赌赢了，是救人英雄；如果赌输了，就是医疗事故。这种在高代价下的不确定性选择，正是机器学习中最具人性的部分。

2.3 美国的“过度警报”陷阱：防御性医疗的算法底色#

这里我们需要厘清一个概念：美国并非误诊率最高的国家（澳大利亚门诊误诊率约为 6% 1，荷兰在特定领域的漏诊率甚至更高），但美国医生却表现出全球最强烈的 “避险偏好” ——这正是代价矩阵（Cost Matrix）深度塑造行为的绝佳案例。

2.3.1 当 $C_{FN}$ 趋于无穷大#

由于美国医疗诉讼极其普遍且赔偿高昂（一个误诊诉讼可能导致数百万美元的赔偿 2），医生面临的 $C_{FN}$ （漏诊后的法律责任） 被算法性地放大到了极致。为了“自保”，诊疗系统的阈值被调得极低。

支撑这种“策略转向”的硬数据：

致命的代价：据 Johns Hopkins 医学院研究，美国每年约有 4.1万例门诊患者死亡 和 8万例住院患者死亡 源于诊断错误，其中 15 种关键疾病占据了大部分重症后果 3。
高频的排查：尽管美国的门诊误诊率约为 5.08%（每年约涉及 1200 万美国成年人）4，与全球平均水平相当，但其 CT 与 MRI 的使用率却是经合组织（OECD）国家平均水平的 2-3 倍 5。

2.3.2 “确定性溢价”的代价博弈#

这不再是单一的“误诊”指标问题，而是“过度警报”的逻辑博弈：

高召回率 (High Recall)：质检员（医生）只要看到 5% 的疑点，就会按下报警铃，要求做全套影像检查。
牺牲精准率 (Low Precision)：代价是海量的虚警——研究显示，大约 30% 的影像检查 被认为是不必要的，或者对最终治疗决策没有贡献 6。

在统计学上，这些“为了保险起见”的检查结果往往是准确的（TN），但在人文逻辑上，这是为了捕获那 5% 的真实威胁而付出的 “确定性溢价”。

言归正传
模型也一样。通过代价矩阵，我们可以计算出不同方案下的期望损失，让模型向着“业务损害最小”的方向去进化，而不是盲目追求 99% 的准确率。

偏差与方差：老王与小王的“炸鸡实验”#

为什么我们总说要“修补”数据或模型？因为任何一个模型的泛化误差，都可以拆解为三个部分：

E(f;D) = \text{bias}^2(\mathbf{x}) + \text{var}(\mathbf{x}) + \epsilon^2

$\text{bias}^2(\mathbf{x})$ (偏差, Bias)：描述算法的期望预测与真实结果的偏离程度。
$\text{var}(\mathbf{x})$ (方差, Variance)：描述同样大小的训练集在变动时，所导致的学习性能的变化。
$\epsilon^2$ (噪声, Noise)：当前任务上任何学习算法所能达到的期望泛化误差的下界。

想象一下，在广州天河区五山路口有这么一家开封菜（KFC）分店。正值午高峰，外卖订单像雪片一样飞来。为了维持“疯狂星期四”的品牌口碑，分店经理正拿着电子秤，盯着后厨两位核心师傅的产出。

总部给出的金牌炸鸡标准体重是 $200g$ ( $y$ )。在这个高压的“训练集”面前，两位师傅展现出了截然不同的“拟合状态”。

3.1 偏差大：小王的“系统性克扣”#

我们先来看小王。小王是个极度自律的人，在某高校读计算机的时候养成了严谨的习惯。

表现：总部要求 $200g$ ，小王炸了 1000 份，份份都是 $180g$ 左右，误差不超过 $1g$ 。
数学诊断：小王的方差极小（表现非常稳定），但偏差极大（平均水平离目标 $200g$ 始终差了 $20g$ ）。
模型隐喻：这就是典型的欠拟合（Underfitting）。小王就像是一个只有一层隐藏层的简单网络，他固执地认为“少放点面粉炸出来的更脆”，这种认知偏见让他无论训练多少次，都无法触达真相。
结局：由于长期缺斤少两，店里遭到了街坊的联名举报。小王为了弥补错误，换了一把更精确的电子秤（引入更有效的特征），并重新学习了总部的标准（增加模型复杂度），偏差终于小了，举报也撤销了。

3.2 方差大：老王的“帕金森手感”#

再看同一个餐厅里的老王。老王是店里的老臣，但他的发挥就像广州的三月天，阴晴不定——实际上广州几月份都是癫的，没一个准信。

表现：老王平均分量确实是 $200g$ ，但他手太抖了——一会儿给你个 $100g$ 的“鸡丁”，一会儿给你个 $300g$ 的“巨无霸”。
数学诊断：老王的偏差可能很小（均值在线），但方差爆炸。数据点散得漫山遍野。
模型隐喻：这就是过拟合（Overfitting）。老王太想记牢每一个细节了，比如今天空气湿度大他就多加点粉，昨天面粉颜色深他就早点出锅。他把那些无关紧要的随机波动（训练集里的细节）全当成了真理。
结局：顾客们对他怨声载道，因为进店吃饭像开盲盒。我们只能给老王立规矩：强制腌制时间、减少人为干预步奏（引入正则化），或者让他多看几千份标准出餐图（增加数据量），让他变得“稳重”一点。

3.3 噪声：总部的“天灾”与不可抗力#

即便换了最牛的厨师（模型）和最准的称（特征），误差依然无法归零。

表现：你会发现，即便小王和老王都恢复了正常，炸鸡的分量还是会有微小波动。
原因：总部送来的原料鸡块本身重量就不一，或者当天的空气湿度导致炸粉吸水率天生不同。
数学诊断：这就是 $\epsilon^2$ (噪声)。它是模型的不可约误差（Irreducible Error），是泛化误差的下界。它告诉我们：无论你如何优化算法，都无法超越数据本身的质量上限。

寻觅“甜蜜点”：拟合的本质#

在数学层面上，我们折腾了这么久，实际上就是在寻找一个理想的映射函数 (Mapping function) $f$ ：

f: \mathcal{X} \to \mathcal{Y}

$\mathcal{X}$ (输入空间，Input space)：

描述事物的各项指标（特征向量）。在咱们店里，它就是炸鸡的油温、裹粉厚度、腌制时长等原始数据。
$\mathcal{Y}$ (输出空间，Output space)：

我们想要得到的结果（标签）。比如“金牌炸鸡”或“报废次品”，或者是预测出的“炸鸡最终分量”。
$f$ (模型，Model)：

从数据中学得的规律。它就像是一个经验丰富的“金牌质检员”的大脑。

4.1 拟合的艺术：在“死板”与“任性”之间#

所谓“拟合”，就是寻找一个 $f$ ，让它在面对未知的 $\mathbf{x}$ 时，给出的预测值 $f(\mathbf{x})$ 能够无限接近真实值 $y$ 。

而我们之前聊到的修补工作，本质上就是在调整这个 $f$ 的复杂度：

当 $f$ 太简单时：它就像是小王，只认死理（偏差大），无法捕捉 $\mathcal{X}$ 到 $\mathcal{Y}$ 之间复杂的非线性映射。
当 $f$ 太复杂时：它就像是老王，连训练集里的尖叫声都学进去了（方差大），导致它在新的 $\mathcal{X}$ 面前表现得极度任性。

结语：寻找全局最小的“中庸之道”#

在机器学习的漫长推导中，我们最终发现：算法的进化，本质上是一场关于“平衡”的修行。

无论是在查准率与查全率之间痛苦取舍，还是在代价矩阵里权衡生死的轻重，亦或是像修补炸鸡店一样在偏差与方差中反复横跳，我们追求的从来不是某个指标的极致，而是那个全局最优的 “甜蜜点” 。

5.1 接受不可消除的“噪声”#

公式里的 $\epsilon^2$ （噪声）告诉我们：无论模型多完美，总有一部分误差是与生俱来的。这很像斯多葛学派的哲学——接受那些我们无法改变的（噪声），并将精力集中在我们可以优化的（偏差与方差）之上。

5.2 拟合即生活#

过拟合是过度敏感，是被训练集里的琐碎牵着鼻子走，丢掉了大局观；
欠拟合是固执己见，是用简单的偏见去套用复杂的现实，丢掉了灵活性。

我们在 $\mathcal{X}$ 到 $\mathcal{Y}$ 的映射中寻找规律，就像在喧嚣的生活中寻找真理。模型评估不仅仅是给“炸鸡师傅”打绩效，更是我们在不确定性的世界里，量化风险、做出最合理决策的武器。

祝你
寻找真理的路上，愿你的偏差足够小，方差足够稳。

List of References#

Graber, M. L. (2013). “The incidence of diagnostic error in medicine.” BMJ Quality & Safety. (关于全球误诊率对比的基准研究).
Medical Malpractice Center. “Medical Malpractice Statistics 2024/2025.” (关于美国医疗诉讼平均赔偿金额的数据支撑).
Newman-Toker, D. E., et al. (2023). “Burden of serious harm from diagnostic error in the USA.” BMJ Quality & Safety. (Johns Hopkins 发布的关于 4.1万/8万死亡病例的研究报告).
Singh, H., Meyer, A. N., & Thomas, E. J. (2014). “The incidence of diagnostic error in medical outpatients as estimated from three large observational studies involving a total of 509 patients.” BMJ Quality & Safety. (5.08% 门诊误诊率的出处).
OECD (2024). “Health at a Glance 2024: OECD Indicators.” (关于美国影像检查频率对比全球平均水平的统计).
Choosing Wisely Initiative. “Unnecessary Tests and Procedures in the Health Care System.” (关于 30% 不必要检查费用的行业分析).

专题系列

本文属于 #MachineLearning 系列

该专题下还有 4 篇相关笔记，点击继续探索：

机器学习笔记：绪论 —— 潮州牛肉摊里的归纳智慧

机器学习笔记：决策树——像“资深吃货”一样思考

机器学习笔记：神经网络——“老北京炸鸡店”的绩效纠错学

机器学习笔记：支持向量机——寻找炸鸡界的“黄金分割线”

机器学习笔记：评估指标——如何科学地给“炸鸡师傅”打绩效

https://loners.site/posts/machinelearning2/

作者

Mongxin Chan

发布于

2026-01-18

许可协议

CC BY-NC-SA 4.0

机器学习笔记：决策树——像“资深吃货”一样思考

机器学习笔记：绪论 —— 潮州牛肉摊里的归纳智慧

前言

1

查准率 vs 查全率：宁可错杀，还是追求极致？

2

代价驱动的取舍：误诊 VS 漏诊

2.1 极度不平衡的代价矩阵 (Asymmetric Cost Matrix)

2.2 阈值移动：那个被按下的“恐慌按钮”

2.3 美国的“过度警报”陷阱：防御性医疗的算法底色

2.3.1 当 CFNC_${FN}CFN 趋于无穷大

4.1 拟合的艺术：在“死板”与“任性”之间

前言#

查准率 vs 查全率：宁可错杀，还是追求极致？#

代价驱动的取舍：误诊 VS 漏诊#

2.1 极度不平衡的代价矩阵 (Asymmetric Cost Matrix)#

2.2 阈值移动：那个被按下的“恐慌按钮”#

2.3 美国的“过度警报”陷阱：防御性医疗的算法底色#

2.3.1 当 CFNC_{FN}CFN​ 趋于无穷大#

2.3.2 “确定性溢价”的代价博弈#

偏差与方差：老王与小王的“炸鸡实验”#

3.1 偏差大：小王的“系统性克扣”#

3.2 方差大：老王的“帕金森手感”#

3.3 噪声：总部的“天灾”与不可抗力#

寻觅“甜蜜点”：拟合的本质#

4.1 拟合的艺术：在“死板”与“任性”之间#

结语：寻找全局最小的“中庸之道”#

5.1 接受不可消除的“噪声”#

5.2 拟合即生活#

List of References#

2.3.1 当 $C_{FN}$ 趋于无穷大#