如何评价模型的优劣？【机器是怎么成为一名化学研究者的】

化学部落~~格格

如何评价模型的优劣？【机器是怎么成为一名化学研究者的】

译自Chem-Station网站日本版原文链接：果たして作ったモデルはどのくらいよいのだろうか【化学徒の機械学習】

翻译：炸鸡

在上一回《从零开始了解机械学习【化学学生的机器学习】》中我们简单介绍了机器学习以及它在化学研究上的应用。今天这篇科普将会为大家介绍在机器学习中是如何评价机器建立的模型是否准确。本次介绍的机器学习仅限于监督学习。（不了解监督学习是什么的读者可以参考上一期）

模型到底指的什么？

上一回中介绍监督学习的时候，我用了“模型”一词，这里我想正式指出“模型”到底指的是什么。

模型和各变量的关系1

向函数y = f(x)输入值x，就会得到输出值y，那么我们可以说函数y = f(x)是一个模型₂。x与其说是一个数字，不如说是一个矩阵。如果输出的y是离散的，输出变量则被称为标签₃。

性能指标

在评价计算机经过机器学习后建立起来的模型时常会用到性能指标。而分类和回归分析的性能指标有所不同。

分类

分类的目的是训练计算机能够正确地将多个数据一一归类到多个类别，分类训练时的输出变数y是离散的。经过分类训练，机器多是判断输入值是属于两类中的哪一类：比如是属于猫还是狗，有没有特定的功能（active或inactive）。首先介绍两个针对机器建立的分类模型的评价标准。

首先我们把机器的预测结果与实际结果的关系总结为以下四类。

将预测是阳性的﹑实际也归为阳性的归为真阳性（True Positive）

将预测是阳性的﹑实际是阴性的归为假阳性（False Positive）

将预测是阴性的﹑实际是阳性的归为假阴性（False Negative）

将预测是阴性的﹑实际也归为阴性的归为真阴性（True Negative）

混淆矩阵尽管能很好地对机器所建立的分类模型做出评价，但是很难与机器建立的其他模型做比较。所以这次来介绍四个将性能具体数字化的指标。

准确率（Accuracy）：此值越高说明机器建立的模型能更准确地对输入变数进行分类₄。

评价模型时有时会采用表示是否分类正确的准确率（Accuracy）作为评价指标，但是只依靠准确率来判断模型的精确度是不够的。

举个具体的例子吧：假设令机器对100张猫和狗的照片判断哪一张照片是猫，哪一张照片是狗，这100张照片里有92张照片是狗。在这种情况下我们靠准确率（Accuracy）来评价模型可不可行呢？如果机器对这100张照片全部做出归类为狗的判断，那么准确率高达92%。人们既定的思维是准确率越高这个模型就越好，但事实不尽然，只能单一输出的模型很难算得上是一个好模型。像此例一样，提供的数据集本身就存在偏差的情况不在少数，所以我们还需要借助准确率以外的指标来评价模型。

精确率（Precision）：做出的全部“Positive”判断个数中与实际情况一致的个数所占的比例₅。