监督学习(即回归与分类)
无监督学习(即聚类和降维)
强化学习
确定性模型忽略随机变化,在相同的初始条件下,总会预测出相同的结果。
随机模型则考虑了随机变化,如系统中单个主体的异质性,比如人、动物、细胞之间就存在细微的差别。
所有的模型都是错误的,但其中一些是有用的。 在机器学习和统计学中,模型复杂度被称为「偏差 - 方差权衡」。高偏差模型过于简单,导致欠拟合,高方差模型存储的是噪声而不是信号(即系统的实际结构),会导致过拟合。 微分方程与机器学习示例对比 logistic 微分方程 该方程涉及农业、生物学、经济学、生态学、流行病学等领域。 绘制 dP/dt 对 t 的曲线: logistic 模型的一个例子是哈伯特峰值石油模型。1956 年,石油地质学家 Marion Hubbert 为德克萨斯州的石油生产量创建了一个预测数学模型。 令 P 表示德克萨斯州的产油量。 如果右边是 rP,则石油生产量将会成倍增长。但是 Hubbert 知道油量一共只有 K=200 gigabarrels。随着时间的流逝,开采石油变得越来越困难,因此生产率 dP/dt 有所下降。(1-P/K) 项说明了资源有限的观察结果。注意,在考虑实际数据之前,我们就已经推断出石油开采的机制。
代表生产率的参数 r=0.079 是从 50 年的数据中推断出来的。
代表石油总量的参数 K=200,这是系统的稳定状态。
机器学习模型很难学习嵌入到微分方程中的逻辑所捕获的潜在机制。从本质上讲,任何算法都需要仅基于 1956 年之前存在的数据(绿色)预测能够出现的最大值: 完整起见,本文作者训练了一些多项式回归、随机森林、梯度提升树。注意只有多项式回归会外推超出原始数据范围。 随机森林 多项式回归 多项式回归可以很好地捕获信号,但是这种二次函数(图像为抛物线)在 1970 年达到 Peak Oil 之后,不可能再度凹回去。红色曲线只会越来越高,表示采油量接近无穷大。 哈伯特的机械模型解决了这一建模难题。 当人类很难捕捉和定义系统的规则和机制时,机器学习方法就会大放异彩。也就是说,从噪声中提取信号的方法超出了人们的努力范畴,更好的方法是让机器通过使用高质量示例来学习规则和信号,这就是用数据训练机器。数据越好,结果就越好。神经网络作为学术和应用机器学习领域的先锋,能够捕捉到惊人的复杂性。 求解 logistic 微分方程,并绘制 P(t) 和 P’(t) 上文介绍了 logistic 微分方程,并立即绘制了其解 P(t) 及其导数 dP/dt。这中间省略了一些步骤,详细操作方法如下。 方法 1:数值模拟 首先将微分方程编程到 Python 或 Matlab 中,在将 dP/dt 绘制为 t 的函数之前,使用数值求解器获得 P(t)。此处使用了 Python。 方法 2:获取解析解 该系统可以使用分离变量法求得解析解。请注意:大多数微分方程无法求得解析解。对此,数学家一直在寻找求解析解的方法。以新西兰科学家 Roy Kerr 为例,他发现了爱因斯坦场方程的一组精确解,进而使人类发现了黑洞。但还好,logistic 微分方程中有一些是具有确切解的。 首先把所有含有 P 的项移到等式左边,含有 t 的项移到等式右边: 将二者整合到一起可得到通解,即满足微分方程的一组无穷多个函数。 微分方程总是有无穷多个解,由一系列曲线以图像的方式给出。 将 P 重新排列,得到: 微分得到: 这两个公式对应上述 logistic 曲线和类高斯曲线。 总结 在机械建模中,对驱动系统的基本机制进行假设之前,研究者会仔细观察并研究现象,然后用数据验证模型,验证假设是否正确。如果假设正确,皆大欢喜;如果错误,也没关系,建模本身就是要反复试验的,你可以选择修改假设或者从头开始。 在数据驱动的建模中,我们让数据来构建系统的蓝图。人类要做的是为机器提供高质量、有代表性并且数量足够多的数据。这就是机器学习。在人类难以观察到现象本质时,机器学习算法可以从噪声中提取信号。神经网络和强化学习是当下热门的研究领域,它们能够创建具有惊人复杂性的模型。而 AI 革命尚在继续。