机器学习已兴?数学模型将死?-电子发烧友网

对于那些擅长于用微分方程、概率论解决问题的数学家们来说，素有“黑盒子”之称机器学习往往是要被踢到鄙视链底端的。

但是，在与各行各业中，绝大多数公司（小到初创公司，大到国际巨鳄）都在寻求运用机器学习的方法。随着企业不断地将机器学习融入其文化与组织中，这事也变得越来越普遍。

有意思的是，在本科和硕士教育中，数学专业内部居然也都弥漫起了机器学习的热潮。举例说，牛津大学的“深度学习理论”硕士课程在其设立的第一年就被超额报名。

更惊人的是，很多数学博士生打算将机器学习嵌入到它们的研究课题中，从而形成将“传统”（ODE和PDE）和“现代”（深度学习）相结合和新型混合模型。

所以，机器学习是否会最终取代数学建模？

如果数学模型在科研领域无法突破，我们最终是否会使用机器学习的方法来获得建模上的进展呢？

当然不是！我认为，机器学习和数学模型应当是互补的关系——充分结合二者的力量一定会产生有趣的新模型。

为了说明我的观点，我构想了一个例子，让我们开启一趟科技文明之旅！在这个虚构的文明中，机器学习相当发达，然而这个文明的数学却糟糕得很，尤其是还不会微积分。

一个虚构的文明

假设我们正处于一个微积分落后但深度学习发达的科技文明中。

和大多数文明一样，它们都致力于用炮弹攻击自己的对手。两位来自同一阵营的科学家在对他们刚发行的大炮的攻击范围进行建模。

科学家可以控制下列因素：

大炮里装载的弹药总量（例如炮弹的发射速度）

大炮的角度

科学家可以测量下列内容：

弹丸从大炮中射出去的直线距离。

*假设地面完全水平。

从数学的角度上，他们希望找到一个模型/函数F，这个函数能基于所有速度v和角度θ进行预测。

s=F(v,θ)

使得这个结果接近于真实的行进距离。

由于没有炮弹在空中移动的相关知识储备，科学家们采用了数据驱动的方式。

数据采集

科学家们用一天的时间来以各种火力及角度进行大炮射击。每次他们点火发射，他们都会测量发射点和炮弹终点间的距离。但是，他们的测量结果并不完全精确，每次测量都会引入一些误差。

在那一天的时间中，他们打算发射1000次炮弹，产生1000个三元数组(vi,θi,si)，其中θi是弧度制的。

这些数据点分布如下图所示：

不用模型的方法

解决问题的最简单方法就是不使用模型，因为数据就能化身为模型！在这种方法中，他们选用那些最接近于他们想预测的情景的历史数据，使用这些历史数据当作预测模型（即KNN模型）。例如：

这种纯数据驱动的方式有着明显的缺点。如果他们获得的数据不能覆盖所有的输入可能性，或者数据过于稀疏，这种方式就会产生问题。在这个例子中，如果要预测速度大于10的射击距离，没有模型的话他们就无法进行精准预测。

基于线性模型的方法

从数据看来，他们期望的函数是非线性的，而且线性模型不可能将结果预测得很准确。但是，线性模型并非完全没有价值，在很多应用场景下它是一种基础模型，所以这两位科学家决定先用个线性模型试试。

线性模型的数学表达如下：

在表达式中，wi∈R是权重，b∈R是偏移项，这些值都会被确定下来。我们用PyTorch实现线性模型，并使用随机随机梯度下降法（当然还有其他更好更简单的方法）寻找模型参数。

正如预期的那样，建模结果非常糟糕。

“黑盒”登场——深度神经网络

科学家们在机器学习研究和计算框架设计方面投入了大量资金，因此他们在面对问题时喜欢以深度神经网络的方式构想解决方案。说白了就是，他们喜欢使用多层感知器系统，它包含有多个线性层，层与层之间靠非线性激活函数相连。模型可以按如下形式描述：

我们用Adam optimizer对模型进行训练，结果如下：

对于在这方面没有经验的人，在看到神经网络的预测结果的时候，基本都会感到惊叹！至今为止，这也是深度学习流传盛广的主要原因——它不但有用，且效果显著。只是我们并不知道为什么。

用数学语言刻画“准线性方法”

在上述的黑匣子模型中，科学家们有一个能够准确预测大炮射击距离的模型，但顾名思义，他们对模型的形式没有直观理解。科学家们热衷于在使用机器学习方法的同时恢复这种直观理解，并重新使用线性模型。

我们高中的时候都学过三角函数，科学家们认为这个问题可能会涉及一些三角函数与速度的乘积。于是他们把模型写成非线性基函数的线性组合：

把非线性嵌入到线性模型之后，模型可以像线性模型一样计算参数。优化后，模型为：

在这种情况下，除了sin(2θ)的参数，优化将其他所有参数归零。

将F与数据进行比较，他们发现模型非常具有预测性。不仅如此，模型的公式短小精练！当然，他们能选中三角函数也是非常“幸运”了。

数学方法——无数据模型

很多年后，微积分终于被发现了！于是，两位老科学家开始重新审视这个问题。

1.假设方程

低速炮弹的物理模型非常简单。炮弹有垂直向下的重力加速度，恒定为-g。由于在x方向上没有作用在射弹上的力，它始终保持其初始速度。该模型可以写成二阶微分方程组：

初值条件为：

后两个方程式描述了炮弹最初发射时的速度的水平和垂直分量。这些方程描述了系统，但如何解决这些问题呢？

2.数值积分

通常在数学中，写下微分方程是一个简单的部分，大部分时间都花在试图解决它们上面！

他们写出了该问题的一阶常微分方程（ODE）：

初值条件为：

易证这两个方程相同。

积分在数学中无处不在，有多种方法来进行数值积分。最简单和最直观的方法是欧拉方程，它从初始点开始，并在该点的梯度方向上走一小步，即：

使用数值积分，可以准确地预测炮弹的整个轨迹。

着陆点的位置是x（t*），它们可以从预测的轨迹中提取。

相比于机器学习模型，这一数学模型的一个明显优势是，我们可以很轻易地解决更复杂的问题——例如不平坦的地面，或者从塔上发射炮弹（y（0）≠0）

3.直接求解

最后，两位科学家使用了积分来求解，事实证明问题并非如此困难。x和y的方程可以独立求解。通过求解每个方程（并应用初始条件）给出。

他们以x和y坐标作为时间的函数。什么时候射弹击中了地面呢？当y=0时！即：

求解t*=0（大炮射击之前），并求解t*=2vsinθg（当它击中地面时）。将第二个t*值插入到x的等式中，得到最终的行进距离，等于：

那么他们的最终预测模型就是

他们发现这与准线性方法吻合。实际上，准线性方法也给出了他们对引力常数的估计。

神经常微分方程方法-学习动力系统

最后，假设他们不知道物理模型，只有一个常微分方程系统

其中f1和f2是未知的（为简洁起见省略虚拟变量）。

NIPS最近发表的一篇论文（https://papers.nips.cc/paper/7892-neural-ordinary-differential-equations）提出了一种学习常微分系统的方法。简而言之，它通过用神经网络替换f1，f2并数值积分神经网络来获得轨迹来实现这一点。学习可以正常进行，因为数值积分方法具有明确定义的梯度。在他们的例子中，如果科学家可以随时间跟踪炮弹的位置，即数据（xi，yi，ti），那么他们原则上可以恢复物理模型并了解物体随着时间的推移而下降加速。这是一个令人兴奋的深度学习新应用，它开启了学习系统行为的可能性，而不是简单地学习它们的输出。

我们学到了什么？

我们生活在一个幸运的年代，可以通过数百种不同的方式解决一个简单的问题。此外，在上述“黑盒”方法中，我们也可以将神经网络换成其他模型，并用上其他的优化方法。这突出了机器学习在数学中的作用——它是我们用以理解世界和做出预测的许多强大工具之一。

数学家对数学模型是可解释的，是直观的，而深度学习模型正好相反。在我举的例子中，构建数学模型并用机器学习填补空白（比如估测引力常数）可以带来更好的准确性和更快的计算。

如果我们能够尽可能多地融入物理理论，并利用机器学习来填补我们的知识空白，那么我们就有机会解决更复杂的问题。通常机器学习用于参数拟合，但在混合模型中，我们也可以用它来预测更复杂系统中的函数组成部分。

我相信，随着理论和技术的进步，我们将在未来看到许多混合模型。因此，数学建模和机器学习建模也应当是“合作关系”，而非“竞争关系”。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数学模型

数学模型

+关注

关注
0

文章
83

浏览量
11925
机器学习

机器学习

+关注

关注
66

文章
8373

浏览量
132395

原文标题：机器学习会取代数学建模吗？让我们假设一个微积分落后但深度学习发达的文明社会……

文章出处：【微信号：smartman163，微信公众号：网易智能】欢迎添加关注！文章转载请注明出处。

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度学习

发表于 10-23 15:25 •353次阅读

AI大模型与传统机器学习的区别

AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍：一、模型规模与复杂度 AI大模型：通常包含数十亿甚至数万亿的参

发表于 10-23 15:01 •348次阅读

【「时间序列与机器学习」阅读体验】时间序列的信息提取

个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测任务。特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征，从而提高机器学习

发表于 08-17 21:12

【《大语言模型应用指南》阅读体验】+ 基础篇

今天开始学习《大语言模型应用指南》第一篇——基础篇，对于人工智能相关专业技术人员应该可以轻松加愉快的完成此篇阅读，但对于我还是有许多的知识点、专业术语比较陌生，需要网上搜索学习更多的资料才能理解书中

发表于 07-25 14:33

人工神经元模型的三要素是什么

人工神经元模型是人工智能和机器学习领域中非常重要的概念之一。它模仿了生物神经元的工作方式，通过数学和算法来实现对数据的处理和学习。一、人工

发表于 07-11 11:13 •659次阅读

Al大模型机器人

丰富的知识储备。它们可以涵盖各种领域的知识，并能够回答相关问题。灵活性与通用性: AI大模型机器人具有很强的灵活性和通用性，能够处理各种类型的任务和问题。持续学习和改进: 这些模型可以

发表于 07-05 08:52

三相SVPWM电压型逆变器的数学模型

通过前面得出的dq坐标系下的数学模型，进一步可以得到dq坐标系下的变压器模型。通过这种模型可以帮助我们更好的去理解dq坐标系下的数学模型。

发表于 04-06 04:27 •2495次阅读

机器学习怎么进入人工智能

，人工智能已成为一个热门领域，涉及到多个行业和领域，例如语音识别、机器翻译、图像识别等。在编程中进行人工智能的关键是使用机器学习算法，这是一类基于样本数据和模型训练来进行预测和判断的

发表于 04-04 08:41 •252次阅读

谷歌推出AI框架，实现AI模型的自然语言学习

据了解，在此款“社交学习”框架中，“学生模型”可向多位已处理指定任务的“教师模型”请教各类应对方案，研究团队主要通过开展“垃圾短信检测”、“解决小学

发表于 03-11 11:36 •880次阅读

AI大模型落地学习机，大模型应用成学习机创新方向

技术的学习机，也被称为AI学习机。 AI 大模型落地学习机去年底，学而思就发布了学习机新品xPad2 Pro系列，该

发表于 02-23 01:19 •3784次阅读

万兴科技发布国内首个音视频多媒体大模型“天幕”

万兴科技近日正式发布了国内首个音视频多媒体大模型——万兴“天幕”，并宣布大模型研发中心将正式落户马栏山。

发表于 02-04 11:42 •1240次阅读

机器人运动学中的非完整约束与运动模型推导

机器人运动学中的运动学约束是指机器人在运动过程中受到的限制，包括位置、姿态、速度和加速度等因素。这些约束会对机器人的自由度产生影响，从而影响机器人的运动和控制。运动学约束通常用

发表于 01-18 16:45 •1641次阅读

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •907次阅读

LabVIEW的六轴工业机器人运动控制系统

。系统研究与算法开发：首先，项目围绕机器人的数学模型，特别是空间位姿描述和D-H模型展开研究。在此基础上，开发了机器人的运动学正反解算法，使用了雅克比-迭代法等先进技术。此外，还涉及

发表于 12-21 20:03

机器人的ROS模型建立

这个系列主要介绍机器人ROS模型的建立方法，ROS系统带来的好处之一就是：我们无需自己建立复杂的数学模型来描述自己的机器人几何尺寸、运动学和动力学等，只需要用它提供的

发表于 11-28 14:19 •573次阅读

搜索历史

机器学习已兴?数学模型将死?

评论

AI大模型与深度学习的关系

AI大模型与传统机器学习的区别

【「时间序列与机器学习」阅读体验】时间序列的信息提取

【《大语言模型应用指南》阅读体验】+ 基础篇

人工神经元模型的三要素是什么

Al大模型机器人

三相SVPWM电压型逆变器的数学模型

机器学习怎么进入人工智能

谷歌推出AI框架，实现AI模型的自然语言学习

AI大模型落地学习机，大模型应用成学习机创新方向

万兴科技发布国内首个音视频多媒体大模型“天幕”

机器人运动学中的非完整约束与运动模型推导

如何使用TensorFlow构建机器学习模型

LabVIEW的六轴工业机器人运动控制系统

机器人的ROS模型建立