机器学习的基本知识和算法 机器学习的基础算法

学习问题可以表述为使用有限数量的观察值来估计系统的输入、输出和参数之间的关联的过程(Cherkassky & Mulier 2007)。我们将样本生成器、问题系统和学习机(LM)区分开来,如图3所示。我们强调,学习机器的近似基本上是随机的,它们的学习过程可以总结为风险函数的最小化:

(1)

其中,数据x(输入)和y(输出)是来自概率分布p的样本,φ(x, y, w)定义了学习机的结构和参数w,损失函数L平衡了各种学习目标(如准确性、简单性、平滑性等)。我们强调,风险函数是由概率分布p(x, y)加权的,它也限制了学习机的预测能力。各种类型的学习算法可以分为三大类:有监督、无监督和半监督,如图1所示。这些区别表示了从专家那里获得的外部监督信息对学习机器可用的程度。

1.监督式学习

监督学习意味着学习机器可以获得正确的信息。在最简单和最常见的形式中,这意味着标记了训练数据,对应于LM的输出。最小化依赖于训练数据的代价函数,将确定LM的未知参数。在在这种背景下,监督学习可以追溯到几个世纪前高斯提出的回归和插值方法(Meijering 2002)。一个常用的损失函数是

(2)

替代损失函数可以反映学习机器上的不同约束,如稀疏性(Hastie et al. 2009;Brunton & Kutz 2019年)。近似函数的选择反映了对数据的先验知识,在线性和非线性方法之间的选择直接影响到与学习方法相关的计算成本。

机器学习的基本知识和算法 机器学习的基础算法(1)

1.1。神经网络

神经网络可以说是监督学习中最著名的方法。它们是基本的非线性函数逼近器,近年来,人们致力于理解它们的有效性。万能逼近定理(Hornik et al. 1989)指出,任何函数都可以用一个足够大和深的网络逼近。最近的研究表明,稀疏连接的深度神经网络是广泛的函数和系统的信息论最佳非线性逼近器(B¨olcskei等人,2019)。

神经网络的力量和灵活性来自于它们的模块化结构,这种结构以神经元为核心构建元素,就像人脑中神经元的漫画。每个神经元接收一个输入,通过一个激活函数处理它,并产生一个输出。多个神经元可以组合成不同的结构,反映关于问题和数据类型的知识。前馈网络是最常见的结构之一,它们由多层神经元组成,其中一层的加权输出就是下一层的输入。NN体系结构有一个接收数据的输入层和一个产生预测的输出层。非线性优化方法,如反向传播(Rumelhart et al. 1986),被用来识别网络权值,以最小化预测和标记训练数据之间的误差。深度神经网络涉及多层次、多种类型的非线性激活函数。当激活函数用卷积核表示时,一种功能强大的网络出现了,即卷积神经网络(CNN),在图像和模式识别方面取得了巨大的成功(Krizhevsky et al. 2012;Goodfellow等人,2016)。

图4所示的循环神经网络(RNN)在流体力学中具有特殊的意义。它们对数据序列(例如,视频中的图像、时间序列等)进行操作,它们的权值通过时间反向传播(BPTT)获得。RNNs在自然语言处理和语音识别方面已经非常成功。他们的体系结构考虑了数据的固有顺序,从而增强了一些先驱性经典神经网络在信号处理中的应用(Rico-Martinez et al. 1992)然而,神经网络的有效性因其训练过程中出现的梯度递减或爆炸而受到阻碍。对rnn的重新关注在很大程度上归因于长短期记忆(LSTM)算法的发展(Hochreiter & Schmidhuber 1997),该算法部署细胞状态和门控机制来存储和忘记关于过去输入的信息,从而缓解了标准神经网络在梯度和长期信息传输方面存在的问题。为了有效地处理高维时空数据,提出了一种扩展结构,称为多维LSTM网络(MD-LSTM) (Graves et al. 2007)。近年来出现了许多RNNS的有力替代品;值得注意的是,回声状态网络已经成功地用于预测某些动力学系统(Pathak等人,2018年)。

1.2。分类:支持向量机和随机森林。

分类是一种有监督的学习任务,它可以从先验标注的训练数据中确定一组测量值的标签或类别。它可能是最古老的学习方法,从感知器开始(Rosenblatt 1958),它可以将两种线性可分数据分类。两种基本的分类算法是支持向量机(SVM) (Sch¨olkopf & Smola 2002)和随机森林(Breiman 2001),直到最近深度神经网络的进展,这两种算法已被广泛应用于多个学习任务。这个问题可以用损失函数来指定,它最简单地表示为两类:

(3)

在这里,学习机的输出是数据所属类的一个指示器。风险函数量化了错误分类的概率,任务是通过选择合适的φ(x, y, w)来最小化基于训练数据的风险。随机森林是基于一个决策树集合,该决策树使用简单的条件语句对数据进行分层分割;这些决策是可解释的,并且可以快速地进行大规模评估。在分类的背景下,SVM将数据映射到一个高维特征空间,在这个空间上可以进行线性分类。

2.无监督学习

这种学习任务意味着通过指定特定的全局标准从数据中提取特征,而不需要监督或结果的基本事实标签。这里涉及的问题类型包括降维、量化和聚类。通过无监督学习算法自动提取流量特征,可以为使用低阶模型进行流量建模和控制奠定基础。

2.1。降维I: POD, PCA和自动编码器。

从实验数据和大规模模拟中提取流动特征是流动建模的基础。此外,识别高维数据的低维表示可以作为监督学习算法中所有任务的预处理。维数降维也可以被视为“信息过滤瓶颈”,其中数据在映射回环境维之前通过较低维表示进行处理。经典的固有正交分解(POD)算法是-

机器学习的基本知识和算法 机器学习的基础算法(2)

PCA/POD(左)与浅层自动编码器(sAE,中),与深层自动编码器(dAE,右)。如果sAE中的节点激活函数是线性的,那么U和V就是最小化损失函数|ˆx−VUx|的矩阵。节点激活函数可能是非线性的,最大限度地降低损耗函数|x−ψ(ϕ(x))|。输入x∈RD被简化为z∈RM, M<<D.注意,PCA/POD需要解决特定问题的特征值方程,而神经元模块和可以扩展到非线性激活函数和多个节点和层(由Bishop和James(1993)改写)。符号:xn-第n个输入向量x¯-输入数据的均值S-均值减去数据的协方差矩阵 ui-特征向量λi-— 特征值 x — 输入向量 ^x — 自动编码器重建 φ(x) — 深度编码器 ψ(x) — 深度解码器 U — 线性编码器 V — 线性解码器 z — 潜在变量

在这一类别的学习中,我们将在第3节中详细讨论。POD,或者更广为人知的线性主成分分析(PCA),可以被表述为一个两层的神经网络(自动编码器),其线性加权输入有一个线性激活函数,可以通过随机梯度下降进行训练(见图5)。这种提法是神经网络方面的线性特征值/特征向量问题的算法替代方案,它通过在网络上增加更多的层和非线性激活函数,提供了通往非线性制度和深度学习的直接途径。无监督学习算法在流体力学界的应用有限,我们认为这是一个值得进一步探索的机会。近年来,机器学习界产生了许多自动编码器,当与流场的可能特征适当匹配时,可以为平稳和时间相关性数据的降阶建模带来重要启示

2.2。降维II:离散主曲线和自组织映射。

高维数据和低维表示之间的映射可以通过对低维空间的显式整形来构建,这可能反映了关于该子空间的先验知识。这些技术可以被视为线性自动编码器的扩展,其中编码器和解码器可以是非线性函数。然而,这种非线性可能会以失去编码器和解码器函数之间的逆关系为代价,这是线性PCA的优势之一。另一种方法是将解码器定义为编码器逆的近似,从而产生主曲线法。主曲线是在学习算法的编码过程中投影数据的结构。反过来,解码步骤通过在主曲线上添加例如一些平滑,相当于这个映射的逆的近似。这一过程的一个重要版本是Kohonen(1995)提出的自组织映射(SOM)。在SOMs中,投影子空间被描述成一个有限的值集,该值集具有特定的连通结构和距离度量。编码器步骤相当于为每个数据点识别SOM上最近的节点,解码器步骤是加权回归估计,例如使用核函数,利用映射节点之间的指定距离度量。这个修改节点集中,过程可以迭代,直到自动编码器的经验风险被最小化。SOM的能力可以通过比较它与线性主成分分析的二维点集的例子。线性PCA将提供一个近似的最小二乘直线之间的点,而SOM将映射到曲线上的点,更好地逼近数据。我们注意到,SOMs可以扩展到浮点数据之外的领域,并且它们提供了一种基于流场特征创建数据库的有趣方式。

2.3。聚类和矢量量化。

聚类是一种无监督学习技术,可以识别数据中的相似组。最常见的算法是k均值聚类,将数据分成k个簇;观察结果属于质心最近的集群,从而将数据空间划分为Voronoi单元。

矢量量化器识别数据的代表点,这些数据可以被划分为预定数量的集群。这些点可以用来代替完整的数据集,以便将来的样本可以用它们来近似。矢量量化器φ(x, w)提供数据x和集群中心坐标之间的映射。损失函数通常是来自聚类中心的数据的平方失真,为了识别量化器的参数,必须将其最小化:

(4)

我们注意到矢量量化是一种数据简化方法,不一定用于降维。在后者中,学习问题寻求在高维数据中识别低维特征,而量化相当于找到数据的代表性聚类。矢量量化也必须与聚类区分开来,因为前者所需中心的数量是先验确定的,而聚类的目的是在数据中识别有意义的分组。当这些分组用一些原型表示时,聚类和量化具有很强的相似性。

3。半监督学习

半监督学习算法在部分监督下运行,要么使用有限的标注训练数据,要么使用来自环境的其他纠正信息。这一类的两种算法是生成式对抗网络(GAN)和强化学习(RL)。在这两种情况下,学习机器都是通过下面讨论的类似游戏的过程(自我)训练的。

3.1。生成式对抗网络(GAN)。

GANs是产生生成模型的学习算法,即根据概率分布产生数据的模型,该模型模拟用于其训练的数据。学习机由两个网络组成,它们在零和博弈中相互竞争(Goodfellow et al. 2014)。生成网络生成候选数据示例,由判别网络或评论网络进行评估,以优化某个任务。生成式(G)网络的训练目标是合成新的数据示例,以欺骗判别性网络将其误分类为真正的数据分布。这些网络的权重(N)是通过一个过程获得的,这个过程受到博弈论的启发,称为对抗学习(a)。GAN训练过程的最终目标是识别生成模型,生成反映底层系统的输出。提供标记数据所最小化的函数是两个分布之间的Kullback-Leibler散度。在随后的“博弈”中,鉴别器的目标是最大化它区分真实数据和生成器生成的数据的概率,而生成器的目标是最小化相同的概率。因为生成和判别网络本质上是自我训练的,在初始化带有标记的训练数据后,这个过程通常被称为自我监督。这种自我训练过程增加了GANs的吸引力,但与此同时,人们必须谨慎,是否能够在上述游戏中达到平衡。与其他训练算法一样,大量的数据有助于这个过程,但目前还不能保证收敛性。

3.2。强化学习。

强化学习(RL)是解决问题的数学框架(Sutton & Barto 2018),它暗示了代理(agent)与其环境的目标导向交互。在RL中,代理具有一系列动作并感知状态。与监督学习不同的是,代理没有关于正确行为的标记信息,而是从自己的经验中学习,这种形式的奖励可能是不频繁的和局部的;因此,这被称为半监督学习。此外,代理不仅关注发现其行为或环境中的模式,还关注其长期回报的最大化。强化学习与动态规划密切相关(Bellman 1952),因为它也将与环境的交互建模为一个马尔可夫决策过程。与动态规划不同,RL不需要动态模型,比如Markov转移模型,而是通过反复试验和错误与环境进行重复交互。我们相信,正是这种近似使得它非常适合于流体动力学中的复杂问题。RL的两个核心元素是代理的策略,a = π(s)映射到系统的状态s和最优行动a之间,以及值函数V (s),表示达到状态s以最大化agent的长期回报的效用。

游戏是体现RL优势和局限性的关键应用之一。RL早期的成功之一是Tesauro的双陆棋学习者(1992)。这个程序一开始是白手起家的新手,经过数百万次与自己对弈的训练,最终赢得了电脑西洋双陆棋奥林匹克竞赛的冠军,并最终可以与世界上三个最优秀的人类棋手相媲美。近年来,高性能计算和深层神经网络架构的进步产生了代理能够执行以上的人类表演视频游戏和战略游戏比西洋双陆棋要复杂得多,比如围棋(Mnih et al . 2015年)和AI健身房(Mnih et al . 2015;Silver等人,2016)。需要强调的是,RL需要大量的计算资源,因为需要适当地考虑agent和环境的交互作用。这一成本对于游戏来说可能微不足道,但在实验和流动模拟中却非常昂贵,因为这种情况正在迅速改变(Verma等人2018)。

RL面临的一个核心挑战是长期信用分配(LTCA)问题,特别是当奖励很少或时间上非常延迟时(例如,考虑栖息的鸟或机器人的情况)。LTCA指的是从一长串状态和行动中推断出个体决策和奖励之间的因果关系。通过将最初奖励较少的目标与奖励较多的子目标相结合,许多工作都在解决这些问题(Schaul et al. 2015)。一个相关的问题是对过去经验的适当记载Novati等人(2019)。

4。随机优化:一个学习算法的视角

优化是学习的一个固有部分,因为风险函数被最小化,以识别学习机的参数。然而,在这篇综述中,我们还想强调一个环节:优化(和搜索)算法可以被置于学习算法的环境中,更具体地说,它是学习最大化某个目标的设计点的概率分布的过程。这种联系由Rechenberg(1973)首创;Schwefel(1977)提出了进化策略(Evolution Strategies, ES),并根据实验的成功率调整了搜索空间的方差。这一过程也让人想起了选择和变异操作,它们是遗传算法(GA) (Holland 1975)和遗传规划(Koza 1992)的关键组成部分。ES和GAs算法可以看作是梯度搜索策略和拉丁超立方或蒙特卡罗采样方法的混合,梯度搜索策略可以有效地向最小方向下坡,拉丁超立方或蒙特卡罗采样方法可以最大限度地探索搜索空间。遗传编程是在20世纪80年代末由约翰·霍兰德的博士生j·r·科扎发明的。遗传规划广义参数优化到函数优化,最初编码为操作树(Koza 1992)。这些算法的一个关键方面是,它们依赖于基于目标函数的数据值的概率分布的迭代构造。这种迭代构造可能很长,而且实际上不可能用于计算代价昂贵的目标函数的问题。

在过去的二十年里,ES和GAs开始收敛到分布估计算法(EDAs)的框架中。CMA-ES算法(Ostermeier et al. 1994;Hansen et al. 2003)是进化策略使用高斯概率分布的协方差矩阵的自适应估计来指导搜索最优参数的一个突出例子。利用每次迭代中的最佳点迭代地调整这个协方差矩阵。CMA-ES与许多其他算法密切相关,包括混合贝叶斯优化算法(MBOAs) (Pelikan et al. 2004),读者可以参考Kern et al.(2004)进行比较综述。近年来,这一领域的工作已经发展成为更广义的信息几何优化(IGO)框架(Ollivier等人,2017年)。IGO算法允许概率分布族,其参数是在优化过程中学习的,并保持代价函数不变性作为主要的设计原则。所得到的算法不假设要优化的目标函数,其流量相当于随机梯度下降。这些技术已被证明在一些简化的基准问题上是有效的;然而,它们的规模仍不清楚,而且很难保证成本函数景观的收敛,比如在复杂的流体动力学问题中遇到的那些。我们还注意到,人们有兴趣部署这些方法,以最小化与经典机器学习任务相关的成本函数(saliman等人,2017年)。

5。贝叶斯推理,高斯过程

有许多学习算法,这篇综述没有涉及,但需要特别注意的流体力学社区。首先,我们要提到贝叶斯推理,从概率框架中的数据通知模型结构及其参数。贝叶斯推理是不确定性量化的基础,它从根本上也是一种学习方法,因为数据是用来适应模型估计的。另一种观点在贝叶斯框架中使用机器学习算法(Theodoridis 2015;理发师2012)。上述优化算法也提供了这两个视图之间的联系。优化算法旨在以随机方式为给定数据提供模型的最佳参数,而贝叶斯推理旨在提供模型参数的全概率分布。有人可能会说,贝叶斯推理是一种比机器学习更强大的语言,因为它提供了所有参数的概率分布,从而实现了稳健的预测,而不是像经典机器学习算法那样通常只有一个值。然而,贝叶斯推理的一个关键缺点是其计算成本,因为它涉及到高维空间的采样和集成,这可能阻碍昂贵的功能评估(如风洞实验或大规模DNS)。同样,我们必须提到高斯过程(GaP),它类似于基于核的回归方法。然而,gap会根据可用的数据自适应地开发这些内核。它们还提供了各自模型参数的概率分布。gap被广泛应用于与时间相关的问题,它们可能被认为是rnn和回声状态网络的竞争对手,尽管成本更高。最后,我们注意到使用gap作为昂贵成本的替代品.

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页