《中国舰船研究》—基于深度强化学习的智能船舶航迹跟踪控制

基于深度强化学习的智能船舶航迹跟踪控制

人工智能技术与咨询昨天

本文来自《中国舰船研究》，作者祝亢等

关注微信公众号：人工智能技术与咨询。了解更多咨询！

0. 引　言

目前，国内外对运载工具的研究正朝着智能化、无人化方向发展，智能船舶技术受到全球造船界与航运界的广泛关注。其以实现船舶航行环境的智能化、自主化发展为目标，深度融合传统船舶设计与制造技术以及现代信息通信与人工智能技术，包含智能航行、智能船用设备、智能船舶测试等多方面的研究[1]。其中，智能航行技术一直是保障船舶顺利完成货物运输、通信救助等任务的重要基础。要使船舶在面对多种复杂水域干扰的情况下也能遵守正常的通航秩序，安全地执行任务且保证完成效果，采取有效的控制手段精确进行航迹跟踪就显得尤为重要。

针对航迹跟踪的研究任务可以分为制导和控制2个方面。在制导方面，常由视线（line-of-sight，LOS）算法将路径跟踪问题转换为方便处理的动态误差控制问题；在控制方面，基于船舶的复杂非线性系统，常考虑使用PID等无模型控制方法，或采用模型线性化的方法来解决非线性模型在计算速率方面存在的问题。但对于复杂的环境，传统PID控制器不仅参数复杂，还不具备自适应学习能力。而最优控制、反馈线性化一类的控制算法通常需要建立精确的模型才能获得较高的控制精度。滑模控制虽然对模型精度要求不高，但其抖振问题难以消除[2]。即使存在一些自适应参数调节方法，如通过估计系统输出实现PID参数自整定的自适应PID控制方法，也会由于模型的不确定性和外界扰动，存在系统输出与真实输出的偏差[3]，又或者存在参数寻优时间过长的问题而影响控制的实时性。对于与模糊逻辑相结合的响应速度快、实时性好的PID自适应控制器[4]，其控制精度依赖于复杂的模糊规则库，致使整体计算复杂。

考虑到船舶的复杂非线性系统模型，和保障航迹跟踪控制的实时性时产生的大量参数整定和复杂计算等问题，本文将采用深度强化学习算法来研究智能船舶的轨迹跟踪问题。深度强化学习（deep reinforcement learning，DRL）是深度学习与强化学习的结合，其通过强化学习与环境探索得到优化的目标，而深度学习则给出运行的机制用于表征问题和解决问题。深度强化学习算法不依赖动力学模型和环境模型，不需要进行大量的算法计算，还具备自学习能力。Magalhães等[5]基于强化学习算法，使用Q-learning设计了一种监督开关器并应用到了无人水面艇，它能智能地切换控制器从而使无人艇的行驶状态符合多种环境与机动要求。2015年，Mnih等[6]为解决复杂强化学习的稳定性问题，将强化学习与深度神经网络相结合，提出了深度Q学习（deep Q network，DQN）算法，该算法的提出代表了深度强化学习时代的到来。之后，在欠驱动无人驾驶船舶的航行避碰中也进行了相关应用[7]。

面对存在的大量参数整定、复杂算法计算等问题，为实现船舶航迹跟踪的精准控制，本文拟设计一种基于深度确定性策略梯度算法（deep deterministic policy gradient，DDPG）的深度强化学习航迹跟踪控制器，在LOS算法制导的基础上，对船舶航向进行控制以达到航迹跟踪效果。然后，根据实际船舶的操纵特性以及控制要求，将船舶路径跟踪问题建模成马尔可夫决策过程，设计相应的状态空间、动作空间与奖励函数，并采用离线学习方法对控制器进行学习训练。最后，通过仿真实验验证深度强化学习航迹控制器算法的有效性，并与BP-PID控制器算法的控制效果进行对比分析。

1. 智能船舶航迹跟踪控制系统总体设计

1.1 LOS算法制导

航迹跟踪控制系统包括制导和控制2个部分，其中制导部分一般是根据航迹信息和船舶当前状态确定所需的设定航向角值来进行工作。本文使用的LOS算法已被广泛运用于路径控制。LOS算法可以在模型参数不确定的情况下，以及在复杂的操纵环境中与控制器结合，从而实现对模型的跟踪控制。视线法的导航原理是基于可变的半径与路径点附近生成的最小圆来产生期望航向，即LOS角。经过适当的控制，使当前船舶的航向与LOS角一致，即能达到航迹跟踪的效果[8]。

LOS算法示意图如图1所示。假设当前跟踪路径点为Pk+1(xk+1,yk+1)Pk+1(xk+1,yk+1)，上一路径点为Pk(xk,yk)Pk(xk,yk)，以船舶所在位置Ps(xs,ys)Ps(xs,ys)为圆心，选择半径RLosRLos与路径PkPk+1PkPk+1相交，选取与Pk+1Pk+1相近的点PLos(xLos,yLos)PLos(xLos,yLos)作为LOS点，当前船舶坐标到LOS点的方向矢量与x0x0的夹角ψLosψLos则为需要跟踪的LOS角。图中：dd为当前船舶至跟踪路径的最短距离；ψψ为当前航向角。

其中，半径RLosRLos的计算公式如式（1）和式（2）所示，为避免RminRmin的计算出现零值，在最终的计算中加入了2倍的船长LppLpp来进行处理[9]。

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪a(t)=(x(t)−xk)2+(y(t)−yk)2−−−−−−−−−−−−−−−−−−−−−√b(t)=(xk+1−x(t))2+(y(t)−yk+1)2−−−−−−−−−−−−−−−−−−−−−−−−√c(t)=(xk+1−xk)2+（yk+1−yk)2−−−−−−−−−−−−−−−−−−−−−−√Rmin(t)=a(t)2−(c(t)2−b(t)2+a(t)22c(t))2−−−−−−−−−−−−−−−−−−−−−−−−−−⎷{a(t)=(x(t)−xk)2+(y(t)−yk)2b(t)=(xk+1−x(t))2+(y(t)−yk+1)2c(t)=(xk+1−xk)2+（yk+1−yk)2Rmin(t)=a(t)2−(c(t)2−b(t)2+a(t)22c(t))2

(1)

RLos=Rmin(t)+2LppRLos=Rmin(t)+2Lpp

(2)

式中，所计算的RminRmin即为当前时刻t的航迹误差ε，也即图1中的dd。

图 1 LOS导航原理图

Figure 1. Schematic diagram of LOS algorithm

船舶在沿着路径进行跟踪时，若进入下一个航向点的一定范围内，即以Pk+2(xk+2,yk+2)Pk+2(xk+2,yk+2)为圆心、RACRAC为半径的接受圆内，则更新当前航向点为下一航向点，半径RACRAC一般选取为2倍船长。

1.2 基于强化学习的控制过程设计

强化学习（reinforcement learning，RL）与深度学习同属机器学习范畴，是机器学习的一个重要分支，主要用来解决连续决策的问题，是马尔可夫决策过程（Markov decision processes，MDP）问题[10]的一类重要解决方法。

此类问题均可模型化为MDP问题，简单表示为四元组。其中，SS为所有状态值的集合，即状态空间；AA为动作值集合的动作空间；PP为状态转移概率矩阵，即在tt时刻状态为St=sSt=s的情况下选择动作值为At=aAt=a，则t+1t+1时刻产生状态为s1s1的概率Pass1=P[St+1=s1|St=s,At=a]Pss1a=P[St+1=s1|St=s,At=a]；R=r(s,a)R=r(s,a)为回报奖励函数，用于评价在ss状态下选取动作值aa的好坏。航迹跟踪控制系统中的控制部分用MDP模型表示如图2所示。,a,p,r>,a,p,r>

图 2 船舶控制的MDP模型

Figure 2. MDP model of ship control

如图2所示，船舶智能体直接与当前控制环境进行交互而且不需要提前获取任何信息。在训练过程中，船舶采取动作值atat与环境进行交互更新自己的状态st→st+1st→st+1，并获得相应的奖励rt+1rt+1，之后，继续采取下一动作与环境交互。在此过程中，会产生大量的数据，利用这些数据学习优化自身选择动作的策略policyππ。简单而言，这是一个循环迭代的过程。在强化学习中，训练的目标是找到一个最佳的控制策略 policyπ∗π∗，以使累积回报值RtRt达到最大[11]。在下面的公式中，γγ为折扣系数，用来衡量未来回报在当前时期的价值比例，设定γ∈[0,1]γ∈[0,1]。

Rt=rt+γrt+1+γ2rt+2+⋯=∑k=1∞γkrt+k+1Rt=rt+γrt+1+γ2rt+2+⋯=∑k=1∞γkrt+k+1

(3)

Policy ππ可以使用2种值函数进行评估：状态值函数Vπ(st)Vπ(st)和动作值函数Qπ(st,at)Qπ(st,at)。其中Vπ(st)Vπ(st)为在遵循当前策略的状态下对累积回报值的期望，EE为期望值；类似地，Qπ(st,at)Qπ(st,at)表示基于特定状态和动作情况(st,at)(st,at)下对累积回报值的期望。

Vπ(st)=Eπ[Rt|st]=Eπ[∑k=1∞γkrt+k+1|st]Vπ(st)=Eπ[Rt|st]=Eπ[∑k=1∞γkrt+k+1|st]

(4)

Qπ(st,at)=Eπ[Rt|st,at]=Eπ[∑k=1∞γkrt+k+1|st,at]Qπ(st,at)=Eπ[Rt|st,at]=Eπ[∑k=1∞γkrt+k+1|st,at]

(5)

根据值函数和上述最佳控制策略policy π∗π∗的定义，最佳policy π∗π∗总是满足以下条件：

π∗=argmaxVπ(st)=argmaxQπ(st,at)π∗=argmaxVπ(st)=argmaxQπ(st,at)

(6)

1.3 航迹跟踪问题马尔可夫建模

从以上描述可以看出，在基于强化学习的控制设计中，马尔可夫建模过程的组件设计是最为关键的过程，状态空间、动作空间和奖励的正确性对算法性能和收敛速度的影响很大。所以针对智能船舶的轨迹跟踪问题，对其进行马尔可夫建模设计。

1）状态空间设计。

根据制导采用的LOS算法，要求当前航向角根据LOS角进行调节以达到跟踪效果。所以在选取状态时，需考虑LOS算法中的输出参数，包括目标航向ψLOSψLOS与实际航向ψψ的差值ee、航迹误差ε，以及与航迹点距离误差εdεd。

对于船舶模型，每个时刻都可以获得当前船舶的纵荡速度uu、横荡速度vv、艏转向速度rr和舵角δδ。为使强化学习能实现高精度跟踪效果，快速适应多种环境的变换，除了选取当前时刻的状态值外，还加入了上一时刻的状态值进行比较，以及当前航向误差与上一时刻航向误差的差值e(k−1)e(k−1)，使当前状态能够更好地表示船舶是否在往误差变小的方向运行。最终，当前时刻t的状态空间可设计为

st=[et,εt,εdt,ut,vt,rt,δt,e(k−1)t,et−1,εt−1,εdt−1,ut−1,vt−1,rt−1,δt−1]st=[et,εt,εtd,ut,vt,rt,δt,e(k−1)t,et−1,εt−1,εt−1d,ut−1,vt−1,rt−1,δt−1]

(7)

2）动作空间设计。

针对航迹跟踪任务特点，以及LOS制导算法的原理，本文将重点研究对船舶航向，即舵角的控制，不考虑对船速与桨速的控制。动作空间只有舵令一个动作值，即δδ，其值的选取需要根据实际船舶的控制要求进行约束，设定为在(−35∘,35∘)(−35∘,35∘)以内，最大舵速为15.8 (°)/s。

3）奖励函数设计。

本文期望航向角越靠近LOS角奖励值越高，与目标航迹的误差越小奖励值越高。因此，设计的奖励函数为普遍形式，即分段函数：

rt={0,−|e|−0.1|e(k−1)|−0.01|ε|,if|e|⩽0.1radif|e|>0.1radrt={0,if|e|⩽0.1rad−|e|−0.1|e(k−1)|−0.01|ε|,if|e|>0.1rad

(8)

式中，e(k−1)e(k−1)为当前航向误差与上一时刻航向误差的差值。当差值大于0.1rad0.1rad时选择负值奖励，也可称之为惩罚值，是希望训练网络能尽快改变当前不佳的状态。将负值的选取与另一分段的00奖励值做明显对比，使其训练学习后可以更加快速地选择奖励值高的动作，从而达到最优效果。

1.4 控制系统总体方案

基于强化学习的智能船舶航迹控制系统总体框架如图3所示。LOS算法根据船舶当前位置计算得到需要的航向以及航迹误差，在与船舶的状态信息整合成上述所示状态向量stst后输入进航迹控制器中，然后根据强化学习算法输出当前最优动作值atat给船舶执行，同时通过奖励函数rtrt计算获得相应的奖励来进行自身参数迭代，以使航迹控制器具备自学习能力。

图 3 基于强化学习的智能船舶轨迹跟踪控制框图

Figure 3. Block diagram of intelligent ship tracking control based on RL

在将控制器投入实时控制之前，首先需要对控制器进行离线训练。设定规定次数的训练后，将获得的使累计回报值达到最大的网络参数进行存储整合，由此得到强化学习控制器，并应用于航迹跟踪的实时控制系统。

要解决强化学习问题，目前有许多的算法、机制和网络结构可供选择，但这些方法都缺少可扩展的能力，并且仅限于处理低维问题。为此，Mnih等[6]提出了一种可在强化学习问题中使用大规模神经网络的训练方法——DQN算法，该算法成功结合了深度学习与强化学习，使强化学习也可以扩展处理一些高维状态、动作空间下的决策问题[12]。DQN算法可解决因强化学习过程与神经网络逼近器对值函数逼近的训练相互干扰，而导致学习结果不稳定甚至是产生分歧的问题[13]，是深度强化学习领域的开创者。

DQN算法显著提高了复杂强化学习问题的稳定性和性能，但因其使用的是离散的动作空间，故需要对输出的动作进行离散化，且只能从有限的动作值中选择最佳动作。对于船舶的轨迹跟踪问题，如果候选动作数量太少，就很难对智能体进行精确控制。为使算法满足船舶的操纵特性与要求，本文选择了一种适用于连续动作空间的深度强化学习算法，即基于DDPG的算法[14]来对智能船舶航迹跟踪控制器进行设计，该算法不仅可以在连续动作空间上进行操作，还可以高效精准地处理大量数据。

2. 基于DDPG算法的控制器设计

2.1 DDPG算法原理

DDPG是Lillicrap等[14]将DQN算法应用于连续动作中而提出的一种基于确定性策略梯度的Actor-Critic框架无模型算法。DDPG的基本框架如图4所示。

图 4 DDPG基本框架

Figure 4. Block diagram of DDPG

网络整体采用了Actor-Critic形式，同时具备基于值函数的神经网络和基于策略梯度的神经网络：Actor网络的θπθπ表示确定性策略函数a=π(s|θπ)a=π(s|θπ)，Critic网络的θQθQ表示值函数Q(s,a|θQ)Q(s,a|θQ)。并且DDPG还借鉴了DQN技术，其通过采取经验池回放机制(experience replay)以及单独的目标网络来消除大规模神经网络带来的不稳定性。

所谓经验池回放机制，即在每个时间点都存储当前状态、动作等信息作为智能体的经验et=(st,at,rt,st+1)et=(st,at,rt,st+1)，以此形成回放记忆序列D={e1,⋯,eN}D={e1,⋯,eN}。在训练网络时，从中随机提取mini batch数量的经验数据作为训练样本，但重复使用历史数据的操作会增加数据的使用率，也打乱了原始数据的顺序，会降低数据之间的关联性。而目标网络则建立了2个结构一样的神经网络——用于更新神经网络参数的主网络和用于产生优化目标值的目标网络，初始时，将主网络参数赋予给目标网络，然后主网络参数不断更新，目标网络不变，经过一段时间后，再将主网络的参数赋予给目标网络。此循环操作可使优化目标值在一段时间内稳定不变，从而使得算法性能更加稳定。

在训练过程中，主网络中的Actor网络根据从经验池中随机选取的样本状态ss，经过当前策略函数a=π(s|θπ)a=π(s|θπ)选择出最优的动作值aa交予船舶智能体，让其与环境交互后得到下一时刻的状态值s′s′。而此时的Critic网络则接受当前的状态ss和动作值aa，使用值函数Q(s,a|θQ)Q(s,a|θQ)评价当前状态的期望累计奖赏，并用于更新Actor网络的参数。在目标网络中，整体接收下一时刻的状态s′s′，经目标Actor网络选出动作后交予目标Critic获得目标期望值Q′(a′)Q′(a′)，然后，再通过计算损失函数对主网络的Critic网络参数进行更新。对于主网络的Actor网络参数更新，Silver等[15]证实，确定性策略的目标函数J(θπ)J(θπ)采用ππ策略的梯度与Q函数采用ππ策略的期望梯度是等价的：

∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂θπ]∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂θπ]

(9)

根据确定性策略a=π(s|θπ)a=π(s|θπ)，得到Actor网络的梯度为：

∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂a∂π(s|θπ)∂θπ]∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂a∂π(s|θπ)∂θπ]

(10)

∇θπJ≈1N∑i(∇aQ(s,a|θπ)|s=si,a=π(si)⋅∇θππ(s|θπ)|s=si)∇θπJ≈1N∑i(∇aQ(s,a|θπ)|s=si,a=π(si)⋅∇θππ(s|θπ)|s=si)

(11)

另一方面，对于Critic网络中的价值梯度：

∂L(θQ)∂θQ=Es,a,r,s′∼D[(TargetQ−Q(s,a|θQ))∂Q(s,a|θQ)∂θQ]∂L(θQ)∂θQ=Es,a,r,s′∼D[(TargetQ−Q(s,a|θQ))∂Q(s,a|θQ)∂θQ]

(12)

TargetQ=r+γQ′(s′,π(s′|θπ′)|θQ′)TargetQ=r+γQ′(s′,π(s′|θπ′)|θQ′)

(13)

式中，θπ′θπ′和θQ′θQ′分别为目标策略网络和目标值函数网络的网络参数。其中，目标网络的更新方法与DQN算法中的不同，在DDPG算法中，Actor-Critic网络各自的目标网络参数是通过缓慢的变换方式更新，也叫软更新。以此方式进一步增加学习过程的稳定性：

θQ′=τθQ+(1−τ)θQ′θQ′=τθQ+(1−τ)θQ′

(14)

θπ′=τθπ+(1−τ)θπ′θπ′=τθπ+(1−τ)θπ′

(15)

式中，ττ为学习率。

定义最小化损失函数来更新Critic网络参数，其中，yiyi为当前时刻状态动作估计值函数与目标网络得到的目标期望值间的误差：

L=1N∑i(yi−Q(si,ai|θQ))2L=1N∑i(yi−Q(si,ai|θQ))2

(16)

2.2 算法实现步骤

初始化Actor-Critic网络的参数，将当前网络的参数赋予对应的目标网络；设置经验池容量为30 000个，软更新学习率为0.01，累计折扣系数设定为0.9，初始化经验池。训练的每回合步骤如下：

1）初始化船舶环境；

2）重复以下步骤直至到达设置的最大步长；

3）在主网络中，Actor网络获取此刻船舶的状态信息stst，并根据当前的策略选取动作舵令δtδt给船舶执行，即δt=π(st|θπ)δt=π(st|θπ)；

4）船舶执行当前舵令后输出奖励rtrt和下一个状态st+1st+1，Actor网络再次获取该状态信息并选取下一舵令δt+1δt+1；

5）将此过程中产生的数据(st,δt,rt,st+1)(st,δt,rt,st+1)存储在经验池中，以作为网络训练学习的数据集。当经验池存储满后，再从第1个位置循环存储；

6）从经验池中随机采样N个样本(st,δt,rt,st+1)(st,δt,rt,st+1)，作为当前Actor网络和Critic网络的训练数据；

7）通过损失函数更新Critic网络，根据Actor网络的策略梯度更新当前Actor网络，然后再对目标网络进行相应的软更新。

3. 系统仿真与算法对比分析

3.1 仿真环境构建

为验证上述方法的有效性，基于Python环境进行了船舶航迹跟踪仿真实现。控制研究对象模型选用文献[16-17]中的单桨单舵7 m KVLCC2船模，建模采用三自由度模型（即纵荡、横荡和艏摇），具体建模过程参考文献[16]。表1列出了船舶的一些主要参数。

表 1 KVLCC2船舶参数

Table 1. Parameters of a KVLCC2 tanker

参数	数值	参数	数值
船长Lpp/m	7	方形系数CbCb	0.809 8
船宽Bwl/m	1.168 8	浮心坐标/m	0.244 0
型深D/m	0.656 3	螺旋桨直径Dp/m	0.216 0
排水体积/m3	3.272 4	舵面积/m2	0.053 9

| 显示表格

在所选用的DDPG控制器中，Crtic网络和Actor网络的实现参数设置分别如表2和表3所示。

表 2 Critic网络参数

Table 2. Critic network parameters

参数	赋值
输入层	状态向量S(t)S(t)
第1个隐层	300
第1层激活函数	Relu
第2个隐层	200
第2层激活函数	Relu
输出层	动作δ(t)δ(t)
输出层激活函数	Tanh
参数初始化	Xavier初始化
学习率	0.000 1
优化器	Adam

表 3 Actor网络参数

Table 3. Actor network parameters

参数	赋值
输入层	状态向量S(t)S(t)，动作δ(t)δ(t)
第1个隐层	300
第1层激活函数	Relu
第2个隐层	200
第2层激活函数	Relu
输出层	Q(S(i),δ(i))Q(S(i),δ(i))
输出层激活函数	Linear
参数初始化	Xavier初始化
学习率	0.001
优化器	Adam

3.2 控制器离线学习

基于DDPG算法进行的离线训练学习设置如下：初始化网络参数以及经验缓存池，设计最大的训练回合为2 000，每回合最大步长为500，采样时间为1 s。在规划训练期间所需跟踪的航迹时，为使控制器适应多种环境，以及考虑到LOS制导算法中对于航向控制的要求，依据文献[18]中的设计思想，根据拐角的变换，设计了多条三航迹点航线，每回合训练时随机选取一条进行航迹跟踪。

训练时，将数据存入经验池中，然后再从中随机采样一组数据进行训练，状态值及动作值均进行归一化处理，当达到最大步长或最终航迹点输出完成时，便停止这一回合，并计算当前回合的总回报奖励。当训练进行到200，300和500回合时，其航向误差如图5所示。由图中可以看出，在训练时随着回合的增加，航向误差显著减小，控制算法不断收敛；当训练达到最大回合结束后，总奖励值是不断增加的。为使图像显示得更加清晰，截取了200~500回合的总回报奖励如图6所示。从中可以看出，在约270回合时算法基本收敛，展现了快速学习的过程。

图 5 航向误差曲线

Figure 5. Course error curves

图 6 总回报奖励曲线

Figure 6. Total reward curve

3.3 仿真实验设计及对比分析

上述训练完成后，DDPG控制器保存回报奖励函数最大的网络参数，并将其应用于航迹跟踪仿真。为了验证DDPG控制器的可行性，本文选用BP-PID控制器进行对比分析。

用于对比的BP-PID控制器选择使用输入层节点数为4、隐含层节点数为5、输出层节点数为3的BP神经网络对PID的3种参数进行选择，其中学习率为0.546，动量因子为0.79，并参考文献[19]，利用附加惯性项对神经网络进行优化。在相同的环境下，将DDPG控制器与BP-PID控制器进行仿真对比分析。仿真时，船舶的初始状态为从原点(0，0)出发，初始航向为45°，初始航速也即纵荡速度uu=1.179 m/s，螺旋桨初始速度rr=10.4 r/s。

仿真实验1：分别设计直线轨迹和锯齿状轨迹，用以观察2种控制器对直线的跟踪效果和面对剧烈转角变化时的跟踪效果（图7），轨迹点坐标分别为(0，50)，(400，50)和(0，0)，(100，250)，(200，0)，(300，250)，(400，0)，(500，250)，(600，0)，单位均为m。

图 7 航迹跟踪效果（实验1）

Figure 7. Tracking control result (experiment 1)

通过对2种类型轨迹跟踪的对比可以看出，对于直线轨迹，DDPG控制器能够更加快速地进行稳定跟踪，在锯齿状轨迹转角跟踪时其效果也明显优于BP-PID控制器。对仿真过程中航向角的均方根误差（图7（b））进行计算，显示BP-PID控制器的数值达61.017 8，而DDPG控制器的仅为10.018，后者具有更加优秀的控制性能。

仿真实验2：为模拟传统船舶的航行轨迹，设计轨迹点为(0，0)，(100，50)，(150，250)，(400，250)，(450，50)，(550，0)的航迹进行跟踪。跟踪效果曲线和航向均方根误差（RMSE）的对比分别如图8和表4所示。

图 8 航迹跟踪结果（实验2）

Figure 8. Tracking control result (experiment 2)

表 4 控制性能指标

Table 4. Control performance

控制器	RMSE
BP-PID控制器	13.585 0
DDPG控制器	6.911 96

在此次仿真过程中，进一步对比了2种控制器对于LOS角跟踪的效果以及舵角的变化频率，结果分别如图9和图10所示。PID经过BP神经网络参数整定后整体巡航时间约为1 000 s，而DDPG控制器的巡航时间则在此基础上缩短了4%；在转角处的航向跟踪中，DDPG控制器在20 s内达到期望值，而BP-PID的调节时间则约为60 s，且控制效果并不稳定，舵角振动频率高。由此可见，深度强化学习控制器可以很快地根据航迹变化做出调整，减少了不必要的控制环节，调节时间短，控制效果稳定，舵角变化频率小，具有良好的控制性能。

图 9 BP-PID控制器控制效果

Figure 9. Control result of BP-PID

图 10 DDPG控制器控制效果

Figure 10. Control result of DDPG

4. 结　语

本文针对船舶的航迹跟踪问题，提出了一种基于深度强化学习的航迹跟踪控制器设计思路。首先根据LOS算法制导，建立了航迹跟踪控制的马尔可夫模型，给出了基于DDPG控制器算法的程序实现；然后在Python环境中完成了船舶航迹跟踪控制系统仿真实验，并与BP-PID控制器进行了性能对比分析。

将航迹跟踪问题进行马尔可夫建模设计后，将控制器投入离线学习。通过对此过程的分析发现，DDPG控制器在训练中能快速收敛达到控制要求，证明了设计的状态、动作空间以及奖励函数的可行性。并且航迹跟踪仿真对比结果也显示，DDPG控制器能较快地应对航迹变化，控制效果稳定且舵角变化少，对于不同的轨迹要求适应性均相对良好。整体而言，基于深度强化学习的控制方法可以应用到船舶的航迹跟踪控制之中，在具有自适应稳定控制能力的情况下，不仅免去了复杂的控制计算，也保证了实时性，对船舶的智能控制具有一定的参考价值。

关注微信公众号：人工智能技术与咨询。了解更多咨询！

编辑：fqj

阅读全文

人工智能(229973) 人工智能(229973)
深度学习(119795) 深度学习(119795)

FPGA在深度学习应用中或将取代GPU

现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题在过去的十年里，人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅

2024-03-21 15:19:45

可以用车规级的SPC58的去做船舶的控制吗？

你好，可以用车规级的SPC58的去做船舶的控制吗？

2024-03-20 08:00:07

一文说清：机器学习与深度学习的联系与区别！

随着人工智能技术的不断发展，尤其是ChatGPT、Sora等AI应用引爆人工智能领域后，深度学习成为了备受关注的技术之一。那么，和深度学习有着千丝万缕关系的机器学习又是什么呢？这两者之间有什么联系

2024-03-14 17:02:55

137

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成功。深度学习的有效性并非偶然，而是植根于几个基本原则和进步

2024-03-09 08:26:27

船舶制造5G智能工厂数字孪生可视化平台，推进船舶行业数字化转型

船舶制造5G智能工厂数字孪生可视化平台，推进船舶行业数字化转型。随着数字化时代的到来，船舶行业正面临着前所未有的机遇与挑战。为了适应这一变革，船舶制造企业需要加快数字化转型的步伐，提高生产效率、降低成本并增强市场竞争力。5G智能工厂数字孪生可视化平台正是推进转型的关键技术之一。

2024-02-22 17:19:22

168

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用不同类型的神经网络来执行特定任务。什么是深度学习深度学习是机器学习领域的新研究方向，旨在使机器

2024-01-30 15:26:44

124

什么是深度学习？机器学习和深度学习的主要差异

2016年AlphaGo 击败韩国围棋冠军李世石，在媒体报道中，曾多次提及“深度学习”这个概念。

2024-01-15 10:31:30

401

详解深度学习、神经网络与卷积神经网络的应用

处理技术也可以通过深度学习来获得更优异的效果，比如去噪、超分辨率和跟踪算法等。为了跟上时代的步伐，必须对深度学习与神经网络技术有所学习和研究。本文将介绍深度学习技术、神经网络与卷积神经网络以及它们在相关领域中的应用。

2024-01-11 10:51:32

594

主流的深度学习模型有哪些？AI开发工程师必备！

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用不同类型的神经网络来执行特定任务。什么是深度学习？深度学习是机器学习领域的新研究方向，旨在使机器

2023-12-29 08:26:33

571

EVS深度学习智能相机OCR工具性能大揭秘

的准确性和速度有了更高的要求，还需要其具有强大的泛化能力及鲁棒性。阿丘科技EVS-SC200深度学习智能相机应运而生，针对此类工业应用场景潜心打磨，完美适应不同的字符

2023-12-16 08:24:50

488

深度学习在人工智能领域的经典应用

由于深度学习，图像识别和计算机视觉任务的性能得到了显着提高。由于在庞大的数据集上训练深度神经网络，计算机现在可以可靠地分类和理解图像，从而开辟了广泛的应用。智能手机应用程序可以从照片中快速确定

2023-12-15 16:50:49

163

焊缝跟踪未来：人工智能与机器学习的影响

，探索人工智能和机器学习对其积极影响。一、焊缝跟踪技术的现状目前，焊缝跟踪技术主要依赖于传统的传感器和控制系统，如电弧传感器、激光传感器、接触式传感器等。这些传感器可以检测出焊缝的位置和形状，然后控制系统会

2023-12-12 11:51:35

203

GPU在深度学习中的应用与优势

人工智能的飞速发展，深度学习作为其重要分支，正在推动着诸多领域的创新。在这个过程中，GPU扮演着不可或缺的角色。就像超级英雄电影中的主角一样，GPU在深度学习中拥有举足轻重的地位。那么，GPU在深度

2023-12-06 08:27:37

606

深度学习在人工智能中的 8 种常见应用

深度学习简介深度学习是人工智能（AI）的一个分支，它教神经网络学习和推理。近年来，它解决复杂问题并在各个领域提供尖端性能的能力引起了极大的兴趣和吸引力。深度学习算法通过允许机器处理和理解大量数据

2023-12-01 08:27:44

732

深度学习在植物病害目标检测研究进展

关注。中国农业科学院农业信息研究所/农业农村部农业大数据重点实验室联手甘肃农业大学机电工程学院，组成科研团队，针对深度学习在植物叶部病害检测与识别展开研究，植物病害目标检测是利用计算机视觉技术在复杂自然条件

2023-11-20 17:19:42

245

深度学习算法和传统机器视觉助力工业外观检测

在很多人眼里，深度学习是一个非常神奇的技术，是人工智能的未来，是机器学习的圣杯。今天深视创新带您一起揭开他神秘的面纱，了解什么才是深度学习。

2023-11-09 10:58:02

421

船舶电力系统断电预防控制的研究

电子发烧友网站提供《船舶电力系统断电预防控制的研究.pdf》资料免费下载

2023-11-08 10:44:30

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2023-10-30 11:36:40

1042

深度学习在语音识别中的应用及挑战

一、引言随着深度学习技术的快速发展，其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音识别的精度和效率，并且被广泛应用于各种应用场景。本文将探讨深度学习在语音识别中的应用及所面临

2023-10-10 18:14:53

444

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的学习模型：多层感知机、卷积神经网络等属于监督学习；深度置信网、自动编码器、去噪自动编码器、稀疏编码等属于无监督学习。

2023-10-09 10:23:42

301

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

2023-10-02 10:45:02

401

深井中的深度学习：MCU+AI，让“不可能”的田园机井智能抄表成为可能！

2023-09-21 17:41:27

509

一文详解机器学习和深度学习的区别

深度学习这几年特别火，就像5年前的大数据一样，不过深度学习其主要还是属于机器学习的范畴领域内，所以这篇文章里面我们来唠一唠机器学习和深度学习的算法流程区别。

2023-09-06 12:48:40

1174

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提高系统的性能

2023-09-04 14:26:36

294

机器学习和深度学习的区别

　　机器学习和深度学习是当今最流行的人工智能(AI)技术之一。这两种技术都有助于在不需要人类干预的情况下让计算机自主学习和改进预测模型。本文将探讨机器学习和深度学习的概念以及二者之间的区别。

2023-08-28 17:31:09

884

人工智能的关键技术包括哪些

机器学习是人工智能的一个重要分支，它通过计算的手段、学习经验（也可以说是利用经验）来改善系统的性能。它包括：有监督学习、无监督学习和强化学习。

2023-08-28 12:53:08

931

机器学习的研究现状和发展趋势机器学习的常见算法和优缺点

随着计算能力和大数据的崛起，机器学习算法正迎来快速发展的时期。在研究层面上，机器学习和深度学习是当前最主要的热点。在计算能力的推动下，机器学习算法取得了许多重大突破，如AlphaGo战胜人类棋手

2023-08-22 17:49:27

1653

深度学习和机器学习的定义和优缺点深度学习和机器学习的区别

　　深度学习和机器学习是机器学习领域中两个重要的概念，都是人工智能领域非常热门的技术。两者的关系十分密切，然而又存在一定的区别。下面从定义、优缺点和区别方面一一阐述。

2023-08-21 18:27:15

1633

基于传感器和深度学习神经网络的血压监测系统

这项研究开发了一款基于保形（conformal）柔性应变传感器阵列和深度学习神经网络的智能血压和心功能监测系统。该传感器具有高灵敏度、高线性度、快速响应与恢复、高各向同性等多种优点。

2023-08-20 09:53:20

554

OpenCV库在图像处理和深度学习中的应用

本文深入浅出地探讨了OpenCV库在图像处理和深度学习中的应用。从基本概念和操作，到复杂的图像变换和深度学习模型的使用，文章以详尽的代码和解释，带领大家步入OpenCV的实战世界。

2023-08-18 11:33:25

442

机器学习和深度学习的区别

机器学习和深度学习的区别随着人工智能技术的不断发展，机器学习和深度学习已经成为大家熟知的两个术语。虽然它们都属于人工智能技术的研究领域，但它们之间有很大的差异。本文将详细介绍机器学习和深度学习

2023-08-17 16:11:40

2715

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么随着人工智能的飞速发展，越来越多的人开始投身于深度学习领域。但是，随着深度学习的算法越来越复杂，需要更大的计算能力才能运行

2023-08-17 16:11:29

489

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器学习领域中的一个重要分支，多年来深度学习一直在各个领域的应用中发挥着极其重要的作用，成为了人工智能技术的重要组成部分。许多深度学习算法和框架提供

2023-08-17 16:11:26

637

深度学习cntk框架介绍

深度学习cntk框架介绍深度学习是最近几年来非常热门的话题，它正在彻底改变我们生活和工作的方式。随着越来越多的创新和发展，人工智能和机器学习的应用范围正在大大扩展。而对于深度学习这个领域来说

2023-08-17 16:11:23

881

深度学习框架连接技术

深度学习框架连接技术深度学习框架是一个能够帮助机器学习和人工智能开发人员轻松进行模型训练、优化及评估的软件库。深度学习框架连接技术则是需要使用深度学习模型的应用程序必不可少的技术，通过连接技术

2023-08-17 16:11:16

443

深度学习框架对照表

深度学习框架对照表随着人工智能技术的发展，深度学习正在成为当今最热门的研究领域之一。而深度学习框架作为执行深度学习算法的最重要的工具之一，也随着深度学习的发展而越来越成熟。本文将介绍一些常见

2023-08-17 16:11:13

456

深度学习算法mlp介绍

深度学习算法mlp介绍深度学习算法是人工智能领域的热门话题。在这个领域中，多层感知机（multilayer perceptron，MLP）模型是一种常见的神经网络结构。MLP通过多个层次的非线性

2023-08-17 16:11:11

2286

深度学习算法库框架学习

深度学习算法库框架学习深度学习是一种非常强大的机器学习方法，它可以用于许多不同的应用程序，例如计算机视觉、语言处理和自然语言处理。然而，实现深度学习技术需要使用一些算法库框架。在本文中，我们将探讨

2023-08-17 16:11:07

411

深度学习框架tensorflow介绍

深度学习框架tensorflow介绍深度学习框架TensorFlow简介深度学习框架TensorFlow由Google开发，是一个开放源代码的深度学习框架，可用于构建人工智能应用程序

2023-08-17 16:11:02

1277

深度学习框架的作用是什么

深度学习框架的作用是什么深度学习是一种计算机技术，它利用人工神经网络来模拟人类的学习过程。由于其高度的精确性和精度，深度学习已成为现代计算机科学领域的重要工具。然而，要在深度学习中实现高度复杂

2023-08-17 16:10:57

1070

深度学习框架是什么？深度学习框架有哪些？

高模型的精度和性能。随着人工智能和机器学习的迅猛发展，深度学习框架已成为了研究和开发人员们必备的工具之一。目前，市场上存在许多深度学习框架可供选择。本文将为您介绍一些较为常见的深度学习框架，并探究它们的特点

2023-08-17 16:03:09

1585

深度学习框架pytorch入门与实践

深度学习框架pytorch入门与实践深度学习是机器学习中的一个分支，它使用多层神经网络对大量数据进行学习，以实现人工智能的目标。在实现深度学习的过程中，选择一个适用的开发框架是非常关键

2023-08-17 16:03:06

1074

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑神经元的计算模型。深度学习是机器学习的一种变体，主要通过变换各种架构来对大量数据进行学习以及分类处理

2023-08-17 16:03:04

1299

深度学习算法工程师是做什么

深度学习算法工程师是做什么深度学习算法工程师是一种高级技术人才，是数据科学中创新的推动者，也是实现人工智能应用的重要人才。他们致力于开发和实现深度机器学习算法来解决各种现实问题，应用于各个领域

2023-08-17 16:03:01

723

深度学习是什么领域

深度学习是什么领域深度学习是机器学习的一种子集，由多层神经网络组成。它是一种自动学习技术，可以从数据中学习高层次的抽象模型，以进行推断和预测。深度学习广泛应用于计算机视觉、语音识别、自然语言处理

2023-08-17 16:02:59

984

深度学习算法简介深度学习算法是什么深度学习算法有哪些

。深度学习算法作为其中的重要组成部分，不仅可以为诸如人工智能、图像识别以及自然语言处理等领域提供支持，同时也受到了越来越多的关注和研究。在本文中，我们将着重介绍深度学习算法，包括其是什么和有哪些种类。一、什么是

2023-08-17 16:02:56

5989

深度学习的七种策略

深度学习的七种策略深度学习已经成为了人工智能领域的热门话题，它能够帮助人们更好地理解和处理自然语言、图形图像、语音等各种数据。然而，要想获得最好的效果，只是使用深度学习技术不够。要获得最好的结果

2023-08-17 16:02:53

1166

深度学习基本概念

深度学习基本概念深度学习是人工智能（AI）领域的一个重要分支，它模仿人类神经系统的工作方式，使用大量数据训练神经网络，从而实现自动化的模式识别和决策。在科技发展的今天，深度学习已经成为了计算机

2023-08-17 16:02:49

979

GA-ASI自主作战无人机生态系统介绍

基于深度强化学习的签名管理技能由GA-ASI开发。技能开发利用了GA-ASI新颖的强化学习（Reinforcement Learning，RL）架构，该架构使用了敏捷软件方法和行业标准工具（例如Docker和Kubernetes）。

2023-08-17 11:34:29

440

请问可以用车规级的SPC58去做船舶的控制吗？

可以用车规级的SPC58的去做船舶的控制吗？

2023-08-08 06:01:51

激光跟踪仪测量案例

中图仪器GTS激光跟踪测量仪系统已经发展出三自由度激光跟踪仪和六自由度激光跟踪仪家族系列，可以和多种形式的合作目标测头配合使用。在实践中可以为为航空航天、汽车制造、重型机械制造、重工与船舶、科学研究、能源等领域等行业提供可靠的技术保障。

2023-07-28 14:32:01

493

AI、机器学习和深度学习的区别及应用

深度学习和神经网络的区别在于隐藏层的深度。一般来说，神经网络的隐藏层要比实现深度学习的系统浅得多，而深度学习的在隐藏层可以有很多层。

2023-07-28 10:44:27

295

激光绝对跟踪仪

工程等应用领域显示出高测量精度和效率，激光跟踪仪已成为大尺寸精密测量的主要手段，在实践中可以为为航空航天、汽车制造、重型机械制造、重工与船舶、科学研究、能源等领域

2023-07-27 09:44:56

基于模型的自动驾驶汽车端到端深度强化学习概述

真实驾驶场景中，通过观察和互动，使智能驾驶汽车能够积累知识并应对不可预测的情况。我们将智驾汽车的这种对世界运作方式称为“常规认知”，它使智能汽车能够找到自己的方向。

2023-07-25 16:18:22

218

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（RL）智能

2023-07-24 16:55:02

295

什么是深度强化学习？深度强化学习在自动驾驶领域的应用

最近，人工智能领域最火的莫过于大模型了。

2023-07-24 10:37:41

1004

基于深度学习的点云分割的方法介绍

　　摘要：点云分割是点云数据理解中的一个关键技术，但传统算法无法进行实时语义分割。近年来深度学习被应用在点云分割上并取得了重要进展。综述了近四年来基于深度学习的点云分割的最新工作，按基本思想分为

2023-07-20 15:23:59

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

2023-07-19 14:35:02

强化学习 - 无模型设定(3)#人工智能

人工智能

未来加油dz发布于 2023-07-18 23:00:40

强化学习 - 无模型设定(2)#人工智能

人工智能

未来加油dz发布于 2023-07-18 23:00:17

强化学习 - 无模型设定(1)#人工智能

人工智能

未来加油dz发布于 2023-07-18 22:59:54

基于模型的强化学习(2)#人工智能

人工智能

未来加油dz发布于 2023-07-18 22:56:51

基于模型的强化学习(1)#人工智能

人工智能

未来加油dz发布于 2023-07-18 22:56:20

英特尔全新Gaudi2处理器面世中国市场，加速大规模深度学习训练与推理

，Gaudi2致力于以领先的性价比优势，加速AI训练及推理，为中国用户提供更高的深度学习性能和效率，从而成为大规模部署AI的更优解。英特尔于中国市场推出Gaudi2深度学习加速器 “ 英特尔致力于通过为客户提供广泛的硬件选择，并支持开放的软件环境，加速人工智能技术的发展

2023-07-14 20:10:02

346

特斯拉前AI总监Karpathy：我被自动驾驶分了心，AI智能体才是未来！

但是因为当时的技术所限，做出来的效果不好，于是他和OpenAI就改变了方向，开始做大语言模型了。最简单的例子就是，现在没有人再像2016年那样用强化学习的方法来研究AI智能体了。

2023-07-11 11:17:10

477

45. 5 2 强化学习（深度强化学习） #硬声创作季

机器学习

充八万发布于 2023-07-07 01:56:26

浅谈舰船交流电网绝缘监测及故障定位的研究及产品选型

定位绝缘故障支路，对保障舰船电力系统的安全及航行安全具有重要意义。关键词：交流电网；绝缘电阻；在线监测；定位 1引言舰船交流电网是船舶的大动脉，直接影响舰船的生命力及执行力。舰船环境条件较为恶劣，电网的绝缘

2023-07-06 09:01:07

201

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

2023-07-01 10:29:50

1000

深度解析可扩展且保密的深度学习

可扩展且保密的深度学习

2023-06-28 16:09:14

194

使用Raspberry Pi进行机器学习智能库存跟踪

电子发烧友网站提供《使用Raspberry Pi进行机器学习智能库存跟踪.zip》资料免费下载

2023-06-26 11:02:30

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

2023-06-20 09:27:28

利用强化学习来探索更优排序算法的AI系统

前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手

2023-06-19 10:49:27

357

深度Q学习网络：弥合从虚拟游戏到实际应用的差距

人工智能（AI）和机器学习（ML）对从医疗保健和金融到能源和运输的广泛行业产生了深远的影响。在各种人工智能技术中，强化学习（RL）——一种机器学习，代理通过与环境交互来学习做出决策——已成为

2023-06-15 09:45:34

200

激光三坐标跟踪仪

在大尺寸精密测量领域，激光跟踪仪具有测量范围大、精度高、功能多、可现场测量等优点，是大尺寸精密测量的主要手段，在实践中可以为为航空航天、汽车制造、重型机械制造、重工与船舶、科学研究、能源等领域等行业

2023-06-13 10:58:13

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

2023-06-12 11:25:22

1214

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

，可以节省至多 95% 的训练开销。深度强化学习模型的训练通常需要很高的计算成本，因此对深度强化学习模型进行稀疏化处理具有加快训练速度和拓展模型部署的巨大潜力。然而现有的生成小型模型的方法主要基于知识蒸馏，即通过迭

2023-06-11 21:40:02

356

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

2023-06-09 09:23:23

355

PyTorch教程5.5之深度学习中的泛化

电子发烧友网站提供《PyTorch教程5.5之深度学习中的泛化.pdf》资料免费下载

2023-06-05 15:31:23

深度学习研究之PEFT技术解析

，实现高效的迁移学习。因此，PEFT 技术可以在提高模型效果的同时，大大缩短模型训练时间和计算成本，让更多人能够参与到深度学习研究中来。

2023-06-02 12:41:45

449

MATLAB深度学习简介电子书

深度学习是机器学习的一个类型，该类型的模型直接从图像、文本或声音中学习执行分类任务。通常使用神经网络架构实现深度学习。“深度”一词是指网络中的层数 — 层数越多，网络越深。传统的神经网络只包含 2 层或 3 层，而深度网络可能有几百层。

2023-05-29 09:16:00

深度学习在家畜智慧养殖中研究应用进展

智慧养殖科研新进展，应用深度学习在家畜，推动畜牧养殖智能化随着互联网不断发展，很多行业都完成了从线下到线上的转型，而农业和畜牧业是国家政府尤其看重的行业，为了给牧民带来便利，智慧养殖开发应运而生

2023-05-25 15:43:02

311

为什么深度学习是非参数的？

今天我想要与大家分享的是深度神经网络的工作方式，以及深度神经与“传统”机器学习模型的不同之处。

2023-05-25 15:13:54

268

基于深度学习的散射成像研究进展

卷积神经网络（CNN）是一种用于对目标进行重建、分类等处理的深度学习方法。自2016年深度学习被首次应用于散射成像，该研究一直是光学成像领域的热门方向。

2023-05-24 09:51:21

166

基于多智能体深度强化学习的体系任务分配方法

为了应对在未来复杂的战场环境下，由于通信受限等原因导致的集中式决策模式难以实施的情况，提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法，该算法为各作战单元均设计一个独立的策略网络

2023-05-18 16:46:43

2444

基于深度学习的散射成像机理与应用

弹道光与散射光在散射成像中不同作用的发现解释了深度学习散射成像无法突破厚度限制的物理原因，对今后深度学习散射成像的应用研究具有指导意义。

2023-05-17 15:35:37

190

人工智能深度学习的框架简述

深度学习框架是用于开发和运行人工智能算法的平台，它为软件人员开发人工智能提供了模块化的基础，一般提供数据输人、编写神经网络模型、训练模型、硬件驱动和部署等多种功能。

2023-05-16 10:07:33

1315

计算机视觉深度学习训练推理框架

PyTorch是由Facebook人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库，也是目前使用范围和体验感最好的一款深度学习框架。

2023-05-08 14:20:58

773

深度学习中的图像分割

深度学习可以学习视觉输入的模式，以预测组成图像的对象类。用于图像处理的主要深度学习架构是卷积神经网络(CNN)，或者是特定的CNN框架，如AlexNet、VGG、Inception和ResNet。计算机视觉的深度学习模型通常在专门的图形处理单元(GPU)上训练和执行，以减少计算时间。

2023-05-05 11:35:28

720

2023年使用树莓派和替代品进行深度学习

此页面可帮助您在Raspberry Pi或Google Coral或Jetson Nano等替代品上构建深度学习模式。有关深度学习及其限制的更多一般信息，请参阅深度学习。

2023-05-05 09:47:09

1995

智造之眼丨深度学习应用

智造之眼®科学设计深度学习各应用流程，在尽量简化前期准备工作的基础上为客户提供稳定且准确的深度学习解决方案。

2023-05-04 16:55:52

424

从FPGA说起的深度学习：数据并行性

这是新的系列教程，在本教程中，我们将介绍使用 FPGA 实现深度学习的技术，深度学习是近年来人工智能领域的热门话题。

2023-05-04 11:22:36

651

悉尼大学最新综述：深度学习图像抠图

自深度学习出现之后，研究者设计出了多种多样的基于卷积神经网络的解决方案。和传统方法一样，早期的深度学习方法依然需要依赖一定量的人工辅助信息，例如三分图（trimap），涂抹（scribble），背景图像等等

2023-04-20 09:31:43

399

从FPGA说起的深度学习：任务并行性

这是新的系列教程，在本教程中，我们将介绍使用 FPGA 实现深度学习的技术，深度学习是近年来人工智能领域的热门话题。

2023-04-12 10:19:34

533

使用Isaac Gym 来强化学习mycobot 抓取任务

使用Isaac Gym来强化学习mycobot抓取任务

2023-04-11 14:57:12

5334

1101

深度学习研究和应用发展,人工智能/机器学习/深度学习的关系

区别于人工智能，机器学习、尤其是监督学习则有更加明确的指代。机器学习是专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。

2023-03-28 11:11:28

1077

已全部加载完成

搜索历史

《中国舰船研究》—基于深度强化学习的智能船舶航迹跟踪控制

基于深度强化学习的智能船舶航迹跟踪控制

0. 引 言

1. 智能船舶航迹跟踪控制系统总体设计

1.1 LOS算法制导

1.2 基于强化学习的控制过程设计

1.3 航迹跟踪问题马尔可夫建模

1.4 控制系统总体方案

2. 基于DDPG算法的控制器设计

2.1 DDPG算法原理

2.2 算法实现步骤

3. 系统仿真与算法对比分析

3.1 仿真环境构建

3.2 控制器离线学习

3.3 仿真实验设计及对比分析

4. 结 语

评论

0. 引　言

4. 结　语