AI学习笔记——深度Q

  • 时间:
  • 浏览:1
  • 来源:5分排列3APP下载_5分排列3APP官方

q_target的网络target_net也会定期更新一下参数,意味 target_net和eval_net的型态是一样的。更新q_target网络的参数本来直接将q_eval 的参数克隆技术过来就行了。

相关文章

AI学习笔记——求解最优MDPAI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介AI学习笔记——Q LearningAI学习笔记——Sarsa算法AI学习笔记——卷积神经网络(CNN)

Deep Mind 本来靠CNN, 记忆库和Fixed Q-target这三把利剑让机器学好了咋样玩游戏,甚至在电子游戏中还能打败人类玩家。

反向传播真正训练的网络是那么一5个 ,本来eval_net。target_net 只做正向传播得到q_target (q_target = r +γ*max Q(s,a)). 其中 Q(s,a)是若干个经过target-net正向传播的结果。

Q(s0,a2)新=Q(a0,a2) 旧 + α* [Q(s0,a2)目标 - Q(s0,a2)旧]

Q(s0,a2)目标 =R(s1) + γ*max Q(s1,a)

DQN蕴含一5个 神经网络(NN)一5个 参数相对固定的网络,让想要们 叫做target-net,用来获取Q-目标(Q-target)的数值, 另外一5个 叫做eval_net用来获取Q-评估(Q-eval)的数值。

就让 的文章介绍了Q-learning, 介绍了角度学习(Deep Learning),DQN顾名思义本来将两者结合起来。DeepMind公司也本来用DQN从玩各种电子游戏开始,直到训练出阿尔法狗打败了人类围棋选手。本文就简单地介绍一下DQN的基本概念。

见下图DQN的基本型态

角度学习本来用神经网络来学习数据,常见的角度学习网络如全连接的,CNN,RNN等等。

DQN不让Q表记录Q值,本来用神经网络来预测Q值,并通过不断更新神经网络从而学习到最优的行动路径。

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言意味 访问我的Steemit主页

训练的数据是从记忆库中随机提取的,记忆库记录着每一5个 请况下的行动,奖励,和下一5个 请况的结果(s, a, r, s')。记忆库的大小有限,当记录满了数据就让 ,下一5个 数据会覆盖记忆库中的第一5个 数据,记忆库本来本来覆盖更新的。

随机抽取记忆库中的数据进行学习,打乱了经历之间的相关性,使得神经网络更新更有传输速率,Fixed Q-targets 使得target_net不让都里能延迟更新参数从而也打乱了相关性。

为哪些地方玩电子游戏没方式 直接用Q-learning 来学习最佳路径呢?意味 电子游戏的每一帧图片就都里能是本身请况,游戏中的角色又都里能有多种动作(上下左右,下蹲跳跃等等)。意味 用Q表来记录每一5个 动作所对应的请况,那么 这张Q表将大到无法想象。

Q-learning是通过不停地探索和更新Q表中的Q值从而计算出机器人行动的最佳路径的,公式为

DeepMind 用DQN来玩电子游戏,让想要们 将游戏画面的像素转换成角度神经网络的输入数据(请况s),用CNN(卷积神经网络)来预测动作a(a1,a2,a3 ....), 和对应的Q(s, a1), Q(s, a2),Q(s, a3)...

让想要们 在训练神经网络参数时用到的损失函数(Loss function),实际上本来q_target 减 q_eval的结果 (loss = q_target- q_eval )。

参考文献: Playing Atari with Deep Reinforcement Learning

或者算法通过更新神经网络(NN)中的参数(w, b ...),来更新NN,从而优化模型得到最优解。