你有没有玩过《超级马里奥》?当你操控马里奥躲避乌龟、跳过悬崖时,其实就在用一种“试错”的方法学习最优路径。强化学习(Reinforcement Learning, RL)就是让机器像人类玩游戏一样,通过不断尝试和环境反馈来学会做决策的技术。只不过机器的“游戏”可能是开车、下棋、推荐商品等更复杂的场景。
智能体的终极目标是最大化未来奖励的总和。用公式表示就是:
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
…
G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots
Gt=Rt+1+γRt+2+γ2Rt+3+…
举个例子:假设你在玩一个“写作业游戏”,状态是“是否写完作业”,动作是“写作业”或“玩游戏”。奖励规则是:写完作业+100分(未来还能看动画片),没写完-50分(被妈妈批评)。你会选择先写作业,因为长远来看总奖励更高,这就是强化学习的逻辑!
[红灯/绿灯状态,本车速度,前车距离,左右车道车辆速度]
状态(红绿灯颜色) | 可选动作 |
---|---|
红灯 | 刹车停车 |
绿灯 | 保持速度/加速通过 |
奖励函数是强化学习的“指挥棒”,决定了智能体的行为方向。
案例:智能扫地机器人
公式化表达:
R
(
s
,
a
)
=
{
+
100
if 清扫完成
−
10
if 碰撞
+
1
otherwise
R(s,a) = \begin{cases} +100 & \text{if 清扫完成} \\ -10 & \text{if 碰撞} \\ +1 & \text{otherwise} \end{cases}
R(s,a)=⎩
⎨
⎧+100−10+1if 清扫完成if 碰撞otherwise
Q-Learning算法:用表格记录每个状态-动作的“得分”(Q值),每次选Q值最高的动作。
公式:
Q
(
s
,
a
)
←
Q
(
s
,
a
)
+
α
[
r
+
γ
max
a
′
Q
(
s
′
,
a
′
)
−
Q
(
s
,
a
)
]
Q(s,a) \leftarrow Q(s,a) + \alpha \left[ r + \gamma \max_{a'} Q(s',a') - Q(s,a) \right]
Q(s,a)←Q(s,a)+α[r+γa′maxQ(s′,a′)−Q(s,a)]
深度Q网络(DQN):用神经网络代替表格,处理图像等复杂状态,比如AlphaGo用CNN识别棋盘。
未来可能出现一种算法,能像人类一样快速适应不同任务:今天学下棋,明天学开车,后天学写代码。比如DeepMind的IMPALA架构,已经能在多种Atari游戏中表现出色。
现在的强化学习像“黑箱”,机器为什么选这个动作说不清楚。未来可能结合逻辑推理(如“如果前方有行人,必须刹车”),让决策过程像“写作文列提纲”一样清晰。
你可以对智能音箱说:“帮我规划一个省油又安全的上班路线”,它会自动把语言转化为奖励函数,让汽车优化驾驶策略。这需要强化学习与自然语言处理(NLP)结合。
假设你是一个刚学走路的小朋友(智能体),环境是客厅,目标是从沙发走到玩具堆(终点)。
强化学习让机器不再是被动执行指令的工具,而是能主动“思考”、适应环境的智能体。从互联网推荐系统(猜你喜欢的视频)到工业机器人(智能工厂流水线),它正在悄悄改变我们的生活。虽然现在还有“黑箱”、算力等挑战,但随着技术进步,未来的机器可能像人类一样,在复杂世界中灵活决策,甚至学会“创新”和“探索”。
如果你对强化学习感兴趣,可以试着用“奖励思维”分析生活中的问题:比如如何用“中间奖励”激励自己每天坚持读书?这其实就是强化学习的入门实践哦!
Copyright © 2019- zgxue.com 版权所有 京ICP备2021021884号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务