强化学习ray框架 状态空间 动作空间
Ray 面向的场景:强化学习。
强化学习是机器学习方法的一种,它可以被抽象为代理(agent)与环境之间的互动关系。
环境即代理所处的外部环境,它会与代理产生交互。在每次迭代时,代理会观察到部分或者全部环境,然后决定采取某种行动,而采取的行动又会对环境造成影响。不同的行动会收到来自环境的不同反馈(Reward),代理的目标就是最大化累积反馈(Return)[1]。
对于采取何种行动,代理的行动空间(Action Space)可能是离散的,如围棋等;也可能是连续的。而不少的强化学习算法只能支持连续的空间或者离散的空间。
在采取行动时,代理会根据某种策略(Policy)选择行动。它的策略可以是确定性的,也可以是带有随机性的。在深度强化学习中,这些策略会是参数化的,即策略的输出是输入是一组参数的函数(参数比如神经网络的权重和 bias)。
Ray 架构
在介绍 Ray 如何在 Kubernetes 上实现自动伸缩之前,这里我先大致介绍一下如何使用 Ray:Ray 本身其实并没有实现强化学习的算法,它是一个基于 Actor 模型实现的并行计算库。
Ray 的集化运行
因此,如果需要一个 Ray 集,我们一共需要两个角的节点:Head 和 Worker。除了常规方法,这里我介绍一种相对更简单的方式,就是利用 Ray Autoscaler 自动创建集。
Autoscaler 是 Ray 实现的一个与 Kubernetes HPA 类似的特性,它可以根据集的负载情况,自动调整集的规模。并行计算框架
自动扩缩容在 K8s 上的设计与实现
自动扩缩容是一个非常具有吸引力的特性。Ray 之前只支持在 Kubernetes 上运行集,而不支持自动扩缩容。这一功能最近刚被实现并且合并到了代码库中。在实现的过程中,Ray 社区尝试了不少思路。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。