强化学习 (RL) 在控制应用程序(例如在线游戏和机器人技术)方面取得了一定程度的成功,但很少用于管理关键业务系统(例如供应链)的运营。 在现实世界中使用 RL 的一个关键方面是在部署之前训练代理,以最大程度地减少实时操作中的实验。 虽然这对于在线游戏(游戏规则已知)和机器人技术(动态可预测)是可行的,但由于相关的复杂性,例如不确定性、适应性和紧急行为,复杂系统要困难得多。 在本文中,我们描述了一个框架,用于将强化学习控制器与复杂网络系统的基于参与者的模拟进行有效集成,以便能够以最少的进一步调整在真实系统中部署 RL 代理。
引言关键业务系统需要不断做出决策,以在动态环境中保持竞争力和经济可行性。 强化学习 (RL) [9, 11] 是一类机器学习算法,可用于以自适应和灵活的方式控制此类复杂系统。 系统控制器(也称为 RL 代理)的目标是学习在系统的每个可能状态下采取最佳控制动作,以最大限度地实现长期系统目标。 RL 的一个关键方面是在闭环中计算下一个状态和所选动作的相关奖励,以实现学习。 该设置如图 1 所示。 本文认为使用分析表达式对环境建模对于复杂系统是不可行的,并提倡基于代理/参与者的建模抽象 [1, 8] 作为一种有效的建模辅助工具,可以帮助理解此类复杂系统的动态。 我们提出了一个框架,该框架使用 RL 来探索策略和决定控制动作,以及基于角色的模拟来执行准确的长期策略部署,以优化复杂系统的运行。 我们以供应链补货领域为代表。
问题描述我们在供应链补货的背景下说明了通用强化学习问题,这为有效控制带来了众所周知的困难 [7, 10]。 该场景是一家杂货零售商,拥有由一系列卡车运输产品的商店和仓库网络。 补货的目标是随时调节每个商店的整个产品系列的可用性,受可用库存、劳动力、卡车容量、运输时间和每个产品的可用货架空间施加的时空限制。 每个商店。 产品流程示意图如图 2 所示。
从运营的角度来看,每家商店的库存 i = {1, . . . , k} 种独特的产品,每个产品的最大货架容量为 ci,j,其中 j ≤ n 是商店的索引。 此外,让我们用 xi,j(t) 表示在时间 t 商店 j 中产品 i 的库存。 交货时刻 d 的补货数量(动作)由 ai,j(td ) 表示,并在时间 (td − ∆) 计算,其中 ∆ 是提前期。 观察值 O(td − ∆) 包括当时每个商店中每种产品的库存、接下来两个交货时刻之间每种产品的需求预测以及元数据,例如单位体积和重量以及保质期。 库存 xi,j(t) 在两个交货时刻 (d − 1) 和 d 之间耗尽,并在时间 td 经历了数量 ai,j(td ) 的逐步增加。
奖励 r(td−1 ) 是动作 ai,j(td−1 ) 和 t ∈ [td−1 ,td ) 中的库存 xi,j(t) 的函数。 有两个数量特别重要:(i) 在整个时间间隔 [td−1 ,td ) 内保持可用的产品数量,以及 (ii) 任何产品的浪费
公式1
强化学习问题由由元组 (S, A, R, P,γ ) 表示的马尔可夫决策过程 (MDP) [11] 描述。
这里,S 是系统状态的集合,A 是控制动作的集合,R 是可能的奖励集合,P 是从 {S, A} → S 的(可能是随机的)转移函数,γ 是一个 未来奖励的折扣系数。 在某些情况下,代理无法完全观察状态空间,导致部分可观察的 MDP 或 POMDP [11]。 观察值 O 来自 S 以表示代理可以感知的内容。 RL 代理应该计算一个策略 O → A,以最大化贴现的长期奖励。 我们使用一种称为 A2C [6] 的 RL 形式来计算动作。 Critic 评估当前系统状态的好坏,而 Actor 选择一个动作,以最大限度地提高下一状态的价值。
我们提出了一个基于角色的模拟框架 [4],用于在合成环境中训练 RL 代理,如图 3 所示。所提出的框架包含两个控制循环:(i)基于模型的动作映射 A → O 的模型中心循环 RL 代理及其对系统的影响,以及 (ii) 实时控制回路。 我们考虑了演员模型 [3] 的扩展形式来密切模仿复杂的系统; 并采用模拟作为辅助 [2] 来计算微观行为并观察新出现的宏观行为、整体系统状态、观察和奖励。
我们使用来自公共来源 [5] 的跨越一年的数据集进行实验。 从数据集中总共选择了 220 种产品,它们的元数据(最初不可用)是手动输入的。 连续交付时刻之间的时间设置为 6 小时(导致每天交付 4 次)。 提前期 ∆ 为 3 小时。 使用每个产品的均匀加权 10 步跟踪平均值计算预测。 商店容量、卡车容量和重量容量以及劳动力数量是根据数据中看到的订单量计算的。 我们特意设置了卡车容量约束,使得平均订单数会严重考验系统的运输能力。 在每个训练“阶段”开始时,每种产品的初始归一化库存水平设置为 0.5,低于该水平的惩罚设置为 ρ = 0.25。 在订单数据集中,前 225 天(900 个交货时刻)用于训练,而剩余的 124 天(496 个交货时刻)被保留用于测试。
图 4 显示了强化学习算法与基于演员的模拟的训练,超过 15 集,每集跨越训练数据集中的 900 个交付时刻。 随着训练的进行,对所有 220 种产品和所有 DM 计算的平均奖励被认为会增加。 该奖励与行业标准补货启发式的简化版本进行比较,其目的是将所有产品的库存水平保持在一个恒定水平。 我们看到训练结束时的奖励超过了启发式性能,并且这种优势也保留在测试数据集上(在曲线的末端使用单独的标记绘制)。
一个具有现实模型的有效学习框架被认为是控制复杂业务系统所必需的。 提出了一个使用强化学习和基于演员的模拟的控制框架来支持我们的论点。 初步评估表明,与传统的聚合分析模型相比,使用所提出的方法对 RL 代理进行培训和策略评估是可行的(在计算时间和费用方面)且有效。



