doi:10.3969/j.issn.1003-3114.2022.04.021
引用格式:唐诗ꎬ杨阳ꎬ陈锶奇.基于深度强化学习的自动协商研究综述[J].无线电通信技术ꎬ2022ꎬ48(4):734-744.
[TANGShiꎬYANGYangꎬCHENSiqi.ReviewofAutomatedNegotiationBasedonDeepReinforcementLearning[J].RadioCommunica ̄tionsTechnologyꎬ2022ꎬ48(4):734-744.]
基于深度强化学习的自动协商研究综述
唐㊀诗1ꎬ杨㊀阳2ꎬ陈锶奇2∗
(1.西南大学附属中学ꎬ重庆400700ꎻ2.天津大学智能与计算学部ꎬ天津300072)
摘㊀要:协商是一种强有力的解决双方矛盾㊁冲突和争议的机制ꎬ目前被广泛应用于经济㊁人工智能㊁商业等领域ꎬ有非常重要的社会价值ꎮ基于智能体的协商旨在代表人类实现协商过程的自动化ꎬ以节省时间和精力ꎮ运用到自动协商领域的基于深度强化学习方法训练的自动协商智能体可以在较短时间内用较小的成本系统地考虑所有可能的结果ꎮ通常ꎬ将自动协商问题建模为马尔可夫决策过程ꎬ运用深度强化学习方法来学习目标效用值㊁接受策略ꎬ或报价和接受策略可以减少达成协议所需的时间和精力ꎬ同时增加达成更好的
双赢协议的机会ꎮ该综述在简要回顾自动协商框架和模型后ꎬ系统阐述深度强化学习在自动协商任务中的应用ꎬ介绍经典算法及模型ꎬ分析模型特点ꎬ探讨未来深度强化学习与自动协商任务融合的前景和挑战
ꎮ
关键词:深度强化学习ꎻ自动协商ꎻ多智能体系统ꎻ协商策略
中图分类号:TN919.23㊀㊀㊀文献标志码:A㊀㊀㊀开放科学(资源服务)标识码(OSID):
文章编号:1003-3114(2022)04-0734-11
ReviewofAutomatedNegotiationBasedonDeepReinforcementLearning
TANGShi1ꎬYANGYang2ꎬCHENSiqi
2∗
(1.HighSchoolAffiliatedtoSouthwestUniversityꎬChongqing400700ꎬChinaꎻ2.CollegeofIntelligenceandComputingꎬTianjinUniversityꎬTianjin300072ꎬChina)
Abstract:Negotiationistheprocesswherepartiesinteracttosettleissuesꎬdiscoversurplusꎬandcreatecontracts.Becausenegotiationissoessentialtosocietyꎬithasbeenwidelystudiedbydifferentfieldsꎬineconomicsꎬartificialintelligenceꎬbusinessands
oon.Agent ̄basednegotiationaimsatautomatingnegotiationprocessonbehalfofhumanstosavetimeandefforts.Anauto ̄negotiationagenttrainedbydeepreinforcementlearningcansystematicallyconsiderallpossibleoutcomesinarelativelyshorttimeandatarela ̄tivelylowcost.Ingeneralꎬmodelingauto ̄negotiationproblemsasMarkovdecisionprocessesandapplyingdeepreinforcementlearningmethodstolearntargetutilityꎬacceptancestrategyorofferandacceptancestrategycanreducethetimeandeffortrequiredtoreachana ̄greementwhileincreasingthechancesofreachingabetterwin ̄winagreement.Afterabriefreviewofauto ̄negotiationframeworksandmodelsꎬthisreviewsystematicallydescribestheapplicationofdeepreinforcementlearninginautomatednegotiationtasksꎬintroducestheclassicalalgorithmsandmodelsꎬanalyzesthecharacteristicsofthemodelsꎬ
anddiscussesthefutureprospectsandchallengesoftheinte ̄grationofDRLandautomatednegotiationtasks.
Keywords:deepreinforcementlearningꎻautomatednegotiationꎻmulti ̄agentsystemꎻnegotiationstrategy
收稿日期:2022-03-23
基金项目:国家自然科学基金(61602391)
FoundationItem:NationalNaturalScienceFoundationofChina(61602391)
0 引言
在现如今的生活中ꎬ协商无处不在ꎬ小到去市场购物ꎬ大到影响人类命运共同体的协商ꎬ如全球碳排
放协议ꎮ协商是一种强有力的解决双方矛盾㊁冲突和争议的机制ꎮ参与协商的各方在追求自己的需求ꎬ或
者自己所代表的某个组织的需求时ꎬ通过交换提议共同寻双方都能接受的共同方案ꎬ目前被广泛应用于经济[1]㊁人工智能[2-3]㊁商业[4-6]等领域ꎬ有非常重要的社会价值ꎮ但是由于协商谈判的代价高昂ꎬ学者试图去寻一种更有效的协商方式ꎮ
深度强化学习(DeepReinforcementLearningꎬ
DRL)集成了深度学习对复杂环境的感知能力ꎬ以及强化学习对复杂场景的决策能力ꎬ实现了端到端的学习模式ꎮ深度强化学习的出现使得强化学习技术真正走向实用ꎬ解决现实场景中的复杂问题ꎬ其在人工智能领域(如无人驾驶[7-8]㊁智能交通系统[9]㊁机器人系统[10-11]㊁游戏[12]等)取得的成功推动它应用于包括协商[13]在内的复杂人类问题ꎮ运用到自动协商领域的基于深度强化学习方法训练的自动协商智能体可以在较短时间内用较小的成本系统地考虑所有可能的结果ꎮ因此ꎬ协商智能体可以减少达成协议所需的时间和精力ꎬ同时增加达成更好的双赢协议的机会ꎮ自动协商智能体在电子商务和供应链管理方面取得了巨大的成功ꎮ
本文将以基于强化学习的自动协商任务为核心展开综述ꎬ首先介绍自动协商概述ꎬ然后综述强化学习在自动协商任务中的应用并分析各模型特点ꎬ最后总结全文并分析深度强化学习技术与自动协商任务相结合的研究趋势及应用前景ꎮ
1㊀自动协商概述
1.1㊀自动协商框架
自动协商是两个自动智能体之间的协商ꎬ这些协商智能体被称为协商者ꎮ在一个自动协商框架中包含协商目标㊁协商协议和协商策略三个内容ꎮ协商目标确定了参与协商的双方所要协商讨论的议题ꎮ协商协议定义了参与协商的双方都需遵循的协商规则ꎬ指定了每个协商者在任何给定时刻可以执行的动作ꎮ本文协商者的协商策略是接受策略和投标策略的结合ꎮ
1.1.1㊀协商目标
协商目标是指参与协商的智能体所要进行协商讨论的议题ꎬ协商的目的在于使参与协商的双方对这些协商议题上的取值能都达到一致ꎮ若协商讨论的议题只有一个ꎬ称为单议题协商ꎮ然而ꎬ在复杂的现实生活中ꎬ在协商过程中考虑的常常不是单一的议题ꎬ在正常条件下协商议题是多样化的ꎬ常常还要对大小㊁数量㊁质量等议题进行协商ꎬ这就是多议题协商ꎮ
1.1.2㊀协商协议
协商协议是指参与协商的双方都需遵循的协商规则ꎮ此处介绍较常使用的交替报价协议(Alter ̄matingOffersProtocolꎬAOP)[14]ꎮ该协议在进行双边多议题自动协商时ꎬ由协商双方轮流报价ꎮ通过多个协商回合的交流ꎬAOP协议能使参与协商的智能体慢慢靠近寻最优协商解ꎮ
在AOP协议下ꎬ协商环节由连续回合组成ꎬ每个参与协商的智能体可以提出报价㊁接受报价ꎬ或退出协商ꎮ如果双方达成了共同协议ꎬ或者到了最后期限ꎬ那么一局协商就结束了ꎮ截止日期可以用最大回合数或实际交替提议次数来衡量ꎮ协商是不重复的ꎬ即每个协商环节都是独立进行的ꎬ一个协商环节不能影响其他协商环节ꎮ
在多回合的协商中ꎬ每个参与协商的智能体都有对手的协商历史信息ꎬ可以通过判断对手协商历史信息来学习对手的协商态度ꎬ从而实现选用合适的协商策略让协商达到双赢ꎮ
AOP协商流程如图1所示
ꎮ
图1㊀AOP协商流程Fig.1㊀AOPnegotiation
flowchart
1.1.3㊀协商策略
协商策略ꎬ即智能体在协商过程中凭借所处的环境ꎬ利用何种决策在自己全部协商提议中挑选最利于自己的提议给对方智能体ꎬ即为可以让协商智能体做出判断的函数ꎮ协商策略包括两部分:其一是评估提议模块ꎬ即接受策略ꎮ接收策略的核心问题是何时给出报价ꎬ是否接受或等待未来可能更好的报价ꎮ然而ꎬ如果智能体未能在截止日期之前接受ꎬ就会发生交易冲突ꎬ两个参与协商的智能体都不会得到任何回报ꎮ给定一个折扣率和让步因子ꎬ从他们先前的报价中推断出接受报价的最佳时机ꎬ因此接受策略可以看作是一个最优停止问题ꎬ接受策略的作用是在一个回合中评估对方智能体的协商提议ꎬ随即判断决定是否可以接受该提议ꎮ其二是产生提议模块ꎬ即报价策略ꎬ报价策略的作用是产生最有利于自身的还价提议ꎮ协商策略的好环是判断所采用协商框架效率高低的主要标准ꎮ为了设计一种可以从过往协商经验中自适应学习协商策略并和未知对手进行并行双边协商的智能体ꎬ本文研究了先前提出的策略学习方法ꎬ并发现它们在实际应用中均存在一些问题ꎬ如:
启发策略㊀通过启发策略训练的智能体适应环境变化的能力不强ꎬ不同的双边协商通过一个协调智能体或者通过多个内部对话策略来管理ꎬ但这种策略不支持学习ꎬ即不能适应变化的对手和环境ꎬ对预先设定的对手和环境依赖性强ꎬ一旦变化ꎬ可能会无法使用ꎮ
遗传算法㊀通过遗传算法学习训练需要大量的试验才能获得好的策略ꎬ这意味着它们不能在线设置ꎮ
强化学习㊀基于强化学习的协商模型通常采用Q ̄Learning[15]ꎬ但它不支持连续的行动ꎬ这也是设定中的重要限制ꎬ因为想知道要让步多少ꎬ譬如在出售物品的价格上ꎬ这自然是一个连续的行动空间ꎮ所以ꎬ现在学者通常使用了深度强化学习算法来训练针对每个对手(如基于时间策略的对手和基于行为策略的对手)的协商策略ꎮ
1.1.4㊀协商模型
在智能体领域ꎬ已有很多工作用交替报价协议[16-19]进行双边协商ꎮ在协商过程中ꎬ双方根据交替报价协议依次提出报价和还价ꎮ这种交替过程可以是离散时间的形式ꎬ也可以是连续时间的形式ꎮ协商模型的另一个关键方面是确定智能体评估报价对它的效用的方式[20]ꎮ用i表示一个智能体ꎬj表示一个议题ꎬk表示对第j个议题的选择ꎬ将议题j的值定义为vjkꎮ协商智能体的最低收益称为保留值(θ)ꎮ此外ꎬwij表示智能体i对议题j的权重偏好ꎮ智能体i对所有议题的权重归一化和为1(例如ꎬðnj=1(wij)=1)ꎮ这些偏好是由智能体所代表的组织
的利益决定的ꎮ提议O是对于每个议题j的vjk值的向量ꎮ智能体i提出的提议的效用值定义为:
Ui(O)=ðnj=1(wij Vij(vjk))ꎬ(1)其中ꎬVij是对智能体i的评估函数ꎬ将议题j的值映射到一个实际的数值ꎮ
根据Rubinstein[21]提出的协商回合的概念ꎬ每个智能体依次以提议的形式提出报价ꎬ以表达自己的要求ꎬ他们可以为了自己的利益自由离开协商场景ꎮ通常ꎬ将协商轮数称为双方交换报价的次数ꎮ协商持续进行ꎬ直到一方接受另一方的提议ꎬ或一方中断ꎬ或由于超时而没有提议被接受ꎮ如果最终没有达成协议ꎬ则提供的分歧解决方案生效ꎬ各方获得各自的保留值(θ)ꎬ这也适用于一方提前退出协商的情况ꎮ
此外ꎬ定义一个折现因子δ(δɪ[0ꎬ1])来捕捉协商中的折现效应ꎬ如下所示:
Dδ(Uꎬt)=U δtꎬ(2)式中ꎬDδ(Uꎬt)表示t时刻的折现效用ꎬU为(初始)效用ꎬt为标准化时间(tɪ[0ꎬ1])ꎮ由式(2)可知ꎬ智能体达成协议所花的时间越长ꎬ他们所能获得的效用就越低ꎮ
1.2㊀基准协商策略
协商的目的是在进行交易时获得最大的效用ꎬ因此ꎬ智能体需要采取恰当的协商策略ꎮ在信息完全的情况下ꎬ可以确定最优报价策略ꎮ然而ꎬ如前所述ꎬ在协商中不太可能获得完全的信息ꎬ因为参与协商的智能体
由于害怕被剥削利用而不愿透露他们的偏好ꎬ这推动了不完全信息下协商策略的发展ꎮ根据将状态映射到目标效用的决策函数ꎬ这些协商策略可以大致分为基于时间的协商策略和基于对手行为的协商策略ꎮ
1.2.1㊀基于时间的协商策略
时间因素在智能体自动协商中起着举足轻重的作用ꎬ若参与协商的双方可用的协商时间较短时ꎬ可能会导致两种结果:其一ꎬ参与协商的双方在时间不够充足的条件下ꎬ
由于迫切希望达成共识来完成协
商任务ꎬ会使考虑不够充分ꎬ导致其协商解的效用值较低ꎬ协商双方会丢失一些潜在的效益ꎻ其二ꎬ由于时间不够ꎬ双方在达成一致前退出协商ꎬ而让原本可以达成一致的协商被迫失败ꎮ若协商双方可用的协商时间较为宽裕ꎬ协商对手之间能够实现充分地讨价还价ꎬ在协商过程中深入了解对方的喜好ꎬ从而利于到能使双方都认可且能够达到最大价值的协商解ꎮ
基于时间的协商策略是指仅基于时间产生报价的功能ꎮ在每一轮协商中ꎬ智能体计算他们的决策效用ꎬ决定他们是否接受报价ꎮ对于基于时间的智能体ꎬ其决策效用是:
u(t)=Pmin+(Pmax-Pmin) (1-F(t))ꎬ
(3)
式中ꎬPmax㊁Pminɪ[0ꎬ1]ꎬ从而参数化报价范围ꎮ通常ꎬF(t)被参数化为指数函数:
F(t)=(1-k)
t
T
()
1c
ꎬ(4)
式中ꎬc为让步因子ꎬ反映了让步幅度ꎮ为简单起见ꎬk通常设置为0ꎮ在轮流出价的让步协商中ꎬ根据让步因子的不同ꎬ基于时间的协商策略基本可以分为以下3种类型:
①0<c<1ꎬ在协商初始阶段ꎬ智能体让步幅度较小ꎬ随着时间的推移渐渐增大让步幅度ꎬ即智能体在接近终点时让步ꎬ称为Boulware执着型ꎻ
②cȡ1ꎬ在协商初始阶段ꎬ智能体让步幅度较大ꎬ随着时间的推移渐渐缩小让步幅度ꎬ即智能体迅速让步并提供其保留值ꎬ因此被称为Conceder让步型ꎻ
③c=1ꎬ是智能体随协商时间推移均匀让步的时间策略函数ꎬ意味着智能体的决策效用线性下降ꎬ称为均匀线型ꎮ
3种类型不同让步因子的基于时间策略智能体的决策效用如图2所示
ꎮ
图2㊀不同让步因子下的基于时间策略的智能体的决策效用Fig.2㊀Decisionutilityofagentsbasedontimestrategy
underdifferentconcessionfactors
1.2.2㊀基于对手行为的协商策略
negotiation auto基于对手行为的协商策略通过观察对手的行为
来决定自己的行为ꎬ譬如是出价还是接受ꎬ可以理解为模仿对手的行为ꎬ即对方对我如何ꎬ我就对对方如何ꎮ智能体在进行轮流出价的自动协商中ꎬ参与协商的双方都有自己的偏好和保留值等信息ꎬ且在讨价还价的协商中ꎬ智能体害怕被利用ꎬ这些信息是不为对手所知的ꎬ这推动了非完全信息下协商策略的发展ꎮ所以智能体在自动协商过程中通过轮流出价的提议来了解对方的偏好ꎬ并学着投其所好ꎮ
在智能体的自动协商过程中ꎬ协商双方会有协商的历史信息ꎬ基于对手行为的协商策略是观察对手在协商历史中所表现出的行为来确定自己的协商行为ꎬ以确定自己的让步幅度ꎬ并根据它提出新的提议ꎮ这种通过模仿对手行为的协商策略可以在一定程度上有效避免协商过程中的利用㊁欺骗等情况ꎮ目前最广为人知的基于对手行为的协商策略是
tit ̄for ̄tat针锋相对ꎬ通过互惠产生合作ꎮ它的3个中心原则是:
①永远不要首先背叛:即不会在协商初始时就选择主动背叛对手或者采取作弊行为ꎬ而是选择友好的互惠互利合作模式ꎮ
②如果受到背叛就采取报复行动:即在协商过程中若对手有背叛己方的行动ꎬ可以快速识别出背叛行为ꎬ同时利用背叛的行动来报复对手ꎮ
③报复后可以原谅:是指不会因为对手的一次背叛而进行不可原谅的多次报复ꎬ若对手在背叛后选择悔改ꎬ重新进入合作模式ꎬ则会宽容地原谅对手ꎬ继续恢复到友好的互惠互利合作模式ꎮ
相对针锋相对(TFT)策略ꎬ通过提供与对手在δ回合之前的让步ꎬ成比例地让步来进行报价:
x
tn+1aңb
j[]=min(max(
xtn-2δbңa
j[]x
tn-2δ+2bңa
j[]
xtn-1aңb
j[]ꎬminj
)ꎬmaxj
)ꎬ(5)式中ꎬxtn+1
aңb[j]是对议题j的报价ꎬ该值由对手先前
让步的比率决定ꎬ然后按比例调整智能体的先前报
价xtn-1aңb[j]ꎬ确保报价值在最小值和最大值范围
之内ꎮ
2㊀深度强化学习在自动协商中的应用
2.1㊀强化学习概述
除了监督学习和非监督学习之外ꎬ强化学习是机器学习家族中必不可少的一类ꎮ
强化学习让机器
学习如何在环境中表现良好ꎬ获得高分ꎮ强化学习是一类算法ꎬ最初什么都不知道的机器ꎬ在经历过多次的尝试后ꎬ能够不断学习吸收经验ꎬ进而发现规律ꎬ最终达成目的ꎬ这便是强化学习的过程ꎮ
如图3所示ꎬ强化学习的组成有智能体(Agent)和环境(Environment)两部分ꎮ强化学习所研究的问题就是智能体如何于某一不确定的复杂环境中使其所能够得到的奖励最大化
ꎮ
图3㊀强化学习示意图
Fig.3㊀Reinforcementlearningdiagram
强化学习的整个过程中ꎬ智能体一直与环境发生交互ꎮ智能体会在环境中获得状态ꎬ它能够用该状态给一个输出动作(action)ꎬ即决策ꎮ随后将该决策置于环境中ꎬ环境会依据智能体使用的决策ꎬ给出该决策获得的奖励ꎬ同时给出下一个状态ꎮ智能体的目的是在环境中获得尽可能多的奖励ꎮ
没有监督数据ꎬ这是强化学习与监督学习相异的一个方面ꎬ因此强化学习得到的模型能够产生超过人类的表现ꎮ监督学习获得的监督数据是由人来标注的ꎬ譬如ImageNet的图片全部由人标注ꎬ则能够确定人类的表现是此算法的上限ꎬ人类的标注结果决定了它永远不可能超越人类ꎮ而强化学习与它不同ꎬ能够自行在环境中探索ꎬ因此具备很大的潜力ꎬ能够拥有超过人类能力范围的表现ꎬ如著名
AlphaGo这样一个强化学习的算法在围棋场上击败了最强的人类围棋大师ꎮ
强化学习问题可以由一个马尔可夫决策过程(MarkovDecesionProcessꎬMDP)[22]定义为一个五元组(SꎬAꎬPꎬRꎬγ)ꎬ其中ꎬS和A分别表示状态和动作ꎬP表示转换函数:SˑAˑSң[0ꎬ1]ꎬR表示奖励函数:SˑAˑSңꎬγɪ(0ꎬ1)表示折现因子ꎮ在步长t时ꎬ智能体观察状态stɪSꎬ并根据策略π从状态空间A选择动作atꎬ策略π是状态空间到动作空间的映射ꎮ在采取行动之后ꎬ智能体收到奖励r
tꎮ目标是到一个策略πꎬ使期望折现累计回报ðTk=0γkrk+1最大化ꎬ其中T是整个回合的长度ꎮ2.2㊀深度强化学习
深度学习与强化学习各有优劣:深度学习的感知能力较强而决策能力较欠缺ꎻ强化学习决策能力较强ꎬ却难以处理感知问题ꎮ将深度学习和强化学习相结合ꎬ能够产生新的解决思路ꎬ用于处理应对复杂系统的感知决策问题ꎮ
近年来ꎬ学术界已将强化学习与深度学习成功结合并使用ꎬ利用深度神经网络来逼近价值函数ꎬ其突破在于策略梯度方法ꎮ强化学习算法在传统上是动作 价值方法:在学习动作 价值之后ꎬ算法根据估计的动作-价值选择动作ꎮ相比之下ꎬ策略梯度方法学习参数策略ꎬ而不是价值函数ꎮ本文所说的策略是指智能体策略 它在给定的状态和时间所采取的行动ꎮ
深度强化学习是一种具有较强通用性的端到端感知控制系统ꎬDRL学习过程描述如下:
①智能体与环境交互时ꎬ可以获得每一时刻的高维观测ꎬ同时ꎬ利用深度学习方法对观测结果进行感知ꎬ获得具体的状态特征表示ꎻ
②基于根据预期效用评估每个行动的价值函数ꎬ并通过某种策略将当前状态映射到相应的行动ꎻ③环境在动作的基础上做出反应ꎬ能够获得下一步的观察ꎮ这样就可以不断重复上述过程ꎬ最终得到达到目标的最优策略ꎮ
DRL原理框架如图4所示ꎮ由于概率可以分布在离散或连续的行动空间上ꎬ接受或拒绝报价的决定是离散的ꎬ而投标是在连续的空间上ꎬ所以DRL是一个有效的协商控制框架
ꎮ
图4㊀DRL原理框架图
Fig.4㊀DRLschematicdiagram
2.3㊀协商领域基于深度强化学习的经典算法在SoftActor ̄critic(SAC)[23]算法提出之前ꎬ主流的Model ̄Free强化学习方法在实际应用时均存在以下几点问题
:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论