- · 《电力系统自动化》栏目[05/29]
- · 《电力系统自动化》数据[05/29]
- · 《电力系统自动化》收稿[05/29]
- · 《电力系统自动化》投稿[05/29]
- · 《电力系统自动化》征稿[05/29]
- · 《电力系统自动化》刊物[05/29]
电力系统控制与决策中的博弈问题工程博弈论初(4)
作者:网站采编关键词:
摘要:假设人工决策者的策略是u,目标是极小化支付函数J(u,w),其中w是大自然的干扰策略(代表不确定性),则一类典型的鲁棒优化问题可归结为如下具有极大–极小
假设人工决策者的策略是u,目标是极小化支付函数J(u,w),其中w是大自然的干扰策略(代表不确定性),则一类典型的鲁棒优化问题可归结为如下具有极大–极小结构的工程博弈格局:
其中:x是系统状态变量,W和U分别是大自然w和人工决策变量u的策略集,刻画了参与者的理性的理性与行动能力.上述模型包括两个决策主体:人工决策者和大自然.其中人工决策者希望极小化控制成本是容易理解的,而大自然是虚拟的对立方,企图使控制成本最大化.这是工程博弈论的一大特色.
在实际工程问题中,干扰是一种随机因素,当然不具备“理性”.那么在工程博弈论中,为什么要将其考虑为理性的决策者呢?工程博弈问题(1)的物理意义又如何理解呢?为此,我们提出了以下3项基本原则.
原则1:人工决策者的最佳选择是避免最坏情况.不言而喻,鲁棒控制器的设计理念即源于上述原则.电力系统发电计划、机组组合及状态检修策略的制定更无一不遵守上述原则.从另一个角度讲,只要避免了最坏情况的发生,即形成了一个合理的博弈格局,进而达到了由两个博弈者各自利益所强制形成的一种真正的均衡.换言之,博弈者决不会从他的最佳策略偏移到对自己利益造成威胁的策略上去.
原则2:人工决策者与大自然的合理决策顺序是max–min型.式(1)确定的博弈双方最佳策略表示大自然w先行决策,然后u介入扭转局势,这种设计为最恶劣情况下的设计.虽然从博弈观点看,这样的决策顺序对u不公平,但根据大自然最恶劣策略w确定的决策策略u,必能应对其他非最恶劣策略w的挑战,故而u虽然较为保守但绝对是安全的,这意味着其工程可行性.尤其是面对大自然这样的博弈者,多数情况下,其策略不明朗,或有关信息不完备,此时进行工程决策谈不上公平原则,故最好的应对手段是先观察其最坏干扰(对大自然本身而言是其最佳策略),再构建应对之策.
原则3:人工决策者与大自然均满足理性要求.所谓理性要求,即指博弈参与者均期望通过博弈最大化己方收益.损人不利己,或利人不利己,均造成一个博弈格局所需必要条件的缺失.无论Von Neumann还是Nash博弈格局,均要求参与者必须具备理性,否则博弈的核心——均衡,没有物理意义.对问题1)所对应的博弈格局,人工决策变量u显然是理性的,其目的在于最大程度地降低系统的支付函数,即在保证系统安全运行的前提下提高经济性;大自然作为博弈参与者当然也是“理性”的,表现在大自然带来的不确定性总是会增加系统的支付,即降低系统的经济性或影响系统的运行安全,例如,突然出现的阵风绝不会使风电场输出更加平滑.因此,大自然(或外部环境)对系统带来的影响总是负面的,并企图极大化此负面影响,此即大自然的“理性”.
诚然,鲁棒优化问题1)及其求解方法仅仅是工程博弈论处理考虑不确定性优化决策问题的一种典型方法,但正是由于实际中的众多的工程控制与决策问题均具有此内涵,在工程设计与试验中应用博弈论的基本理论、建模与求解方法,并考虑工程实际的技术性条件进行决策才有章可循.
2)有限理性与演化博弈.
经典博弈论假定博弈者是完全理性的,这一假定极大地简化了博弈分析过程,能够得到非常简洁优美而又深刻的结果.然而,经典博弈论往往因为假设过强而不具有现实意义.一是理性假设,该假设认为参与者对博弈的结构及对方的支付有完全的了解,并具有足够强的推理计算能力从而做出最优决策;二是处理不完全信息时,假设参与者知晓博弈格局面临的所有可能状态以及随机抽取状态上的客观概率分布.这样的假定显然与现实不尽相符.相比较而言,演化博弈论放弃或削弱了经典博弈论的这些假设,以有限理性的博弈者群体为对象,采用动态过程研究博弈者如何在博弈演化中调整行为以适应环境或对手,并由此产生群体行为演化趋势的博弈理论.在方法论上,它强调动态的均衡,是对经典博弈论的重要补充.演化博弈的理论基础是Maynard提出的演化稳定策略与复制者动态[14],分别表征演化博弈的稳定状态以及向这种稳定状态动态收敛的过程.实际上,演化博弈的部分重要思想还可追溯到混合策略Nash均衡概念的物理解释:一种是理性主义的解释,另一种是大规模行动的解释.前者是传统博弈论的解释方式,后者即为演化博弈论的解释方式.Nash认为均衡的实现并不一定要假设参与者对博弈结构拥有全部知识,以及个体拥有复杂的推理能力,只要假设参与者在决策时都能够从具有相对优势的各种纯策略中积累相关经验信息(例如学习收益高的策略),经过一段时间的策略调整,也能达到均衡状态.演化博弈为研究工程实际问题中不具有完全理性的参与者的决策行为提供了更合理的工具.
文章来源:《电力系统自动化》 网址: http://www.dlxtzdhzz.cn/qikandaodu/2021/0419/885.html
上一篇:快速求取节点阻抗矩阵的对称三角分解法
下一篇:快速因子表法的求解及其应用