PRISM 奖励扩展逻辑
介绍
PRISM的奖励扩展逻辑(Reward Extensions)是对其概率时序逻辑的增强,允许用户量化系统模型中的"成本"或"收益"。这种逻辑在分析资源消耗、性能指标或风险回报场景时特别有用。例如:
- 计算系统达到目标状态所需的平均能量消耗
- 评估服务器在故障前处理的平均请求数
- 测量机器人完成任务的时间成本
什么是奖励结构?
在PRISM中,奖励结构是为模型状态和/或转换分配的数值。这些数值可以代表时间、能量、金钱等可量化的指标。
基本语法
PRISM支持两种主要奖励类型:
- 状态奖励:当系统处于某状态时累积的奖励
- 转移奖励:当系统执行某状态转换时获得的奖励
定义奖励结构的基本语法:
rewards "reward_name"
[action] guard : reward;
state_predicate : reward;
endrewards
示例1:简单状态奖励
rewards "time"
s=1 : 1; // 在状态1每步耗时1单位
s=2 : 2; // 状态2耗时更长
endrewards