强化学习——格子游戏问题
文章目录前言一、题目描述二、计算过程1.策略评估2.策略提升3.最优策略前言这是一道2020-2021国科大高级人工智能期末考试的一道格子题一、题目描述每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:黄色是出口。二、计算过程1.策略评估利用动态规划的方法求当前策略下每个格子估值2.策略提升根据每个格子的估值求对应的贪心策略
·
系列文章目录
提示:国科大其他课程资料整理
国科大高级AI——强化学习(格子问题)
国科大高级AI——博弈论以及相关考题
国科大高级AI——一阶谓词逻辑
国科大高级AI——证明题历年考题
国科大高级AI——深度学习整理
国科大高级AI——野人和传教士问题
国科大模式识别——历年考题以及课后题整理
前言
这是一道2020-2021国科大高级人工智能期末考试的一道格子题
一、题目描述
每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:
黄色是出口。
二、计算过程
1.策略评估
利用动态规划的方法求当前策略下每个格子估值
2.策略提升
根据每个格子的估值求对应的贪心策略
3.最优策略
根据第二问得到的贪心策略,列出方程组并求解
得到新的状态估值
根据新的状态估值得到新的贪心策略
根据新的贪心策略,列出在此贪心策略下的方程组
到此计算发现:v1、v2、v3、v4状态估值不变,则最优策略与其相对应状态估值如下:
更多推荐
所有评论(0)