强化学习——格子游戏问题

文章目录前言一、题目描述二、计算过程1.策略评估2.策略提升3.最优策略前言这是一道2020-2021国科大高级人工智能期末考试的一道格子题一、题目描述每一个格子等概率向着4个方向移动，每次移动一步，收益为 -1 ，移动到出口结束游戏。若当前移动会导致出界，则移动后位置不变：黄色是出口。二、计算过程1.策略评估利用动态规划的方法求当前策略下每个格子估值2.策略提升根据每个格子的估值求对应的贪心策略

ZhangTuTu丶

7861人浏览 · 2022-01-01 13:32:12

ZhangTuTu丶 · 2022-01-01 13:32:12 发布

系列文章目录

提示：国科大其他课程资料整理
国科大高级AI——强化学习（格子问题）
国科大高级AI——博弈论以及相关考题
 国科大高级AI——一阶谓词逻辑
 国科大高级AI——证明题历年考题
 国科大高级AI——深度学习整理
 国科大高级AI——野人和传教士问题
 国科大模式识别——历年考题以及课后题整理

前言

这是一道2020-2021国科大高级人工智能期末考试的一道格子题

一、题目描述

每一个格子等概率向着4个方向移动，每次移动一步，收益为 -1 ，移动到出口结束游戏。若当前移动会导致出界，则移动后位置不变：
黄色是出口。
在这里插入图片描述

二、计算过程

在这里插入图片描述

1.策略评估

利用动态规划的方法求当前策略下每个格子估值

在这里插入图片描述

2.策略提升

根据每个格子的估值求对应的贪心策略

在这里插入图片描述

3.最优策略

根据第二问得到的贪心策略，列出方程组并求解
在这里插入图片描述
得到新的状态估值

根据新的状态估值得到新的贪心策略

根据新的贪心策略，列出在此贪心策略下的方程组

到此计算发现：v1、v2、v3、v4状态估值不变，则最优策略与其相对应状态估值如下：
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f