2025秋江苏开放大学强化学习★★形考作业1（总成绩占比10％）

国家开放大学历年真题库｜作业答案｜复习资料一站式下载平台

当前位置

开大题库网 > 上海开放大学 > 2025秋江苏开放大学强化学习★★形考作业1（总成绩占比10％）

2025秋江苏开放大学强化学习★★形考作业1（总成绩占比10％）

分类：上海开放大学时间：2025-09-02 04:06:16 浏览：21次评论：0

摘要：强化学习★★形考作业1（总成绩占比10％）课程名称: 强化学习发布人: 卢艳君来源: 第三单元最优控制满分: 100.0 发布时间: 2025-07-06 作业要求: 根据第一~三单元的知识完成本次形考作业。本次作业包括单选题、多选题以及简单题。通过本次作业的练习，应该掌握强化学习的基本要素、马尔可夫过程和马尔可夫决策过程的定义、多臂老虎机问题的求解、exploration（探索）与Exploitation（利用）的意义、价值的定义等知识点。本次形考作业占总成绩比10%。

关键字：应试策略结合习题库高效备考训练指南职业培训在线课程高效选择技巧解析远程教育时间管理应试策略优化方案设计个性化学习方案与时间管理技巧结合方法指南习题库同步教材解析高效备考技巧指南在线教育答疑系统提升学习效率方案解析开放课程记忆技巧学习效果提升方法设计职业课程时间管理学习计划制定技巧解析远程教育个性化时间管理方案设计解析技巧教材同步习题库

国家开放大学作业考试答案

想要快速找到正确答案？

立即关注国开搜题微信公众号，轻松解决学习难题！

国家开放大学

作业辅导
扫码关注
论文指导
轻松解决学习难题!

强化学习★★形考作业1（总成绩占比10％）

课程名称: 强化学习发布人: 卢艳君来源: 第三单元最优控制满分: 100.0 发布时间: 2025-07-06 作业要求: 根据第一~三单元的知识完成本次形考作业。本次作业包括单选题、多选题以及简单题。通过本次作业的练习，应该掌握强化学习的基本要素、马尔可夫过程和马尔可夫决策过程的定义、多臂老虎机问题的求解、exploration（探索）与Exploitation（利用）的意义、价值的定义等知识点。本次形考作业占总成绩比10%。

单选题

1. 下列关于动态规划思想的说法中，不正确的⼀项是（） (分值: 5.0)

A. 动态规划将问题在时间维度上进⾏拆分，称为时间差分，即利⽤下⼀时刻状态的价值计算当前时刻状态的价值，直到计算出所有状态的价值

B. 动态规划要将⼤的问题拆分成若⼲个⽐较⼩的问题，分别求解这些⼩问题，再⽤这些⼩问题的结果来解决⼤问题

C. 对于三连棋游戏，可以按照从前往后的顺序依次找出各种状态的价值

D. 三连棋游戏不同的状态虽然很多，但是状态的转移其实是有⽅向性的

2. 对于强化学习中模型的理解是（）。 (分值: 5.0)

A. 模型决定了下一步要采取的动作。

B. 模型中的奖励函数是指我们在当前状态采取了某个动作，可以得到多大的奖励。

C. 它由状态、动作、状态转移概率和奖励函数几个部分组成。

D. 马尔可夫决策过程中可以有模型，也可以没有模型。

3. 在三连棋游戏中，位于状态s0，采⽤策略，然后有1/3的概率会达到获胜的状态，有2/3的概率到达中间状态s1；之后这个中间状态在该策略下会有3/4的概率到达获胜的状态， 1/4的概率到达平局的状态，若获胜的价值为1，平局价值为0，则该策略下状态s0的价值为（） (分值: 5.0)

A. 1/3

B. 5/6

C. 2/3

D. 1/2

4. 强化学习中的策略的含义是（） (分值: 5.0)

A. 策略是智能体的动作模型，它决定了智能体的动作。

B. 我们不能把策略看做是一个函数。

C. 策略只有随机的形式。

D. 策略把输入的状态变为价值。

5. 下列关于epsilon-greedy策略的说法正确的是（） (分值: 5.0)

A. 每次游戏中产⽣服从0到1之间正态分布的随机数

B. 每次游戏中产⽣服从0到10之间均匀分布的随机数

C. 每次游戏中产⽣服从0到10之间正态分布的随机数

D. 每次游戏中产⽣服从0到1之间均匀分布的随机数

6. 以下对有模型强化学习和免模型强化学习说法正确的是（） (分值: 5.0)

A. 目前，大部分深度强化学习方法都采用了有模型强化学习。

B. 免模型强化学习是指对环境只进行虚拟环境建模并与虚拟环境交互来学习到最优策略。

C. 有模型强化学习不需要进行真实环境建模，用数据驱动学习。

D. 针对是否需要对真实环境建模，强化学习可以分为有模型强化学习和免模型强化学习。

7. 强化学习由两部分组成（） (分值: 5.0)

A. 状态和马尔可夫过程

B. 动作和状态

C. 价值和动作

D. 智能体和环境

8. 下列选项关于⻢尔可夫过程与MDP的对⽐说法错误的是（） (分值: 5.0)

A. ⼯程中很多实际问题适合被定义为⻢尔可夫过程⽽⾮MDP

渝粤教育 B. MDP关注的是如何对⼀个具体的问题采取措施，使得获得的效果最好

C. ⻢尔可夫过程反映的是客观规律，MDP反映的是具体问题

D. ⻢尔可夫过程体现宏观性质，MDP体现主观操作

9. 关于多臂⽼⻁机问题的描述，下列说法错误的是（） (分值: 5.0)

A. ⽬标是在有限的摇动次数中获得更多成人学历的硬币奖励

B. 每个摇臂的中奖概率是未知的

C. 多臂⽼⻁机问题可以转化为⼀个⾮退化的MDP问题

D. 每个摇臂的中奖概率不完全相同

10. 价值函数可以这样理解（）。 (分值: 5.0)

A. 价值函数的值是对当下及时奖励评价。

B. 有一种价值函数：Q 函数。Q 函数里面包含两个变量：状态和动作。

C. 价值函数就是评估动作好坏的函数。

11. 强化学习智能体的组成成分（）。 (分值: 5.0)

A. 只有策略和价值函数

B. 都包含策略、价值函数和模型

C. 可能有策略、价值函数、模型中的一个或多个成分

D. 只有策略和模型

12. 下列关于MAB的简单策略和贪⼼策略的说法错误的是（） (分值: 5.0)

A. 两种策略都需要⾸先对每个国家开放大学摇臂进⾏⼀定次数的操作，对期望奖励进⾏预估

B. 贪⼼策略总是选择当前期望奖励估计最⼤的摇臂进⾏操作

C. 简单策略的尝试操作次数有限，存在对期望预估不准确的问题

D. 两种策略都利⽤了游戏过程的反馈对期望奖励估计表进⾏更新

13. 在最优控制理论中，贝尔曼方程的作用是什么？ (分值: 5.0)

A. 描述动态规划中递归渝粤题库地求解最优值函数的方法

B. 预测环境的变化趋势

C. 确定初始状态的策略

渝粤文库 D. 计算每个状态的即时奖励

多选题

1. 在最优控制中，动态规划算法的应用前提包括： (分值: 5.0)

A. 无需环境反馈

B. 奖励函数明确

C. 环境模型已知

D. 状态空间有限且离散

E. 可以处理无限状态空间

2. 在多臂老虎机问题中，探索与利用的权衡可以通过哪些策略实现？ (分值: 5.0)

A. Q-learning

B. Thompson Sampling

C. Sarsa

D. Upper Confidence Bound (UCB)

E. ε-greedy

3. 基于策略和基于价值的强化学习方法的区别有（） (分值: 5.0)

A. 基于价值迭代的方法只能应用在不连续的、离散的环境下（如围棋或某些游戏领域）。

B. 在基于价值的强化学习方法中，智能体不需要制定显式的策略，它维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。

C. 基于价值的强化学习算法有Q 学习（Q-learning）、Sarsa等，而基于策略的强化学习算法有策略梯度算法等。

D. 在基于策略的强化学习方法中，智能体会广东开放大学制定一套动作策略（确定在给定状态下需要采取何种动作），并根据这个策略进行操作。

简答题/计算题

1. 设计1个适合于MDP框架的示例任务，为每个任务确定其状态、行为和奖励。每个MDP将被单独评分。评分标准为:描述了一个MDP。（5分）描述了MDP的状态。（5分）描述了MDP的行动。（5分）描述了MDP的回报。（5分）示例：MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1，这样agent就会被鼓励以尽快到达目标，但如果它违反了规则，奖励会是-10亿，这样它就知道不能这么做。 (分值: 20.0)

推荐阅读

文章目录

文章作者：开大题库网
文章标题：2025秋江苏开放大学强化学习★★形考作业1（总成绩占比10％）
文章链接：https://www.yuyue-exam.com/shou/55881.html
本站所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议，转载请注明来自开大题库网！

📚 推荐阅读

相关文章

评论留言请发表您的神机妙论……

评论列表（共有0条评论）

站点资料

开大题库网

开大题库网是国家开放大学学习者的专属资源平台，整合全国电大系统（含广州、宁波等地方开放大学）的历年考试真题、形考作业参考答案及复习指南。网站支持按课程名称、试卷代码（如1379人文英语3、1255计算机网络等）精准检索，提供试卷下载、答案解析及题库推荐功能。涵盖行政管理、金融学、计算机等热门专业，定期更新最新考试动态与备考攻略，帮助学生高效规划复习计划，一站式解决作业与考试难题。

联系站长关注公众号

文章105714
评论0
微语0

搜索

热门文章

最新文章

链接

标签

我的足迹清空

sitemap