开大题库网

国家开放大学历年真题库|作业答案|复习资料一站式下载平台

2025秋江苏开放大学强化学习★★形考作业1(总成绩占比10%)

分类: 上海开放大学 时间:2025-09-10 14:57:50 浏览:38次 评论:0
摘要:强化学习 - ★★形考作业1(总成绩占比10%) 课程名称:强化学习 发布教师:卢艳君 作业来源:第三单元 最优控制 作业满分:100.0分 发布时间:2025-07-06 作业要求:根据第一~三单元的知识完成本次形考作业。本次作业包括单选题、多选题以及简单题。通过本次作业的练习,应该掌握强化学习的基本要素、马尔可夫过程和马尔可夫决策过程的定义、多臂老虎机问题的求解、exploration(探索)与Exploitation(利用)的意义、价值的定义等知识点。本次形考作业占总成绩比10%。
国家开放大学作业考试答案

想要快速找到正确答案?

立即关注 国开搜题微信公众号,轻松解决学习难题!

国家开放大学
扫码关注

作业辅导
扫码关注
论文指导
轻松解决学习难题!

强化学习 - ★★形考作业1(总成绩占比10%)

课程名称:强化学习 发布教师:卢艳君 作业来源:第三单元 最优控制 作业满分:100.0分 发布时间:2025-07-06 作业要求:根据第一~三单元的知识完成本次形考作业。本次作业包括单选题、多选题以及简单题。通过本次作业的练习,应该掌握强化学习的基本要素、马尔可夫过程和马尔可夫决策过程的定义、多 成人学历 臂老虎机问题的求解、exploration(探索)与Exploitation(利用)的意义、价值的定义等知识点。本次形考作业占总成绩比10%。

单选题

1. 下列选项关于⻢尔可夫过程与MDP的对⽐说法错误的是( ) (分值:5.0分)

A. ⻢尔可夫过程反映的是客观规律,MDP反映的是具体问题

B. ⼯程中很多实际问题适合被定义为⻢尔可夫过程⽽⾮MDP

C. MDP关注的是如何对⼀个具体的问题采取措施,使得获得的效果最好

D. ⻢尔可夫过程体现宏观性质,MDP体现主观操作

2. 下列关于epsilon-greedy策略的说法正确的是( ) (分值:5.0分)

A. 每次游戏中产⽣服从0到1之间正态分布的随机数

B. 每次游戏中产⽣服从0到10之间均匀分布的随机数

C. 每次游戏中产⽣服从0到1之间均匀分布的随机数

D. 每次游戏中产⽣服从0到10之间正态分布的随机数

3. 下列关于MAB的简单策略和贪⼼策略的说法错误的是() (分值:5.0分)

A. 贪⼼策略总是选择当前期望奖励估计最⼤的摇臂进⾏操作

B. 两种策略都需要⾸先对每个摇臂进⾏⼀定次数的操作,对期望奖励进⾏预估

C. 简单策略的尝试操作次数有限,存在对期望预估不准确的问题

D. 两种策略都利⽤了游戏过程的反馈对期望奖励估计表进⾏更新

4. 关于多臂⽼⻁机问题的描述,下列说法错误的是( ) (分值:5.0分)

A. ⽬标是在有限的摇动次数中获得更多的硬币奖励

B. 每个摇臂的中奖概率是未知的

C. 多臂⽼⻁机问题可以转化为⼀个⾮退化的MDP问题

D. 每个摇臂的中奖概率不完全相同

5. 下列关于动态规划思想的说法中,不正确的⼀项是( ) (分值:5.0分)

A. 动态规划将问题在时间维度上进⾏拆分,称为时间差分,即利⽤下⼀时刻状态的价值计算当前时刻 状态的价值,直到计算出所有状态的价值

B. 三连棋游戏不同的状态虽然很多,但是状态的转移其实是有⽅向性的

C. 对于三连棋游戏,可以按照从前往后的顺序依次找出各种状态的价值

D. 动态规划要将⼤的问题拆分成若⼲个⽐较⼩的问题,分别求解这些⼩问题,再⽤这些⼩问题的结果 来解决⼤问题

6. 在三连棋游戏中,位于状态s 0 ,采⽤策略 ,然后有1/3的概率会达到获胜的状态,有2/3的概 率到达中间状态s 1 ;之后这个中间状态在该策略下会有3/4的概率到达获胜的状态, 1/4的概率到达平局 的状态,若获胜的价值为1,平局价值为0,则该策略下状态s 0 的价值 为( ) (分值:5.0分)

A. 5/6

B. 1/3

C. 2/3

D. 1/2

7. 强化学习智能体的组成成分()。 (分值:5.0分)

A. 都包含策略、价值函数和模型

B. 只有策略和模型

C. 只有策略和价值函数

渝粤教育

D. 可能有策略、价值函数、模型中的一个或多个成分

8. 强化学习中的策略的含义是() (分值:5.0分)

A. 策略把输入的状态变为价值。

B. 策略只有随机的形式。

C. 策略是智能体的动作模型,它决定了智能体的动作。

D. 我们不能把策略看做是一个函数。

9. 价值函数可以这样理解()。 (分值:5.0分)

A. 有一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。

B. 价值函数就是评估动作好坏的函数。

C. 价值函数的值是对当下及时奖励评价。

10. 对于强化学习中模型的理解是()。 (分值:5.0分)

A. 模型决定了下一步要采取的动作。

B. 模型中的奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励。

C. 它由状态、动作、状态转移概率和奖励函数几个部分组成。

D. 马尔可夫决策过程中可以有模型,也可以没有模型。

11. 以下对有模型强化学习和免模型强化学习说法正确的是() (分值:5.0分)

A. 针对是否需要对真实环境建模,强化学习可以分为有模型强化学习 渝粤文库 和免模型强化学习。

B. 有模型强化学习不需要 渝粤题库 进行真实环境建模,用数据驱动学习。

C. 免模型强化学习是指对环境只进行虚拟环境建模并与虚拟环境交互来学习到最优策略。

D. 目前,大部分深度强化学习方法都采用了有模型强化学习。

12. 强化学习由两部分组成() (分值:5.0分)

A. 状态和马尔可夫过程

B. 价值和动作

C. 智能体和环境

D. 动作和状态

13. 在最优控制理论中,贝尔曼方程的作用是什么? (分值:5.0分)

A. 计算每个状态的即时奖励

B. 确定初始状态的策略

C. 描述动态规划中递归地求解最优值函数的方法

D. 预测环境的变化趋势

多选题

1. 基于策略和基于价值的强化学习方法的区别有() (分值:5.0分)

A. 基于价值迭代的方法只能应用在不连续的、离散的环境下(如围棋或某些游戏领域)。

B. 在基于策略的强化学习方法中,智能体会制定一套动作策略(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。

C. 在基于价值的强化学习方法中,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。

D. 基于价值的强化学习算法有Q 学习(Q-learning)、Sarsa等,而基于策略的强化学习算法有策略梯度算法等。

2. 在多臂老虎机问题中,探索与利用的权衡可以通过哪些策略实现? (分值:5.0分)

A. Upper Confidence Bound (UCB)

B. Sarsa

广东开放大学

C. ε-greedy

D. Thompson Sampling

E. Q-learning

3. 在最优控制中,动态规划算法的应用前提包括: (分值:5.0分)

A. 可以处理无限状态空间

B. 环境模型已知

C. 奖励函数明确

D. 状态空间有限且离散

E. 无需环境反馈

简答题/计算题

1. 设计1个适合于MDP框架的示例任务,为每个任务确定其状态、行为和奖励。 每个MDP将被单独评分。评分标准为: 描述了一个MDP。(5分) 描述了MDP的状态。(5分) 描述了MDP的行动。(5分) 描述了MDP的回报。(5分) 示例:MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1,这样agent就会被鼓励以尽快到达目标,但如果它违反了规则,奖励会是-10亿,这样它就知道不能这么做。 (分值:20.0分)国家开放大学 p>

文章目录


    相关文章
    评论留言请发表您的神机妙论……

    昵称

    邮箱

    地址

    私密评论
    评论列表(共有0条评论)