国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
强化学习★★形考作业1(总成绩占比10%)
课程名称: 强化学习 发布人: 卢艳君 来源: 第三单元 最优控制 满分: 100.0 发布时间: 2025-07-06 作业要求: 根据第一~三单元的知识完成本次形考作业。本次作业包括单选题、多选题以及简单题。通过本次作业的练习,应该掌握强化学习的基本要素、马尔可夫过程和马尔可夫决策过程的定义、多臂老虎机问题的求解、exploration(探索)与Exploitation(利用)的意义、价值的定义等知识点。本次形考作业占总成绩比10%。
单选题
1. 下列关于动态规划思想的说法中,不正确的⼀项是( ) (分值: 5.0)
A. 动态规划将问题在时间维度上进⾏拆分,称为时间差分,即利⽤下⼀时刻状态的价值计算当前时刻状态的价值,直到计算出所有状态的价值
B. 动态规划要将⼤的问题拆分成若⼲个⽐较⼩的问题,分别求解这些⼩问题,再⽤这些⼩问题的结果来解决⼤问题
C. 对于三连棋游戏,可以按照从前往后的顺序依次找出各种状态的价值
D. 三连棋游戏不同的状态虽然很多,但是状态的转移其实是有⽅向性的
2. 对于强化学习中模型的理解是()。 (分值: 5.0)
A. 模型决定了下一步要采取的动作。
B. 模型中的奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励。
C. 它由状态、动作、状态转移概率和奖励函数几个部分组成。
D. 马尔可夫决策过程中可以有模型,也可以没有模型。
3. 在三连棋游戏中,位于状态s0,采⽤策略,然后有1/3的概率会达到获胜的状态,有2/3的概率到达中间状态s1;之后这个中间状态在该策略下会有3/4的概率到达获胜的状态, 1/4的概率到达平局的状态,若获胜的价值为1,平局价值为0,则该策略下状态s0的价值为( ) (分值: 5.0)
A. 1/3
B. 5/6
C. 2/3
D. 1/2
4. 强化学习中的策略的含义是() (分值: 5.0)
A. 策略是智能体的动作模型,它决定了智能体的动作。
B. 我们不能把策略看做是一个函数。
C. 策略只有随机的形式。
D. 策略把输入的状态变为价值。
5. 下列关于epsilon-greedy策略的说法正确的是( ) (分值: 5.0)
A. 每次游戏中产⽣服从0到1之间正态分布的随机数
B. 每次游戏中产⽣服从0到10之间均匀分布的随机数
C. 每次游戏中产⽣服从0到10之间正态分布的随机数
D. 每次游戏中产⽣服从0到1之间均匀分布的随机数
6. 以下对有模型强化学习和免模型强化学习说法正确的是() (分值: 5.0)
A. 目前,大部分深度强化学习方法都采用了有模型强化学习。
B. 免模型强化学习是指对环境只进行虚拟环境建模并与虚拟环境交互来学习到最优策略。
C. 有模型强化学习不需要进行真实环境建模,用数据驱动学习。
D. 针对是否需要对真实环境建模,强化学习可以分为有模型强化学习和免模型强化学习。
7. 强化学习由两部分组成() (分值: 5.0)
A. 状态和马尔可夫过程
B. 动作和状态
C. 价值和动作
D. 智能体和环境
8. 下列选项关于⻢尔可夫过程与MDP的对⽐说法错误的是( ) (分值: 5.0)
A. ⼯程中很多实际问题适合被定义为⻢尔可夫过程⽽⾮MDP
渝粤教育 B. MDP关注的是如何对⼀个具体的问题采取措施,使得获得的效果最好
C. ⻢尔可夫过程反映的是客观规律,MDP反映的是具体问题
D. ⻢尔可夫过程体现宏观性质,MDP体现主观操作
9. 关于多臂⽼⻁机问题的描述,下列说法错误的是( ) (分值: 5.0)
A. ⽬标是在有限的摇动次数中获得更多 成人学历 的硬币奖励
B. 每个摇臂的中奖概率是未知的
C. 多臂⽼⻁机问题可以转化为⼀个⾮退化的MDP问题
D. 每个摇臂的中奖概率不完全相同
10. 价值函数可以这样理解()。 (分值: 5.0)
A. 价值函数的值是对当下及时奖励评价。
B. 有一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。
C. 价值函数就是评估动作好坏的函数。
11. 强化学习智能体的组成成分()。 (分值: 5.0)
A. 只有策略和价值函数
B. 都包含策略、价值函数和模型
C. 可能有策略、价值函数、模型中的一个或多个成分
D. 只有策略和模型
12. 下列关于MAB的简单策略和贪⼼策略的说法错误的是() (分值: 5.0)
A. 两种策略都需要⾸先对每个 国家开放大学 摇臂进⾏⼀定次数的操作,对期望奖励进⾏预估
B. 贪⼼策略总是选择当前期望奖励估计最⼤的摇臂进⾏操作
C. 简单策略的尝试操作次数有限,存在对期望预估不准确的问题
D. 两种策略都利⽤了游戏过程的反馈对期望奖励估计表进⾏更新
13. 在最优控制理论中,贝尔曼方程的作用是什么? (分值: 5.0)
A. 描述动态规划中递归 渝粤题库 地求解最优值函数的方法
B. 预测环境的变化趋势
C. 确定初始状态的策略
渝粤文库 D. 计算每个状态的即时奖励
多选题
1. 在最优控制中,动态规划算法的应用前提包括: (分值: 5.0)
A. 无需环境反馈
B. 奖励函数明确
C. 环境模型已知
D. 状态空间有限且离散
E. 可以处理无限状态空间
2. 在多臂老虎机问题中,探索与利用的权衡可以通过哪些策略实现? (分值: 5.0)
A. Q-learning
B. Thompson Sampling
C. Sarsa
D. Upper Confidence Bound (UCB)
E. ε-greedy
3. 基于策略和基于价值的强化学习方法的区别有() (分值: 5.0)
A. 基于价值迭代的方法只能应用在不连续的、离散的环境下(如围棋或某些游戏领域)。
B. 在基于价值的强化学习方法中,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。
C. 基于价值的强化学习算法有Q 学习(Q-learning)、Sarsa等,而基于策略的强化学习算法有策略梯度算法等。
D. 在基于策略的强化学习方法中,智能体会 广东开放大学 制定一套动作策略(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。
简答题/计算题
1. 设计1个适合于MDP框架的示例任务,为每个任务确定其状态、行为和奖励。每个MDP将被单独评分。评分标准为:描述了一个MDP。(5分)描述了MDP的状态。(5分)描述了MDP的行动。(5分)描述了MDP的回报。(5分)示例:MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1,这样agent就会被鼓励以尽快到达目标,但如果它违反了规则,奖励会是-10亿,这样它就知道不能这么做。 (分值: 20.0)
