国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
广东开放大学数据采集与管理(本专)作业答案
数据采集与管理(本专)
学校: 无
平台: 广东开放大学
题目如下:
1. 由HTTP客户端发起一个请求,建立一个到服务器指定端口的TCP连接,这个端口默认是()端口。
A. 10
B. 88
C. 81
D. 80
答案: 80
2. HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。
A. Connection
B. Refresh
C. WWW-Authenticate
D. Location
答案: Refresh
3. HTTP请求中的()头域的内容包含发出请求的用户信息。
A. Referer
B. Cookie
C. User-Agent
D. Authorization
答案: Authorization
4. 以下哪个属于HTTP请求信息()。
A. Expires
B. Content-Length
C. User-Agent
D. Accept-Ranges
答案: User-Agent
5. 发出的HTTP请求由三部分组成,分别是:()。
A. 请求行、请求正文
B. 消息报头、请求正文
C. 请求行、消息报头、请求正文
D. 应答行、消息报头、请求正文
答案: 请求行、消息报头、请求正文
6. HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。
A. POST
B. TRACE
C. GET
D. PUT
答案: POST
7. 通过HTTP或者HTTPS协议请求的资源由()来标识。
A. TCP
B. FTP
C. HTML
D. URL
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
8. 在HTP响应信息中,若状态信息码是200则表示()。
A. 请求成功
B. 所请求的页面已经转移至新的url
C. 登录失败
D. 访问被禁止
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
9. HTTP响应中的()用于重定向一个新的位置。
A. WWW-Authenticate
B. Connection
C. Refresh
D. Location
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
10. 以下哪个HTTP响应状态表示客户端错误()。
A. 300
B. 200
C. 403
D. 500
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
11. 大数据不仅仅是一种技术,更重要的是利用信息资源的思维、视角和策略。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
12. 大数据一般是指数量级为GB以上的数据。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
13. HTTP请求中的Keep-Alive功能使客户端到服务器端的连接持续有效。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
14. 大数据的主要难点在于数据量太大。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
15. HTTP响应中的Refresh表示浏览器应该在多少时间之后刷新文档,以秒计。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
16. HTTP响应中的Content-Length以二进制数字来表示。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
17. HTTP状态码500表示由于服务器原因造成的请求失败。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
18. 可以通过OPTION方法请求查询服务器的性能,或者查询与资源相关的选项和需求。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
19. HTTP中的User-Agent表示发起请求的地址。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
20. POST方式提交表单数据,会带来安全问题。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
21. 人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为人们生产生活带来有益的改变。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
22. HTTP请求中的“Connection: keep-alive”表示当前连接持续保持。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
23. POST方法请求服务器删除Request-URI所标识的资源。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
24. HTTP响应中的Expires用于指示资源的最后修改日期和时间。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
25. 从经济社会视角来看,大数据的重点在于“数据量大”。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
26. 大数据的应用注重相关分析而不是因果分析。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
27. HTTP请求的DELETE方法请求服务器删除Request-URI所标识的资源。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
28. HTTP响应中的Content-Encoding用于WEB服务器告诉浏览器自己响应的对象所用的自然语言。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
29. HTTP是分布式、协作的、超媒体信息系统的应用层协议。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
30. HTTP请求的Keep-Alive对服务器没有负面影响。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
31. HTTP协议的主要特点有()。
A. 支持客户/服务器模式
B. 支持非持续连接
C. 通信速度快
D. 无状态
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
32. http的请求方法的GET方法的说法,正确的有()。
A. GET提交的数据大小有限制
B. GET提交的数据大小没有限制
C. GET提交的数据以明文发送
D. 使用Request.QueryString来取得变量的值
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
33. 以下属于非结构化数据的有()。
A. 视频
B. 图像
C. 音频
D. 文本
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
34. 大数据价值链包括()。
A. 数据生成
B. 数据分析
C. 数据储存
D. 数据采集
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
35. 、对于HTTP请求中的Keep-Alive功能,以下说法正确的是( )。
A. 当出现对服务器的后继请求时,Keep-Alive功能避免了建立或者重新建立连接
B. Keep-Alive功能使客户端到服务器端的连接持续有效
C. 对于负担较重的网站来说,可能影响了服务器性能
D. 市场上的大部分Web服务器,都支持HTTP Keep-Alive
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
36. 通用网络爬虫的结构大致包括以下组成部分:() 。
A. 链接过滤模块
B. 页面爬行模块
C. 页面分析模块
D. URL 队列
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
37. 以下关于HTTP响应中Location的说法,正确的有()。
A. 在更换域名的时候
B. 用于建立一个链接
C. 其通常不是直接设置的,而是通过HttpServletResponse的sendRedirect方法
D. 用于重定向一个新的位置
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
38. 网络数据采集是指通过()或网站公开API等方式从网站上获取数据信息。。
A. 服务器
B. 浏览器
C. 网络爬虫
D. 播放器
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
39. 以下关于网络爬虫的说法,不正确的是()。
A. 网络爬虫实际上是一种"自动化浏览网络”的程序,或者说是一种网络机器人
B. 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件
C. 网络爬虫被广泛用于互联网搜索引擎或其他类似网站
D. 目前互联网上的信息分类大多数都是人工完成的
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
40. 增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。
A. 统一更新法
B. 基于分类的更新法
C. 随机更新法
D. 个体更新法
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
41. ()只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
A. 聚焦网络爬虫
B. 增量式网络爬虫
C. 通用网络爬虫
D. 深层网络爬虫
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
42. 网络爬虫被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式 。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
43. 目前超过一半的网页浏览量都由实际的用户贡献。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
44. 聚焦网络爬虫需要对网页或数据的分析与过滤。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
45. 网络爬虫不需要遵守任何限制。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
46. 广度优先的爬行策略按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
47. 网络爬虫可以抓取Web网页、文档甚至图片、音频、视频等资源。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
48. 数据采集是实现大数据分析与处理的最后步骤。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
49. 现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
50. 增量式网络爬虫能够在一定程度上保证所爬行的页面是尽可能新的页面。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
51. 网络爬虫技术不支持图片、音频、视频等文件或附件的采集。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
52. 增量式爬虫需要对网页的重要性排序。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
53. 广度优先的爬行策略适合垂直搜索或站内搜索。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
54. 通用爬虫爬行策略实现的关键是评价页面内容和链接的重要性。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
55. 网络数据采集不能处理非结构化数据。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
56. Deep Web 爬虫基于领域知识填写表单时,一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
57. Deep Web 爬虫填写表单时可以基于领域知识,也可以基于网页结构分析。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
58. 深度优先策略比较适合垂直搜索或站内搜索。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
59. 深层网页中存储的信息量只占互联网中信息量的极少部分。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
60. 增量式爬虫不需要评价网页内容的重要性。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
61. 深度优先的爬行策略按照深度逐层爬行页面,所有链接遍历完后,爬行任务结束。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
62. 正则表达式中\w表示任意数字字符。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
63. 正则表达式中的贪婪模式匹配尽可能少的文本。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
64. 正则表达式中的饥饿模式匹配尽可能少的文本。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
65. 字符串“a_b”可以匹配正则表达式“\w{6}”。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
66. 字符串“a_b”可以匹配正则表达式“\w{3}”。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
67. 使用ETL工具处理数据周期较长。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
68. 不同的企业有不同的业务规则、不同的数据指标,这些指标通过简单的加减、组合就能完成。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
69. 一般来说使用数据抽取和转换都用手工的方式完成。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
70. 使用ETL工具处理数据后很难管理和维护。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
71. 数据的时效性指数据是否易于获取、易于理解和易于使用。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
72. 数据的一致性指的是数据是否被一致的定义或理解。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
73. 较早的数据不够完整或不符合新系统的数据规范也不需要更新或补充。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
74. 数据的正确性指的是数据之间的参照完整性是否存在或一致。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
75. 数据预处理时可能要先验证数据正确性。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
76. 不同格式的数据也可以一起处理,不需要转换。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
77. 正则表达式支持匹配边界。例如()匹配行尾。
A. \w
B. ^
C. $
D. \d
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
78. 以下能匹配正则表达式"^[A-Za-z]+$"的是()。
A. a3
B. 33
C. 3
D. abc
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
79. 正则表达式的规则中,()表示数字,相当于[0-9]。
A. \W
B. \d
C. \w
D. ^
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
80. 正则表达式中有一些预定义的字符分类,其中,()表示任意单词字符。
A. \d
B. \s
C. \w
D. $
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
81. 主键合并数据时,使用哪个pandas库的方法?
A. concat()
B. join()
C. merge()
D. combine_first()
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
82. 数据()的任务是过滤那些不符合要求的数据。
A. 清洗
B. 加载
C. 抽取
D. 转换
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
83. 以下不属于数据质量的规范、完整性要求的是()
A. 不存在交叉系统匹配违规,数据被很好集成
B. 遗留系统相关信息与其他模块要一致
C. 数据在内部一致
D. 参照完整性未被破坏:数据不会找不到参照
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
84. 在concat()方法中,如果要进行交叉堆叠合并,并且得到两表的交集,join参数应该设置为什么?
A. outer
B. right
C. left
D. inner
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
85. 堆叠合并数据时,使用哪个pandas库的方法?
A. merge()
B. join()
C. concat()
D. combine_first()
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
86. 数据质量的完整性指的是()。
A. 数据是否正确的表示了现实或可证实的来源
B. 数据是否被一致的定义或理解
C. 数据之间的参照完整性是否存在或一致
D. 所有需要的数据都存在
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
87. 可以使用 [ ] 运算符直接访问 DataFrame 中的某一行。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
88. Python具有丰富和强大的库。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
89. 可以通过索引直接修改 Series 中的值。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
90. Python不支持在Windows下运行。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
91. Python开发的程序可被移植到多种平台。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
92. Python是一种冷门的语言。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
93. Python目前的最新的通用版本是Python 2.x。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
94. Python是一种强大的、可扩展性强的面向对象编程语言。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
95. 对 Series 进行算术运算时,会自动根据索引对齐数据。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
96. 不能将一个列表赋值给 DataFrame 的某一列。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
97. Python具有跨平台的特性。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
98. Series 的 sum() 方法会忽略缺失值。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
99. Python开发的程序不能被移植到其他平台。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
100. DataFrame 可以看作是由多个 Series 组成的。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
101. 可以使用 iloc 方法按整数位置索引访问 DataFrame 中的元素。
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
102. mountainsDF是DataFrame对象,关于以下语句的作用,说法正确的是 mountainsDF[mountainsDF['height']>1500]()。
A. 按height列的值筛选出大于1500的行
B. 按height列的值筛选出小于1500的行
C. 按height行的值筛选出大于1500的列
D. 按height行的值筛选出小于1500的列
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
103. DataFrame对象的isnull方法用于()。
A. 判断数据是否有空值
B. 查看数据
C. 排序
D. 删除
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
104. 以下关于 Jupyter Lab 的说法,不正确的是()。
A. Jupyter Lab 提供了 Notebook 和 Console 等交互模式
B. Jupyter Lab 不支持可视化调试
C. Jupyter Lab 支持预览和编辑更多种类的文件
D. Jupyter Lab 是 Jupyter 的一个拓展
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
105. DataFrame的每一列都是一个()对象。
A. Series
B. 字符
C. 数值
D. 字典
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
106. 堆叠合并操作可以通过 pandas 库的( )方法完成。。
A. drop()
B. append()
C. concat()
D. insert()
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
107. Series对象可以通过()方法删除相应的元素值。
A. append
B. drop
C. insert
D. sort
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
108. 将数据写入Excel文件可以使用DataFrame的( )方法。
A. to_excel
B. to_csv
C. to_sql
D. to_json
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
109. DataFrame是一种()维数据表结构。
A. 二
B. 四
C. 一
D. 三
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
110. 若对象s是Series对象,则score.head可用于()。
A. 输出前1个元素
B. 输出后1个元素
C. 输出后5个元素
D. 输出前5个元素
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
111. [1] 是Series的第()个元素。
A. 2
B. 3
C. 最后一个
D. 1
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
112. DataFrame对象的属性T表示()。
A. 列标签信息
B. 元素的值
C. 元素的行列数据转换
D. 元素的数据类型
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
113. DataFrame 对象调用哪个方法来查看缺失值?( )
A. isnull()
B. drop()
C. insert()
D. sum()
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
114. ( )的目的是将存储在多张表中的数据合并为一张表,便于进行数据分析。
A. 数据归约
B. 数据变换
C. 数据合并
D. 数据清洗
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
115. DataFrame对象按标签排序使用()方法。
A. sort_index
B. drop
C. append
D. sort_values
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
116. 将数据写入MySQL数据库可以使用DataFrame的( )方法。
A. to_sql
B. to_json
C. to_excel
D. to_csv
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
117. 主键合并可以通过 pandas 库的( )方法完成。。
A. drop()
B. merge()
C. append()
D. insert()
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
118. DataFrame对象的shape用于()。
A. 返回元素的数据类型
B. 返回DataFrame对象的行数([0]),列数
C. 进行元素的行列数据转换
D. 返回元素的值
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
119. Series对象的方法可以对存储的元素进行下面哪些操作()。
A. 增加
B. 其余均是
C. 修改
D. 删除
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
120. pandas中的数据结构DataFrame是()的。
A. 三维
B. 二维
C. 一维
D. 四维
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。
121. DataFrame对象排序时的参数inplace=False表示()。
A. 当前操作不会改变原数据
B. 升序排列
C. 操作直接在原数据上操作
D. 降序排列
答案:请关注【广开搜题】微信公众号,发送题目获取正确答案。