国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
广东开放大学社会统计学期末考试试卷与参考答案
广东开放大学社会统计学期末考试复习笔记
第一章 描述统计学基础
重点知识点
1. 数据类型
- 定类数据(Nominal Data):无顺序、无数值意义的分类数据,如性别、民族。
- 定序数据(Ordinal Data):有顺序但无固定间隔的分类数据,如教育程度(小学、中学、大学)。
- 定距数据(Interval Data):有固定间隔但无绝对零点的数据,如温度(摄氏度)。
- 定比数据(Ratio Data):有固定间隔且有绝对零点的数据,如收入、年龄。
2. 集中趋势的度量
- 均值(Mean):适用于定距和定比数据,计算公式为:
\[
\bar{X} = \frac{\sum X_i}{N}
\]
- 中位数(Median):将数据排序后位于中间的值,适用于有极端值或定序数据。
- 众数(Mode):出现次数最多的数值,适用于定类和定序数据。
3. 离散程度的度量
- 标准差(Standard Deviation):衡量数据波动性的指标,计算公式为:
\[
\sigma = \sqrt{\frac{\sum (X_i - \bar{X})^2}{N}}
\]
- 方差(Variance):标准差的平方,反映数据分布的离散程度。
- 四分位差(Interquartile Range, IQR):用于描述中间50%数据的离散范围,计算公式为:
\[
IQR = Q_3 - Q_1
\]
难点解析
- 如何选择集中趋势的度量方法?
当数据存在极端值时,中位数比均值更稳健;对于定序数据,只能使用中位数或众数;定类数据只能用众数。
例题与答案
题目:某社区家庭收入数据如下(单位:万元):
\[ 5, 8, 10, 12, 15, 20, 25, 30, 50 \]
计算其均值、中位数、众数及标准差。
解答:
- 均值:\((5+8+10+12+15+20+25+30+50)/9 = 175/9 ≈ 19.44\)万元
- 中位数:排序后中间值为15万元
- 众数:无重复值,因此无众数
- 标准差:先计算离差平方和:
\[
\sum (X_i - 19.44)^2 ≈ 1220.44 \quad \Rightarrow \quad \sigma ≈ \sqrt{1220.44/9} ≈ 11.46 \text{万元}
\]
第二章 概率与概率分布
重点知识点
1. 概率基本概念
- 古典概率:等概率事件的计算,公式为:
\[
P(A) = \frac{\text{事件A包含的基本事件数}}{\text{总基本事件数}}
\]
- 条件概率:事件A在事件B发生的条件下发生的概率,公式为:
\[
P(A|B) = \frac{P(A \cap B)}{P(B)}
\]
2. 常见概率分布
- 二项分布(Binomial Distribution):适用于只有两种结果的独立事件,公式为:
\[
P(k) = C(n,k) p^k (1-p)^{n-k}
\]
- 正态分布(Normal Distribution):对称分布,68-95-99.7法则,标准化公式为:
\[
Z = \frac{X - \mu}{\sigma}
\]
难点解析
- 如何区分二项分布与泊松分布?
二项分布适用于固定次数的独立试验(如抛硬币),而泊松分布适用于单位时间内事件发生的次数(如电话呼叫次数)。
例题与答案
题目:某地区新生儿性别比例为1:1,随机抽取5个新生儿,求恰好3个是男孩的概率。
解答:
- 此为二项分布问题,\(n=5\), \(k=3\), \(p=0.5\)
- 计算组合数:\(C(5,3) = 10\)
- 概率:\(10 \times (0.5)^3 \times (0.5)^2 = 10 \times 0.03125 = 0.3125\)
- 答案:31.25%
第三章 抽样分布与中心极限定理
重点知识点
1. 抽样分布
- 样本均值的抽样分布:当样本量足够大时(\(n \geq 30\)),近似正态分布,均值为总体均值,标准差为标准误(\(SE = \sigma/\sqrt{n}\))。
- t分布:当总体标准差未知且样本量较小时,用于替代正态分布。
2. 中心极限定理(Central Limit Theorem, CLT)
- 核心内容:无论总体分布如何,样本均值的抽样分布均近似正态分布,前提是样本量足够大。
难点解析
- 标准误的意义:标准误越小,样本均值越接近总体均值,抽样误差越小。
例题与答案
题目:某城市居民月收入标准差为2000元,随机抽取100人,求样本均值的标准误。
解答:
- 标准误公式:\(SE = \sigma/\sqrt{n} = 2000/\sqrt{100} = 200\)元
- 答案:200元
第四章 参数估计
重点知识点
1. 点估计与区间估计
- 点估计:用样本统计量直接估计总体参数(如用样本均值估计总体均值)。
- 区间估计:通过置信区间(Confidence Interval)给出参数的可能范围,常用公式为:
\[
\bar{X} \pm Z_{\alpha/2} \times SE \quad \text{或} \quad \bar{X} \pm t_{\alpha/2} \times SE
\]
2. 置信水平与样本量的关系
- 置信水平越高(如99% vs 95%),置信区间越宽;样本量越大,置信区间越窄。
难点解析
- 如何选择Z值或t值?
当总体标准差已知或样本量较大时用Z值;当总体标准差未知且样本量较小时用t值。
例题与答案
题目:某高校学生平均身高为165cm,标准差为5cm,抽取100名学生,求95%置信水平下的身高均值置信区间。
解答:
- 标准误:\(5/\sqrt{100} = 0.5\)cm
- Z值(95%置信水平):1.96
- 置信区间:\(165 \pm 1.96 \times 0.5 \Rightarrow (164.02, 165.98)\)cm
- 答案:95%置信区间为164.02cm到165.98cm。
第五章 假设检验
重点知识点
1. 假设检验步骤
1. 确定原假设(\(H_0\))和备择假设(\(H_1\))。
2. 选择显著性水平(如α=0.05)。
3. 计算检验统计量(如Z值或t值)。
4. 确定临界值或p值,比较后做出决策。
5. 解释结果。
2. 两类错误
- 第一类错误(弃真):拒绝真实的\(H_0\)。
- 第二类错误(取伪):接受错误的\(H_0\)。
难点解析
