第一章 统计案例
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.分析人的身高与体重的关系,可以用( )
A.残差分析 B.回归分析
C.等高条形图 D.性检验
解析:因为身高与体重是两个具有相关关系的变量,所以要用回归分析来解决.
答案:B
2.如果有95%的把握说事件A和B有关系,那么具体计算出的数据( ) A.k>3.841 B.k<3.841
C.k>6.635 D.k<6.635
解析:由性判断的方法可知,如果有95%的把握,则k>3.841.
答案:A
3.分类变量X和Y的列联表如下:
| Y1 | Y2 | 总计 |
X1 | a | b | a+b |
X2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
则下列说法正确的是( )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
解析:因为k=,当(ad-bc)2越大时,k越大,
说明X与Y关系越强.
答案:C
4.已知x与y之间的一组数据:
x | 0 | 1 | 2 | 3 |
y | 1 | 3 | 5 | 7 |
则y 与x 的线性回归方程 | = | x+ | 必过点是( ) |
1
A.(2,2) | B.(1.5,0) |
解析:y与x的线性回归方程必过样本点的中心(1.5,4).
答案:D
5.考察人的高血压病是否与食盐摄入量有关,对某地区人群进行跟踪调查,得到以下数据:
是否患高血压 | 患高血压 | 未患高血压 | 合计 |
喜欢食物情况 | 34 | 220 | 254 |
喜欢较咸食物 | |||
喜欢清淡食物 | 26 | 1 353 | 1 379 |
合计 | 60 | 1 573 | 1 633 |
则认为人的高血压病与食盐摄入量有关的把握大约为( ) A.99% B.95%
C.90% D.无充分依据
解析:k= ≈80.155,
∵80.155>6.635,
∴有99%的把握认为人的高血压病与食盐摄入量有关.
答案:A
6.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是( )
A.有99%的人认为栏目优秀
B.有99%的人认为栏目是否优秀与改革有关系
C.有99%的把握认为电视栏目是否优秀与改革有关系
D.没有理由认为电视栏目是否优秀与改革有关系
解析:由于K2=0.99<2.706,所以没有理由认为电视栏目是否优秀与改革有关系,故选D.
答案:D
7.已知一个线性回归方程为
( )
=1.5x+45,其中x的取值依次为1,7,5,13,19,则=
A.58.5 | = | B.46.5 |
C.60 | D.75 | |
解析: | =9,因为回归直线方程过点( ,),所以=1.5× +45 |
2
=1.5×9+45=58.5.
答案:A
8.设有一个回归直线方程
A.y 平均增加1.5 个单位C.y 平均减少1.5 个单位
解析: 回归直线方程
时,y 平均减少1.5 个单位. 答案: C
=2-1.5x,则变量x每增加1个单位时( ) B.y平均增加2个单位
D.y平均减少2个单位
=2-1.5x中斜率为-1.5,它的含义是:x每增加1个单位
9.对于随机变量K2的观测值k>2.706,我们就有________的把握认为x与y有关系( ) A.99% B.95%
C.90% D.以上都不对
解析: 由临界表得P(K2≥2.706)=0.1,故我们有90%的把握认为x 与y 有关系.
答案: C
10.有下列说法:
①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;
③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.
其中错误命题的个数是( )
B.1 A.0
C.2 D.3
解析: 观察残差图,残差点比较均匀地落在水平的带状区域内,说明选用模型比较理想,故①正确;相关指数R2的值越大,模型的拟合效果越好,故②正确;研究残差平方和时,其值越小,模型的拟合效果越好,故③正确.故答案选A.
答案: A
11.假设有两个分类变量X 和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2 列联表为:
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
以下数据中,对于同一样本能说明X 与Y 有关的可能性最大的一组为( )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5 | D.a=2,b=3,c=5,d=4 |
解析:可计算|ad-bc|的值,值越大说明X与Y有关的可能性越大.
答案:D
12.两个相关变量满足如下关系
x | 10 | 15 | 20 | 25 | 30 |
y | 1 003 | 1 005 | 1 010 | 1 011 | 1 014 |
两变量的线性回归方程为( )
A. =0.56x+997.4 B. =0.63x-231.2
C. =50.2x+501.4 D. =60.4x+400.7
解析:利用公式 = ≈0.56, =- ≈997.4.
∴线性回归方程为 =0.56x+997.4.
答案:A
二、填空题(本大题共4小题,每小题4分,共16分.把正确的答案填在题中的横线上)
13.根据如图所示的等高条形图回答,吸烟与患肺病________关系.(“有”或“没有”)
解析:本题考查用等高条形图来分析“两分类变量”之间的关系.
答案:有
14.已知样本数为11,计算得 | i=510, | i=214,回归方程为 | =0.3x+ | , | ||||||
,所 | ||||||||||
则≈________, | ≈________.(精确到0.01) | |||||||||
i= | ,因为=0.3 + | |||||||||
解析: | 由题意,= | i= | ≈46.36,= | |||||||
以 | =0.3× | + | ,可求得 | ≈5.55. | ||||||
答案:46.365.55
4
15.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电
量与当天气温,并制作了对照表,由表中数据得线性回归方程 | = | x+ | ,其中 | =- |
2.现预测当天气温为-4℃时,用电量的度数约为________.
用电量y(度) | 24 | 34 | 38 |
|
气温x(℃) | 18 | 13 | 10 | -1 |
解析:由题意可知
=(18+13+10-1)=10,
=(24+34+38+)=40,
=-2.
又回归方程 =-2x+ 过点(10,40),故 =60,
所以当x=-4时, =-2×(-4)+60=68.
答案:68
16.若两个分类变量X与Y的列联表为:
| y1 | y2 | 总 计 |
x1 | 10 | 15 | 25 |
x2 | 40 | 16 | 56 |
总 计 | 50 | 31 | 81 |
则“X与Y之间有关系”这个结论出错的概率为________.解析:由列联表数据,可求得随机变量K2的观测值
k= ≈7.227>6.635.因为P(K2≥6.635)≈0.01.所以
“x与y之间有关系”出错的概率仅为0.01.
答案:0.01
三、解答题(本大题共6小题,共74分.解答时应写出必要的文字说明、证明过程或演算步骤)
17.(本小题满分12分)某研究者欲考察某一高考试题的得分情况是否与性别有关系,统计结果如下:及格的人中男生有290人,女生有100人;不及格的人中男生有160人,女生有350人.试根据这些数据判断这一高考试题的得分情况与性别是否有关系.
解析:根据题中数据得如下列联表:
| 及格 | 不及格 | 总计 |
男生 | 290 | 160 | 450 |
5
女生 | 100 | 350 | 450 |
总计 | 390 | 510 | 900 |
由列联表中的数据得K2的观测值为
k= ≈163.348>10.828,所以在犯错误的概率不
超过0.001的前提下认为“这一高考试题的得分情况与性别有关系.”
18.(本小题满分12分)某产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:
x | 2 | 4 | 5 | 6 | 8 |
y | 30 | 40 | 60 | 50 | 70 |
请画出散点图并用散点图粗略地判断x、y是否线性相关.解析:散点图如图.
从散点图可以看出散点呈条状分布,所以x、y具有较强的线性相关关系.
19.(本小题满分12分)已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:
血球体积x/mm3 | 45 | 42 | 46 | 48 | 42 | 35 | 58 | 40 | 39 | 50 |
红血球数y/百万 | 6.53 | 6.30 | 9.25 | 7.50 | 6.99 | 5.90 | 9.49 | 6.20 | 6.55 | 7.72 |
(1)画出散点图;
(2)求出y对x的回归直线方程;
(3)若血球体积为49mm3,预测红血球数大约是多少.解析:(1)散点图如图所示.
6
(2)设线性回归方程为 | = | x+ | , |
由表中数据代入公式,得
= ≈0.16, =- ≈0.12.
所以所求线性回归方程为 =0.16x+0.12.
(3)把x=49代入线性回归方程,得 =0.16×49+0.12=7.96(百万),计算结果表
明,当血球体积为49mm3时,红血球数大约为7.96百万.
20.(本小题满分12分)(2013·琼海高二检测)为了调查某地区老年人是否需要志愿者帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
是否需要帮助 | 性别 | 男 | 女 | 总计 |
需要 | 40 | 30 | 70 | |
不需要 | 160 | 270 | 430 | |
总计 | 200 | 300 | 500 |
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
附:
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
K2= | . | |
解析: (1)需要帮助的老年人的比例估计值为 | ×100%=14%. | |
(2)k= | ≈9.967>6.635. | |
因为P(K2≥6.635)≈0.010,
所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关.
21.(本小题满分13分)(2012·辽宁卷)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查
7
结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
| 非体育迷 | 体育迷 | 合计 |
男 | | | |
女 | | 10 | 55 |
合计 | | | |
附:K2= | , |
P(K2≥k) | 0.05 0.01 |
k | 3.841 6.635 |
解析: | 由频率分布直方图可知,在抽取的100 人中,“体育迷”有25 人,从而得2×2 |
列联表如下:
| 非体育迷 | 体育迷 | 合计 |
男 | 30 | 15 | 45 |
女 | 45 | 10 | 55 |
合计 | 75 | 25 | 100 |
将2×2列联表中的数据代入公式计算,得
K2= | = | = |
≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.
22.(本小题满分13分)下表提供了某厂生产甲产品过程中记录的产量x(吨)与相应的
生产能耗y(吨标准煤)的几组对照数据.
x | 3 | 4 | 5 | 6 |
y | 2.5 | 3 | 4 | 4.5 |
(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程 | = | x+ |
;
8
(2)请求出R2,并说明残差变量对预报变量的影响约占百分之几.
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解析: (1) | iyi=66.5, | =32+42+52+62=86, |
=4.5,=3.5,
== =0.7,
=- =3.5-0.7×4.5=0.35,
所求的线性回归方程为 =0.7x+0.35.
(2)计算得残差及偏差的数据如下表:
yi- i | 0.05 | -0.15 | 0.15 | -0.05 |
yi- | -1 | -0.5 | 0.5 | 1 |
从而得 | (yi- | i)2=0.05, | (yi-)2=2.5, | |
所以R2=1- | =1- | =0.98. | ||
所以残差变量对预报变量的贡献率约为2%.
9