专题 统计案例 课后练习
主讲教师:纪荣强 北京四中数学教师
为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
根据表中数据,得到χ2=≈4.844,则认为选修文科与性别有关系出错的可能性约为________.
在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误概率不超过0.01的前提下认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
在一次对性别与说谎是否相关的调查中,得到如下数据:
说谎
不说谎
合计
男
6
7
13
女
8
9
17
合计
14
16
30
根据表中数据,得到如下结论中正确的一项是( )
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分的证据显示说谎与性别有关
通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
由χ2=算得,
χ2=≈7.8.
根据具体数据算出的χ2,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
已知数组(x1,y1),(x2,y2),…,(x10,y10)满足线性回归方程=x+,则“(x0,y0)满足线性回归方程=x+”是“x0=,y0=”的( )
A.充分不必要条件 B.必要不充分条件
C.充要条件 D.既不充分也不必要条件
某考察团对全国10大城市的居民人均工资收入x(万元/年)与居民人均消费y(万元/年)进行统计调查,发现y与x具有相关关系,且y对x的回归方程为=0.66x+1.562.若某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工资收入的百分比约为________.
某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想.
参考公式:
已知x,y的一组数据如下表:
x
1
3
6
7
8
y
1
2
3
4
5
(1)从x,y中各取一个数,求x+y≥10的概率;
(2)对于表中数据,甲、乙两同学给出的拟合直线分别为y=x+1与y=x+,试利用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.
已知x,y之间的数据如表所示,则回归直线过点________.
x
1
2
3
4
5
y
1.2
1.8
2.5
3.2
3.8
在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
某网站就“民众是否支持加大修建城市地下排水设施的资金投入”进行投票.按照北京暴雨前后两个时间收集有效投票,暴雨后的投票收集了50份,暴雨前的投票也收集了50份,所得统计结果如下表:
支持
不支持
总计
北京暴雨后
x
y
50
北京暴雨前
20
30
50
总计
A
B
100
已知工作人员从所有投票中任取一个,取到“不支持投入”的投票的概率为.
(1)求列联表中的数据x,y,A,B的值;
(2)绘制条形统计图,通过图形判断本次暴雨是否影响到民众对加大修建城市地下排水设施的投入的态度?
(3)能够有多大把握认为北京暴雨对民众是否赞成加大对修建城市地下排水设施的投入有关?
附:K2=
P(K2≤k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲.
(1)根据以上数据建立一个2×2列联表;
(2)若认为“性别与患色盲有关系”,求出错的概率.
某班主任对全班50名学生进行了作业量多少的调查.数据如下表:
认为作业多
认为作业不多
总计
喜欢玩游戏
18
9
不喜欢玩游戏
8
15
总计
(1)请完善上表中所缺的有关数据;
(2)试通过计算说明能否认为喜欢玩游戏与作业量的多少有关系?
附:χ2=.
某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)
(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯;
(2)根据以上数据完成下列2×2的列联表:
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
合计
(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.
通过随机询问某校110名高中学生在购买食物时是否看营养说明,得到如下的列联表:
男
女
总计
看营养说明
50
30
80
不看营养说明
10
20
30
总计
60
50
110
(1)从这50名女生中按是否看营养说明采取分层抽样的方法抽取一个容量为5的样本,则样本中看与不看营养说明的女生各有多少名?
(2)从(1)中的5名女生样本中随机选取两名作深度访谈,求选到看与不看营养说明的女生各一名的概率;
(3)根据以上列联表,问有多大把握认为“性别与在购买食物时是否看营养说明”有关?
参考公式:K2= ,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如下表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( )
A.=2.3x-0.7 B.=2.3x+0.7
C.=0.7x-2.3 D.=0.7x+2.3
某种产品的广告费支出x与销售额y(单位:万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)求回归直线方程;
(2)试预测广告费支出为10万元时,销售额多大?
(3)在已有的五组数据中任意抽取两组,求至少有一组数据其预测值与实际值之差的绝对值不超过5的概率.参考数据:=145,=13 500,iyi=1 380
专题 统计案例
课后练习参考答案
5%
详解: 因为χ2=4.844>3.841,所以有95%的把握认为选修文科与性别有关系.
故认为选修文科与性别有关系出错的可能性约为5%.
D.
详解:
统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.
D.
详解:
由于K2=≈0.0024,由于K2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.
C.
详解:
根据独立性检验的定义,由χ2≈7.8>6.635可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
B.
详解: x0,y0为这10组数据的平均值,又因为线性回归方程=x+必过样本中心点(,),因此(,)一定满足线性回归方程,但满足线性回归方程的除了(,)外,可能还有其他样本点.
83%.
详解:因为当=7.675时,x=≈9.262,
则≈0.829≈83%.
(1) . (2) =x-. (3)该小组所得线性回归方程是理想的.
详解: (1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中抽到相邻两个月的数据的情况有5种,所以P(A)==.
(2)由数据求得=11,=24,
由公式求得b=,再由a=-b=-,
得y关于x的线性回归方程为=x-.
(3)当x=10时,=,|-22|<2;
同样,当x=6时,=,|-12|<2,
所以,该小组所得线性回归方程是理想的.
(1) . (2) y=x+的拟合程度更好.
详解:(1)从x,y中各取一个数组成数对(x,y),共有25对,其中满足x+y≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P=.
(2)用y=x+1作为拟合直线时,所得y值与y的实际值的差的平方和为S1=2+(2-2)2+(3-3)2+2+2=.
用y=x+作为拟合直线时,所得y值与y的实际值的差的平方和为S2=(1-1)2+(2-2)2+2+(4-4)2+2=.
∵S2(3,2.5).
详解:
=3,=2.5,
∴样本点中心为(3,2.5),回归直线过样本点中心.
D.
详解:因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.
C.
详解: 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c=20,b=45,选项A、B错误.根据列联表中的数据,得到K2=≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.
(1) y=10,B=40,x=40,A=60.
(2)由图可以看出暴雨影响到民众对加大修建城市地下排水设施的投入的态度.
(3)至少有99.9%的把握认为北京暴雨对民众是否赞成加大对修建城市地下排水设施的投入有关.
详解:(1)设“从所有投票中抽取一个,取到不支持投入的投票”为事件A,
由已知得P(A)==,所以y=10,B=40,x=40,A=60.
(2)由(1)知北京暴雨后支持率为=,
不支持率为1-=,
北京暴雨前支持率为=,
不支持率为1-=.
条形统计图如图所示,由图可以看出暴雨影响到民众对加大修建城市地下排水设施的投入的态度.
(3)K2===≈16.78>10.828.
故至少有99.9%的把握认为北京暴雨对民众是否赞成加大对修建城市地下排水设施的投入有关.
(1)2×2列联表如下:
患色盲
不患色盲
总计
男
38
442
480
女
6
514
520
总计
44
956
1 000
(2) 0.1%.
详解:(1)2×2列联表如下:
患色盲
不患色盲
总计
男
38
442
480
女
6
514
520
总计
44
956
1 000
(2)假设H0:“性别与患色盲没有关系”,根据(1)中2×2列联表中数据,可求得K2=≈27.14,又P(K2≥10.828)=0.001,即H0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.
(1)
认为作业多
认为作业不多
总计
喜欢玩游戏
18
9
27
不喜欢玩游戏
8
15
23
总计
26
24
50
(2)有95%把握认为喜欢玩游戏与作业量的多少有关系.
详解:(1)
认为作业多
认为作业不多
总计
喜欢玩游戏
18
9
27
不喜欢玩游戏
8
15
23
总计
26
24
50
(2)将表中的数据代入公式
χ2=得到
χ2=≈5.059>3.841,
所以有95%把握认为喜欢玩游戏与作业量的多少有关系.
(1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主.
(2)
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
(3)有99%的把握认为亲属的饮食习惯与年龄有关.
详解: (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主.
(2)
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
(3)K2===10>6.635,有99%的把握认为亲属的饮食习惯与年龄有关.
(1)看营养说明的女生有3名,样本中不看营养说明的女生2名. (2) .
(3)有99%的把握认为“性别与在购买食物时是否看营养说明”有关.
详解:(1)根据分层抽样可得:样本中看营养说明的女生有×30=3名,样本中不看营养说明的女生有×20=2名.
(2)记样本中看营养说明的3名女生为a1,a2,a3,不看营养说明的2名女生为b1,b2,从这5名女生中随机选取2名,共有10个等可能的基本事件:a1,a2;a1,a3;a1,b1;a1,b2;a2,a3;a2,b1;a2,b2;a3,b1;a3,b2;b1,b2.
其中事件A“选到看与不看营养说明的女生各一名”包含了6个基本事件:a1,b1;a1,b2;a2,b1;a2,b2;a3,b1;a3,b2.
所以所求的概率为P(A)==.
(3)根据题中的列联表得K2==≈7.486.
由P(K2≥6.635)=0.010,P(K2≥7.879)=0.005可知,有99%的把握认为“性别与在购买食物时是否看营养说明”有关.
C.
详解:∵iyi=6×2+8×3+10×5+12×6=158,
==9,==4.
∴==0.7,
=4-0.7×9=-2.3.
故线性回归直线方程为=0.7x-2.3.
(1)回归直线方程为=6.5x+17.5. (2) 82.5万元. (3) .
详解:(1)===5,
===50,
又已知=145,iyi=1 380,
于是可得:===6.5,
=- =50-6.5×5=17.5,
因此,所求回归直线方程为=6.5x+17.5.
(2)根据上面求得的回归直线方程,当广告费支出为10万元时,=6.5×10+17.5=82.5(万元),
即这种产品的销售收入大约为82.5万元.
(3)
x
2
4
5
6
8
y
30
40
60
50
70
30.5
43.5
50
56.5
69.5
基本事件:(30,40),(30,60),(30,50),(30,70),(40,60),(40,50),(40,70),(60,50),(60,70),(50,70)共10个.
两组数据其预测值与实际值之差的绝对值都超过5有(60,50),
所以至少有一组数据其预测值与实际值之差的绝对值不超过5的概率为1-=.
统计案例
主讲教师:纪荣强 北京四中数学教师
重难点易错点解析
题一:某高校《统计》课程的教师随机给出了选该课程的一些情况,具体数据如下:
?
非统计专业
统计专业
男
13
10
女
7
20
为了判断选修统计专业是否与性别有关,根据表中数据,得K2≈4.844,所以可以判定选修统计专业与性别有关.那么这种判断出错的可能性为( ) A.5% ???? B.95% ???? C.1% ???? D.99%
题二:在独立性检验中,统计量χ2有两个临界值:3.841和6.635.当χ2>3.841时,有95%的把握说明两个事件有关,当χ2>6.635时,有99%的把握说明两个事件有关,当χ2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算χ2=20.87.根据这一数据分析,认为打鼾与患心脏病之间(??? ??)
A.有95%的把握认为两者有关 B.约有95%的打鼾者患心脏病
C.有99%的把握认为两者有关 D.约有99%的打鼾者患心脏病
金题精讲
题一:设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
题二:两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.96 B.模型2的相关指数R2为0.86
C.模型3的相关指数R2为0.73 D.模型4的相关指数R2为0.66
题三:某种产品的广告费支出x与销售额y (单位:万元)之间有下表关系:
x
2
4
5
6
8
y
30
40
60
50
70
y与x的线性回归方程为,则a=???????????????;当广告支出5万元时,随机误差的效应(残差)为 ???????????????.
题四:电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中.采用随机抽样方法每次抽取1名观众,抽取3次.记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X).
附:χ2=,
P(χ2≥k)
0.05
0.01
k
3.841
6. 635
题五:为了考察某种中药预防流感效果,抽样调查40人,得到如下数据:服用中药的有20人,其中患流感的有2人,而未服用中药的20人中,患流感的有8人.(1)根据以上数据建立2×2列联表;(2)能否在犯错误不超过0.05的前提下认为该药物有效?参考
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
??(n=a+b+c+d)
题六:某大学高等数学老师这学期分别用A,B两种不同的教学方式试验甲、乙两个大一新班(人数均为60人,入学数学平均分数和优秀率都相同;勤奋程度和自觉性都一样).现随机抽取甲、乙两班各20名的高等数学期末考试成绩,得到茎叶图: (Ⅰ)依茎叶图判断哪个班的平均分高?(Ⅱ)现从甲班高等数学成绩不得低于80分的同学中随机抽取两名同学,求成绩为86分的同学至少有一个被抽中的概率;(Ⅲ)学校规定:成绩不低于85分的为优秀,请填写下面的列联表,并判断“能否在犯错误的概率不超过0.025的前提下认为成绩优秀与教学方式有关?”
?
甲班
乙班
合计
优秀
?
?
?
不优秀
?
?
?
合计
?
?
?
下面临界值表仅供参考:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
?(参考公式:其中)
题七:已知三点(3,10),(7,20),(11,24)的横坐标x与纵坐标y具有线性关系,求其线性回归方程.(参考公式:,)
统计案例
讲义参考答案
重难点易错点解析
题一:A 题二:C
金题精讲
题一:D 题二:A 题三:17.5,10
题四:(1) 没有理由认为“体育迷”与性别有关
(2) X的分布列为
X
0
1
2
3
P
E(X)=. D(X)=.
题五:(1)2×2列联表
?
患流感
未患流感
总计
服用中药
2
18
20
未服用中药
8
12
20
总计
10
30
40
(2)在犯错误不超过0.05的前提下认为该药物有效
题六:(Ⅰ)甲班高等数学成绩集中于60-90分之间,而乙班数学成绩集中于80-100分之间,所以乙班的平均分高. (Ⅱ)?;(Ⅲ)在犯错误的概率不超过0.025的前提下可以认为成绩优秀与教学方式有关.
题七:=1.75x+5.75