2023-2024学年高中数学人教A版(2019)选择性必修第三册 第八章 成对数据的统计分析 课后习题(打包3份)(含解析)

文档属性

名称 2023-2024学年高中数学人教A版(2019)选择性必修第三册 第八章 成对数据的统计分析 课后习题(打包3份)(含解析)
格式 zip
文件大小 783.5KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2023-12-29 09:19:43

文档简介

8.1 成对数据的统计相关性  
8.1.1 变量的相关关系 8.1.2 样本相关系数  
A级 必备知识基础练
1.下列说法正确的是(  )
A.圆的面积与半径之间的关系是相关关系
B.粮食产量与施肥量之间的关系是函数关系
C.一定范围内,学生的成绩与学习时间呈现正相关关系
D.人的体重与视力呈现负相关关系
2.在下列各图中,两个变量具有相关关系的是(  )
A.(1)(2)(3) B.(1)(3)(4)
C.(2)(3)(4) D.(1)(2)(4)
3.如下四个散点图中,呈现正相关关系的是 (  )
4.为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、乙、丙三组数据的样本相关系数,其数值分别为0.939,0.937,0.948,则(  )
A.甲组数据的线性相关性最强,乙组数据的线性相关性最弱
B.乙组数据的线性相关性最强,丙组数据的线性相关性最弱
C.丙组数据的线性相关性最强,甲组数据的线性相关性最弱
D.丙组数据的线性相关性最强,乙组数据的线性相关性最弱
5.下列两个变量之间具有相关关系的是     .
①正方形的边长a和面积S;
②一个人的身高h和腿长x;
③真空中的自由落体运动其下落的距离h和下落的时间t;
④一个人的身高h和体重x.
6.为了对某班考试成绩进行分析,现从全班同学中随机抽取8位同学,他们的数学、物理成绩对应如表.根据表中数据分析:是否可以认为变量x与y具有线性相关关系
学生编号 1 2 3 4 5 6 7 8
数学分数x 60 65 70 75 80 85 90 95
物理分数y 72 77 80 85 88 90 93 95
B级 关键能力提升练
7.在各散点图中,两个变量具有正相关关系的是(  )
8.甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性做试验,并分别求得样本相关系数r,如表:
相关系数 甲 乙 丙 丁
r -0.82 0.78 0.69 0.87
则哪位同学的试验结果体现两变量有更强的线性相关性 (  )
A.甲 B.乙
C.丙 D.丁
9.如图所示,5组数据(x,y)中去掉D(3,10)后,下列说法正确的是(  )
A.相关系数r不变
B.相关系数r变小
C.负线性相关变为正线性相关
D.变量x与变量y的相关性变强
10.(多选题)对于样本相关系数r,以下说法错误的是(  )
A.r只能是正值,不能为负值
B.|r|≤1,且|r|越接近于1,相关程度越强;相反则越弱
C.|r|≤1,且|r|越接近于1,相关程度越弱;相反则越强
D.r<0时表示两个变量不相关
11.关于变量x,y的一组样本数据(a1,b1),(a2,b2),…,(an,bn)(n≥2,a1,a2,…,an不全相等)的散点图中,若所有样本点(ai,bi)(i=1,2,…,n)恰好都在直线y=-2x+1上,则根据这组样本数据推断的变量x,y的相关系数为     .
C级 学科素养创新练
12.许多先进国家对驾驶员的培训大多采用室内模拟教学和训练,而后再进行实地训练并考试,这种方法可以大大节约训练的费用.问题是这种方法有效吗 如表是12名学员的模拟驾驶成绩x与实际考试成绩y的记录(单位:分):
x 98 55 50 87 77 89
y 95 60 45 85 75 87
x 79 98 94 83 74 73
y 75 97 92 80 71 72
试问:两者的相关性如何 请画出散点图,并求出x与y间的样本相关系数.
8.1.1 变量的相关关系8.1.2 样本相关系数
1.C 对于A,圆的面积与半径之间的关系是确定的关系,是函数关系,所以A错误;
对于B,粮食产量与施肥量之间的关系不是函数关系,是相关关系,所以B错误;
对于C,一定范围内,学生的成绩与学习时间呈现正相关关系,所以C正确;
对于D,人的体重与视力是没有相关关系的,所以D错误.
2.A 图(1)、(2)、(3)中,散点图中的点大致分布在一条直线附近,呈带状分布,所以变量间具有线性相关关系;
图(4)中,散点图中的点分布杂乱无章,不在一条直线附近,也不呈带状分布,所以变量间不具有相关关系.
3.A 根据题意,依次分析选项:
对于A,散点图中的点从左向右是上升的,呈现正相关关系;
对于B,散点图中的点从左向右是下降的,呈现负相关关系;
对于C,散点图中的点呈片状分布,没有明显的相关性;
对于D,散点图中的点也呈片状分布,没有明显的相关性.
4.D 甲、乙、丙三组数据的线性相关系数分别为0.939,0.937,0.948,所以线性相关系数最大的丙组数据的线性相关性最强,线性相关系数最小的乙组数据的线性相关性最弱.
5.②④ 对于①,正方形的边长a和面积S是函数关系,不是相关关系;
对于②,一般情况下,一个人的身高h和腿长x是正相关关系;
对于③,真空中的自由落体运动其下落的距离h和下落的时间t是函数关系,不是相关关系;
对于④,一般情况下,一个人的身高h和他的体重x是正相关关系.
6.解(60+65+70+75+80+85+90+95)=77.5,
(72+77+80+85+88+90+93+95)=85.
(xi-)(yi-)=685,(xi-)2=1 050,(yi-)2=456.
所以线性相关系数r=0.99,接近于1,
所以可以认为变量x与y具有线性相关关系.
7.B 根据题意,依次分析选项为:
对于A,是相关关系,但不是正相关关系,不符合题意;
对于B,是相关关系,也是正相关关系,符合题意;
对于C,是相关关系,是负相关关系,不符合题意;
对于D,所示的散点图中,样本点不呈带状分布,这两个变量不具有相关关系,不符合题意.
8.D 根据题意知,丁同学的样本相关系数|r|=0.87为最大,所以丁同学的试验结果体现两变量有更强的线性相关性.
9.D 由散点图知,去掉点D(3,10)后,y与x的线性相关性加强,由于是正线性相关,所以相关系数r变大,选项A错误,选项B错误;仍然是正线性相关,选项C错误;变量x与变量y的相关性变强,所以选项D正确.
10.ACD 由样本相关系数的性质知选项B正确,其余选项均错误.
11.-1 所有样本点都在直线上,说明这两个变量间完全负相关,故其相关系数为-1.
12.解两者的相关性很强.画出散点图,如图所示,
由散点图中的点分布在一条直线附近,知两变量线性相关性很强;
由表中数据,计算(98+55+…+73)≈80,
(95+60+…+72)≈78.
相关系数为r==
0.985 5.8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型 8.2.2 一元线性回归模型参数的最小二乘估计
A级 必备知识基础练
1.为了研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据,并分析可得经验回归方程为=0.85x-0.25.由以上信息,得到下表中c的值为(  )
天数x/天 3 4 5 6 7
繁殖个数y/千个 2.5 3 4 4.5 c
             
A.5 B.6 C.7 D.8
2.红铃虫是棉花的主要害虫之一,一只红铃虫的产卵数和温度有关.现收集了7组观测数据,用4种模型分别进行拟合.由此得到相应的回归方程并进行残差分析,进一步得到如图4幅残差图,根据残差图,拟合效果最好的模型是(  )
A.模型一 B.模型二 C.模型三 D.模型四
3.某咖啡厅为了解热饮的销售量y(单位:杯)与气温x(单位:℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:
气温/℃ 18 13 10 -1
销售量/杯 24 34 38 64
由表中数据分析,可得经验回归方程=-2x+a.当气温为-4 ℃时,预测销售量约为(  )
A.68杯 B.66杯 C.72杯 D.77杯
4.关于残差图的描述错误的是(  )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或响应变量
C.残差分布的带状区域的宽度越窄R2越小
D.残差分布的带状区域的宽度越窄残差平方和越小
5.由一组观测数据(x1,y1),(x2,y2),…,(xn,yn),经分析可得经验回归方程为=3x+,若=1.5,=2,则=      .
6.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x/元 8 8.2 8.4 8.6 8.8 9
销量y/件 90 84 83 80 75 68
(1)求销量y关于单价x的经验回归方程x+,其中=-20,;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元 (利润=销售收入-成本)
7.在一段时间内,某网店一种商品的销售价格x(单位:元)和日销售量y(单位:件)之间的一组数据如下表:
价格x/元 22 20 18 16 14
日销售量y/件 37 41 43 50 56
求出y关于x的经验回归方程,并用R2说明拟合效果.
参考数据:xiyi=3 992,=1 660.
B级 关键能力提升练
8.研究表明蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了y关于x的经验回归方程=0.25x+k,则下列说法不正确的是(  )
x/(次数/分钟) 20 30 40 50 60
y/℃ 25 27.5 29 32.5 36
A.k的值是20
B.变量x,y正相关
C.若x的值增加1,则y的值约增加0.25
D.当蟋蟀52次/分钟鸣叫时,该地当时的气温预测值为33.5 ℃
9.(多选题)下列说法正确的是(  )
A.经验回归直线一定经过点()
B.若两个具有线性相关关系的变量的相关程度越强,则样本相关系数r的值越接近于1
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.在线性回归模型中,决定系数R2越接近于1,说明回归模型的拟合效果越好
10.(2022甘肃兰州期末)某研究所为了研究近几年留学生回国人数的情况,对2017至2021年留学生回国人数进行了统计,数据如表:
年份 2017 2018 2019 2020 2021
年份代码 1 2 3 4 5
留学生回 国人数/万 36.5 40.9 43.3 48.1 51.9
根据上述统计数据求得留学生回国人数y(单位:万)与年份代码x满足的经验回归方程为x+32.74,利用经验回归方程预测2022年留学生回国人数为(  )
A.63.14万 B.64.72万
C.66.81万 D.55.54万
11.已知蝗虫的产卵量y与温度x的关系可以用模型y=c1拟合,设z=ln y,其变换后得到一组数据:
x 20 23 25 27 30
z 2 2.4 3 3 4.6
由上表可得经验回归方程z=0.2x+a,则c1=(  )
A.-2 B.e-2
C.3 D.e3
12.某工厂为研究某种产品产量x(单位:吨)与所需某种原材料y(单位:吨)的相关关系,在生产过程中收集了4组对应数据(x,y)如下表所示:
x 3 4 5 6
y 2.5 3 4 m
根据表中数据,得出y关于x的经验回归方程为=0.7x+a.据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为     .
13.某品牌服装专卖店为了解保暖衬衣的销售量y(单位:件)与平均气温x(单位:℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如下表:
时间 二月上旬 二月中旬 二月下旬 三月上旬
旬平均 气温x/℃ 3 8 12 17
旬销售 量y/件 55 m 33 24
由表中数据算出经验回归方程x+中的=-2,=10,=38.
(1)表中数据m=     .
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为     件.
14.流感每年在世界各地均有传播,在我国北方通常呈冬春季流行,南方有冬春季和夏季两个流行高峰.某幼儿园将去年春季该园患流感小朋友按照年龄与人数统计,得到如下数据:
年龄x 2 3 4 5 6
患病人数y 22 22 17 14 10
(1)求y关于x的经验回归方程;
(2)计算样本相关系数r(计算结果精确到0.01),并回答是否可以认为该幼儿园去年春季患流感人数与年龄负相关很强 (若|r|∈[0.75,1],则x,y相关性很强;若|r|∈[0.3,0.75),则x,y相关性一般;若|r|∈[0,0.25],则x,y相关性较弱)
参考数据:≈5.477.
参考公式:,样本相关系数r=.
15.为了防控疫情,某医疗科研团队攻坚克难研发出一种新型防疫产品,该产品的成本由原
料成本及非原料成本组成,每件产品的非原料成本y(单位:元)与生产该产品的数量x(单位:千件)有关,根据已经生产的统计数据,绘制了如右的散点图:观察散点图,两个变量不具有线性相关关系,现考虑用函数y=a+对两个变量的关系进行拟合.参考数据如下其中ui=:
yi uiyi
0.41 0.168 1 1.492 306 20 858.44 173.8 50.39
(1)求y关于x的经验回归方程,并求y关于u的样本相关系数(精确到0.01);
(2)该产品采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为80元,则签订9千件订单的概率为0.7,签订10千件订单的概率为0.3;若单价定为70元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为30元,根据(1)的结果,要想获得更高利润,产品单价应选择80元还是70元 请说明理由.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程v=α+βu的斜率和截距的最小二乘估计分别为,相关系数r= .
C级 学科素养创新练
16.某市某小区2020年11月至2021年11月期间的在售二手房均价(单位:万元/平方米)的散点图如图所示.(图中月份代码1~13分别对应2020年11月~2021年11月)
根据散点图选择y=a+b和y=c+dln x两个模型进行拟合,经过数据处理得到两个经验回归方程分别为 =0.936 9+0.028 5 和 =0.955 4+0.030 6ln x,并得到以下一些统计量的值:
类型 =0.936 9+ 0.028 5 =0.955 4+ 0.030 6ln x
0.000 591 0.000 164
0.006 050
(1)请利用R2判断哪个模型的拟合效果更好.
(2)某位购房者拟于2022年4月购买这个小区m(70≤m≤160)平方米的二手房(欲购房为其家庭首套房).
若购房时该小区所有住房的房产证均已满2年但未满5年,请你利用(1)中拟合效果更好的模型解决以下问题:
①估算该购房者应支付的购房金额;(购房金额=房款+税费,房屋均价精确到0.001万元/平方米)
②若该购房者拟用不超过100万元的资金购买该小区一套二手房,试估算其可购买的最大面积.(精确到1平方米)
附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按房屋的计税价格(计税价格=房款)进行征收的.
房产证满2年但未满5年的征收方式如下:首套面积90平方米以内(含90平方米)为1%;首套面积90平方米以上且140平方米以内(含140平方米)为1.5%;首套面积140平方米以上或非首套为3%.
参考数据:ln 2≈0.69,ln 3≈1.10,ln 17≈2.83,ln 19≈2.94,≈1.41,≈1.73,≈4.12,≈4.36.
参考公式:R2=1-.
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计
1.B =5,且()在经验回归直线上,=0.85-0.25=0.85×5-0.25=4.
∴2.5+3+4+4.5+c=4×5=20,解得c=6.
故选B.
2.D 当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合效果越好,对比4个残差图,可知模型四的图对应的带状区域的宽度最窄.
3.A =10,=40,又()在经验回归直线上,
=-2+a,即a=40+2×10=60.
∴经验回归方程为=-2x+60.
∴当x=-4时,=68.故选A.
4.C 残差分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时R2的值越大,故描述错误的是选项C.
5.-2.5 因为=1.5,=2,经验回归方程为=3x+,
所以2=3×1.5+,解得=-2.5.
6.解(1)因为(8+8.2+8.4+8.6+8.8+9)=8.5,(90+84+83+80+75+68)=80.
所以=80+20×8.5=250.所以经验回归方程为=-20x+250.
(2)设工厂获得的利润为L(单位:元),依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20+361.25.
当且仅当x==8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
7.解作出散点图(图略),观察散点图可知这些点散布在一条直线的附近,故可知x与y线性相关.
因为=18,
=45.4.
所以=-2.35,
=45.4-(-2.35)×18=87.7.
所以经验回归方程为=-2.35x+87.7.
yi-与yi-的值如下表:
yi- 1 0.3 -2.4 -0.1 1.2
yi- -8.4 -4.4 -2.4 4.6 10.6
计算得(yi-)2=8.3,
(yi-)2=229.2,
所以R2=1-0.964.
因为0.964很接近于1,所以该模型的拟合效果比较好.
8.D 由题意,得(20+30+40+50+60)=40,(25+27.5+29+32.5+36)=30,
则k=-0.25=30-0.25×40=20,故A正确;
由经验回归方程可知,=0.25>0,变量x,y呈正相关关系,故B正确;
若x的值增加1,则y的值约增加0.25,故C正确;
当x=52时,=0.25×52+20=33(℃),故D错误.
9.ACD 对于选项A,因为经验回归直线一定经过点(),故选项A正确;
对于选项B,由样本相关系数的绝对值越趋近于1,相关程度越强可知,若两个变量负线性相关,其线性相关程度越强,则样本相关系数r的值越接近于-1,故选项B错误;
对于选项C,因为在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,故选项C正确;
对于选项D,因为在线性回归模型中,决定系数R2越接近于1,说明线性回归模型的拟合效果越好,故选项D正确.
10.D 由表中数据可得,=3,=44.14,
∵留学生回国人数y(单位:万)与年份代码x满足的线性回归方程为x+32.74,
∴44.14=3+32.74,解得=3.8,
故=3.8x+32.74,
2022年对应的年份代码为6,令x=6,则=3.8×6+32.74=55.54,
故预测2022年留学生回国人数为55.54万.
故选D.
11.B 由已知可得,(20+23+25+27+30)=25,
(2+2.4+3+3+4.6)=3,
代入z=0.2x+a,得a=3-0.2×25=-2,
z=ln y=ln(c1)=c2x+ln c1,
则ln c1=-2,即c1=e-2.
12.4.5 由在样本(4,3)处的残差为-0.15,可得=3.15.故3.15=0.7×4+a,解得a=0.35.
由题意可知产量x的平均值为(3+4+5+6)=4.5.
因为经验回归直线过点(),
所以=0.7+0.35=0.7×4.5+0.35=3.5.又因为(9.5+m),
所以m=4.5.
13.(1)40 (2)14 (1)由(55+m+33+24)=38,解得m=40.
(2)由,得=58.
故=-2x+58.
当x=22时,=14.
故三月中旬的销售量约为14件.
14.解(1)由题意可得=4,=17,
=
=-3.2,
=17+3.2×4=29.8.
故y关于x的经验回归方程为=-3.2x+29.8.
(2)r==
-0.97,
由r<0,可知x,y负相关.又因为|r|∈[0.75,1],所以x,y相关性很强.
因此,可以认为该幼儿园去年春季患流感人数与年龄负相关很强.
15.解(1)令u=,则y=a+可转化为y=a+bu.
因为=51,
所以=100.
所以=51-100×0.41=10.所以=10+100u.
所以y关于x的经验回归方程为=10+
y关于u的样本相关系数为
r==0.96.
(2)(方法一)(ⅰ)若产品单价为80元,记企业利润为X(单位:元).
当订单为9千件时,每件产品的成本为10++30=(元),
企业的利润为80-40+×9 000=260 000(元).
当订单为10千件时,每件产品的成本为10++30=50(元),
企业的利润为(80-50)×10 000=300 000(元).
所以企业利润X的分布列为
X 260 000 300 000
P 0.7 0.3
E(X)=260 000×0.7+300 000×0.3=272 000.
(ⅱ)若产品单价为70元,记企业利润为Y(单位:元).
当订单为10千件时,每件产品的成本为10++30=50(元),
企业的利润为(70-50)×10 000=200 000(元).
当订单为11千件时,每件产品的成本为10++30=(元),
企业的利润为70-40+×11 000=230 000(元).
所以企业利润Y的分布列为
Y 200 000 230 000
P 0.3 0.7
E(Y)=200 000×0.3+230 000×0.7=221 000.
所以E(X)>E(Y),故企业要想获得更高利润,产品单价应选择80元.
(方法二)(ⅰ)若产品单价为80元,记企业的产量为X(单位:千件),其分布列为
X 9 10
P 0.7 0.3
所以E(X)=9×0.7+10×0.3=9.3,
企业的利润为80-40+×9 300=272 000(元).
(ⅱ)若产品单价为70元,记企业的产量为Y(单位:千件),其分布列为
Y 10 11
P 0.3 0.7
所以E(Y)=10×0.3+11×0.7=10.7,
企业的利润为70-40+×10 700=221 000(元).
因为272 000>221 000,
所以企业要想获得更高利润,产品单价应选择80元.
16.解(1)=0.936 9+0.028 5=1-0.902;
=0.955 4+0.030 6ln x的=1-0.973.
由,可知模型y=0.955 4+0.030 6ln x拟合的效果更好一些.
(2)通过散点图确定2022年4月对应的x=18,
代入(1)中拟合效果更好的模型的经验回归方程,可得=0.955 4+0.030 6ln 18
=0.955 4+0.030 6×(ln 2+2ln 3)
=0.955 4+0.030 6×(0.69+2×1.10)
≈1.044.
故2022年4月份二手房均价的预测值为1.044万元/平方米.
①设该购房者应支付的购房金额为h(单位:万元),因为税费中买方需缴纳契税,
所以当70≤m≤90时,契税为计税价格的1%,
故h=m×1.044×(1%+1)=1.054 44m;
当90故h=m×1.044×(1.5%+1)=1.059 66m;
当140故h=m×1.044×(3%+1)=1.075 32m.
所以h=
所以当70≤m≤90时购房金额为1.054 44m万元,
当90当140②设该购房者可购买该小区二手房的最大面积为t(单位:平方米),
由①知,当70≤m≤90时,应支付的购房金额为1.054 44t.
又因为1.054 44t≤1.054 44×90<100,
且房屋均价约为1.044万元/平方米,所以t<100.所以90≤t<100.
由1.059 66t≤100,解得t,且94.8.3 列联表与独立性检验
8.3.1 分类变量与列联表 8.3.2 独立性检验
A级 必备知识基础练
1.(2022河南期中)在研究肥胖与高血压的关系时,通过收集数据、整理分析数据得到“高血压与肥胖有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是(  )
A.在100个肥胖的人中至少有99人患有高血压
B.肥胖的人至少有99%的概率患有高血压
C.在100个高血压患者中一定有肥胖的人
D.在100个高血压患者中可能没有肥胖的人
2.若由一个2×2列联表中的数据计算得χ2=4.013,那么认为两个变量有关系犯错误的概率不大于(  )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.0.05 B.0.001 C.0.01 D.0.005
3.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关联”进行了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的.零假设为H0:追星和性别无关联.若依据α=0.05的独立性检验认为追星和性别有关联,则男生的人数至少为(  )
参考数据及公式如下:
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
χ2=.
A.12 B.11 C.10 D.18
4.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下的列联表.零假设为H0:男、女生对该食堂的服务评价无差异.经计算χ2≈4.762,则可以推断出(  )
性别 满意 不满意 合计
男 30 20 50
女 40 10 50
合计 70 30 100
附:
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.依据α=0.05的独立性检验认为男、女生对该食堂服务的评价有差异
D.依据α=0.01的独立性检验认为男、女生对该食堂服务的评价有差异
5.在对某小学的学生进行吃零食的调查中,得到数据如下表:
性别 吃零食 不吃零食 合计
男 27 34 61
女 12 29 41
合计 39 63 102
根据上述数据分析,可得χ2约为    .
6.在独立性检验中,xα有两个临界值:3.841和6.635.当χ2≥3.841时,依据α=0.05的独立性检验认为两个事件有关联;当χ2≥6.635时,依据α=0.01的独立性检验认为两个事件有关联;当χ2<3.841时,依据α=0.05的独立性检验认为两个事件无关联.在一项打鼾与患心脏病的调查中,共调查了2 000人,零假设为H0:打鼾与患心脏病之间无关联.经计算χ2=20.87.根据这一数据分析,我们有理由认为打鼾与患心脏病之间    .(填“有关联”或“无关联”)
7.有人发现了一个有趣的现象,中国人的邮箱名称里含有数字比较多,而外国人邮箱名称里含有数字比较少.为了研究国籍和邮箱名称里含有数字的关系,小明收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.
(1)根据以上数据建立2×2列联表;
(2)他发现在这组数据中,外国人邮箱里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关联,你能依据α=0.05的独立性检验帮他判断一下吗
附:
α 0.10 0.05 0.01
xα 2.706 3.841 6.635
B级 关键能力提升练
8.某研究所为了检验某血清预防感冒的作用,把500名使用了该血清的志愿者与另外500名未使用该血清的志愿者一年中的感冒记录进行比较,零假设为H0:这种血清与预防感冒之间无关联.利用2×2列联表计算得χ2≈3.918.下列叙述中正确的是(  )
A.依据α=0.05的独立性检验认为这种血清与预防感冒之间有关联
B.若有人未使用该血清,则他一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%
9.(多选题)针对时下流行的某社交平台,某高校对学生性别和喜欢该平台是否有关联进行了一次调查,其中被调查的男生、女生人数相同,男生喜欢该平台的人数占男生人数的,女生喜欢该平台的人数占女生人数的.零假设为H0:喜欢该平台和性别无关联.若依据α=0.05的独立性检验认为喜欢该平台和性别有关联,则调查人数中男生的人数可能为(  )
附表:
α 0.05 0.01
xα 3.841 6.635
附:χ2=.
A.25 B.45 C.60 D.75
10.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:
日落云里走 夜晚天气 合计
下雨 未下雨
出现 25 5 30
未出现 25 45 70
合计 50 50 100
临界值表:
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
计算得到χ2≈19.05,下列小波对地区A天气判断不正确的是(  )
A.夜晚下雨的概率约为
B.未出现“日落云里走”夜晚下雨的概率约为
C.在犯错误的概率不大于0.001的前提下,认为“日落云里走”与“当晚下雨”有关联
D.出现“日落云里走”,在犯错误的概率不大于0.001的前提下,认为夜晚会下雨
11.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
性别 同意限定区域停车 不同意限定区域停车 合计
男 20 5 25
女 10 15 25
合计 30 20 50
则依据α=     的独立性检验认为同意限定区域停车与家长的性别有关联.
附:χ2=,其中n=a+b+c+d.
α 0.05 0.005 0.001
xα 3.841 7.879 10.828
12.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不大于     .
附:χ2=.
α 0.05 0.010 0.001
xα 3.841 6.635 10.828
13.书籍是文化的重要载体,读书是继承文化的重要方式.某地区为了解学生课余时间的读书情况,随机抽取了n名学生进行调查,根据调查得到的学生日均课余读书时间绘制成如图所示的频率分布直方图,将日均课余读书时间不低于40分钟的学生称为“读书之星”,日均课余读书时间低于40分钟的学生称为“非读书之星”.已知抽取的样本中日均课余读书时间低于10分钟的有10人.
(1)求n,p的值;
(2)根据已知条件完成下面的2×2列联表,依据α=0.05的独立性检验能否认为“读书之星”与性别有关联
性别 非读书之星 读书之星 合计

女 10 55
合计
(3)将上述调查所得到的频率视为概率,现从该地区大量学生中随机抽取3名学生,每次抽取1名,已知每个人是否被抽到互不影响,记被抽取的“读书之星”人数为随机变量X,求X的分布列和均值E(X).
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
C级 学科素养创新练
14.某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术改造前后的效果,采集了技术改造前后各20次连续正常运行的时间长度(单位:天)数据,整理如下:
改造前:19,31,22,26,34,15,22,25,40,35,18,16,28,23,34,15,26,20,24,21
改造后:32,29,41,18,26,33,42,34,37,39,33,22,42,35,43,27,41,37,38,36
(1)完成下面的列联表,依据α=0.01的独立性检验,能否据此判断技术改造前后的连续正常运行时间有差异
时间 超过30天 不超过30天 合计
改造前
改造后
合计
(2)工厂的生产设备需要进行维护,工厂对生产设备的维护费用包括正常维护费和保障维护费两种.对生产设备设定维护周期为T天,即从开工运行到第kT天(k∈N*)进行维护.生产设备在一个生产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还会产生保障维护费.经测算,正常维护费为0.5万元/次;保障维护费第一次为0.2万元/周期,此后每增加一次保障维护费增加0.2万元.现制定生产设备一个生产周期(以120天计)内的维护方案:T=30,k=1,2,3,4.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内维护费用的分布列及均值.
附:χ2=.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
8.3.1 分类变量与列联表
8.3.2 独立性检验
1.D “高血压与肥胖有关”,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,表示有99%的把握认为这个结论成立,与多少个人患高血压没有关系,也不是说“肥胖的人就是至少有99%的概率患有高血压”,只有选项D正确.
2.A 零假设H0:两变量之间没有关系.由一个2×2列联表中的数据计算得χ2=4.013,
因为3.841<4.013<6.635,
则P(χ2≥xα)=0.05,
根据小概率值α=0.05的独立性检验,那么我们推断H0不成立,即认为两个变量有关系,此推断犯错误的概率不超过0.05.
3.A 设男生人数为x,依题意可得如下2×2列联表:
性别 喜欢追星 不喜欢追星 合计
男生 x
女生
合计 x
若依据α=0.05的独立性检验认为喜欢追星和性别有关联,
则χ2≥3.841.
由χ2=x≥3.841,解得x
因为为整数,所以依据α=0.05的独立性检验,我们推断H0不成立,即认为喜欢追星和性别有关联,男生的人数至少为12.故选A.
4.C 对于选项A,该学校男生对食堂服务满意的概率的估计值为,故A错误;
对于选项B,该学校女生对食堂服务满意的概率的估计值为,故B错误;
因为χ2≈4.762>3.841=x0.05,所以依据α=0.05的独立性检验,我们推断H0不成立,即认为男、女生对该食堂服务的评价有差异,此推断犯错误的概率不大于0.05,故C正确,D错误.
故选C.
5.2.334 χ2=2.334.
6.有关联 因为χ2=20.87>6.635,所以依据α=0.01的独立性检验,我们推断H0不成立,即认为两者有关联.
7.解(1)2×2列联表如下:
类型 中国人 外国人 合计
有数字 43 27 70
无数字 21 33 54
合计 64 60 124
(2)零假设为H0:国籍和邮箱名称里是否含有数字无关联.
由表中数据得χ2=6.201>3.841=x0.05.
依据α=0.05的独立性检验,我们推断H0不成立,即认为国籍和邮箱名称里是否含有数字有关联,此推断犯错误的概率不大于0.05.
8.A 因为χ2≈3.918>3.841=x0.05,所以依据α=0.05的独立性检验,我们推断H0不成立,即认为这种血清与预防感冒之间有关联,此推断犯错误的概率不大于0.05.
故选A.
9.BC 设男生的人数为5n(n∈N*),根据题意列出2×2列联表如下:
类型 男生 女生 合计
喜欢该平台 4n 3n 7n
不喜欢该平台 n 2n 3n
合计 5n 5n 10n
则χ2=
因为依据α=0.05的独立性检验,我们推断H0不成立,即认为喜欢该平台和性别有关联,
所以6.635>χ2≥3.841,
即6.635>3.841,
解得13.933 5>n≥8.066 1,
因为n∈N*,
所以根据选项调查人数中男生人数的可能值为45或60.
故选BC.
10.D 由题意,把频率看作概率可得夜晚下雨的概率约为,故A正确;未出现“日落云里走”夜晚下雨的概率约为,故B正确;由χ2≈19.05>10.828=x0.001,根据临界值表,可得在犯错误的概率不大于0.001的前提下,认为“日落云里走”与“当晚下雨”有关联,故C正确,D错误.
11.0.005 零假设为H0:同意限定区域停车与家长的性别无关联.因为χ2=8.333>7.879=x0.005,
所以依据α=0.005的独立性检验,我们推断H0不成立,即认为同意限定区域停车与家长的性别有关联,此推断犯错误的概率不大于0.005.
12.0.05 2×2列联表如下:
培训方式 通过 未通过 合计
集中培训 45 10 55
分散培训 30 20 50
合计 75 30 105
零假设为H0:“能否一次考试通过与是否集中培训无关”.
∴χ2=6.109>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为“能否一次考试通过与是否集中培训有关”,此推断犯错误的概率不大于0.05.
13.解(1)因为(0.005+p+0.018+0.020+0.022+0.025)×10=1,
所以p=0.01.
所以n==100.
(2)因为n=100,所以“读书之星”有100×[(0.02+0.005)×10]=25(人).
从而2×2列联表如下所示:
性别 非读书之星 读书之星 合计
男 30 15 45
女 45 10 55
合计 75 25 100
零假设为H0:“读书之星”与性别无关联.将2×2列联表中的数据代入公式计算得
χ2=3.030<3.841=x0.05.
依据α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为“读书之星”与性别无关联.
(3)将频率视为概率,即从该地区学生中抽取一名学生是“读书之星”的概率为
由题意可知X~B3,.
所以P(X=0)=;
P(X=1)=;
P(X=2)=1-=;
P(X=3)=
所以X的分布列为
X 0 1 2 3
P
E(X)=3
14.解(1)零假设为H0:技术改造前后的连续正常运行时间无差异.由题意可得列联表如下:
时间 超过30天 不超过30天 合计
改造前 5 15 20
改造后 15 5 20
合计 20 20 40
根据列联表中的数据,经计算得到χ2==10>6.635=x0.01.
依据α=0.01的独立性检验,我们推断H0不成立,即认为技术改造前后的连续正常运行时间有差异,此推断犯错误的概率不大于0.01.
(2)由题知,生产周期内有4个维护周期,一个维护周期为30天.在一个维护周期内,生产线需保障维护的概率为P=
设一个生产周期内需保障维护的次数为ξ,可知ξ~B4,.一个生产周期内的正常维护费为0.5×4=2(万元),保障维护费为=(0.1ξ2+0.1ξ)(万元).所以一个生产周期内需保障维护ξ次时的维护费用为(0.1ξ2+0.1ξ+2)万元.
设一个生产周期内的维护费用为X,则X的所有可能取值为2,2.2,2.6,3.2,4,
且P(X=2)=;
P(X=2.2)=;
P(X=2.6)=;
P(X=3.2)=1-;
P(X=4)=
所以X的分布列为
X 2 2.2 2.6 3.2 4
P
所以E(X)=2+2.2+2.6+3.2+4=2.275.