8.1.1 变量的相关关系
A级 基础巩固
1.下列两个变量之间是相关关系的是 ( )
A.圆的周长与直径之间的关系
B.球的体积与半径之间的关系
C.角度与它的正弦值之间的关系
D.苹果的产量与气候之间的关系
解析:A项,圆的周长与直径之间的关系为C=πd.B项,球的体积与半径之间的关系为V=.C项,角度与它的正弦值之间的关系为y=sin α.A,B,C项都是确定的函数关系,只有D项是相关关系.故选D.
答案:D
2.判断下列图中的两个变量,具有较强相关关系的是( )
ABCD
解析:A,C项中的两个变量均是函数关系,D项中的点的分布毫无规律,两个变量之间不具有相关性,B项的两个变量具有较强的相关关系.
答案:B
3.汽车尾气是影响空气质量的重要因素之一,那么汽车尾气与空气质量之间存在的关系是 ( )
A.相关关系
B.不相关关系
C.函数关系
D.没有关系
解析:因为汽车尾气影响空气质量,并且汽车尾气越多,空气质量就越不好,但汽车尾气与空气质量之间存在的关系不是确定的,所以是相关关系.
答案:A
4.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一些样本数据,并制作成如图所示的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
解析:由题中散点图可知,点的分布都集中在一条直线附近,由此可以判断两个变量具有相关关系,点的分布从左下角到右上角区域,因此是正相关.由题中散点图可知,共有10个点,则中位数为最中间两个点的纵坐标的平均数,显然两数均小于20%,故脂肪含量的中位数小于20%.
答案:B
5.多选题某中学的兴趣小组根据在某座山测得海拔、气压和沸点的一些数据绘制成散点图如图所示,则下列说法正确的是 ( )
A.沸点与海拔呈现正相关关系
B.沸点与气压呈现正相关关系
C.沸点与海拔呈现负相关关系
D.沸点与海拔、沸点与气压的相关性都很强
解析:由题中第一幅图,知气压随海拔的增加而减小,由题中第二幅图,知沸点随气压的升高而升高,所以沸点与气压呈现正相关关系,沸点与海拔呈现负相关关系,因为两个散点图都呈现出线性相关的特征,所以沸点与海拔、沸点与气压的相关性都很强,故B,C,D项正确,A项错误.
答案:BCD
6.多选题已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表,对应散点图如图所示:
学生编号 1 2 3 4 5 6 7 8
数学成绩 60 65 70 75 80 85 90 95
物理成绩 72 77 80 84 88 90 93 95
根据以上信息,则下列结论正确的是 ( )
A.根据散点图,可以判断数学成绩与物理成绩具有线性相关关系
B.根据散点图,可以判断数学成绩与物理成绩具有一次函数关系
C.从全班随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则可以判断出甲同学的物理成绩一定比乙同学的物理成绩高
D.从全班随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则不能判断出甲同学的物理成绩一定比乙同学的物理成绩高
解析:由散点图知两变量间是相关关系,非函数关系,所以A正确,B错误;利用概率知识进行预测,得到的结论有一定的随机性,所以C错误,D正确.故选AD.
答案:AD
B级 能力提升
7.一个口袋中有大小不等的红、黄、蓝三种颜色的小球若干个(数量大于5个),从中有放回地取5次,那么取出红球的次数和口袋中红球的数量是 ( )
A.确定性关系
B.相关关系
C.函数关系
D.无任何关系
解析:每次从袋中取出的球是不是红球,除了和红球的数量有关外,还与球的大小等有关系,所以取出红球的次数和口袋中红球的数量是一种相关关系.
答案:B
8.多空题某市居民2017—2021年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如表所示:
年份 2017 2018 2019 2020 2021
x 11.5 12.1 13 13.3 15
y 6.8 8.8 9.8 10 12
根据统计资料,该市居民家庭年平均收入的中位数是13万元,家庭年平均收入与年平均支出有线性(填“线性”或“非线性”)相关关系.
解析:由题意可得,2017—2021年家庭年平均收入的中位数为13万元.由统计资料可以看出,当年平均收入增多时,年平均支出也增多,画散点图(图略)可知两者之间具有线性相关关系.
9.多空题高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是乙;
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是数学.
解析:①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是乙;②由高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况的散点图可知,两个图中,同一个人的总成绩是不会变的.从第二个图看,丙是从右往左数第5个点,即丙的总成绩在班里倒数第5.在左边的图中,找到总成绩倒数第5个点,它表示的就是丙,因为这个点的位置比右边图中丙的位置高,所以语文成绩名次更靠后,数学的成绩名次更靠前.
C级 挑战创新
10.以下是在某地搜集到的不同楼盘房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:
房屋面积x 115 110 80 135 105
销售价格y 49.6 43.2 38.8 58.4 44
(1)画出数据对应的散点图.
(2)房屋的销售价格和房屋面积之间是否具有相关关系 如果有相关关系,是正相关还是负相关
解:(1)数据对应的散点图如图所示.
(2)通过数据对应的散点图可以判断,房屋的销售价格和房屋面积之间具有相关关系,并且是正相关.
11.某种产品的广告费支出(单位:百万元)与销售额(单位:百万元)之间有如下对应数据:
广告费支出 2 4 5 6 8
销售额 30 40 60 50 70
(1)根据上表中的数据绘制散点图,观察散点图,广告费支出与销售额之间是否呈现出线性相关关系 若呈现出线性相关关系,请画出一条直线来表示这种关系.
(2)如果广告费支出为7百万元,请估计此时的销售额为多少.
解:(1)散点图如图所示.从散点图中可以看出,广告费支出与销售额之间呈现出线性相关关系.所画直线如图所示.
(2)如果广告费支出为7百万元,
那么此时的销售额大约为63百万元.8.1.2 样本相关系数
A级 基础巩固
1.在一组样本数据为(x1, y1), (x2, y2),…,(xn, yn)(n≥2)的散点图中,若所有样本点(xi, yi)(i=1,2,…,n)都在直线y=-x+2上,则这组数据的样本相关系数为( )
A.-
B.
C.1
D.-1
解析:因为所有样本点均在直线y=-x+2上,y随着 x的增大而减小,所以这两个变量是负相关,即这组样本数据的样本相关系数为负值.因为所有样本点(xi,yi)(i=1,2,…,n)都在一条直线上,所以|r|=1,故样本相关系数r=-1.故选D.
答案:D
2.(2023·天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.824 5,下列说法正确的是 ( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 5
解析:根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误;散点的分布是从左下到右上,可知花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;由于r=0.824 5是全部数据的相关系数,取出来一部分数据,相关性可能变强,也可能变弱,即取出的数据的相关系数不一定是0.824 5,D选项错误.
答案:C
3.某10个工业企业生产性固定资产价值x(单位:百万元)与工业增加值y(单位:百万元)资料如下表:
x 3 3 5 6 6 7 8 9 9 10
y 15 17 25 28 30 36 37 42 40 45
根据上表资料计算得样本相关系数r≈0.991 8,则固定资产价值与工业增加值之间的线性相关程度较强(填“较强”或“较弱”).
解析:由于样本相关系数r≈0.991 8接近于1,故固定资产价值与工业增加值之间的线性相关程度较强.
B级 能力提升
4.已知两个变量的样本数据如下表,则这两个变量线性相关程度 ( )
x 5 10 15 20 25
y 103 105 110 111 114
A.较强
B.较弱
C.不相关
D.不确定
解析:由题意,得=1 375,xiyi=8 285,
=59 051,=15,=108.6.
所以r=
=
≈0.982 6.
故两个变量间的线性相关程度较强.
答案:A
5.已知变量x, y的散点图如图所示,现用两种方案对这两个变量进行线性相关分析.方案一:根据图中所有数据,得到样本相关系数为r1;方案二:剔除点(10, 21),根据剩下的点对应的数据得到样本相关系数为r2,则 ( )
A.0B.0C.-1D.-1解析:由散点图得变量x与y呈现负相关,所以r1<0, r2<0.因为剔除点(10, 21)后,剩下的点对应的数据具有更强的线性相关性,|r2|更接近1,所以-1答案:D
6.已知变量x与y的样本相关系数为0.857,若设 y1=100y,x1=
1 000x,则y1与x1的样本相关系数为0.857.
解析:当新变量是原变量的正比例函数(系数大于0)时,样本相关系数不变.
C级 挑战创新
7.多空题在钢铁碳含量对于电阻的效应研究中,得到如下数据表:
碳含量x/% 0.10 0.30 0.40 0.55 0.70 0.80 0.95
20℃时的电阻y/Ω 15 18 19 21 22.6 23.6 26
则样本相关系数r≈0.996,说明钢铁碳含量与电阻之间具有较强的线性相关关系(填“较强”或“较弱”).
解析:由表中数据,
得≈0.543,≈20.743,=2.595,=3 094.72,xiyi=85.45,
所以r≈≈0.996.
由于r接近于1,故钢铁碳含量与电阻之间的线性相关关系较强.
8.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积x(单位:m2)和材积量y(单位:m3),得到如下数据.并计算得=0.038,=1.615 8,xiyi=0.247 4.
样本号i xi yi
1 0.04 0.25
2 0.06 0.40
3 0.04 0.22
4 0.08 0.54
5 0.08 0.51
6 0.05 0.34
7 0.05 0.36
8 0.07 0.46
9 0.07 0.42
10 0.06 0.40
总和 0.6 3.9
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
解:(1)设这种树木平均一棵的根部横截面积为,平均一棵的材积量为,则根据题中数据得==0.06 m2,==0.39 m3.
(2)由题可知,r=
=
==
≈
≈0.97;
(3)设总根部面积和X,总材积量为Y,
则=,故Y=×186=1 209(m3).8.2 一元线性回归模型及其应用
A级 基础巩固
1.多选题(2023·深圳二模)为了研究y关于x的线性相关关系,收集了5组样本数据如下表:
x 1 2 3 4 5
y 0.5 0.8 1 1.2 1.5
假设经验回归方程为=x+0.28,则 ( )
A.=0.24
B.当x=8时,y的预测值为2.2
C.样本数据y的40%分位数为0.8
D.去掉样本点(3,1)后,x与y的样本相关系数r不变
解析:由题意,可得=(1+2+3+4+5)×=3,
=(0.5+0.8+1+1.2+1.5)×=1,所以样本点的中心坐标为(3,1),代入=x+0.28,得==0.24,故选项A正确;
经验回归方程为=0.24x+0.28,取x=8,得=0.24×8+0.28=2.2,故选项B正确;
样本数据y的40%分位数为=0.9,故选项C错误;
由相关系数公式可知,去掉样本点(3,1)后,x与y的样本相关系数r不变,故选项D正确.
答案:ABD
2.在大学生建模比赛中,编号为1,2,3,4的4名同学对得到的数据进行分析,其中对变量x,y进行回归分析,得到的结果如表所示.
编号 1 2 3 4
残差平方和 12.37 13.98 9.817 14.32
决定系数R2 0.873 4 0.930 2 0.959 2 0.766 5
则这4名同学中建立的经验回归方程的拟合效果最好的是 ( )
A.1号
B.2号
C.3号
D.4号
解析:根据回归分析的思想,残差平方和越小,模型拟合效果越好,决定系数R2越接近于1,经验回归方程的拟合效果越好,所以由表格中的数据得出3号同学的经验回归方程拟合效果最好.
答案:C
3.根据表中的样本数据得到的经验回归方程为=x+,若=7.9,则x每增加1,估计y ( )
x 3 4 5 6 7
y 4 2.5 -0.5 0.5 -2
A.增加1.4
B.减少1.4
C.增加1
D.减少1
解析:由题意可得,=5,=0.9.
因为经验回归方程为=x+,=7.9,
且经验回归直线过点(5,0.9),所以0.9=5+7.9,解得=-1.4,
所以x每增加1,估计y减少1.4.
答案:B
4.多选题下列关于回归分析的说法中正确的是 ( )
A.回归直线一定过样本中心(,)
B.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适
C.甲、乙两个模型的R2分别约为0.98和 0.80,则模型乙的拟合效果更好
D.两个模型中残差平方和越小的模型拟合的效果越好
解析:对于A选项,回归直线一定过样本中心(,),A选项正确;对于B选项,残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,B选项正确;对于C选项,甲、乙两个模型的R2分别约为 0.98 和0.80,则模型甲的拟合效果更好,C选项错误;对于D选项,两个模型中残差平方和越小的模型拟合的效果越好,D选项正确.
答案:ABD
5.四张残差图如图所示,其中模型的拟合效果最好的是 ( )
ABCD
解析:四张残差图中,只有选项A,B中的残差图中的残差是均匀地分布在以横轴为对称轴的水平带状区域内,且选项B中的残差分布集中在更狭窄的范围内,所以选项B中模型的拟合效果最好.
答案:B
B级 能力提升
6.已知一组观测数据(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei
(i=1,2,…,n),若ei恒为0,则R2的值为1.
解析:由ei恒为0,知yi=,即yi-=0,故R2=1-=1-0=1.
7.某考察团对全国十个城市居民人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)进行统计调查,调查发现y与x具有线性相关关系,经验回归方程为=0.66x+1.562.若其中某城市居民人均消费水平为7.675千元,则该城市人均消费额占人均工资收入的百分比约为83%.
解析:将y=7.675代入经验回归方程=0.66x+1.562,
可计算得x≈9.262,所以该城市人均消费额占人均工资收入的百分比约为×100%≈83%.
8.多选题(2023·湛江一模)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成的散点图如图所示.
由最小二乘法计算得到经验回归直线l1的方程为=x+,相关系数为r1,决定系数为;经过残差分析确定(168,89) 为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线l2的方程为=x+,相关系数为r2,决定系数为.则以下结论中正确的有 ( )
A.>
B.>
C.r1D.>
解析:由题意知,身高的平均数为(165+168+170+172+173+174+
175+177+179+182)×=173.5,因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,所以去掉离群点后经验回归直线的截距变小而斜率变大,所以>,<,所以选项A正确,选项B错误;去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,所以r1答案:AC
9.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了四次试验,所得数据如下表所示:
加工零件的数量x/个 2 3 4 5
加工的时间y/h 2.5 3 4 4.5
(1)求y关于x的经验回归方程.
(2)预测加工10个零件需要多少时间
参考公式:==, =-.
解:(1)由已知可得,=3.5,=3.5,
xiyi=2×2.5+3×3+4×4+5×4.5=52.5,=4+9+16+25=54,
所以===0.7,
所以=3.5-0.7×3.5=1.05,
所以所求经验回归方程为=0.7x+1.05.
(2)当x=10时,=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05 h.
C级 挑战创新
10.已知函数模型y=sin2α+2sin α+1,若将y转化为关于t的经验回归方程,则需作变换t=(sin α+1)2.
解析:因为要转化为y关于t的经验回归方程,实际上就是y关于t的一次函数.由y=(sin α+1)2,若令t=(sin α+1)2,则可得y与t的函数关系式为y=t,此时变量y与变量t呈现出线性相关关系.
11.某共享单车企业在A城市就“每天一辆单车平均成本y(单位:元)与租用单车数量x(单位:千辆)之间的关系”进行了调查,并将相关数据统计如下表所示.
x 2 3 4 5 8
y 3.2 2.4 2 1.9 1.5
根据以上数据,研究人员设计了两种不同的回归分析模型,得到两个拟合函数:
模型甲:=+0.8,
模型乙:=+1.6.
(1)为了评价两种模型的拟合效果,完成以下任务:①完成下表(计算结果精确到0.1元);②分别计算模型甲与模型乙的残差平方和Q1及Q2,并通过比较Q1,Q2的大小,判断哪个模型拟合效果更好.
x y 模型甲 模型乙
残差 残差
2 3.2
3 2.4 2.4 0 2.3 0.1
4 2 2.0 0 2.0 0
5 1.9 1.8 0.1 1.9 0
8 1.5 1.4 0.1
(2)这家企业在A城市投放共享单车后,受到广大市民的热烈欢迎并供不应求,于是该企业决定增加单车的投放量.根据市场调查,市场投放量达到1万辆时,平均每辆单车一天能收入8元、6元的概率分别为0.6,0.4;市场投放量达到1.2万辆时,平均每辆单车一天能收入8元、6元的概率分别为0.4,0.6.若按(1)中拟合效果较好的模型计算一天中一辆单车的平均成本,则该企业投放量选择1万辆还是 1.2 万辆能获得更多利润 (利润=收入-成本)请说明理由.
解:(1)①经计算,可得下表:
x y 模型甲 模型乙
残差 残差
2 3.2 3.2 0 3.2 0
3 2.4 2.4 0 2.3 0.1
4 2 2.0 0 2.0 0
5 1.9 1.8 0.1 1.9 0
8 1.5 1.4 0.1 1.7 -0.2
②由①中数据,得Q1=0.12+0.12=0.02,Q2=0.12+(-0.2)2=0.05.
因为Q1(2)若投放量为1万辆,由(1)中模型甲可知,
每天一辆单车平均成本约为+0.8=1.28(元),
这样一天获得的总利润为
(8×0.6+6×0.4-1.28)×10 000=59 200(元).
若投放量为1.2万辆,由(1)中模型甲可知,
每天一辆单车平均成本约为+0.8=1.2(元),
这样一天获得的总利润为(8×0.4+6×0.6-1.2)×12 000=67 200(元).
因为67 200>59 200,
所以选择投放1.2万辆能获得更多利润.8.3.1 分类变量与列联表
A级 基础巩固
1.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到两个等高堆积条形图如图所示:
根据图中信息,在下列各项中,说法最佳的一项是 ( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
解析:从题图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,即预防效果更好.
答案:B
2.某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
单位:人
人群 体检频率 合计
每年体检 每年未体检
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各25名,则对列联表数据的分析错误的是 ( )
A.a=18
B.b=19
C.c+d=50
D.e-f=2
解析:由题意得,a+7=c=25,6+b=d=25,a+6=e,7+b=f,e+f=50,所以a=18,b=19,c+d=50,e=24,f=26,则e-f=-2.
答案:D
3.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出四个等高堆积条形图,下列选项中,最能体现该药物对预防禽流感有显著效果的图形是( )
ABCD
解析:分析四个选项中的等高堆积条形图,得选项D中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.
答案:D
4.多空题下面是一个2×2列联表:
X Y 合计
Y=y1 Y=y2
X=x1 35 a 70
X=x2 15 15 30
合计 50 b 100
其中a的值为35,b的值为50.
解析:由a+35=70,得a=35.由a+15=b,得b=50.
B级 能力提升
5.多空题调查某医院一段时间内婴儿性别和出生时间的关联性,得到如下的列联表:
单位:人
性别 出生时间 合计
晚上 白天
男 45 A B
女 E 35 C
合计 98 D 180
由表可得,A=47,B=92,C=88,D=82,E=53.
解析:由列联表,得解得
6.多选题调查中发现480名男人中有38人患有色盲,520名女人中有6人患有色盲.下列说法错误的是( )
A.男人、女人中患色盲的频率分别为0.038,0.006
B.男、女患色盲的概率分别为,
C.患色盲在不同的性别中是有差异的
D.调查人数太少,不能说明色盲与性别有关
解析:由题意,得男人、女人中患色盲的频率分别为≈0.079 2,
≈0.011 5,频率不等于概率,故A,B项错误.因为0.079 2>0.011 5,说明男人中患色盲的比率比女人中患色盲的比率大,所以可以认为患色盲在不同的性别中是有差异的,故C项正确,D项错误.
答案:ABD
7.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
单位:名
年龄(X) 节目(Y) 合计
文艺节目(Y=1) 新闻节目(Y=0)
20至40岁(X=1) 40 18 58
大于40岁(X=0) 15 27 42
合计 55 45 100
由表中数据直观分析,观众年龄与收看两种类型的节目是否有关联 是(填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,所以P(Y=0|X=1)==.因为大于40岁的42名观众中有27名观众收看新闻节目,所以P(Y=0|X=0)==.因为≈0.33,所以观众年龄与收看两种类型的节目是有关联的.
8.研究人员选取170名大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的态度为“肯定”的有22名,“否定”的有38名;110名男生在这一题目上态度为“肯定”的有22名,“否定”的有88名.问:性别与态度之间是否有关联 请用等高堆积条形图判断.
解:建立性别与态度的2×2列联表如下:
单位:名
性别 态度 合计
肯定 否定
男 22 88 110
女 22 38 60
合计 44 126 170
根据列联表中所给的数据,可求出男生中态度为“肯定”的频率为=0.2,女生中态度为“肯定”的频率为≈0.37.作等高堆积条形图如图所示.
其中两个深色条的高度分别表示男生和女生中态度为“肯定”的频率,比较图中深色条的高度可以发现,女生中态度为“肯定”的频率明显高于男生中态度为“肯定”的频率,因此可以认为性别与态度有关联.
C级 挑战创新
9.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:
X Y 合计
Y=y1 Y=y2
X=x1 a b a+b
X=x2 c d c+d
合计 a+c b+d a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关联的可能性最大的一组为 ( )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=2,b=3,c=5,d=4
解析:比较,值越大,X与Y有关联的可能性越大.选项A中,=;选项B中,=;选项C中,=;选项D中,=.因为>>,所以选D.
答案:D8.3.2 独立性检验
A级 基础巩固
1.在某次飞行航程中遭遇恶劣天气,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关联时,采用的数据分析方法应是 ( )
A.频率分布直方图
B.回归分析法
C.独立性检验
D.用样本估计总体
答案:C
2.多选题以下关于独立性检验的说法中,正确的是( )
A.独立性检验依赖于小概率原理
B.独立性检验得到的结论一定准确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判断两变量是否相关的唯一方法
答案:ACD
3.多选题分类变量X和Y的数据如下,试根据χ2=的含义来判断下列说法错误的是 ( )
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
A.ad-bc越小,说明X与Y的关联性越弱
B.ad-bc越大,说明X与Y的关联性越强
C.(ad-bc)2越大,说明X与Y的关联性越强
D.(ad-bc)2越接近于0,说明X与Y的关联性越强
解析:列联表可以较为准确地判断两个变量之间的关联性,
由χ2=可知,
当(ad-bc)2越大时,χ2越大,表明X与Y的关联性越强.
当(ad-bc)2越接近0时,说明X和Y无关联的可能性越大.
即只有C项中说法正确,故选ABD.
答案:ABD
4.为了研究高中生对乡村音乐的态度(喜欢和不喜欢)与性别是否有关联,运用2×2列联表进行独立性检验,经计算得χ2=8.01,参照下列数值表,则认为“喜欢乡村音乐与性别有关联”犯错误的概率不大于
( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.0.001
B.0.99
C.0.005
D.0.999
解析:因为χ2=8.01>7.879=x0.005,所以推断“高中生喜欢乡村音乐与性别有关联”犯错误的概率不大于0.005.
答案:C
5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:
单位:人
看电视 态度 合计
冷漠 不冷漠
多看电视 68 42 110
少看电视 20 38 58
合计 88 80 168
则在犯错误的概率不超过多少的前提下,认为多看电视与人变冷漠有关联 ( )
A.0.001
B.0.05
C.0.01
D.0.1
解析:可计算χ2≈11.377>10.828=x0.001,故在犯错误的概率不超过0.001的前提下,认为多看电视与人变冷漠有关联.
答案:A
6.有两个分类变量X和Y,其2×2列联表如下:
X Y 合计
Y=y1 Y=y2
X=x1 a 15-a 15
X=x2 20-a 30+a 50
合计 20 45 65
其中a,15-a均为大于5的整数,则a=9时,根据小概率值α=0.01的独立性检验,认为X和Y之间有关联.
附:
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
解析:根据表中数据,得χ2==.
由题意,可得χ2≥6.635.
因为a>5,且15-a>5,a∈N,
所以9≤a<10,且a∈N,所以a=9.
B级 能力提升
7.多选题(2023·深圳模拟)某研究机构为了探究吸烟与肺气肿是否有关,调查了200人.统计过程中发现随机从这200人中抽取一人,此人为肺气肿患者的概率为0.1.在制定2×2列联表时,由于某些因素缺失了部分数据,从而获得的2×2列联表如下,下列结论正确的是 ( )
吸烟情况 肺气肿 合计
患病 未患病
吸烟 15
不吸烟 120
合计 200
参考公式与临界值表:χ2=.
α 0.100 0.050 0.025 0.010 0.001
xα 2.706 3.841 5.024 6.635 10.828
A.不吸烟患肺气肿的人数为5人
B.200人中患肺气肿的人数为10人
C.χ2=11.42
D.按99.9%的可靠性要求,可以认为“吸烟与肺气肿有关系”
解析:A选项,200人中抽取一人,此人为肺气肿患者的概率为0.1,故肺气肿患者共有200×0.1=20人,由于吸烟患肺气肿的人数为15人,故不吸烟患肺气肿的人数为5人,选项A正确,选项B错误;
C选项,列联表如下:
吸烟情况 肺气肿 合计
患病 未患病
吸烟 15 60 75
不吸烟 5 120 125
合计 20 180 200
则χ2==≈13.33,选项C错误;
D选项,由于13.33>10.828,故按99.9%的可靠性要求,可以认为“吸烟与肺气肿有关系”,选项D正确.
答案:AD
8.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
机床 质量 合计
一级品 二级品
甲 150 50 200
乙 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:χ2=.
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
解:(1)由题意可得,甲机床、乙机床生产总数均为200件,因为甲的一级品的频数为150,所以甲的一级品的频率为=;
因为乙的一级品的频数为120,所以乙的一级品的频率为=.
(2)根据列联表中数据,
可得χ2==≈10.256>6.635.
所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
C级 挑战创新
9.多空题对196位接受心脏搭桥手术的病人和196位接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作心脏病,调查结果如下表所示:
单位:位
手术类型 是否又发作心脏病 合计
是 否
心脏搭桥 39 157 196
血管清障 29 167 196
合计 68 324 392
试根据上述数据计算χ2≈1.779(保留三位小数),依据小概率值α=0.1的独立性检验,能否得出“这两种手术对病人又发作心脏病的影响有差别”的结论 不能(填“能”或“不能”).
解析:零假设为H0:这两种手术对病人又发作心脏病的影响没有差别.
根据列联表中的数据,得χ2=≈1.779<2.706=x0.1.
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即认为两种手术对病人又发作心脏病的影响没有差别,所以不能得出“这两种手术对病人又发作心脏病的影响有差别”的结论.
10.(2022·新高考全国Ⅰ卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
组别 卫生习惯
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
①证明:R=·;
②利用该调查数据,给出P(A|B),P(A|)的估计值,并利用①的结果给出R的估计值.
附:χ2=.
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
(1)解:补充列联表为:
组别 卫生习惯 合计
不够良好 良好
病例组 40 60 100
对照组 10 90 100
合计 50 150 200
计算χ2==24>6.635,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)①证明:R=∶
=·
=·
=
=·
=·;
②解:利用调查数据,
P(A|B)==,P(A|)==,
P(|B)=1-P(A|B)=,P(|)=1-P(A|)=,
所以R=×=6.章末复习课
回顾本章学习过程,建构“基础知识、基本技能、基本思想、基本活动经验”之间的联系.
要点训练一 一元线性回归分析
在学习时,重点把握线性回归模型的思想方法.解题时注意以下几点:
(1)正确运用,的计算公式并准确计算,是求经验回归方程的关键.充分利用经验回归直线=x+必过样本点的中心(,)进行求值.
(2)可以通过残差图来刻画拟合效果,也可以用决定系数R2来反映回归模型的拟合效果,R2越大,表示残差平方和越小,即模型的拟合效果越好.
1.假定小麦基本苗数x与成熟期有效穗数y之间存在相关关系,今测得5组数据如下表.
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
(1)以x为自变量,y为因变量,作出散点图;
(2)求y与x之间的经验回归方程,对于苗数56.7求有效穗数;
(3)计算各组残差,并计算残差平方和.
解:(1)散点图如图所示.
(2)由散点图知,这两个变量有比较好的线性相关关系,因此可以用经验回归方程刻画它们之间的关系.
设经验回归方程为=x+,则=30.36,=43.5,
=5 101.56,=9 511.43, =1 320.66,
=1 892.25,=921.729 6,xiyi=6 746.76.
所以≈0.29,
=-≈43.5-0.29×30.36≈34.70.
故所求的经验回归方程为=34.70+0.29x.
当x=56.7时, =34.70+0.29×56.7=51.143.
所以有效穗数约为51.143.
(3)由=yi-得=0.35,=0.718,=-0.5,=-2.214,=1.624,
残差平方和:≈8.43.
2.为了迎接男篮世界杯,某协会组织了一次“手工制作助威旗”活动,将男篮世界杯的标志以手工刺绣的方式绣到红色的三角形的旗子上面.在10次制作中测得助威旗数x(单位:个)与加工时间y(单位:h)的数据如下表.
x 10 20 30 40 50 60 70 80 90 100
y 62 68 75 81 89 95 102 108 115 122
(1)x与y是否具有线性相关关系
(2)如果x与y具有线性相关关系,求出y关于x的经验回归方程,并根据经验回归方程,预测加工2 010 个助威旗需多少天(精确到1).
注:每天工作8 h.
参考数据:=55,=91.7,=38 500,=87 777,
xiyi=55 950,38 500-10×552=8 250,≈91,
≈61.
解: (1)作散点图如图所示.
从图中可以看出,各点都散布在一条直线附近,即y与x线性相关.
(2)由所给数据求得
===≈0.668,
所以=-≈91.7-0.668×55=54.96,
所以y关于x的经验回归方程为=54.96+0.668x,
当x=2 010时,
=54.96+0.668×2 010=1 397.64,
所以1 397.64÷8=174.705≈175,
所以加工2 010个助威旗约需175天.
要点训练二 独立性检验
独立性检验是判断两个分类变量之间是否有关联的一种方法.在判断两个分类变量之间是否有关联时,作出等高堆积条形图只能近似地判断两个分类变量是否有关联,而独立性检验可以精确地得到可靠的结论.
1.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线各抽取40件产品作为样本,并分别称出它们的质量(单位:g),质量值落在区间(495,510]上的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,乙流水线样本的频率分布直方图如图所示.
表1
产品质量/g 频数
(490,495] 6
(495,500] 8
(500,505] 14
(505,510] 8
(510,515] 4
(1)根据表1中数据作出甲流水线样本的频率分布直方图.
(2)若以频率作为概率,试估计从乙流水线任取一件产品,该产品恰好是合格品的概率.
(3)由以上统计数据完成表2,根据小概率值α=0.1的χ2独立性检验,能否认为产品的质量与两条自动包装流水线的选择有关联
表2
单位:件
质量 流水线 合计
甲流水线 乙流水线
合格品
不合格品
合计
附:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:(1)根据所给的每一组的频数和样本量得出每一组的频率,
作出甲流水线样本的频率分布直方图如图所示.
(2)由题图知,乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,
故合格品的频率为=0.9,
据此可估计从乙流水线任取一件产品,
该产品恰是合格品的概率为0.9.
(3)补全列联表如下:
单位:件
质量 流水线 合计
甲流水线 乙流水线
合格品 30 36 66
不合格品 10 4 14
合计 40 40 80
零假设为H0:产品的质量与两条自动包装流水线的选择无关联.
根据2×2列联表中的数据,计算可得
χ2=≈3.117>2.706=x0.1.
根据小概率值α=0.1的独立性检验,
推断H0不成立,
即认为产品的质量与两条自动包装流水线的选择有关联,
此推断犯错误的概率不超过0.1.
要点训练三 两个变量相关关系的判断
分析判断两个变量相关关系常用的方法:
(1)散点图法:把样本数据表示的点在平面直角坐标系中标出,得到散点图,根据散点图的形状分析.
(2)样本相关系数法:利用r进行检验,在确认具有线性相关关系后,再求经验回归方程.
1.某地10户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元)的统计资料如下表:
x 2 4 4 6 6 6 7 7 8 10
y 0.9 1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3
根据表中数据,确定家庭的年收入和年饮食支出是否具有相关关系.
解:由题意作散点图如图所示.
从图中可以看出,年收入和年饮食支出有比较好的线性相关关系.
2.一散点图如图所示.
由散点图看出,可用线性回归模型拟合y与t的关系,请用样本相关系数加以说明.
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
解:由题图中数据和参考数据得,
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89, r≈≈0.99.
因为y与t的样本相关系数近似为0.99,所以y与t的线性相关程度很强,从而可用线性回归模型拟合y与t的关系.
要点训练四 非线性回归分析
非线性回归分析问题的处理方法:
(1)描点,选模.画出已知数据的散点图,把它与已经学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较,挑选一种图象跟这些散点拟合最好的函数.
(2)解模.先对变量进行适当地变换,再利用线性回归模型来解模.
(3)比较检验.通过回归分析比较所建模型的优劣.
1.在某化学实验中,测得的6对数据如下表所示,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.
x 1 2 3 4 5 6
y 39.8 32.2 25.4 20.3 16.2 13.3
(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值(精确到0.001);
(2)化学反应进行到10 min时,估计未转化物质的质量(精确到0.1).
解:(1)在y=cdx两边取自然对数,令ln y=z,ln c=a,ln d=b,则z=a+bx.
由已知数据,得下表.
x/min 1 2 3 4 5 6
y/mg 39.8 32.2 25.4 20.3 16.2 13.3
z=ln y 3.684 3.472 3.235 3.011 2.785 2.588
由公式得≈3.905 7,≈-0.221 9,
则经验回归方程为=3.905 7-0.221 9x.
而ln c=3.905 7,ln d=-0.221 9,故c≈49.685,d≈0.801,
所以c,d的估计值分别为49.685和0.801.
(2)当x=10时,结合(1)可得y≈5.4.
故估计未转化物质的质量为5.4 mg.
2.在一次抽样调查中测得样本的5个样本点,数据如下表:
x 0.25 0.5 1 2 4
y 16 12 5 2 1
试建立y与x之间的经验回归方程.
解:由已知数据表作出散点图如图所示.
由图可知变量y与x近似地满足y=+a(b>0),
令t=,则y=bt+a.
由y与x的数据表可得y与t的数据表:
t 4 2 1 0.5 0.25
y 16 12 5 2 1
作出y与t的散点图如图所示.
由图可知y与t具有线性相关关系.
易知=1.55,=7.2,tiyi=94.25,=21.312 5,
==≈4.134 4,
=-≈7.2-4.134 4×1.55≈0.8,
所以=4.134 4t+0.8.
所以y与x的经验回归方程是=+0.8.
要点训练五 建模思想
(1)解决函数应用题的关键在于理解题意,并准确建立数学模型.因此,一方面要加强对常见函数模型的理解,弄清其产生的实际背景,把数学问题生活化;另一方面,要不断拓宽自己的知识面,提高生活阅历,培养实际问题数学化的意识和能力.
常见的解决方法:
①关系分析法:通过寻找实际问题中的关键词和关键量之间的数量关系来建立函数模型.
②列表分析法:通过列表的方法探求函数模型.
③图象分析法:通过对图象中的数量关系进行分析来建立函数模型.
(2)对于只是给出几组对应值,而变量关系不确定的应用题,求解函数模型的一般步骤如下:
①作散点图;
②选择函数模型;
③用待定系数法求函数模型;
④检验,若符合实际,则可用此函数模型解决问题,否则重复步骤②~④.
1.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi, yi) (i=1,2,… ,20)得到下面的散点图:
由此散点图,在10℃至40℃之间,下面四个经验回归方程类型中最适宜作为发芽率y和温度x的经验回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
解析:由散点图可知,在10℃至40℃之间,发芽率y和温度x所对应的点(x,y)在一段对数型函数的图象附近,结合选项可知, y=a+bln x可作为发芽率y和温度x的经验回归方程类型.故选D.
答案:D
2.我国新能源产业迅速发展,以下是近几年某新能源产品的年销售量数据:
年份 2018 2019 2020 2021 2022
年份代码 1 2 3 4 5
新能源产品年销量/万个 1.6 6.2 17.7 33.1 55.6
(1)请画出上表中年份代码x与年销量y的数据对应的散点图,并根据散点图判断:y=ax+b与y=cx2+d中哪一个更适宜作为年销量y关于年份代码x的经验回归方程类型.
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并预测2023年该新能源产品的年销量.
参考公式: =, =t+.
参考数据:=3,=22.84,=11,(xi-)2=10,(ti-)2=374,
(xi-)(yi-)=134.9,(ti-)(yi-)=849.1,其中ti=.
解:(1)作散点图如图所示.
根据散点图,可知y=cx2+d更适宜作为年销量y关于年份代码x的经验回归方程类型.
(2)令t=x2,则y=ct+d.依题意,知 =22.84,=11,
==≈2.27,=-≈22.84-2.27×11=-2.13,
所以=2.27t-2.13,所以y关于x的经验回归方程为=2.27x2-2.13.
当x=6时, =2.27×62-2.13=79.59,
故预测2023年该新能源产品的年销量为79.59万个.
统计与概率的综合问题
(12分)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表: 单位:μg/m3 PM2.5SO2[0,50](50,150](150,475][0,35]32184(35,75]6812(75,115]3710
(1)估计事件“该市一天空气中PM2.5浓度不超过75 μg/m3,且SO2浓度不超过150 μg/m3”的概率; (2)根据所给数据,完成下面的2×2列联表: 单位:μg/m3 PM2.5SO2合计[0,150](150,475][0,75](75,115]合计
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否认为该市一天空气中PM2.5浓度与SO2浓度有关联 附:χ2=. α0.050.010.001xα3.8416.63510.828
解:(1)由表格可知,该市100天中,空气中PM2.5浓度不超过 75 μg/m3,且SO2浓度不超过150 μg/m3的天数为32+6+18+8=64①,……………………2分 以该市一天空气中PM2.5浓度不超过75 μg/m3,且SO2浓度不超过150 μg/m3的概率约为=0.64②. …………………………………1分(累计3分) (2)由所给数据,可得2×2列联表为: 单位:μg/m3③ PM2.5 SO2合计[0,150](150,475][0,75]641680(75,115]101020合计7426100
…………………………………4分(累计7分) (3)零假设为 H0:该市一天空气中PM2.5浓度与SO2浓度无关④. …………………………………1分(累计8分) 根据2×2列联表中的数据可得, χ2=≈7.484 4>6.635=, …………………………………3分(累计11分) 根据小概率值α=0.01的独立性检验,推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关联,此推断犯错误的概率不大于0.01⑥.……1分(累计12分) 评分细则 第(1)题: ①有式子得1分,结果对得1分. ②概率结果正确得1分. 第(2)题: ③表格填写正确得4分. 第(3)题: ④提出零假设H0得1分. ⑤有式子χ2= 得1分, 有7.484 4得1分, 有>6.635得1分. ⑥结论正确得1分. 得分技巧 1.得步骤分:第(1)题①中式子得1分,结果得1分. 第(3)题⑤中运算过程每个步骤都有分值. 2.得规范分:第(3)题⑥要有结论,没有结论会失分. 3.得运算分:如第(1)题②中结果运算正确得1分,第(3)题结果错误会相应扣分.第八章质量评估
(时间:120分钟 分值:150分)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一个选项是符合题目要求的.
1.下列现象的相关性最高的是 ( )
A.某商店的职工人数与商品销售额之间的样本相关系数为0.87
B.流通费用率与商业利润之间的样本相关系数为-0.94
C.商品销售额与商业利润之间的样本相关系数为0.51
D.商品销售额与流通费用率之间的样本相关系数为-0.81
解析:|r|越接近1,相关性越强.
答案:B
2.工人月工资y(单位:元)关于劳动生产率x(单位:千元)的经验回归方程为=90x+60,下列说法中正确的是 ( )
A.劳动生产率每提高1 000元,工人月工资提高150元左右
B.劳动生产率每提高1 000元,工人月工资提高90元左右
C.当劳动生产率为1 000元时,工人月工资提高90元
D.以上说法都不正确
解析:由经验回归方程得到的预测值并不一定是响应变量的精确值,而是响应变量可能取值的平均值,
因此当劳动生产率每提高1 000元时,工人月工资提高90元左右.
答案:B
3.如图,等高堆积条形图可以说明的问题是( )
A.“心脏搭桥”手术和“血管清障”手术对“又发心脏病”的影响是绝对不同的
B.“心脏搭桥”手术和“血管清障”手术对“又发心脏病”的影响没有什么不同
C.此等高堆积条形图看不出两种手术有什么不同的地方
D.“心脏搭桥”手术和“血管清障”手术对“又发心脏病”的影响在某种程度上是不同的,但是没有100%的把握
解析:由等高堆积条形图可知选项D正确.
答案:D
4.设两个变量x和y之间具有线性相关关系,它们的样本相关系数是r,y关于x的经验回归直线的斜率是b,纵轴上的截距是a,那么必有
( )
A.b与r的符号相同
B.a与r的符号相同
C.b与r的符号相反
D.a与r的符号相反
解析:当b>0时,两变量正相关,此时,r>0;
当b<0时,两变量负相关,此时r<0,
所以b与r的符号相同.
答案:A
5.若经验回归方程中的=0,则样本相关系数为 ( )
A.r=1 B.r=-1
C.r=0 D.无法确定
解析:当=0时,(xi-)(yi-)=0,
即xiyi-n=0,
所以r=0.
答案:C
6.通过随机询问相同人数不同性别的大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若依据α=0.01的独立性检验,认为性别与看营养说明之间有关,则调查的总人数可能为 ( )
A.150B.170C.240D.175
解析:设男女大学生各有m人,根据题意列出2×2列联表如下:
性别 是否看营养说明 合计
看 不看
男 m m m
女 m m m
合计 m m 2m
所以χ2==,
因为依据α=0.01的独立性检验,认为性别与看营养说明之间有关,所以≥x0.01=6.635,解得2m≥179.145,
所以总人数2m可能为240.
答案:C
7.某工厂为预测某种产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取了8组观察值.计算知xi=52,yi=228,
=478,xiyi=1 849,则y关于x的经验回归方程是( )
A. =11.47+2.62xB. =-11.47+2.62x
C. =2.62+11.47xD. =11.47-2.62x
解析:由已知条件得=6.5,=28.5.
由=, =-,计算得≈2.62,≈11.47,
所以=11.47+2.62x.
答案:A
8.小波同学为了验证谚语“日落云里走,雨在半夜后”,观察了他所在地区的100天里日落和夜晚天气,得到2×2列联表.并计算得到χ2≈
19.05,下列小波对该地区天气判断不正确的是 ( )
单位:天
天气“日落云里走” “雨在半夜后” 合计
下雨 未下雨
出现 25 5 30
未出现 25 45 70
合计 50 50 100
A.夜晚下雨的概率约为
B.未出现“日落云里走”夜晚下雨的概率约为
C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关联
D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨
解析:由题意,把频率看作概率可得夜晚下雨的概率约为=,故A正确;
未出现“日落云里走”夜晚下雨的概率约为=,故B正确;
由χ2≈19.05>10.828,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关联,故C正确,D错误.
答案:D
二、选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.下列说法正确的是 ( )
A.将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变
B.设有一个经验回归方程=3-5x,当变量x每增加1个单位时,y平均增加5个单位
C.经验回归直线=x+不可能过点(,)
D.在一个2×2列联表中,由计算得χ2=13.079,则推断“这两个变量间有关联”犯错误的概率不超过0.001
解析:将一组数据中的每个数据都加上或减去同一个常数后,每个数与平均数的差值不变,因而方差恒不变,故A项正确;根据经验回归方程=3-5x可知当x每增加1个单位时,y平均减少5个单位,故B项错误;经验回归直线必过点(,),故C项错误;因为χ2=13.079>10.828=
x0.001,所以根据小概率值α=0.001的独立性检验,推断“两个变量间有关联”犯错误的概率不超过0.001,故D项正确.
答案:AD
10.某城市收集并整理了该市去年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制的折线图如图所示.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论正确的是( )
A.最低气温与最高气温为正相关
B.10月的最高气温不低于5月的最高气温
C.月温差(最高气温减最低气温)的最大值出现在1月
D.最低气温低于0 ℃的月份有4个
解析:由图可知,最低气温与最高气温为正相关,故A项正确;10月的最高气温不低于5月的最高气温,故B项正确;月温差的最大值出现在1月,故C项正确;最低气温低于0 ℃的月份有3个,故D项错误.故选ABC.
答案:ABC
11.已知变量x和y的取值如表所示,且2.5x 2 3 4 5
y 6.5 m n 2.5
A. =-1.4x+9.4 B. =-2x+14.2
C. =1.5x+8.8 D. =-1.6x+10.6
解析:由题意,知=×(2+3+4+5)=3.5,
=×(6.5+m+n+2.5)=2.25+∈(3.5,5.5).
由2.5可得变量y与x呈现出负相关,故C项不符合题意;
把(,)代入选项A,得=-1.4×3.5+9.4=4.5,符合题意;
把(,)代入选项B,得=-2×3.5+14.2=7.2,不符合题意;
把(,)代入选项D,得=-1.6×3.5+10.6=5,符合题意.
故选AD.
答案:AD
12.在一次恶劣气候的飞行航程中,男女乘客在机上晕机的情况如下表所示.则下列说法正确的是 ( )
单位:人
性别 晕机与否 合计
晕机 不晕机
男 n11 15 n1+
女 6 n22 n2+
合计 n+1 28 46
A.>
B.χ2<2.706
C.有90%的把握认为,在恶劣气候飞行中,晕机与性别有关联
D.没有理由认为,在恶劣气候飞行中,晕机与否跟男女性别有关
解析:由列联表数据,
知得
所以==>=,即A正确;完整列联表如下:
单位:人
性别 晕机与否 合计
晕机 不晕机
男 12 15 27
女 6 13 19
合计 18 28 46
所以χ2=≈0.775<2.706,即B正确;且没有理由认为,在恶劣气候飞行中,晕机与性别有关联,即D正确;故选ABD.
答案:ABD
三、填空题:本题共4小题,每小题5分,共20分.
13.已知变量x,y线性相关,样本相关系数r<0,则在以(,)为坐标原点的坐标系下的散点图中,大多数的点都落在第二、四象限.
解析:因为r<0,所以<0,所以大多数点落在第二、四象限.
14.在2×2列联表中,两个比值与相差越大,两个分类变量有关联的可能性越大.
解析:根据2×2列联表及χ2的表达式可知,比值与相差越大,则|ad-bc|就越大,那么两个分类变量有关联的可能性就越大.
15.某社区医疗服务部门为了考察该社区居民患高血压病是否与食盐的摄入量有关,对该社区的1 633人进行了跟踪调查,得出以下数据:
单位:人
食盐的摄入量 高血压 合计
患高血压 未患高血压
喜欢较咸食物 34 220 254
喜欢清淡食物 26 1 353 1 379
合计 60 1 573 1 633
计算χ2,得χ2≈80.155,我们在犯错误的概率不超过0.001时,认为该社区居民患高血压病与食盐的摄入量有关联.(本题第一空3分,第二空2分)
解析:零假设为H0:患高血压病与食盐的摄入量没有关联.
则χ2=≈80.155>10.828=x0.001.
根据小概率值α=0.001的独立性检验,我们推断H0不成立,
即认为患高血压病与食盐的摄入量有关联,此推断犯错误的概率不超过0.001.
16.已知具有相关关系的两个随机变量的一组观测数据的散点图中的点分布在函数y=3的图象附近,则可通过转换得到的经验回归方程为u=1+ln 3+2x(其中u=ln y).
解析:由y=3e2x+1,得ln y=ln(3e2x+1),即ln y=ln 3+2x+1.
令u=ln y,则经验回归方程为u=1+ln 3+2x.
四、解答题:本题共4小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17.(15分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的样本相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数r=,≈1.414.
解:(1)因为yi=1 200,
所以20个样区这种野生动物数量的平均数为
yi=1 200×=60,
所以该地区这种野生动物数量的估计值为60×200=12 000.
(2)因为(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800,
所以r====≈0.94.
(3)更合理的抽样方法是分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.
理由如下:
由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得对该地区这种野生动物数量更准确的估计.
18.(15分)某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下2×2列联表.如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是.
(1)求a,b,c,d的值.
(2)试运用独立性检验的思想方法分析:依据小概率值α=0.001的独立性检验,能否认为学生的学习积极性与对待班级工作的态度有关联 并说明理由.
单位:人
学习积极性 班级工作 合计
积极参加 不太主动参加
高 18 7 25
一般 a b 25
合计 c d 50
解:(1)积极参加班级工作的学生有c人,总人数为50,
由抽到积极参加班级工作的学生的概率P==,解得c=24,所以a=6.所以b=25-a=25-6=19,d=50-c=50-24=26.
(2)零假设为H0:学生的学习积极性与对待班级工作的态度无关.
由列联表知,χ2=≈11.538,
由11.538>10.828=x0.001,依据小概率值α=0.001 的独立性检验,推断H0不成立,认为学生的学习积极性与对待班级工作的态度有关联.
19.(20分)(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运营情况,随机调查了甲、乙两城之间的500个班次,得到下面的列联表.
(1)根据列联表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关
公司 班次数
准点 未准点
A 240 20
B 210 30
解:(1)A公司一共调查了260辆车,其中有240辆准点,故A公司准点的概率为=;
B公司一共调查了240辆车,其中有210辆准点,故B公司准点的概率为=.
(2)由题设数据可知,准点班次数共450辆,未准点班次数共50辆,A公司共260辆,B公司共240辆,
所以χ2=≈3.2>2.706,
所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
20.(20分)某种疾病可分为Ⅰ,Ⅱ两种类型,为了解该疾病类型与性别的关系,在某地区随机抽取了患该疾病的病人进行调查,其中男性人数为z,女性人数为2z,男性患Ⅰ型病的人数占男性病人的,女性患
Ⅰ型病的人数占女性病人的.
(1)完成2×2列联表,若在犯错误的概率不大于0.005的前提下认为“所患疾病类型”与“性别”有关联,求男性患者至少有多少人
(2)某药品研发公司欲安排甲乙两个研发团队来研发此疾病的治疗药物,两个团队各至多安排2个接种周期进行试验.每人每次接种花费m(m>0)元.甲团队研发的药物每次接种后产生抗体的概率为p,根据以往试验统计,甲团队平均花费为-2mp2+6m;乙团队研发的药物每次接种后产生抗体的概率为q,每个周期必须完成3次接种,若一个周期内至少出现2次抗体,则该周期结束后终止试验,否则进入第二个接种周期.假设两个研发团队每次接种后产生抗体与否均相互独立.若p=
2q,从两个团队试验的平均花费考虑,该公司应选择哪个团队进行药品研发
性别 类型 合计
Ⅰ型病 Ⅱ型病
男
女
合计
解:(1)2×2列联表如下:
性别 类型 合计
Ⅰ型病 Ⅱ型病
男 z
女 2z
合计 3z
要使在犯错误的概率不大于0.005的前提下认为“所患疾病类型”与“性别”有关联,
则χ2==>7.879,
解得z>11.818 5,
因为∈Z,∈Z,所以z的最小整数值为12,
所以男性患者至少有12人.
(2)设甲研发团队试验总花费为X,
E(X)=-2mp2+6m,
设乙研发团队试验总花费为Y元,则Y的可能取值为3m,6m,
所以P(Y=3m)=q2(1-q)+q3=-2q3+3q2,
P(Y=6m)=1+2q3-3q2,
所以E(Y)=3m·(-2q3+3q2)+6m·(1+2q3-3q2)=6mq3-9mq2+6m,
因为p=2q,
所以E(Y)-E(X)=6mq3-9mq2+6m+2mp2-6m
=6mq3-9mq2+2mp2
=6mq3-mq2
=mq2·(6q-1),
①当00,
所以mq2(6q-1)<0,所以E(X)>E(Y),
乙团队试验的平均花费较少,所以选择乙团队进行研发;
②当0,因为m>0,
所以mq2(6q-1)>0,所以E(X)甲团队试验的平均花费较少,所以选择甲团队进行研发;
③当q=时,mq2(6q-1)=0,所以E(X)=E(Y),甲团队试验的平均花费和乙团队试验的平均花费相同,从两个团队试验的平均花费考虑,该公司选择甲团队或乙团队进行研发均可.