2025人教A版高中数学选择性必修第三册强化练习题(含解析)--第八章 成对数据的统计分析

文档属性

名称 2025人教A版高中数学选择性必修第三册强化练习题(含解析)--第八章 成对数据的统计分析
格式 docx
文件大小 470.2KB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2024-12-23 10:08:41

图片预览

文档简介

中小学教育资源及组卷应用平台
2025人教A版高中数学选择性必修第三册
第八章 成对数据的统计分析
全卷满分150分 考试用时120分钟
一、单项选择题(本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.对两个变量x,y的三组数据进行统计,得到以下散点图,关于两个变量相关系数的比较,正确的是(  )
  
A.r1>r2>r3    B.r2>r3>r1    C.r1>r3>r2    D.r3>r2>r1
2.某课外兴趣小组为研究数学成绩优秀是否与性别有关,通过随机抽样调查,得到成对样本观测数据的分类统计结果,并计算得出χ2≈6.816,经查阅χ2独立性检验的小概率值和相应的临界值,知x0.01=6.635,则下列判断正确的是(  )
A.若某人数学成绩优秀,那么他为男生的概率是0.010
B.每100个数学成绩优秀的人中就会有1名是女生
C.数学成绩优秀与性别有关,此推断犯错误的概率不大于0.01
D.在犯错误的概率不超过1%的前提下认为数学成绩优秀与性别无关
3.给定(x,y)的5组数据:(0,1),(1,2),(2,3),(3,3),(4,5).通过计算,得到y关于x的经验回归方程为,则=(  )
A.1    B.1.1    C.0.9    D.1.15
4.某商品的地区经销商对2024年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(单位:万件)与月份x成线性相关,根据表中数据,利用最小二乘法求得y与x的经验回归方程为=0.48x+0.56.则下列说法错误的是(  )
月份x 1 2 3 4 5
销售量y/万件 1 1.6 2.0 a 3
A.由经验回归方程可知2025年1月份该地区的销售量为5.8万件
B.表中数据的样本点中心为(3,2)
C.a=2.4
D.由表中数据可知,y和x正相关
5.下图为变量x,y的一组成对数据的散点图,去掉D(3,10)后,下列说法错误的是(  )
A.样本相关系数r变大
B.残差平方和变大
C.决定系数R2变大
D.变量x与y的相关性变强
6.如图,由观测数据(xi,yi)(i=1,2,3,4,5,6)的散点图可知,y与x的关系可以用模型y=bln x+a拟合,设z=ln x,利用最小二乘法求得y关于z的经验回归方程为z+1.已知x1x2x3x4x5x6=e12,yi=18,则=(  )
A.
7.假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型要利用成对样本数据求参数b的最小二乘估计,即求使Q(b)=(yi-bxi)2取最小值时的b的值,则(  )
A.
C.
8.已知变量y关于x的经验回归方程为,y与x的一组数据如表所示,若x=5,则预测y的值为(  )
x 1 2 3 4
y e e3 e4 e6
A.e5    B.
C.e7    D.
二、多项选择题(本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分)
9.下列说法中正确的是(  )
A.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到线性方程z=0.3x+4,则c,k的值分别是e4和0.3
B.若样本相关系数r的绝对值越小,则成对样本数据的线性相关性越强
C.在回归分析中,决定系数R2的值越大,说明残差平方和越大
D.在由具有线性相关关系的两个变量x,y的统计数据所得的经验回归方程x中,若=3,则=1
10.已知某学校高二年级男生人数是女生人数的2倍,下图是该年级全部男、女学生是否喜欢徒步运动的等高堆积条形图,下列说法正确的是(  )
A.参加调查的学生中喜欢徒步的男生比喜欢徒步的女生多
B.参加调查的学生中不喜欢徒步的男生比不喜欢徒步的女生少
C.若参加调查的学生总人数为300,则能根据小概率值α=0.01的独立性检验,推断喜欢徒步和性别有关
D.无论参加调查的学生总人数为多少,都能根据小概率值α=0.01的独立性检验,推断喜欢徒步和性别有关
11.某农科所针对耕种深度x(单位:cm)与水稻每公顷产量y(单位:t)的关系进行研究,所得部分数据如下表:
耕种深度x/cm 8 10 12 14 16 18
每公顷产量y/t 6 8 m n 11 12
已知m参考数据:两个变量x,y之间的相关系数r=;
参考公式:.
A.m+n=17    B.    D.ε1+ε2=-1
三、填空题(本题共3小题,每小题5分,共15分)
12.某单位为了调查对工作的满意程度与性别是否具有相关性,随机抽取了若干名员工,所得数据统计如表所示,其中x∈N*,且x<16,若有90%的把握可以认为对工作的满意程度与性别具有相关性,则x的值是    .
单位:人
对工作满意 对工作不满意
男性 5x 5x
女性 4x 6x
附:χ2=,其中n=a+b+c+d.
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
13.用模型y=aebx拟合一组数据(xi,yi)(i=1,2,…,7),其中x1+x2+…+x7=6,设z=ln y,变换后的经验回归方程为=x+5,则y1y2…y7=    .
14.已知一组数据(18,24),(13,34),(10,38),(-1,m)的经验回归方程为=-2x+59.5,则该组数据的样本相关系数r=    (精确到0.001).
四、解答题(本题共5小题,共77分.解答应写出文字说明、证明过程或演算步骤)
15.(13分)2023年12月25日,由科技日报社主办,部分两院院士和媒体人共同评选出的2023年国内十大科技新闻揭晓.某高校一学生社团随机调查了本校100名学生对这十大科技的了解情况,按照性别和了解情况分组,得到如下列联表:
不太了解 比较了解 合计
男生 20 40 60
女生 20 20 40
合计 40 60 100
(1)判断是否有95%的把握认为该校学生对这十大科技的了解存在性别差异;
(2)若把这100名学生按照性别进行分层随机抽样,从中抽取5人,再从这5人中随机抽取2人,记抽取的2人中女生人数为X,求X的分布列及E(X).
附:①χ2=,其中n=a+b+c+d;
②当χ2>3.841时有95%的把握认为两变量有关联.
16.(15分)为了了解高中学生每天课后自主学习数学的时间x(单位:分钟)和他们的数学成绩y(单位:分)的关系,某实验小组做了调查,得到一些数据(表一).
表一
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
(1)经分析,可用线性回归模型y=bx+a拟合y与x的关系,请求出经验回归方程,并由此预测每天课后自主学习数学时间为80分钟时的数学成绩(结果保留整数);
(2)基于上述调查,某校提倡学生周末自主学习,经过一学期的实施后,抽样调查了220位学生.按照是否参与周末自主学习以及成绩是否有进步进行统计,得到2×2列联表(表二),依据表中数据,判断是否有99.9%的把握认为周末自主学习与成绩进步有关.
表二单位:人
没有进步 有进步 合计
参与周末自主学习 35 130 165
未参与周末自主学习 25 30 55
合计 60 160 220
参考数据:xiyi=22 820,yi=435,xi的方差为200;
参考公式:在经验回归方程中,,χ2=.
α 0.10 0.05 0.010 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
17.(15分)某校研究学习小组研究的课题是数学成绩与物理成绩的关系,随机抽取了20名同学期末考试中的数学成绩和物理成绩(单位:分),如表1:
表1
序号 数学 物理 序号 数学 物理
1 144 95 11 98 68
2 130 90 12 95 77
3 124 79 13 94 59
4 120 85 14 92 65
5 110 69 15 90 57
6 107 82 16 88 58
7 103 80 17 85 70
8 102 62 18 85 55
9 100 67 19 80 52
10 98 75 20 75 54
(1)数学120分及以上记为优秀,物理80分及以上记为优秀.
(i)完成如下列联表:
单位:人
物理成绩 合计
优秀 不优秀
数学成绩 优秀
不优秀
合计
(ii)依据α=0.01的独立性检验,能否认为数学成绩与物理成绩有关联
(2)从这20名同学中抽取5名同学的成绩作为样本,如表2:
表2
数学成绩/分 130 110 100 85 75
物理成绩/分 90 69 67 70 54
如图所示,横轴表示数学成绩,纵轴表示物理成绩,将表2中的成对样本数据表示为散点图,观察散点图,可以看出样本点集中在一条直线附近,由此推断数学成绩与物理成绩线性相关.
(i)求样本相关系数r;
(ii)建立物理成绩y(单位:分)关于数学成绩x(单位:分)的一元线性回归模型,求经验回归方程,并预测数学成绩为120分的同学的物理成绩为多少.(四舍五入取整数)
参考公式:(1)样本相关系数r=.
(2)经验回归方程x中,.
(3)χ2=,其中n=a+b+c+d.
临界值表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
18.(17分)某大型企业对F产品进行研发与创新,根据市场调研与模拟,得到研发投入x(单位:亿元)与研发创新的直接收益y(单位:亿元)的数据统计如下:
x 2 3 4 6 8 10 13 21 22 23 24 25
y 13 22 31 42 50 56 58 68.5 68 67.5 66 66
当017时,确定y与x满足的经验回归方程为.
(1)根据下列表格中的数据,比较当0回归模型 模型① 模型②
回归方程 =4.1x+11.8 -14.4
)2 182.4 79.2
(2)为鼓励科技创新,当研发的投入不少于20亿元时,国家给予该企业补贴收益10亿元,以回归方程为预测依据,比较研发投入17亿元与20亿元时该企业实际收益的大小;
(3)研发改造后,该企业F产品的效率X大幅提高,已知X服从正态分布N(0.52,0.012),该企业对研发团队的奖励方案如下:若F产品的效率不超过50%,不予奖励;若F产品的效率超过50%但不超过53%,每件F产品奖励2万元;若F产品的效率超过53%,每件F产品奖励5万元.求每件F产品获得奖励的数学期望(保留两位小数).
附:①决定系数R2=1-中,;③若随机变量X服从正态分布N(μ,σ2),则P(μ-σ19.(17分)某校20名学生的数学成绩x(单位:分)和知识竞赛成绩y(单位:分)如下表:
学生编号i 1 2 3 4 5 6 7 8 9 10
数学成绩xi 100 99 96 93 90 88 85 83 80 77
知识竞赛成绩yi 290 160 220 200 65 70 90 100 60 270
学生编号i 11 12 13 14 15 16 17 18 19 20
数学成绩xi 75 74 72 70 68 66 60 50 39 35
知识竞赛成绩yi 45 35 40 50 25 30 20 15 10 5
计算可得数学成绩xi(单位:分)的平均值是=75,知识竞赛成绩yi(单位:分)的平均值是=90,并且)2=6 464,)2=149 450,)=21 650.
求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设N∈N*,变量x和变量y的一组样本数据为(xi,yi),i=1,2,…,N,其中xi(i=1,2,…,N)两两不相同,yi(i=1,2,…,N)两两不相同.记xi在{xn|n=1,2,…,N}中的排名是第Ri位,yi在{yn|n=1,2,…,N}中的排名是第Si位,i=1,2,…,N.定义变量x和变量y的“斯皮尔曼相关系数”(记为ρ)为变量x的排名和变量y的排名的样本相关系数.
(i)记di=Ri-Si,i=1,2,…,N,证明:ρ=1-;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
参考公式与参考数据:r=;
≈31 081.
答案与解析
第八章 成对数据的统计分析
1.C 2.C 3.A 4.A 5.B 6.C
7.A 8.D 9.AD 10.AC 11.ABD
1.C 由散点图可知图1表示的是正相关,故r1>0;图2和图3表示的是负相关,且图2中的点比图3中的点分布更为集中,因此r2<0,r3<0,且|r2|>|r3|,所以r2r3>r2.故选C.
2.C 因为χ2≈6.816>6.635=x0.01,所以数学成绩优秀与性别有关,此推断犯错误的概率不大于0.01.故选C.
3.A 由已知得=2.8,所以2.8=0.9×2+,解得=1.
4.A 由经验回归方程=0.48x+0.56知,x=13时,=0.48×13+0.56=6.8,
故预测2025年1月份该地区的销售量为6.8万件,所以选项A错误;
由题表中数据得=0.48×3+0.56=2,所以样本点的中心为(3,2),选项B正确;由×(1+1.6+2.0+a+3)=2,解得a=2.4,选项C正确;
由题表中数据可知,y随x的增大而增大,所以y与x正相关,选项D正确.故选A.
5.B 由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
6.C 依题意有x1x2x3x4x5x6=e12,则ln x1+ln x2+…+ln x6=ln e12=12,
因此ln xi=×12=2,又yi=18,因此=3,
因为y关于z的经验回归方程为z+1,所以2+1=3,解得=1.故选C.
7.A Q(b)=)=b2,
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为.故选A.
8.D 对的两边同时取自然对数,得ln x-0.5,
∴-0.5,解得=1.6,∴y关于x的经验回归方程为=e1.6x-0.5,若x=5,则.故选D.
9.AD 对于A,对y=cekx的两边取对数,可得ln y=ln(cekx)=ln c+ln ekx,则z=ln c+kx,∵z=0.3x+4,∴ln c=4,k=0.3,则c=e4,因此A正确;
对于B,若|r|越大,则成对样本数据的线性相关性越强,因此B错误;
对于C,在回归分析中,决定系数R2越大,残差平方和越小,回归效果就越好,因此C错误;
对于D,经验回归方程x中,=3-2×1=1,因此D正确.故选AD.
10.AC 对于选项A、B,设该学校高二年级男生人数为2a,女生人数为a,
则学生中喜欢徒步的男生人数为2a×0.7=1.4a,喜欢徒步的女生人数为0.4a,不喜欢徒步的男生人数为2a×0.3=0.6a,不喜欢徒步的女生人数为0.6a,因此A正确,B错误;
对于选项C,若参加调查的学生总人数为300,则男生有200人,女生有100人,可得2×2列联表如下:
单位:人
是否喜欢徒步 性别 合计
男生 女生
喜欢 140 40 180
不喜欢 60 60 120
合计 200 100 300
则χ2==25>6.635,所以能根据小概率值α=0.01的独立性检验,推断喜欢徒步和性别有关,因此C正确;
对于选项D,由A、B中的分析可得2×2列联表如下:
单位:人
是否喜欢徒步 性别 合计
男生 女生
喜欢 1.4a 0.4a 1.8a
不喜欢 0.6a 0.6a 1.2a
合计 2a a 3a
则χ2==0.25a,不能判断0.25a与6.635的大小关系,
所以不能根据小概率值α=0.01的独立性检验,推断喜欢徒步和性别有关,因此D错误.故选AC.
11.ABD ∵=
510-6=24,
∴=9,∴m+n=17,因此A正确;
由题表数据得=13,
∴r=)=40,
∴,
∴,
∴,则ε1+ε2=m-=m+n-18=17-18=-1,因此B,D正确,C错误.故选ABD.
12.答案 14或15
解析 根据题表中数据可得χ2=,由已知得>2.706,
解得x>13.394 7,
因为x∈N*,且x<16,所以x=14或x=15.
13.答案 e41
解析 因为x1+x2+…+x7=6,所以,所以,即,
所以ln(y1y2…y7)=41,即y1y2…y7=e41.
14.答案 -0.998
解析 由题意得,所以=-2×10+59.5,解得m=62,故.
易得=1 192,=7 020,
所以样本相关系数r=≈-0.998.
15.解析 (1)根据题意以及列联表中数据可得χ2=≈2.778<3.841,(3分)
因此没有95%的把握认为该校学生对这十大科技的了解存在性别差异.(5分)
(2)根据列联表数据可得,这100名学生中男、女的比例为3∶2,(6分)
按照性别进行分层随机抽样,从中抽取5人,则抽取男生3人,女生2人,(7分)
易知X的可能取值为0,1,2,
则P(X=0)=,(10分)
因此随机变量X的分布列为
X 0 1 2
P
则数学期望E(X)=0×.(13分)
16.解析 (1)=87,(2分)
∵xi(i=1,2,3,4,5)的方差为)2=200,(3分)
∴=1.07,(6分)
因此=87-1.07×50=33.5,(7分)
所以=1.07x+33.5,
当x=80时,=119.1≈119,故预测每天课后自主学习数学时间达到80分钟时的数学成绩为119分.(9分)
(2)由2×2列联表中数据得χ2=≈12.22,(13分)
∵12.22>10.828,
∴依据α=0.001的独立性检验,有99.9%的把握认为周末自主学习与成绩进步有关.(15分)
17.解析 (1)(i)补全列联表如下:
单位:人
物理成绩 合计
优秀 不优秀
数学成绩 优秀 3 1 4
不优秀 2 14 16
合计 5 15 20
(3分)
(ii)零假设为H0:数学成绩与物理成绩相互独立,即数学成绩与物理成绩无关联,
χ2=≈6.667>6.635=x0.01,(6分)
依据α=0.01的独立性检验,推断H0不成立,即认为数学成绩与物理成绩有关联.(7分)
(2)(i)由题表中数据得)·(yi-)2=1 850,)2=666,
所以r=≈0.892,
所以物理成绩y(单位:分)关于数学成绩x(单位:分)有较强的线性相关关系.(10分)
(ii)由(2)中(i)得,(12分)
所以,(13分)
所以经验回归方程为,(14分)
当x=120时,≈81,所以数学成绩为120分的同学的物理成绩约为81分.(15分)
18.解析 (1)由题表得182.4>79.2,即,所以模型①的决定系数小于模型②的决定系数,说明回归模型②的拟合精度更高、更可靠.(3分)
当x=17时,-14.4≈21.3×4.1-14.4=72.93,
所以预测该企业对产品研发的投入为17亿元时的直接收益为72.93亿元.(5分)
(2)当x>17时,由已知可得=7.2,所以=67.2,
所以=67.2+0.7×23=83.3,(8分)
所以当x>17时,y与x满足的经验回归方程为=-0.7x+83.3.
当x=20时,=-0.7×20+83.3=69.3.
所以当x=20时,实际收益的预测值为69.3+10=79.3(亿元),
因为79.3>72.93,
所以研发投入20亿元时该企业的实际收益更大.(12分)
(3)因为P(0.52-0.02所以P(X>0.50)≈0.5+=0.977 2,P(X≤0.50)=1-P(X>0.50)=0.022 8,
因为P(0.52-0.01所以P(X>0.53)≈0.5-=0.158 7,
所以P(0.50设每件F产品获得的奖励为Y万元,则Y的分布列为
Y 0 2 5
P 0.022 8 0.818 5 0.158 7
所以E(Y)=0×0.022 8+2×0.818 5+5×0.158 7≈2.43(万元).(17分)
19.解析 (1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为r=
=≈0.70.(4分)
(2)(i)证明:由已知得Si=1+2+…+N=,(5分)
=12+22+…+N2=,(6分)
所以.(7分)
因此,(9分)
同理可得,(10分)
由于)·(Si-)=2·),
因此,(12分)
所以ρ=.(14分)
(ii)这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”是0.91,样本相关系数r≈0.7,因为0.91>0.7,所以“斯皮尔曼相关系数”对于异常值不敏感,如果数据中有明显的异常值,那么用“斯皮尔曼相关系数”比用样本相关系数更能刻画某种线性关系.
(或者“斯皮尔曼相关系数”刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.若一组数据有异常值,但排名依然符合一定的线性关系,则可以采用“斯皮尔曼相关系数”刻画线性关系)(17分)
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)