第02讲 成对数据的统计分析
目录 01 模拟基础练 2 题型一:变量间的相关关系 2 题型二:一元线性回归模型 3 题型三:非线性回归 5 题型四:列联表与独立性检验 7 题型五:误差分析 10 02 重难创新练 13 03 真题实战练 21
题型一:变量间的相关关系
1.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
2.(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
3.观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
4.(2024·四川凉山·三模)调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
题型二:一元线性回归模型
5.在2024年8月8日召开的中国操作系统产业大会上,国产操作系统银河麒麟发布了首个人工智能版本,该系统通过多项技术创新实现了人工智能与操作系统的深度融合,可广泛应用于自动驾驶 医疗健康 教育等多个领域,标志着中国在自主操作系统领域实现新突破.某新能源车企采用随机调查的方式并统计发现市面上可以实现自动驾驶的新能源汽车上可为乘客提供的功能数目与汽车上所安装的人工智能芯片个数线性相关,且根据样本点求得的回归直线方程为,若在回归直线上,则 .
6.(2024·江西·一模)已知变量y与x线性相关,由样本点求得的回归方程为,若点在回归直线上,且,,则 .
7.题图所示是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
8.(2024·高三·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到下面的统计表.
年份t 2019 2020 2021 2022 2023
年份代码 1 2 3 4 5
销量y(万辆) 11 13 18 21 27
(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能源汽车的销量最早在哪一年能突破50万辆;
(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车的人数的比例大约为.从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.
参考公式:
对于一组数据,其回归直线中斜率和截距的最小二乘估计公式分别为:.
题型三:非线性回归
9.(2024·四川内江·模拟预测)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.
(百万) 1 2 3 4 5
(千件) 0.5 1 1.5 3 5.5
(1)若该公司科研团队计划用方案①作为年销售量关于年投资额的回归分
析模型,请根据统计表的数据及参考公式,确定该经验回归方程;
(2)若该公司科研团队计划用方案②作为年销售量关于年投资额的回归分析模型,的残差平方和,请根据统计表的数据及参考公式,比较两种模型的拟合效果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少?(计算结果保留到小数点后两位)
参考公式及数据:,
10.红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中e为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度(℃)的回归方程类型 (给出判断即可,不必说明理由)并由判断结果及表中数据,求出关于的回归方程;
附:回归方程中,.
参考数据
5215 2347.3 33.6 27 81.3 3.6
(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长纤维棉花的根数为X,求X的分布列.
11.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;
,,
,,,,
题型四:列联表与独立性检验
12.为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有 .
①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多
②被调查的女生中喜欢登山的人数比不喜欢登山的人数多
③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关
④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关
13.观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是( )
A. B.
C. D.
14.为了检测某种抗病毒疫苗的免疫效果,需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠体内,一段时间后测量小白鼠的某项指标值,按分组,绘制频率分布直方图如图所示.试验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只.假设小白鼠注射疫苗后是否产生抗体相互独立.
(1)填写下面的列联表,并根据列联表及的独立性检验,判断能否认为注射疫苗后小白鼠产生抗体与指标值不小于60有关;
单位:只
抗体 指标值 合计
小于60 不小于60
有抗体
没有抗体
合计
(2)为检验疫苗二次接种的免疫抗体性,对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射疫苗,结果又有20只小白鼠产生抗体.
(i)用频率估计概率,求一只小白鼠注射2次疫苗后产生抗体的概率;
(ii)以(i)中确定的概率作为人体注射2次疫苗后产生抗体的概率,进行人体接种试验,记100个人注射2次疫苗后产生抗体的数量为随机变量.求及取最大值时的值.
参考公式:(其中为样本容量)
参考数据:
0.100 0.050 0.010 0.005
2.706 3.841 6.635 7.879
15.某市销售商为了解A、B两款手机的款式与购买者性别之间是否有关系,对一些购买者做了问卷调查,得到列联表如表所示:
购买A款 购买B款 总计
女 25 20 45
男 15 40 55
总计 40 60 100
(1)根据小概率之值的独立检验,能否认为购买手机款式与性别有关?
(2)用购买每款手机的频率估计一个顾客购买该款手机的概率,从所有购买两款手机的人中,选出3人作为幸运顾客,记3人中购买款手机的人数为,求的分布列与数学期望.
参考公式:(其中).临界值表:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
16.树德中学为了调查中学生周末回家使用智能手机玩耍网络游戏情况,学校德育处随机选取高一年级中的100名男同学和100名女同学进行无记名问卷调查.问卷调查中设置了两个问题:①你是否为男生 ②你是否使用智能手机玩耍网络游戏
调查分两个环节:
第一个环节:先确定回答哪一个问题,让被调查的200名同学从装有3个白球,3个黑球(除颜色外完全相同)的袋子中随机摸取两个球,摸到同色两球的学生如实回答第一个问题,摸到异色两球的学生如实回答第二个问题;
第二个环节:再填写问卷(只填“是”与“否”).
回收全部问卷,经统计问卷中共有70张答案为“是”.
(1)根据以上的调查结果,利用你所学的知识,估计该校中学生使用智能手机玩耍网络游戏的概率;
(2)据核查以上的200名学生中有30名男学生使用智能手机玩耍网络游戏,按照(1)中的概率计算,依据小概率值α=0.15的独立性检验,能否认为中学生使用智能手机玩耍网络游戏与性别有关联;若有关联,请解释所得结论的实际含义.
参考公式和数据如下:.
α 0.15 0.10 0.05 0.025 0.005
xα 2.072 2.706 3.841 5.024 7.879
题型五:误差分析
17.在建立两个变量与的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数依次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
18.已知一系列样本点的一个经验回归方程为,若样本点的残差为2,则( ).
A. B.1 C. D.5
19.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为0.98
D.由一组样本数据()求得的回归直线方程为,设,则
20.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数如下,其中拟合效果最好的模型是( )
A.模型1(决定系数为0.97) B.模型2(决定系数为0.85)
C.模型3(决定系数为0.40) D.模型4(决定系数为0.25)
21.(2024·山东·一模)相关变量的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点,根据剩下数据得到线性回归直线方程:,相关系数为.则( )
A.
B.
C.
D.
22.(2024·四川·模拟预测)下表是某工厂记录的一个反应器投料后,连续8天每天某种气体的生成量(L):
日期代码x 1 2 3 4 5 6 7 8
生成的气体y(L) 4 8 16 31 51 71 97 122
为了分析该气体生成量变化趋势、工厂分别用两种模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下:
注:残差:经计算得,,,,其中,
(1)根据残差图、比较模型①,模型②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)若在第8天要根据(2)问求出的回归方程来对该气体生成量做出预测,那么估计第9天该气体生成量是多少?(精确到个位)
附:回归直线的斜率和截距的最小二乘估计公式分别为:,.
23.(2024·河北唐山·三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如下表所示:
第年 1 2 3 4 5 6 7 8 9 10
居民年收入 32.2 31.1 32.9 35.7 37.1 38.0 39.0 43.0 44.6 46.0
商品销售额 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
依据表格数据,得到下面一些统计量的值.
379.6 391 247.624 568.9
(1)根据表中数据,得到样本相关系数.以此推断,与的线性相关程度是否很强?
(2)根据统计量的值与样本相关系数,建立关于的经验回归方程(系数精确到0.01);
(3)根据(2)的经验回归方程,计算第1个样本点对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,的值将变大还是变小?(不必说明理由,直接判断即可).
附:样本的相关系数,
,,.
1.中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港 中国台湾):
中国体育代表团夏季奥运会获得金牌数
届数 第27届 第28届 第29届 第30届 第31届 第32届
届数代码 1 2 3 4 5 6
地点 2000年 悉尼 2004年 雅典 2008年 北京 2012年 伦敦 2016年 里约热内卢 2021年 东京
金牌数 28 32 48 38 26 38
根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为( )
(精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:.
A.29 B.33 C.37 D.45
2.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为的人臂展大约为
D.身高相差的两人臂展都相差
3.(2024·高三·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
4.在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则( )
A.13.5 B.14 C.14.5 D.15
5.(2024·湖南邵阳·三模)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
6.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5 10 15 20 25
103 105 110 111 114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
7.(2024·高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人) 女性运动员(人)
对主办方表示满意 200 220
对主办方表示不满意 50 30
注:
0.600 0.050 0.010 0.001
2.706 3.841 6.635 10.828
A.0 B.1 C.2 D.3
8.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
9.(多选题)现统计具有线性相关关系的变量X,Y,Z的n组数据,如下表所示:
变量 1 2 3 … n 平均数 方差
X …
Y …
Z …
并对它们进行相关性分析,得到,Z与的相关系数是,,Z与Y的相关系数是,则下列判断正确的是( )
附:经验回归方程中斜率和截距的最小二乘估计公式分别为,,相关系数.
A. B.
C. D.
10.(多选题)(2024·高三·河北保定·开学考试)某机构抽样调查一批零件的尺寸和质量,得到样本数据,并计算得该批零件尺寸和质量的平均值分别为3和60,方差分别为4和400,且.则( )(参考公式:相关系数.回归直战的方程是:,其中)
A.样本数据的相关系数为
B.样本数据关于的经验回归方程为
C.样本数据所得回归直线的残差平方和为0
D.若数据均满足正态分布,则估计
11.(多选题)(2024·福建泉州·一模)为了研究青少年长时间玩手机与近视率的关系,现从某校随机抽查600名学生,经调查,其中有的学生近视,有的学生每天玩手机超过1小时,玩手机超过1小时的学生的近视率为.用频率估计概率,则( )
(附:,其中.)
0.10 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.如果抽查的一名学生近视,则他每天玩手机超过1小时的概率为
B.如果抽查的一名学生玩手机不超过1小时,则他近视的概率为
C.根据小概率值的独立性检验,可认为每天玩手机超过1小时会影响视力
D.从该校抽查10位学生,每天玩手机超过1小时且近视的人数的期望为5
12.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作 室内工作 总计
有呼吸系统疾病 150
无呼吸系统疾病 100
总计 200
13.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
14.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26 215 65 2 680 5.36
11250 130 2.6 12
请从相关系数的角度分析,模型拟合程度更好是 ;利用模型拟合程度更好的模型以及表中数据,建立关于的回归方程为 ;(系数精确到0.01)
附:①相关系数,回归直线中:,
15.(2024·高三·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员调查班级学生是否愿意参加健美操,得到如下的列联表.
性别 愿意 不愿意
男生 6 10
女生 18 6
(1)根据该列联表,并依据显著水平的独立性检验,判断能否认为“学生性别与是否愿意参加健美操有关”;
(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人作为领队,记这2人中女生人数为随机变量,求的分布及期望.
附:.
16.(2024·高三·广西贵港·开学考试)为了研究学生的性别和是否喜欢跳绳的关联性,随机调查了某中学的100名学生,整理得到如下列联表:
男学生 女学生 合计
喜欢跳绳 35 35 70
不喜欢跳绳 10 20 30
合计 45 55 100
(1)依据的独立性检验,能否认为学生的性别和是否喜欢跳绳有关联?
(2)已知该校学生每分钟的跳绳个数,该校学生经过训练后,跳绳个数都有明显进步.假设经过训练后每人每分钟的跳绳个数都增加10,该校有1000名学生,预估经过训练后该校每分钟的跳绳个数在内的人数(结果精确到整数).
附:,其中.
0.1 0.05 0.01
2.706 3.841 6.635
若,则,.
17.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
18.(2024·河北秦皇岛·三模)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中15个区域进行编号,统计抽取到的每个区域的某种水源指标和区域内该植物分布的数量,得到数组.已知,,.
(1)求样本的样本相关系数;
(2)假设该植物的寿命为随机变量(可取任意正整数),研究人员统计大量数据后发现,对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均为0.1,这种现象被称为“几何分布的无记忆性”.
(i)求的表达式;
(ii)推导该植物寿命期望的值(用表示,取遍),并求当足够大时,的值.
附:样本相关系数;当足够大时,.
19.(2024·黑龙江哈尔滨·模拟预测)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
(日) 1 2 3 4 5
(万人) 45 50 60 65 80
(1)计算的相关系数(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,设重复进行三次抽奖中恰有一次中奖的概率为,当取多少时,最大?
参考公式:,,,
参考数据:.
1.(2024年上海秋季高考数学真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
2.某(2024年高考全国甲卷数学(理)真题)工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
3.(2022年高考全国甲卷数学(文)真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
6.(2020年全国统一高考数学试卷(理科)(新课标Ⅲ))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附:,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
7.(2020年全国统一高考数学试卷(文科)(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
21世纪教育网(www.21cnjy.com)第02讲 成对数据的统计分析
目录 01 模拟基础练 2 题型一:变量间的相关关系 2 题型二:一元线性回归模型 4 题型三:非线性回归 7 题型四:列联表与独立性检验 11 题型五:误差分析 16 02 重难创新练 21 03 真题实战练 37
题型一:变量间的相关关系
1.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】B
【解析】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,
而所在散点图比较分散,线性相关性比较弱点,相关系数的绝对值越远离.
综上所得:.
故答案为:B.
2.(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
【答案】C
【解析】由散点图可知,图一两个变量成正相关,且线性相关性较强,故,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故,,,故,所以.
故选:C.
3.观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【答案】A
【解析】根据给定的散点图,可得a中的数据分布在左下方到右上方的区域里,为正相关,
b中的数据分布在左上方到右下方的区域里,为负相关,
c中的数据各点分布不成带状,相关性不明确,不相关.
故选:A.
4.(2024·四川凉山·三模)调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】B
【解析】由散点图可知,散点的分布集中在一条直线附近,
所以学生身高和体重具有相关性,不正确;
又身高和体重的相关系数为,相关系数,
所以学生身高和体重呈正相关,正确,不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是,不正确.
故选:.
题型二:一元线性回归模型
5.在2024年8月8日召开的中国操作系统产业大会上,国产操作系统银河麒麟发布了首个人工智能版本,该系统通过多项技术创新实现了人工智能与操作系统的深度融合,可广泛应用于自动驾驶 医疗健康 教育等多个领域,标志着中国在自主操作系统领域实现新突破.某新能源车企采用随机调查的方式并统计发现市面上可以实现自动驾驶的新能源汽车上可为乘客提供的功能数目与汽车上所安装的人工智能芯片个数线性相关,且根据样本点求得的回归直线方程为,若在回归直线上,则 .
【答案】
【解析】由题意,点在回归直线上,所以,
所以,又,由在回归直线上,得,
所以,
所以.
故答案为:.
6.(2024·江西·一模)已知变量y与x线性相关,由样本点求得的回归方程为,若点在回归直线上,且,,则 .
【答案】6
【解析】由题意,点在回归直线上,代入可得,,解得,
因,且样本中心点在回归直线上,将条件代入得:,
故,解得.
故答案为:6.
7.题图所示是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
【解析】(1)由折线图看出,y与t之间存在较强的正相关关系,理由如下:
因为,,
,
,
,
所以
.
因为,故y与t之间存在较强的正相关关系;
(2)由(1)结合题中数据可得,
,,
所以y关于t的回归方程,
2022年对应的t值为9,故,
预测2022年该地生活垃圾无害化处理量为1.82万吨.
8.(2024·高三·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到下面的统计表.
年份t 2019 2020 2021 2022 2023
年份代码 1 2 3 4 5
销量y(万辆) 11 13 18 21 27
(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能源汽车的销量最早在哪一年能突破50万辆;
(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车的人数的比例大约为.从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.
参考公式:
对于一组数据,其回归直线中斜率和截距的最小二乘估计公式分别为:.
【解析】(1)设关于的线性回归方程,
依题意,,,
,,
因此,,
则关于的线性回归方程为,
令,解得,,取,
所以该地区新能源汽车的销量最早在年能突破万辆.
(2)依题意,按1:3分层抽样知,12人中有9人购置了传统燃油汽车,3人购置了新能源汽车,
所有可能的取值为,,,,
,,
,,
所以的分布列为:
期望.
题型三:非线性回归
9.(2024·四川内江·模拟预测)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.
(百万) 1 2 3 4 5
(千件) 0.5 1 1.5 3 5.5
(1)若该公司科研团队计划用方案①作为年销售量关于年投资额的回归分
析模型,请根据统计表的数据及参考公式,确定该经验回归方程;
(2)若该公司科研团队计划用方案②作为年销售量关于年投资额的回归分析模型,的残差平方和,请根据统计表的数据及参考公式,比较两种模型的拟合效果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少?(计算结果保留到小数点后两位)
参考公式及数据:,
【解析】(1)由题意,
,,
所以线性回归方程为.
(2)按(1)可得,
根据题意可得如下数据:
x 1 2 3 4 5
y 0.5 1 1.5 3 5.5
1.1 2.3 3.5 4.7
方案①的残差平方和为,
由于,故方案②非线性回归方程拟合效果更好.
当时,(千件),
故当年投入额为6百万元时,产品的销售量约为9.68千件.
10.红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中e为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度(℃)的回归方程类型 (给出判断即可,不必说明理由)并由判断结果及表中数据,求出关于的回归方程;
附:回归方程中,.
参考数据
5215 2347.3 33.6 27 81.3 3.6
(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长纤维棉花的根数为X,求X的分布列.
【解析】(1)根据散点图的形状,判断更适宜作为平均产卵数y关于平均温度x的回归方程类型,
将两边同时取自然对数,得,
依题意,,,
因此,则,
于是z关于x的线性回归方程为,
所以y关于x的回归方程为.
(2)依题意,X的可能值为,
,
,
所以X的分布列为:
0 1 2 3
11.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;
,,
,,,,
【解析】(1)由散点图的变化趋势,知适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型;
(2)由题意得:,,
,
,
所以;
(3)令,,
估计2024年的企业利润为99.25亿元.
题型四:列联表与独立性检验
12.为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有 .
①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多
②被调查的女生中喜欢登山的人数比不喜欢登山的人数多
③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关
④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关
【答案】①③
【解析】因为被调查的男女生人数相同,由等高堆积条形统计图可知,喜欢登山的男生占80%,喜欢登山的女生占30%,所以A正确,B错误;
设被调查的男女生人数均为n,则由等高堆积条形统计图可得列联表如下
男 女 合计
喜欢 0.8n 0.3n 1.1n
不喜欢 0.2n 0.7n 0.9n
合计 n n 2n
由公式可得:.
当时,,可以判断喜欢登山和性别有关,故C正确;
而,所以的值与n的取值有关.故D错误.
故答案为:①③.
13.观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是( )
A. B.
C. D.
【答案】B
【解析】等高的条形图中所占比例相差越小,随机变量的观测值越小.
故选:B.
14.为了检测某种抗病毒疫苗的免疫效果,需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠体内,一段时间后测量小白鼠的某项指标值,按分组,绘制频率分布直方图如图所示.试验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只.假设小白鼠注射疫苗后是否产生抗体相互独立.
(1)填写下面的列联表,并根据列联表及的独立性检验,判断能否认为注射疫苗后小白鼠产生抗体与指标值不小于60有关;
单位:只
抗体 指标值 合计
小于60 不小于60
有抗体
没有抗体
合计
(2)为检验疫苗二次接种的免疫抗体性,对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射疫苗,结果又有20只小白鼠产生抗体.
(i)用频率估计概率,求一只小白鼠注射2次疫苗后产生抗体的概率;
(ii)以(i)中确定的概率作为人体注射2次疫苗后产生抗体的概率,进行人体接种试验,记100个人注射2次疫苗后产生抗体的数量为随机变量.求及取最大值时的值.
参考公式:(其中为样本容量)
参考数据:
0.100 0.050 0.010 0.005
2.706 3.841 6.635 7.879
【解析】(1)由频率分布直方图知,200只小白鼠按指标值分布为:
在内有(只);
在)内有(只);
在)内有(只);
在)内有(只);
在内有(只)
由题意,有抗体且指标值小于60的有50只;而指标值小于60的小白鼠共有(只),
所以指标值小于60且没有抗体的小白鼠有20只,同理,指标值不小于60且没有抗体的小白鼠有20只,
故列联表如下:单位:只
抗体 指标值 合计
小于60 不小于60
有抗体 50 110 160
没有抗体 20 20 40
合计 70 130 200
零假设为:注射疫苗后小白鼠产生抗体与指标值不小于60无关联.
根据列联表中数据,得.
根据的独立性检验,没有充分证据认为注射疫苗后小白鼠产生抗体与指标值不小于60有关.
(2)(i)令事件“小白鼠第一次注射疫苗产生抗体”,事件“小白鼠第二次注射疫苗产生抗体”,事件“小白鼠注射2次疫苗后产生抗体”.
记事件发生的概率分别为,则,.
所以一只小白鼠注射2次疫苗后产生抗体的概率.
(ii)由题意,知随机变量,所以.
又,设时,最大,
所以
解得,因为是整数,所以.
15.某市销售商为了解A、B两款手机的款式与购买者性别之间是否有关系,对一些购买者做了问卷调查,得到列联表如表所示:
购买A款 购买B款 总计
女 25 20 45
男 15 40 55
总计 40 60 100
(1)根据小概率之值的独立检验,能否认为购买手机款式与性别有关?
(2)用购买每款手机的频率估计一个顾客购买该款手机的概率,从所有购买两款手机的人中,选出3人作为幸运顾客,记3人中购买款手机的人数为,求的分布列与数学期望.
参考公式:(其中).临界值表:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解析】(1)零假设:假设购买手机款式与性别无关..
由.
根据小概率值的独立检验,我们推断不成立,即认为购买手机款式与性别有关.
(2)由题设,从所有购买两款手机的人中,选出1人购买款手机的概率为,
所以,选出3人作为幸运顾客,其中购买款手机的人数,
故,,
,.
分布列如下:
0 1 2 3
所以.
16.树德中学为了调查中学生周末回家使用智能手机玩耍网络游戏情况,学校德育处随机选取高一年级中的100名男同学和100名女同学进行无记名问卷调查.问卷调查中设置了两个问题:①你是否为男生 ②你是否使用智能手机玩耍网络游戏
调查分两个环节:
第一个环节:先确定回答哪一个问题,让被调查的200名同学从装有3个白球,3个黑球(除颜色外完全相同)的袋子中随机摸取两个球,摸到同色两球的学生如实回答第一个问题,摸到异色两球的学生如实回答第二个问题;
第二个环节:再填写问卷(只填“是”与“否”).
回收全部问卷,经统计问卷中共有70张答案为“是”.
(1)根据以上的调查结果,利用你所学的知识,估计该校中学生使用智能手机玩耍网络游戏的概率;
(2)据核查以上的200名学生中有30名男学生使用智能手机玩耍网络游戏,按照(1)中的概率计算,依据小概率值α=0.15的独立性检验,能否认为中学生使用智能手机玩耍网络游戏与性别有关联;若有关联,请解释所得结论的实际含义.
参考公式和数据如下:.
α 0.15 0.10 0.05 0.025 0.005
xα 2.072 2.706 3.841 5.024 7.879
【解析】(1)因为摸到同色两球的概率,
所以回答第一个问题的人数为人,
回答第二个问题的人数为人,
因为男女人数相等,是等可能的,
所以回答第一个问题,选择“是”的同学人数为人,
则回答第二个问题,选择“是”的同学人数为人,
所以估计中学生在考试中有作弊现象的概率为.
(2)由(1)可知200名学生使用智能手机玩网络游戏估计有50人,
则有20名女生使用智能手机玩网络游戏
男 女 合计
使用智能手机玩游戏 30 20 50
不用智能手机玩游戏 70 80 150
100 100 200
零假设为:使用智能手机玩耍游戏与性别无关,
根据小概率值的独立性检验,推断不成立,
因此认为使用智能手机玩耍网络游戏与性别有关,此推断犯错误的概率不大于.
在男生中使用智能手机玩耍游戏和不使用智能手机玩耍游戏的概率分别为,
在女生中使用智能手机玩耍游戏和不使用智能手机玩耍游戏的概率分别为,
在被调查者中男生使用智能手机玩耍游戏是女生的倍,
于是根据概率稳定概率的原理,
我们可以认为男士使用智能手机玩耍网络游戏的概率大于女生使用智能手机玩耍网络游戏的概率.
题型五:误差分析
17.在建立两个变量与的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数依次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
【答案】C
【解析】因为越大,表示残差平方和越小,即模型的拟合效果越好,所以这4个不同的模型拟合效果最好的模型是模型3.
故选:C
18.已知一系列样本点的一个经验回归方程为,若样本点的残差为2,则( ).
A. B.1 C. D.5
【答案】C
【解析】由题意得,得,
故选:C.
19.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为0.98
D.由一组样本数据()求得的回归直线方程为,设,则
【答案】C
【解析】A,独立性检验的本质是比较观测值与期望值之间的差异,从而确定研究对象是否有关联,A正确;
B,两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强,B正确;
C,若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为1,C错误;
D,由残差分析可知,介于0与1之间,D正确.
故选:C
20.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数如下,其中拟合效果最好的模型是( )
A.模型1(决定系数为0.97) B.模型2(决定系数为0.85)
C.模型3(决定系数为0.40) D.模型4(决定系数为0.25)
【答案】A
【解析】在两个变量与x的回归模型中,它们的决定系数越接近,模型拟合效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型,
故选:A.
21.(2024·山东·一模)相关变量的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点,根据剩下数据得到线性回归直线方程:,相关系数为.则( )
A.
B.
C.
D.
【答案】D
【解析】由散点图得负相关,所以,
因为剔除点后,剩下点数据更线性相关性更强,则更接近,
所以.
故选:D.
22.(2024·四川·模拟预测)下表是某工厂记录的一个反应器投料后,连续8天每天某种气体的生成量(L):
日期代码x 1 2 3 4 5 6 7 8
生成的气体y(L) 4 8 16 31 51 71 97 122
为了分析该气体生成量变化趋势、工厂分别用两种模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下:
注:残差:经计算得,,,,其中,
(1)根据残差图、比较模型①,模型②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)若在第8天要根据(2)问求出的回归方程来对该气体生成量做出预测,那么估计第9天该气体生成量是多少?(精确到个位)
附:回归直线的斜率和截距的最小二乘估计公式分别为:,.
【解析】(1)选择模型①,理由如下:
根据残差图可以看出:模型①的残差点分布在x轴附近,模型②的残差点距离x轴较远,
所以,模型②的残差明显比模型①大,所以模型①的拟合效果相对较好;
(2)由(1)可知y关于x的回归方程为,
令,则,
由所给的数据可得,
,
,
则,
所以y关于x的回归方程为.
(3)将代入回归方程,可得,
所以预测该气体第9天的生成量约为157L.
23.(2024·河北唐山·三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如下表所示:
第年 1 2 3 4 5 6 7 8 9 10
居民年收入 32.2 31.1 32.9 35.7 37.1 38.0 39.0 43.0 44.6 46.0
商品销售额 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
依据表格数据,得到下面一些统计量的值.
379.6 391 247.624 568.9
(1)根据表中数据,得到样本相关系数.以此推断,与的线性相关程度是否很强?
(2)根据统计量的值与样本相关系数,建立关于的经验回归方程(系数精确到0.01);
(3)根据(2)的经验回归方程,计算第1个样本点对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,的值将变大还是变小?(不必说明理由,直接判断即可).
附:样本的相关系数,
,,.
【解析】(1)根据样本相关系数,可以推断线性相关程度很强.
(2)由及,
可得,
所以,
又因为,
所以,
所以与的线性回归方程.
(3)第一个样本点的残差为:,
由于该点在回归直线的左下方,故将其剔除后,的值将变小.
1.中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港 中国台湾):
中国体育代表团夏季奥运会获得金牌数
届数 第27届 第28届 第29届 第30届 第31届 第32届
届数代码 1 2 3 4 5 6
地点 2000年 悉尼 2004年 雅典 2008年 北京 2012年 伦敦 2016年 里约热内卢 2021年 东京
金牌数 28 32 48 38 26 38
根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为( )
(精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:.
A.29 B.33 C.37 D.45
【答案】C
【解析】,
,所以,
所以关于的线性回归方程为.
2024年对应,代入回归方程得,
故选:C.
2.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为的人臂展大约为
D.身高相差的两人臂展都相差
【答案】D
【解析】对于A,身高极差大约为20,臂展极差大约为25,故A正确;
对于B,很明显根据散点图以及回归直线得到,身高矮一些,臂展就可能短一些,身高高一些,臂展就可能长一些,故B正确;
对于C,身高为,代入回归直线方程可得到臂展的预测值为,但不是准确值,故C正确;
对于D,身高相差的两人臂展的预测值相差,但并不是准确值,回归直线上的点并不都是准确的样本点,故D不正确.
故选:D.
3.(2024·高三·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
【答案】C
【解析】根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,
∴由图知:2010年至2014年数据为;
2015年至2019年数据为;
2010年至2019年数据为;均成递减趋势.
又,,,且极差分别为6、51、65,
三条回归方程的直线大致图象,如下图示:
∴回归方程的斜率大小关系为,且截距.
故选:C.
4.在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则( )
A.13.5 B.14 C.14.5 D.15
【答案】A
【解析】因为,剔除异常数据数据后, ,
因为点在直线上,所以,解得,
设利用原始数据求得的经验回归直线过点,
则,
因为,所以.
故选:A.
5.(2024·湖南邵阳·三模)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
【答案】A
【解析】由题意可得,即修正前的样本中心点为,
假设甲输入的为,
则,则,
且,则,
则改为正确数据后,则,,
所以修正后的样本中心点为,
将点代入回归直线方程可得,解得.
故选:A.
6.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5 10 15 20 25
103 105 110 111 114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【解析】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
7.(2024·高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人) 女性运动员(人)
对主办方表示满意 200 220
对主办方表示不满意 50 30
注:
0.600 0.050 0.010 0.001
2.706 3.841 6.635 10.828
A.0 B.1 C.2 D.3
【答案】B
【解析】因为对主办方表示满意的男性运动员的人数为,
所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为,所以命题①错误,
又因为,所以命题②错误,命题③正确,
故选:B.
8.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【答案】C
【解析】设,,则
所以,
,且
则,得,
所以,
下午4点对应的,此时预测游客的人流量.
故选:C
9.(多选题)现统计具有线性相关关系的变量X,Y,Z的n组数据,如下表所示:
变量 1 2 3 … n 平均数 方差
X …
Y …
Z …
并对它们进行相关性分析,得到,Z与的相关系数是,,Z与Y的相关系数是,则下列判断正确的是( )
附:经验回归方程中斜率和截距的最小二乘估计公式分别为,,相关系数.
A. B.
C. D.
【答案】ACD
【解析】由已知得到选项AC正确,
相关系数相等所以,D正确,
由方差性质可得,B错误.
故选:ACD.
10.(多选题)(2024·高三·河北保定·开学考试)某机构抽样调查一批零件的尺寸和质量,得到样本数据,并计算得该批零件尺寸和质量的平均值分别为3和60,方差分别为4和400,且.则( )(参考公式:相关系数.回归直战的方程是:,其中)
A.样本数据的相关系数为
B.样本数据关于的经验回归方程为
C.样本数据所得回归直线的残差平方和为0
D.若数据均满足正态分布,则估计
【答案】ABD
【解析】A. ,
,故A正确;
B. 由A可知,,
,所以,故B正确;
C.残差平方和表示随机误差的效应,一组数据的残差平方和越小,其拟合程度越好,不一定等于0,故C错误;
D.由题意可知,,,,
,利用对称性可知,,故D正确.
故选:ABD
11.(多选题)(2024·福建泉州·一模)为了研究青少年长时间玩手机与近视率的关系,现从某校随机抽查600名学生,经调查,其中有的学生近视,有的学生每天玩手机超过1小时,玩手机超过1小时的学生的近视率为.用频率估计概率,则( )
(附:,其中.)
0.10 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.如果抽查的一名学生近视,则他每天玩手机超过1小时的概率为
B.如果抽查的一名学生玩手机不超过1小时,则他近视的概率为
C.根据小概率值的独立性检验,可认为每天玩手机超过1小时会影响视力
D.从该校抽查10位学生,每天玩手机超过1小时且近视的人数的期望为5
【答案】AC
【解析】设“任选1名学生近视”,“任选1名学生每天使用手机超过1小时”
则,,,所以,
则,故A正确;
因为,,
即,解得,故B错误;
由题意,可得列联表:
视力 每天使用手机时长 合计
超过1h 不超过1h
近视 60 180 240
不近视 60 300 360
合计 120 480 600
由上表可知,可以认为每天玩手机超过1小时会影响视力,故C正确;
由题意知,任取1人,取得每天玩手机超过1小时且近视的概率为,10人中每天玩手机超过1小时且近视的人数为,则,所以,故D错误.
故选:AC
12.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作 室内工作 总计
有呼吸系统疾病 150
无呼吸系统疾病 100
总计 200
【答案】3.968
【解析】补全列联表
室外工作 室内工作 总计
有呼吸系统疾病 150 200 350
无呼吸系统疾病 50 100 150
总计 200 300 500
.
故答案为:3.968.
13.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
【答案】0.5/
【解析】将代入,得,解得,
所以,
故当时,,
所以残差.
故答案为:0.5.
14.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26 215 65 2 680 5.36
11250 130 2.6 12
请从相关系数的角度分析,模型拟合程度更好是 ;利用模型拟合程度更好的模型以及表中数据,建立关于的回归方程为 ;(系数精确到0.01)
附:①相关系数,回归直线中:,
【答案】 模型的拟合程度更好
【解析】设和的相关系数为,和的相关系数为,
由题意,,
,
则,因此从相关系数的角度,模型的拟合程度更好.
先建立关于的线性回归方程,由,得,即,
,
,
所以关于的线性回归方程为,
所以,则.
故答案为:①模型的拟合程度更好;②
15.(2024·高三·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员调查班级学生是否愿意参加健美操,得到如下的列联表.
性别 愿意 不愿意
男生 6 10
女生 18 6
(1)根据该列联表,并依据显著水平的独立性检验,判断能否认为“学生性别与是否愿意参加健美操有关”;
(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人作为领队,记这2人中女生人数为随机变量,求的分布及期望.
附:.
【解析】(1)列联表如下:
性别 愿意 不愿意 合计
男生 6 10 16
女生 18 6 24
合计 24 16 40
零假设为:是否愿意参加健美操与学生性别无关.
根据列联表中的数据,可得,
根据小概率值的独立性检验,我们推断不成立,
既认为是否愿意参加健美操与学生性别有关联,此判断犯错误的概率不大于0.005.
(2)根据列联表可得愿意参加健美操的学生中女生占全部的,
∴选取的8人中,女生有人,男生有人,
∴随机变量的可取值:0,1,2.
∴,,.
∴随机变量的分布列:
0 1 2
数学期望.
16.(2024·高三·广西贵港·开学考试)为了研究学生的性别和是否喜欢跳绳的关联性,随机调查了某中学的100名学生,整理得到如下列联表:
男学生 女学生 合计
喜欢跳绳 35 35 70
不喜欢跳绳 10 20 30
合计 45 55 100
(1)依据的独立性检验,能否认为学生的性别和是否喜欢跳绳有关联?
(2)已知该校学生每分钟的跳绳个数,该校学生经过训练后,跳绳个数都有明显进步.假设经过训练后每人每分钟的跳绳个数都增加10,该校有1000名学生,预估经过训练后该校每分钟的跳绳个数在内的人数(结果精确到整数).
附:,其中.
0.1 0.05 0.01
2.706 3.841 6.635
若,则,.
【解析】(1):学生的性别和是否喜欢运动无关.
,
所以根据的独立性检验,不能认为学生的性别与是否喜欢跳绳有关.
(2)训练前该校学生每人每分钟的跳绳个数,
则,,,
即训练前学生每分钟的跳绳个数在,,,
,
由(人)
估计训练前该校每分钟的跳绳个数在内的人数为.
即预估经过训练后该校每分钟的跳绳个数在内的人数为.
17.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解析】(1),,
又的方差为,
,
,
.
(2)由(1)知接近1,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟合:,
,
,故当时,,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.
(3)零假设:周末在校自主学习与成绩进步无关,
根据数据,计算得到:
,
因为,所以依据的独立性检验,可以认为“周末自主学习与成绩进步”有关.
18.(2024·河北秦皇岛·三模)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中15个区域进行编号,统计抽取到的每个区域的某种水源指标和区域内该植物分布的数量,得到数组.已知,,.
(1)求样本的样本相关系数;
(2)假设该植物的寿命为随机变量(可取任意正整数),研究人员统计大量数据后发现,对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均为0.1,这种现象被称为“几何分布的无记忆性”.
(i)求的表达式;
(ii)推导该植物寿命期望的值(用表示,取遍),并求当足够大时,的值.
附:样本相关系数;当足够大时,.
【解析】(1)由,,.
得样本相关系数,.
(2)(i)依题意,,
又,
则,
当时,把换成,
则,
两式相减得,
即,
又,
所以对任意都成立,
从而是首项为0.1,公比为0.9的等比数列,
所以.
(ii)由定义知,,
而,,
显然,
于是,
两式相减得,
因此,
当足够大时,,
则,可认为,
所以该植物寿命期望的值是10.
19.(2024·黑龙江哈尔滨·模拟预测)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
(日) 1 2 3 4 5
(万人) 45 50 60 65 80
(1)计算的相关系数(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,设重复进行三次抽奖中恰有一次中奖的概率为,当取多少时,最大?
参考公式:,,,
参考数据:.
【解析】(1)因为,
所以
,
,
,
所以 ,
由此可以认为两者的相关性很强.
(2)由(1)知,.
所以=.
因为,所以回归方程为.
(3)记,
,
,即.
,令,
则,得,,,,
所以在上单调递增,在上单调递减,
当时,取得最大值.由,解得或(舍去),
当时,恰有一次中奖的概率最大.
1.(2024年上海秋季高考数学真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
【解析】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他 合计
优秀 45 50 95
不优秀 177 308 485
合计 222 358 580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.
.
则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
2.某(2024年高考全国甲卷数学(理)真题)工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)根据题意可得列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
可得,
因为,
所以有的把握认为甲、乙两车间产品的优级品率存在差异,没有的把握认为甲,乙两车间产品的优级品率存在差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为,
用频率估计概率可得,
又因为升级改造前该工厂产品的优级品率,
则,
可知,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
3.(2022年高考全国甲卷数学(文)真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100 0.050 0.010
2.706 3.841 6.635
【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则.
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
10(2022年高考全国乙卷数学(理)真题).某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【解析】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
4.(2022年新高考全国I卷数学真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)由已知,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为,
所以
所以,
(ii)
由已知,,
又,,
所以
5.(2021年全国高考甲卷数学(理)试题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)由频数分布表可知,该市一天的空气质量等级为的概率为,等级为的概率为,等级为的概率为,等级为的概率为;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3)列联表如下:
人次 人次
空气质量好
空气质量不好
,
因此,有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
7.(2020年全国统一高考数学试卷(文科)(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【解析】(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为
(2)样本(i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.
21世纪教育网(www.21cnjy.com)