2025年高考数学考试易错题(新高考通用)专题13统计与统计案例(学生版+教师版)

文档属性

名称 2025年高考数学考试易错题(新高考通用)专题13统计与统计案例(学生版+教师版)
格式 zip
文件大小 3.2MB
资源类型 试卷
版本资源 通用版
科目 数学
更新时间 2025-04-13 10:36:40

文档简介

专题13 统计与统计案例
目 录
题型一:统计
易错点01 混淆总体与总体容量、样本与样本容量
易错点02 求中位数、百分位数时忽略数据顺序
易错点03 对频率分布直方图中的数据特征理解不透
题型二 统计案例
易错点04 混淆函数关系和相关关系而出错
易错点05 忽视回归直线与回归曲线方程的区别与联系
易错点06 求解独立性检验问题对的值理解不准确
21世纪教育网(www.21cnjy.com)
题型一:统计
易错点01:混淆总体与总体容量、样本与样本容量
典例 (24-25高三上·上海·阶段练习)某校为了解高三年级学生体重情况,从该年级1000名学生中抽取125名学生测量他们的体重进行分析.在这项调查中,抽取的125名学生的体重是( )
A.总体 B.样本 C.总体容量 D.样本容量
【答案】B
【分析】根据样本的定义即可求解.
【详解】抽取的125名学生的体重是样本,故选:B
【易错剖析】
本题容易混淆样本与样本容量而出错.
【避错攻略】
抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
易错提醒:(1) 总体是指考察对象的全体,而总体容量是指总体的个数;(2)样本是指从总体中抽取的若干个个体组成的集合,而样本容量是指样本个体的数目,要注意二者的区别.
1.(2024高三·全国·专题练习)为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行调查分析,在这个问题中,被抽取的200名学生的成绩是( )
A.总体 B.个体
C.样本 D.样本量
2.(24-25高二上·安徽·阶段练习)某中等职业学校为了了解高二年级1200名学生的视力情况,抽查了其中200名学生的视力,并进行统计分析.下列叙述正确的是( )
A.上述调查属于全面调查 B.每名学生是总体的一个个体
C.200名学生的视力是总体的一个样本 D.1200名学生是总体
3.(24-25高三·甘肃兰州·训练)为了了解参加运动会的1500名运动员的年龄情况,从中抽取了150名运动员的年龄进行调查,则下列说法正确的是( )
A.1500名运动员的年龄是总体
B.抽取到的150名运动员是样本
C.这个抽样方法可以采取随机数表法抽样
D.每个运动员被抽到的机会相等
1.(23-24高三·西藏日喀则·期末)高考结束后,为了分析该校高三年级1000名学生的高考成绩,从中随机抽取了100名学生的成绩,就这个问题来说,下列说法中正确的是( )
A.100名学生是个体
B.样本容量是100
C.每名学生的成绩是所抽取的一个样本
D.1000名学生是样本
2.(24-25高三上·福建福州·开学考试)为检查某校学生心理健康情况,市教委从该校名学生中随机抽查名学生,检查他们心理健康程度,则下列说法正确的是( )
A.名学生的心理健康情况是总体 B.每个学生是个体
C.名学生是总体的一个样本 D.名学生为样本容量
3.(23-24高一下·山西晋中·阶段练习)为了了解某路口每天在学校放学时段的车流量,有下面几个样本,统计该路口在学校放学时段的车流量,你认为合适的是( )
A.抽取两天作为一个样本
B.春 夏 秋 冬每个季节各选两周作为样本
C.选取每周星期日作为样本
D.以全年每一天作为样本
4.(24-25高一上·全国·课堂例题)(多选)某市模考共有70000多名学生参加,某校教科室为了了解本校3390名考生的数学成绩,从中抽取300名考生的数学成绩进行统计分析,下列说法正确的是( )
A.3390名考生是总体的一个样本 B.3390名考生的数学成绩是总体
C.样本容量是300 D.70000多名考生的数学成绩是总体
.(23-24高一下·青海海东·阶段练习)为了了解某社区60周岁以上老年人的体重,进行如下调查:
调查一:对该社区所有60周岁以上老年人的体重进行调查;
调查二:对该社区部分60周岁以上老年人(500名)的体重进行调查.
关于上述调查,下列说法正确的是( )
A.调查一是普查,调查二是抽样调查
B.调查二中的总体是指该社区抽取的500名60周岁以上老年人的体重
C.调查二中的样本量是500
D.检测一批灯泡的寿命宜采用调查一的调查方式,以使收集的数据更精确
6.(23-24高二上·湖北武汉·期中)“知名雪糕放1小时不化”事件曝光后,某市市场监管局从所管辖十五中、十七中、常青一中三校周边超市在售的28种雪糕中抽取了18种雪糕,对其质量进行了检查.在这个问题中,18是( )
A.总体 B.个体 C.样本 D.样本量
易错点02:求中位数、百分位数时忽略数据顺序
典例 (2024·河南·统考模拟预测)样本数据16,24,14,10,20,30,12,14,40的中位数为( )
A.14 B.16 C.18 D.20
【答案】B
【分析】由中位数定义即可得.
【详解】将这些数据从小到大排列可得:10,12,14,14,16,20,24,30,40,
则其中位数为16.
故选:B.
【易错剖析】
本题求解时容易忽略讲数据从小到大排列而出错.
【避错攻略】
1.众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
2.百分位数
(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
易错提醒:在求数据的中位数、百分数时,一定要先把数据从小到大排列,然后再根据中位数、百分数的定义进行求解.
1.(2025高三上·四川眉山·阶段练习)假设有一组数据为6,8,3,6,4,6,5,这些数据的众数与中位数分别是 ( )
A.5,6 B.6,4 C.6,5 D.6,6
2.(24-25高三上·天津和平·期末)一组数据按从小到大的顺序排列为1,3,,7,10,11,若该组数据的中位数是这组数据极差的,则该组数据的第45百分位数是( )
A.3 B.4 C.5 D.7
3.(24-25高三上·山东淄博·期末)某校举行了交通安全知识主题演讲比赛,甲、乙两位同学演讲后,6位评委对甲、乙的演讲分别进行打分(满分10分),得到如图所示的折线统计图,则( )
A.若去掉最高分和最低分,则甲得分的中位数大于乙得分的中位数
B.甲得分的极差大于乙得分的极差
C.甲得分的上四分位数小于乙得分的上四分位数
D.甲得分的方差大于乙得分的方差
1.(2025高三·全国·专题练习)一组数据的分位数是( )
A.10 B.12 C.4 D.3
2.(24-25高三上·广东茂名·阶段练习)四川耙耙柑以果肉饱满圆润,晶莹剔透等特点深受民众喜爱,某耙耙柑果园的质检员对刚采摘下来的耙耙柑采用随机抽样的方式对成筐的耙耙柑进行质检,记录下了8筐耙耙柑中残次品的个数为5,7,6,3,9,4,8,10,则该组样本数据的第30百分位数为( )
A.5 B.5.5 C.6 D.6.5
3.(24-25高三上·湖北十堰·期末)已知,且的中位数为1,则( )
A. B. C.1 D.
4.(24-25高三上·天津红桥·期末)从某学校高二年级随机抽取10名学生进行数学能力测试,测试成绩为,设学生测试成绩的平均数,中位数,众数分别为,则( )
A. B.
C. D.
5.(2024高三·全国·专题练习)一组数据从小到大依次为3,5,6,7,8,9,m,10,11,13,且众数为9,下列说法错误的是( )
A. B.中位数为8.5 C.平均数为8 D.极差为10
6.(2024高三·全国·专题练习)(多选)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
7.(24-25高三上·江苏·阶段练习)(多选)有一组样本数据1,2,3,5,7,8,9,a,下列说法正确的是( )
A.若该组数据的平均数为a,则 B.若该组数据的中位数为a,则
C.当时,该组数据的极差为8 D.当时,该组数据的方差最小
8.(2025高三·全国·专题练习)(多选)2024年10月央行再次下调人民币存款利率,存款利率下调是为了刺激经济增长 促进投资和消费而采取的一种货币政策.下表为某银行近年来几个时间发布的人民币一年定期存款利率:
时间 2018年4月 2019年4月 2020年4月 2021年6月 2022年9月 2024年7月 2024年10月
利率 1.35 1.50 1.75 1.75 1.55 1.35 1.10
关于表中的7个数据,下列结论正确的是( )
A.极差为0.25 B.平均数不大于1.5
C.分位数与分位数相等 D.中位数为1.75
易错点03:对频率分布直方图中的数据特征理解不透
典例 (24-25高三上·广东汕头·期末)某市为修订用水政策,制定更合理的用水价格,随机抽取100户居民,得到他们的月均用水量,并整理得如下频率分布直方图.根据直方图的数据信息,下列结论中正确的是( )
A.100户居民的月均用水量的中位数大于7.2
B.100户居民的月均用水量低于16.2的用户所占比例超过
C.100户居民的月均用水量的极差介于21与27之间
D.100户居民的月均用水量的平均值介于16.2与22.2之间
【答案】C
【分析】首先根据频率分布直方图中所有小长方形的面积和为求出的值,再分别求出100户居民的月均用水量的中位数,平均数,极差等即可判断.
【详解】由频率分布直方图可知,

解得,
对于A,月均用水量在的频率为,
月均用水量在的频率为,
所以100户居民的月均用水量的中位数在,故A错误;
对于B,因为100户居民的月均用水量低于16.2的用户的频率为

所以100户居民的月均用水量低于16.2的用户所占比例为,故B错误;
对于C,由图知,极差的最大值为,最小值为,
所以100户居民的月均用水量的极差介于21与27之间,故C正确;
对于D,100户居民的月均用水量的平均值为
t,故D错误.
故选:C.
【易错剖析】
本题在计算过程中容易对中位数、百分位数、众数、平均数估计值的计算公式理解不透彻而出错.
【避错攻略】
1、画频数分布直方图与频率分布直方图的步骤:
(1)找出最值,计算极差;
(2)合理分组,确定区间;
(3)整理数据;
(4)作出相关图示;
频数分布直方图 纵坐标是频数,每一组数对应的矩形的高度与频数成正比
频率分布直方图 纵坐标是频率/组距,每一组数对应的矩形高度与频率成正比,每个矩形的面积等于这一组数对应的频率,所有矩形的面积之和为1
2、频率分布表与频率分布直方图的特点
频数分布表反映具体数据在各个不同区间的取值频率,但不直观,数据的总体态势不明显;频率分布直方图能直观地表明数据分布的行状态势,但失去了原始数据。
3、频数分布折线图和频率分布折线图
把频数分布直方图和频率分布直方图中每个矩形上面一边的中点用线段连接起来。
为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的。
4.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
易错提醒:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
1.(2024高三·全国·专题练习)某校高三年级共800名学生,将其期中考试的数学成绩进行适当分组后,得到频率分布直方图如图所示.若要从这800人中按分数从高到低录取72人组成数学兴趣小组,则录取分数线估计为( )

A.105分 B.108分 C.110分 D.112.5分
2.(24-25高三上·四川成都·阶段练习)某校1000名学生参加环保知识竞赛,随机抽取了20名学生的考试成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法正确的是( )
A.频率分布直方图中的值为0.004
B.估计这20名学生考试成绩的平均数为76.5
C.估计这20名学生数学考试成绩的众数为80
D.估计总体中成绩落在内的学生人数为150
3.(2024高三·全国·专题练习)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.则当漏诊率时,误诊率 .
1.(24-25高三上·天津河西·期末)某中学组织高中学生参加数学知识竞赛,现从中随机抽取100名学生成绩的频率分布直方图如图所示,则这组样本数据的分位数为( )
A.85 B.86 C.87 D.88
2.(24-25高三上·吉林长春·阶段练习)某市为了了解全市10万名高一学生的数学学习情况,抽取了该市某个区的15000名学生进行数学能力测试(百分制),并将这些学生的成绩整理成如图所示的频率分布直方图、根据频率分布直方图,下列说法正确的是( )
A.图中a的值为0.15
B.估计样本数据的分位数为85
C.用样本可以估计全市高一学生数学能力测试不及格(低于60分)的人数为5000
D.用样本可以估计全市高一学生数学能力测试的平均分约为81.5分(同一组数据用该组区间的中点值作代表)
3.(2024·重庆·模拟预测)(多选)国际学生评估项目测试是世界经济合作与发展组织对各国中学生阅读、数学、科学能力评价测试. 从年开始,每年进行一次测试评估. 在评估研究时将测试成绩按一定规则转换成等级赋分,赋分范围是至分,如图是年的某地中学生参加阅读测试后用赋分数据绘制成的不完整频率分布直方图. 据图中数据,下面说法正确的是( )
A.该地学生成绩的中位数一定大于
B.该地学生成绩的众数介于至之间
C.该地学生成绩的极差介于至之间
D.该地学生成绩没有超过分学生所占比例为
4.(24-25高三上·安徽·阶段练习)(多选)某超市随机抽取了当天100名顾客的消费金额作为样本,并分组如下:,(单位:元),得到如图所示的频率分布直方图,则下列说法正确的是( )
A.若该超市当天总共有600名顾客,则消费金额在(单位:元)内的顾客约有180人
B.若每组数据以区间中点值为代表,则样本中消费金额的平均数是145元
C.若用样本估计总体,则该超市当天消费金额的中位数是100.8元
D.现从样本的第1,2组中用比例分配的分层随机抽样方法抽取6人,再从这6人中随机抽取2人做进一步调查,则抽到的2人的消费金额都不少于50元的概率是
5.(24-25高三上·黑龙江牡丹江·阶段练习)(多选)某次物理考试后,为分析学生的学习情况,某校从某年级中随机抽取了名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,计算得到这名学生中,成绩位于内的学生成绩方差为,成绩位于内的同学成绩方差为.则( )
A.
B.估计该年级成绩在分及以上的学生成绩的平均数为
C.估计该年级学生成绩的中位数约为
D.估计该年级成绩在分及以上的学生成绩的方差为
6.(2024·四川成都·模拟预测)某校为了解高三学生身体素质情况,从某项体育测试成绩中随机抽取个学生的成绩进行分析,得到成绩频率分布直方图(如图所示),估计该校高三学生此项体育成绩的中位数为 .(结果保留整数)
7.(23-24高三上·北京石景山·期末)某学校从全校学生中随机抽取了50名学生作为样本进行数学知识测试,记录他们的成绩,测试卷满分100分,将数据分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并整理得到如右频率分布直方图,则图中的值为 ,若全校学生参加同样的测试,估计全校学生的平均成绩为 (每组成绩用中间值代替).
题型二:统计案例
易错点04:混淆相关关系和函数关系而出错
典例 (24-25高三上·江西南昌·训练)对两变量间的关系,下列论述正确的是( )
A.任何两个变量都具有相关关系
B.正方形的面积与该正方形的边长具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【答案】D
【分析】由两个变量之间相关关系与函数关系之间的定义及区别即可求解.
【详解】解:对A:当两个变量之间具有确定关系时,两个变量之间是函数关系,而不是相关关系,所以A错误;
对B:正方形的面积与该正方形的边长之间是函数关系,所以B错误;
对C:农作物的产量与施化肥量之间是相关关系,是非确定性的关系,所以C错误;
对D:学生的数学成绩与物理成绩之间是相关关系,是非确定性的关系,所以D正确;
故选:D.
【易错剖析】
本题容易不能区分相关关系和函数关系的不同而出错.
【避错攻略】
1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的直观表示
散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
易错提醒:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
1.(24-25高二下·全国·课后作业)下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
2.(2024高三下·全国·专题练习)对于任意给定的两个变量的统计数据,下列说法正确的是( )
A.一定可以分析出两个变量之间的关系
B.一定可以用一条直线近似地表示两者之间的关系
C.一定可以画出散点图
D.一定可以用确定的表达式表示两者之间的关系
3.(24-25高三·陕西商洛·阶段练习)如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).
根据该折线图,下列说法错误的是( )
A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近
C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势
1.(23-24高二上·上海·课后作业)两个变量x与y之间的回归方程( )
A.表示x与y之间的函数关系; B.表示x与y之间的不确定关系;
C.反映x与y之间的真实关系; D.是反映x与y之间的真实关系的一种最佳拟合.
2.(24-25高二·四川成都·期中)下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.儿童的年龄与体重 D.物体的体积和质量
3.下列关于回归分析与独立性检验的说法:①回归分析和独立性检验没有什么区别;②回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;③回归分析是研究两个变量之间的相关关系,而独立性检验是对两个变量是否具有某种关系的一种检验;④独立性检验可以100%确定两个变量之间是否具有某种关系.其中正确的是( )
A.①② B.③ C.③④ D.①②③④
4.(24-25高三·上海·随堂练习)已知表示变量x与y之间的相关系数,表示变量u与v之间的相关系数,且,,则( )
A.变量x与y之间呈正相关关系,且x与y之间的相关性强于u与v之间的相关性
B.变量x与y之间呈负相关关系,且x与y之间的相关性强于u与v之间的相关性
C.变量u与v之间呈负相关关系,且x与y之间的相关性弱于u与v之间的相关性
D.变量u与v之间呈正相关关系,且x与y之间的相关性弱于u与v之间的相关性
5.(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
6.(23-24高三下·天津·阶段练习)在一段时间内,分5次测得某种商品的价格(万元)和需求量之间的一组数据,绘制散点图如图所示,利用最小二乘法求得相应的经验回归方程为,根据上述信息,如下判断正确的是( )
价格 2
需求量 12 10 7
A.商品的价格和需求量存在正相关关系 B.与不具有线性相关关系
C. D.价格定为万元,预测需求量大约为
易错点05:混淆回归直线与回归曲线而致错
典例 (2025高三·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份 1 2 3 4 5
销售量(万件) 4.9 5.8 6.8 8.3 10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
【答案】(1)
(2)第9个月的月利润预报值最大.
【分析】(1)将非线性回归方程问题转化线性回归方程问题,根据最小二乘法求解即可.
(2)先求得的表达式,然后利用导数来求得最值问题.
【详解】(1)令,则,

,,
所以关于的回归方程为.
(2)由(1)知,

令(),
(),
令,得,单调递增,
令,得,单调递减,
令,得,
所以()在处取得极大值,也是最大值,
所以,
所以第9个月的月利润预报值最大.
【易错剖析】
求解本题失分的一个主要原因是错把回归曲线误认为是直线方程,二是在求解过程中计算失误.
【避错攻略】
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、回归分析与回归方程
(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
(3)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
3、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
易错提醒:在求回归曲线方程时一定要先判断回归曲线类型,若是非直线方程,就要转化为回归直线方程求解,在计算过程中要注意求回归系数的两个公式之间的相互转化.
常见的非线性回归模型:
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
1.(23-24高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2 2.5 3 3.5 4
4.04 4.01 3.98 3.96 3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
2.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
3.(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
1.(23-24高三下·山东·开学考试)为研究某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设与的数据如表格所示:得到与的线性回归方程,则( )
3 4 6 7
2 2.5 4.5 7
A.-2 B.-1 C. D.
2.(23-24高三上·内蒙古呼和浩特·期末)用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则( )
A. B. C.35 D.21
3.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
4.(2024高三·全国·专题练习)(多选题)某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中有可能适宜作为感染人数和时间的回归方程类型的是( )
A. B. C. D.
5.(23-24高三上·江西新余·期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用表示天数,表示每天核酸检测为阳性的人数,统计数据如下表所示:
1 2 3 4 5 6 7
6 11 21 34 66 101 196
根据散点图判断,核酸检测为阳性的人数关于天数的回归方程适合用来表示,则其回归方程为 .
参考数据:设,,,
参考公式:对于一组数据,,….其回归直线的斜率和截距的最小二乘估计公式分别为:,
6.(24-25高三上·福建泉州·阶段练习)一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度 21 23 24 27 29 32
产卵数个 6 11 20 27 57 77
经计算得:线性回归模型的残差平方和,其中分别为观测数据中的温差和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且相关指数0.9522.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为;相关指数.
易错点06:求解独立性检验问题对的值理解不准确
典例 (24-25高三上·重庆北碚·阶段练习)一医疗团队为研究治疗某种疾病的新药能否有助于7天内治愈该疾病病人,在已患病的500例病人中,随机分为两组,实验组服用该新药,对照组不服用该药,在其他治疗措施相同的情况下,统计7天内痊愈病例数,得到如下数据:
7天内未痊愈 7天内痊愈
对照组 30 170
实验组 20 280
根据表格数据,下列结论正确的是( )
参考公式及数据:,其中.
0.10 0.010 0.001
2.706 6.635 10.828
A.在犯错误的概率不大于0.01的前提下,可以认为服用该新药与7天内治愈病人无关
B.在犯错误的概率不大于0.001的前提下,可以认为服用该新药与7天内治愈病人无关
C.根据小概率值的独立性检验,可以推断服用该新药与7天内治愈病人有关
D.根据小概率值的独立性检验,可以推断服用该新药与7天内治愈病人有关
【答案】C
【分析】求出卡方值,和6.635,10.828比较即可根据小概率值的独立性检验判断.
【详解】,所以根据小概率值的独立性检验,有充分证据推断服用该新药对7天内治愈病人有影响,
因此在犯错误的概率不大于0.01的前提下,可以推断服用该新药与7天内治愈病人有关,故C正确,A错误.
,所以根据小概率值的独立性检验,没有充分证据推断服用该新药对7天内治愈病人有关,
因此在犯错误的概率不大于0.001的前提下,不可以推断服用该新药与7天内治愈病人有关,故BD错误.
故选:C.
【易错剖析】
本题容易因对理解不准确而出错.
【避错攻略】
独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表
总计
总计
(3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
易错提醒:在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.在利用2×2列联表计算K2的值之前,先假设两个分类变量是无关的,最后再利用K2的值的大小对二者关系进行含概率的判断.
1.(24-25高三上·上海·单元测试)对于独立性检验,下列说法中错误的是( )
A.的值越大,说明两事件相关程度越大
B.的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
2.(2024·四川成都·三模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀
甲班 10
乙班 30
附:(),
0.05 0.025 0.010 0.005
3.841 5.024 6.635 7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.甲班人数少于乙班人数
B.甲班的优秀率高于乙班的优秀率
C.表中的值为15,的值为50
D.根据表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”
3.(23-24高三下·广西玉林·阶段练习)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.

(1)求的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在的居民称为青年组,年龄在的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面列联表,依据的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
年龄分组 阅读方式 合计
电子阅读 纸质阅读
青年
中老年
合计
0.15 0.1 0.05 0.025 0.01
2.072 2.706 3.841 5.024 6.635
1.(2024·江苏苏州·模拟预测)设研究某两个属性变量时,作出零假设并得到2×2列联表,计算得,则下列说法正确的是( )
A.有99.5%的把握认为不成立 B.有5%的把握认为的反面正确
C.有95%的把握判断正确 D.有95%的把握能反驳
2.(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
3.(2024高三·全国·专题练习)为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
未发病 发病 总计
未注射疫苗
注射疫苗
总计
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断错误的是(  )
A.注射疫苗发病的动物数为
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.有99%的把握认为疫苗有效
D.该疫苗的有效率不超过
4.(24-25高三上·广东深圳·阶段练习)某中学为更好地开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.如果依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,则调查人数中男生可能有( )
附:
,其中.
A.150人 B.225人
C.300人 D.375人
5.(2025·宁夏内蒙古·模拟预测)为考察某种药物对预防疾病的效果,进行了动物(单位:只)试验,得到如下列联表:
药物 疾病 合计
未患病 患病
未服用 100 80
服用 150 70 220
合计 250 400
(1)求s,t;
(2)记未服用药物的动物患疾病的概率为,给出的估计值;
(3)根据小概率值的独立性检验,能否认为药物对预防疾病有效
附:,
0.050 0.010 0.001
3.841 6.635 10.828
21世纪教育网(www.21cnjy.com)专题13 统计与统计案例
目 录
题型一:统计
易错点01 混淆总体与总体容量、样本与样本容量
易错点02 求中位数、百分位数时忽略数据顺序
易错点03 对频率分布直方图中的数据特征理解不透
题型二 统计案例
易错点04 混淆函数关系和相关关系而出错
易错点05 忽视回归直线与回归曲线方程的区别与联系
易错点06 求解独立性检验问题对的值理解不准确
21世纪教育网(www.21cnjy.com)
题型一:统计
易错点01:混淆总体与总体容量、样本与样本容量
典例 (24-25高三上·上海·阶段练习)某校为了解高三年级学生体重情况,从该年级1000名学生中抽取125名学生测量他们的体重进行分析.在这项调查中,抽取的125名学生的体重是( )
A.总体 B.样本 C.总体容量 D.样本容量
【答案】B
【分析】根据样本的定义即可求解.
【详解】抽取的125名学生的体重是样本,故选:B
【易错剖析】
本题容易混淆样本与样本容量而出错.
【避错攻略】
抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
易错提醒:(1) 总体是指考察对象的全体,而总体容量是指总体的个数;(2)样本是指从总体中抽取的若干个个体组成的集合,而样本容量是指样本个体的数目,要注意二者的区别.
1.(2024高三·全国·专题练习)为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行调查分析,在这个问题中,被抽取的200名学生的成绩是( )
A.总体 B.个体
C.样本 D.样本量
【答案】C
【分析】根据统计中抽样调查的概念即可得解.
【详解】从5000名学生的成绩中抽取了200名学生的成绩进行调查分析,
总体: 5000名学生的成绩;
个体:每个学生的成绩;
样本: 200名学生的成绩;
样本容量:200,
所以抽取的200名学生的成绩是样本
故选:C.
2.(24-25高二上·安徽·阶段练习)某中等职业学校为了了解高二年级1200名学生的视力情况,抽查了其中200名学生的视力,并进行统计分析.下列叙述正确的是( )
A.上述调查属于全面调查 B.每名学生是总体的一个个体
C.200名学生的视力是总体的一个样本 D.1200名学生是总体
【答案】C
【分析】利用总体、样本、调查方法的相关概念分析选项即可.
【详解】上述调查属于抽样调查,故A项错误;
每名学生的视力是总体的一个个体,故B项错误;
200名学生的视力是总体的一个样本,故C项正确;
1200名学生的视力是总体,故D项错误.
故选:C
3.(24-25高三·甘肃兰州·训练)为了了解参加运动会的1500名运动员的年龄情况,从中抽取了150名运动员的年龄进行调查,则下列说法正确的是( )
A.1500名运动员的年龄是总体
B.抽取到的150名运动员是样本
C.这个抽样方法可以采取随机数表法抽样
D.每个运动员被抽到的机会相等
【答案】BD
【分析】根据总体、样本的定义,结合随机抽样的性质逐一判断即可.
【详解】1500名运动员是总体,故A错误;抽取到的150名运动员是样本,故B正确;随机数表法常常用于总体的个体较少时,当总体中的个体数较多时,编号复杂,将总体“傥拌均匀”也比较困难,用随机数表法产生的代表性不合理,故C错误;在简单的随机抽样时,每个运动员被抽到的机会是相等的,故D正确.
故选:BD
1.(23-24高三·西藏日喀则·期末)高考结束后,为了分析该校高三年级1000名学生的高考成绩,从中随机抽取了100名学生的成绩,就这个问题来说,下列说法中正确的是( )
A.100名学生是个体
B.样本容量是100
C.每名学生的成绩是所抽取的一个样本
D.1000名学生是样本
【答案】B
【分析】根据有关的概念可得总体、个体、样本这三个概念考查的对象都是学生成绩,而不是学生,再结合题中选项即可得到答案.
【详解】根据有关的概念并且结合题意可得总体、个体、样本这三个概念考查的对象都是学生成绩,而不是学生,
根据选项可得选项A、D表达的对象都是学生,而不是成绩,所以A、D都错误.
C每名学生的成绩是所抽取的一个样本也是错的,应是每名学生的成绩是一个个体.
B:样本的容量是100正确.
故选:B.
2.(24-25高三上·福建福州·开学考试)为检查某校学生心理健康情况,市教委从该校名学生中随机抽查名学生,检查他们心理健康程度,则下列说法正确的是( )
A.名学生的心理健康情况是总体 B.每个学生是个体
C.名学生是总体的一个样本 D.名学生为样本容量
【答案】A
【分析】根据总体、个体、样本容量概念依次判断选项即可.
【详解】对选项A:名学生的心理健康情况是总体,故A正确;
对选项B,每个学生的心理健康情况是个体,故B错误;
对选项C,名学生的心理健康情况是总体的一个样本,故C错误;
对选项D,名学生的心理健康情况为样本容量,故D错.
故选:
3.(23-24高一下·山西晋中·阶段练习)为了了解某路口每天在学校放学时段的车流量,有下面几个样本,统计该路口在学校放学时段的车流量,你认为合适的是( )
A.抽取两天作为一个样本
B.春 夏 秋 冬每个季节各选两周作为样本
C.选取每周星期日作为样本
D.以全年每一天作为样本
【答案】B
【分析】选择调查的对象要有代表性即可判断.
【详解】解:依题意春 夏 秋 冬每个季节某路口在学校放学时段的车流量可能会有差异,
为了统计该路口在学校放学时段的车流量,春 夏 秋 冬每个季节各选两周作为样本更具有代表性,故B正确;
对于A:随机抽取两天作为一个样本,不具有代表性,故A错误;
对于C:显然星期一到星期五学校放学时段的车流量与周末时学校放学时段的车流量会有差异,故选取每周星期日作为样本也不具有代表性,故C错误;
对于D:全年每天的数据,属于全面调查,不属于抽样调查,故D错误;
故选:B.
4.(24-25高一上·全国·课堂例题)(多选)某市模考共有70000多名学生参加,某校教科室为了了解本校3390名考生的数学成绩,从中抽取300名考生的数学成绩进行统计分析,下列说法正确的是( )
A.3390名考生是总体的一个样本 B.3390名考生的数学成绩是总体
C.样本容量是300 D.70000多名考生的数学成绩是总体
【答案】BC
【分析】根据总体、个体、样本、样本容量的概念,可以判断BC正确.
【详解】总体是3390名考生的数学成绩,样本是抽取的300名考生的数学成绩,样本容量是300.
故选:BC.
5.(23-24高一下·青海海东·阶段练习)为了了解某社区60周岁以上老年人的体重,进行如下调查:
调查一:对该社区所有60周岁以上老年人的体重进行调查;
调查二:对该社区部分60周岁以上老年人(500名)的体重进行调查.
关于上述调查,下列说法正确的是( )
A.调查一是普查,调查二是抽样调查
B.调查二中的总体是指该社区抽取的500名60周岁以上老年人的体重
C.调查二中的样本量是500
D.检测一批灯泡的寿命宜采用调查一的调查方式,以使收集的数据更精确
【答案】AC
【分析】根据抽样调查和普查的概念、总体和样本的概念即可求解.
【详解】对于选项,根据抽样调查和普查的概念可知,
调查一的调查方式是普查,调查二的调查方式是抽样调查,故A正确;
对于选项B,根据总体和样本的概念可知,总体是指该社区所有60周岁以上老年人的体重,样本是指抽取的该社区500名60周岁以上老年人的体重,故B错误;
对于选项C,结合已知条件和样本量的概念可知,样本量是500,故C正确;
对于选项D,由于检测一批灯泡的寿命,具有损毁性,故只能用抽样调查,故D错误.
故选:AC.
6.(23-24高二上·湖北武汉·期中)“知名雪糕放1小时不化”事件曝光后,某市市场监管局从所管辖十五中、十七中、常青一中三校周边超市在售的28种雪糕中抽取了18种雪糕,对其质量进行了检查.在这个问题中,18是( )
A.总体 B.个体 C.样本 D.样本量
【答案】D
【分析】根据抽样调查中总体、个体、样本、样本容量的概念,即可判断.
【详解】总体:我们把与所研究问题有关的全体对象称为总体;
个体:把组成总体的每个对象称为个体;
样本:从总体中,抽取的一部分个体组成了一个样本;
样本量:样本中个体的个数叫样本容量,其不带单位;
在售的28种雪糕中抽取了18种雪糕,对其质量进行了检查,在这个问题中,28种雪糕是总体,每一种雪糕是个体,18种雪糕是样本,18是样本量;
故选:D.
易错点02:求中位数、百分位数时忽略数据顺序
典例 (2024·河南·统考模拟预测)样本数据16,24,14,10,20,30,12,14,40的中位数为( )
A.14 B.16 C.18 D.20
【答案】B
【分析】由中位数定义即可得.
【详解】将这些数据从小到大排列可得:10,12,14,14,16,20,24,30,40,
则其中位数为16.
故选:B.
【易错剖析】
本题求解时容易忽略讲数据从小到大排列而出错.
【避错攻略】
1.众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
2.百分位数
(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
易错提醒:在求数据的中位数、百分数时,一定要先把数据从小到大排列,然后再根据中位数、百分数的定义进行求解.
1.(2025高三上·四川眉山·阶段练习)假设有一组数据为6,8,3,6,4,6,5,这些数据的众数与中位数分别是 ( )
A.5,6 B.6,4 C.6,5 D.6,6
【答案】D
【分析】由小到大排列给定数据组,再利用众数与中位数的意义求解即得.
【详解】依题意,原数据组由小到大排列为:3,4,5,6,6, 6,8,
所以这组数据的众数与中位数分别是6,6.
故选:D
2.(24-25高三上·天津和平·期末)一组数据按从小到大的顺序排列为1,3,,7,10,11,若该组数据的中位数是这组数据极差的,则该组数据的第45百分位数是( )
A.3 B.4 C.5 D.7
【答案】A
【分析】计算出中位数与极差后即可得的值,再借助百分位数定义即可得解.
【详解】该组数据的中位数为,极差为,
则有,即,
,则该组数据的第45百分位数是.
故选:A.
3.(24-25高三上·山东淄博·期末)某校举行了交通安全知识主题演讲比赛,甲、乙两位同学演讲后,6位评委对甲、乙的演讲分别进行打分(满分10分),得到如图所示的折线统计图,则( )
A.若去掉最高分和最低分,则甲得分的中位数大于乙得分的中位数
B.甲得分的极差大于乙得分的极差
C.甲得分的上四分位数小于乙得分的上四分位数
D.甲得分的方差大于乙得分的方差
【答案】ABD
【分析】运用极差、中位数及百分位数的公式计算,和方差的意义逐项判断即可.
【详解】甲、乙的得分从小到大排列如下:
甲:,乙:,
故去掉最高分和最低分可得甲的中位数为,乙的中位数为,故A正确;
甲的极差为,乙的极差为,故B正确;
,所以甲的第75百分位数为,乙的第75百分位数为,故C错误;
由图可以看出甲得分的波动比乙大,故甲得分的方差大于乙得分的方差,故D正确.
故选:ABD
1.(2025高三·全国·专题练习)一组数据的分位数是( )
A.10 B.12 C.4 D.3
【答案】C
【分析】应用百分位数定义求分位数.
【详解】将这组数据按从小到大的顺序排列为,共10个数,
所以,则这组数据的分位数为4.
故选:C
2.(24-25高三上·广东茂名·阶段练习)四川耙耙柑以果肉饱满圆润,晶莹剔透等特点深受民众喜爱,某耙耙柑果园的质检员对刚采摘下来的耙耙柑采用随机抽样的方式对成筐的耙耙柑进行质检,记录下了8筐耙耙柑中残次品的个数为5,7,6,3,9,4,8,10,则该组样本数据的第30百分位数为( )
A.5 B.5.5 C.6 D.6.5
【答案】A
【分析】把给定的数据组由小到大排列,再利用第30百分位数的定义求出结果.
【详解】残次品的个数由小到大排列为:3,4,5,6,7,8,9,10,
由,得该组样本数据的第30百分位数为5.
故选:A.
3.(24-25高三上·湖北十堰·期末)已知,且的中位数为1,则( )
A. B. C.1 D.
【答案】B
【分析】先根据题意判断出,再分别讨论和即可求解.
【详解】因为,所以,又的中位数为1,所以,
当时,分别为,则中位数为,不符合题意;
当时,,则中位数为,解得.
故选:B
4.(24-25高三上·天津红桥·期末)从某学校高二年级随机抽取10名学生进行数学能力测试,测试成绩为,设学生测试成绩的平均数,中位数,众数分别为,则( )
A. B.
C. D.
【答案】C
【分析】根据平均数公式求出平均数,根据中位数和众数定义,找到和,从而可以比较大小
【详解】平均数,
数据从小到大排列为:,第五个数为79,第六个数为81,所以中位数,
出现次数最多的是众数,所以众数,
所以.
故选:C.
5.(2024高三·全国·专题练习)一组数据从小到大依次为3,5,6,7,8,9,m,10,11,13,且众数为9,下列说法错误的是( )
A. B.中位数为8.5 C.平均数为8 D.极差为10
【答案】C
【分析】由条件结合众数的定义求,再结合中位数,平均数,极差定义求中位数,平均数,极差判断各选项.
【详解】众数是一组数据中出现次数最多的数据,因此;
该组数据的中位数是第5位和第6位数的平均数,即为;
极差为;
平均数是,
故选:C.
6.(2024高三·全国·专题练习)(多选)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
【答案】BD
【分析】根据特殊值法分别求出平均数及标准差判断A,C错误,根据中位数和极差计算判断B,D.
【详解】取,
的平均数等于2,的平均数,选项错误;
的标准差为0,的标准差,选项C错误;
不妨设,
则的中位数等于,的中位数等于,
的中位数等于的中位数,B正确;
的极差为,的极差为,
则的极差不大于的极差,D正确.
故选:BD.
7.(24-25高三上·江苏·阶段练习)(多选)有一组样本数据1,2,3,5,7,8,9,a,下列说法正确的是( )
A.若该组数据的平均数为a,则 B.若该组数据的中位数为a,则
C.当时,该组数据的极差为8 D.当时,该组数据的方差最小
【答案】ABD
【分析】A.由平均数的定义求解判断;B.由中位数的定义求解判断;C.由极差的定义求解判断;D. 由方差的定义求解判断.
【详解】解:因为样本数据1,2,3,5,7,8,9,a,
A.若该组数据的平均数为a,则 ,解得,故正确;
B. 当时,若该组数据的中位数为,不符合题意;
当时,若该组数据的中位数为,不符合题意;当时,若该组数据的中位数为,符合题意;
当时,若该组数据的中位数为,不符合题意;
当时,若该组数据的中位数为,不符合题意,综上:,故正确;
C.当时,该组数据的极差为故错误;
D.该组数据的平均数为由A知,当时,该组数据的平均数为5,
则其方差
所以要使方差最小,则取得最小值,所以,故D正确.
故选:ABD
8.(2025高三·全国·专题练习)(多选)2024年10月央行再次下调人民币存款利率,存款利率下调是为了刺激经济增长 促进投资和消费而采取的一种货币政策.下表为某银行近年来几个时间发布的人民币一年定期存款利率:
时间 2018年4月 2019年4月 2020年4月 2021年6月 2022年9月 2024年7月 2024年10月
利率 1.35 1.50 1.75 1.75 1.55 1.35 1.10
关于表中的7个数据,下列结论正确的是( )
A.极差为0.25 B.平均数不大于1.5
C.分位数与分位数相等 D.中位数为1.75
【答案】BC
【分析】将诸数据排序后根据极差、平均数、百分位数、中位数的计算公式计算后可得正确的选项.
【详解】把这7个数据按照从小到大的顺序排列:,,,,,,.
选项A:极差为,A错误.
选项B:平均数为,B正确.
选项C:,,
故分位数与分位数都是1.35,C正确.
选项D:中位数为第四个数即,D错误.
故选:BC.
易错点03:对频率分布直方图中的数据特征理解不透
典例 (24-25高三上·广东汕头·期末)某市为修订用水政策,制定更合理的用水价格,随机抽取100户居民,得到他们的月均用水量,并整理得如下频率分布直方图.根据直方图的数据信息,下列结论中正确的是( )
A.100户居民的月均用水量的中位数大于7.2
B.100户居民的月均用水量低于16.2的用户所占比例超过
C.100户居民的月均用水量的极差介于21与27之间
D.100户居民的月均用水量的平均值介于16.2与22.2之间
【答案】C
【分析】首先根据频率分布直方图中所有小长方形的面积和为求出的值,再分别求出100户居民的月均用水量的中位数,平均数,极差等即可判断.
【详解】由频率分布直方图可知,

解得,
对于A,月均用水量在的频率为,
月均用水量在的频率为,
所以100户居民的月均用水量的中位数在,故A错误;
对于B,因为100户居民的月均用水量低于16.2的用户的频率为

所以100户居民的月均用水量低于16.2的用户所占比例为,故B错误;
对于C,由图知,极差的最大值为,最小值为,
所以100户居民的月均用水量的极差介于21与27之间,故C正确;
对于D,100户居民的月均用水量的平均值为
t,故D错误.
故选:C.
【易错剖析】
本题在计算过程中容易对中位数、百分位数、众数、平均数估计值的计算公式理解不透彻而出错.
【避错攻略】
1、画频数分布直方图与频率分布直方图的步骤:
(1)找出最值,计算极差;
(2)合理分组,确定区间;
(3)整理数据;
(4)作出相关图示;
频数分布直方图 纵坐标是频数,每一组数对应的矩形的高度与频数成正比
频率分布直方图 纵坐标是频率/组距,每一组数对应的矩形高度与频率成正比,每个矩形的面积等于这一组数对应的频率,所有矩形的面积之和为1
2、频率分布表与频率分布直方图的特点
频数分布表反映具体数据在各个不同区间的取值频率,但不直观,数据的总体态势不明显;频率分布直方图能直观地表明数据分布的行状态势,但失去了原始数据。
3、频数分布折线图和频率分布折线图
把频数分布直方图和频率分布直方图中每个矩形上面一边的中点用线段连接起来。
为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的。
4.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
易错提醒:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
1.(2024高三·全国·专题练习)某校高三年级共800名学生,将其期中考试的数学成绩进行适当分组后,得到频率分布直方图如图所示.若要从这800人中按分数从高到低录取72人组成数学兴趣小组,则录取分数线估计为( )

A.105分 B.108分 C.110分 D.112.5分
【答案】B
【分析】方法一:根据频率之和为1得到方程,求出,从而得到取分数线在区间内,设录取分数线为分,得到方程,解得;
方法二:求出分数不低于110分的人数为,排除C,D;分数在内的人数大于120,估计分数不低于105分的人数大于,排除A,得到答案.
【详解】方法一:因为,
解得,分数在内的人数为,
分数在内的人数为,
由于,故录取分数线在区间内.
设录取分数线为分,则,解得;
方法二:排除法,
分数不低于110分的人数为,排除C,D.
分数在内的人数是分数在内的人数的三倍以上,
即分数在内的人数大于120,
因此估计分数不低于105分的人数大于,排除A.
故选:B.
2.(24-25高三上·四川成都·阶段练习)某校1000名学生参加环保知识竞赛,随机抽取了20名学生的考试成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法正确的是( )
A.频率分布直方图中的值为0.004
B.估计这20名学生考试成绩的平均数为76.5
C.估计这20名学生数学考试成绩的众数为80
D.估计总体中成绩落在内的学生人数为150
【答案】BD
【分析】根据所有矩形的面积和为1求出,然后逐一判断即可.
【详解】对A,由可得,故A错误;
对B,这20名学生考试成绩的平均数为:
分,故B正确;
对C,这20名学生数学考试成绩的众数为75,故C错误;
对D,总体中成绩落在内的学生人数为,故D正确.
故选:BD
3.(2024高三·全国·专题练习)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.则当漏诊率时,误诊率 .
【答案】
【分析】先根据左边的频率分布直方图得到,再根据右边的频率分布直方图可得.
【详解】依题可知,左边图形第一个小矩形的面积为,所以,
所以,解得:,
由右边的频率分布直方图可得.
故答案为:
1.(24-25高三上·天津河西·期末)某中学组织高中学生参加数学知识竞赛,现从中随机抽取100名学生成绩的频率分布直方图如图所示,则这组样本数据的分位数为( )
A.85 B.86 C.87 D.88
【答案】C
【分析】由频率分布直方图的性质求出,再由百分位数的方法求解即可.
【详解】由题意可得,解得,
所以前两组的频率和为,前三组的频率和为,
设这组样本数据的分位数为,则,
解得.
故选:C.
2.(24-25高三上·吉林长春·阶段练习)某市为了了解全市10万名高一学生的数学学习情况,抽取了该市某个区的15000名学生进行数学能力测试(百分制),并将这些学生的成绩整理成如图所示的频率分布直方图、根据频率分布直方图,下列说法正确的是( )
A.图中a的值为0.15
B.估计样本数据的分位数为85
C.用样本可以估计全市高一学生数学能力测试不及格(低于60分)的人数为5000
D.用样本可以估计全市高一学生数学能力测试的平均分约为81.5分(同一组数据用该组区间的中点值作代表)
【答案】C
【分析】A选项,根据频率分布直方图的性质计算;
B选项,先判断出分位数所在的区间,然后列方程计算;
C选项,先算出样本数据中不及格的频率,由此估计全市学生不及格的人数;
D选项,根据题意中的平均数的计算要求进行计算.
【详解】A选项,根据频率分布直方图的性质,,
解得,A选项错误;
B选项,前个矩形条的面积为,
前个矩形条的面积为:,
故样本数据的分位数落在中,设样本数据的分位数为,
于是,解得,B选项错误;
C选项,根据直方图可以看出,低于分的频率为:,
于是估计全市学生不及格的人数为:,C选项正确;
D选项,由题意,平均数为:
,D选项错误.
故选:C.
3.(2024·重庆·模拟预测)(多选)国际学生评估项目测试是世界经济合作与发展组织对各国中学生阅读、数学、科学能力评价测试. 从年开始,每年进行一次测试评估. 在评估研究时将测试成绩按一定规则转换成等级赋分,赋分范围是至分,如图是年的某地中学生参加阅读测试后用赋分数据绘制成的不完整频率分布直方图. 据图中数据,下面说法正确的是( )
A.该地学生成绩的中位数一定大于
B.该地学生成绩的众数介于至之间
C.该地学生成绩的极差介于至之间
D.该地学生成绩没有超过分学生所占比例为
【答案】C
【分析】根据频率分布直方图,利用中位数、众数、极差的定义,对选项A、B和C逐一分析判断,即可求解;对于选项D,利用频率分布直方图,可得没有超过分学生所占比例为,即可求解.
【详解】对于选项A,分数在的频率为,分数在的频率为,分数在的频率为,分数在的频率为,分数在的频率为,
由图知,,所以,
所以中位数在间,但不一定大,所以选项A错误,
对于选项B,由众数的定义知,众数是成绩出现次数最多的,
所以众数不一定介于至之间,所以选项B错误,
对于选项C,由极差的定义知,学生成绩的极差介于至之间,所以选项C正确,
对于选项D,由选项A知,学生成绩没有超过分学生所占比例为,所以选项D错误,
故选:C.
4.(24-25高三上·安徽·阶段练习)(多选)某超市随机抽取了当天100名顾客的消费金额作为样本,并分组如下:,(单位:元),得到如图所示的频率分布直方图,则下列说法正确的是( )
A.若该超市当天总共有600名顾客,则消费金额在(单位:元)内的顾客约有180人
B.若每组数据以区间中点值为代表,则样本中消费金额的平均数是145元
C.若用样本估计总体,则该超市当天消费金额的中位数是100.8元
D.现从样本的第1,2组中用比例分配的分层随机抽样方法抽取6人,再从这6人中随机抽取2人做进一步调查,则抽到的2人的消费金额都不少于50元的概率是
【答案】BD
【分析】根据频率分步直方图性质求出a再计算消费金额在内的顾客判断A,应用频率分布直方图求平均数及中位数判断B,C,应用分层抽样及古典概型计算判断D.
【详解】因为,所以,
对于A,所以消费金额在内的顾客约有人,A选项错误;
对于B,样本中消费金额的平均数是元,B选项正确;
对于C,设消费金额的中位数是,前二组的频率和为,前三组的频率和为,
所以在第三组,所以,所以元,C选项错误;
对于D,第1组频率,第2组频率分别为,所以从样本的第1,2组中用比例分配的分层随机抽样方法抽取6人,第1组抽2人,第2组抽4人,
所以从这6人中随机抽取2人做进一步调查,则抽到的2人的消费金额都不少于50元的概率是,D选项正确.
故选:BD.
5.(24-25高三上·黑龙江牡丹江·阶段练习)(多选)某次物理考试后,为分析学生的学习情况,某校从某年级中随机抽取了名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,计算得到这名学生中,成绩位于内的学生成绩方差为,成绩位于内的同学成绩方差为.则( )
A.
B.估计该年级成绩在分及以上的学生成绩的平均数为
C.估计该年级学生成绩的中位数约为
D.估计该年级成绩在分及以上的学生成绩的方差为
【答案】AD
【分析】对于A选项,由各组频率之和为求参数;对于B选项,两组求加权平均数可得;对于C选项,由频率分布直方图面积与比较,估计中位数所在区间,利用面积关系建方程求解可得;对于D选项,由两组成绩的方差与两组总方差的关系求解即可.
【详解】对于A选项,在频率分布直方图中,所有直方图的面积之和为,
则,解得,故A正确;
对于B选项,估计成绩在分以上的同学的成绩的平均数为
分,故B错误;
对于C选项,前两个矩形的面积之和为
前三个矩形的面积之和为.
设该年级学生成绩的中位数为,则,
根据中位数的定义可得,解得,
所以,估计该年级学生成绩的中位数约为,故C错误;
对于D选项,估计该年级成绩在80分及以上的学生成绩的方差为
,故D正确.
故选:AD.
6.(2024·四川成都·模拟预测)某校为了解高三学生身体素质情况,从某项体育测试成绩中随机抽取个学生的成绩进行分析,得到成绩频率分布直方图(如图所示),估计该校高三学生此项体育成绩的中位数为 .(结果保留整数)
【答案】
【分析】由概率之和为计算出后,结合中位数的定义计算即可得.
【详解】,解得,
由,,
设中位数为,则,
有,解得.
故答案为:.
7.(23-24高三上·北京石景山·期末)某学校从全校学生中随机抽取了50名学生作为样本进行数学知识测试,记录他们的成绩,测试卷满分100分,将数据分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并整理得到如右频率分布直方图,则图中的值为 ,若全校学生参加同样的测试,估计全校学生的平均成绩为 (每组成绩用中间值代替).
【答案】
【分析】由频率分布直方图中总面积为可计算出,由频率分布直方图中平均数的计算方式计算平均数即可估计全校学生的平均成绩.
【详解】由频率分布直方图中总面积为,
即,
解得,

故可估计全校学生的平均成绩为.
故答案为:;.
题型二:统计案例
易错点04:混淆相关关系和函数关系而出错
典例 (24-25高三上·江西南昌·训练)对两变量间的关系,下列论述正确的是( )
A.任何两个变量都具有相关关系
B.正方形的面积与该正方形的边长具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【答案】D
【分析】由两个变量之间相关关系与函数关系之间的定义及区别即可求解.
【详解】解:对A:当两个变量之间具有确定关系时,两个变量之间是函数关系,而不是相关关系,所以A错误;
对B:正方形的面积与该正方形的边长之间是函数关系,所以B错误;
对C:农作物的产量与施化肥量之间是相关关系,是非确定性的关系,所以C错误;
对D:学生的数学成绩与物理成绩之间是相关关系,是非确定性的关系,所以D正确;
故选:D.
【易错剖析】
本题容易不能区分相关关系和函数关系的不同而出错.
【避错攻略】
1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的直观表示
散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
易错提醒:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
1.(24-25高二下·全国·课后作业)下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
【答案】A
【分析】利用正相关的定义逐项判断可得答案.
【详解】对于A,一般情况下,汽车越重,则每公里耗油量越多,成正相关,故A正确;
对于B,正方形的面积与边长是函数关系,故B错误;
对于C,一般情况下,若花费在体育活动上面的时间越长,则期末考试数学成绩可能会降低,故不为正相关,故C错误;
对于D,期末考试随机编排的准考证号与期末考试成绩总分没有相关关系,故D错误.
故选:A.
2.(2024高三下·全国·专题练习)对于任意给定的两个变量的统计数据,下列说法正确的是( )
A.一定可以分析出两个变量之间的关系
B.一定可以用一条直线近似地表示两者之间的关系
C.一定可以画出散点图
D.一定可以用确定的表达式表示两者之间的关系
【答案】C
【分析】利用成对数据的统计相关性进行分析即可.
【详解】给出两个变量的统计数据,总可以画出相应的散点图,故C中说法正确;
但不一定能分析出两个变量之间的关系,更不一定符合线性相关,
即不一定能用一条直线近似地表示两者之间的关系,故A、B中说法不正确;
两个变量之间不一定具有函数关系,故D中说法不正确.
故选:C.
3.(24-25高三·陕西商洛·阶段练习)如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).
根据该折线图,下列说法错误的是( )
A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近
C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势
【答案】B
【分析】根据给定的折线图,结合相关系数的概念,以及回归分析的含义,逐项判定,即可求解.
【详解】根据近十年来全国城镇人口、乡村人口的折线图,可得:
对于A中,城镇人口与年份呈现上升趋势,所以关城镇人口与年份正相关,所以A正确;
对于B中,乡村人口与年份呈现下降趋势,且比较均匀的分布在直线的两侧,
所以乡村人口与年份的相关系数接近,所以B错误;
对于C中,城镇人口与年份呈现上升趋势,且比较均匀的分布在直线的两侧,
所以城镇人口逐年增长率大致相同,所以C正确;
对于D中,乡村人口与年份呈现下降趋势,且比较均匀的分布在直线的两侧,
可预测乡村人口仍呈现下降趋势,所以D正确.
故选:B.
1.(23-24高二上·上海·课后作业)两个变量x与y之间的回归方程( )
A.表示x与y之间的函数关系; B.表示x与y之间的不确定关系;
C.反映x与y之间的真实关系; D.是反映x与y之间的真实关系的一种最佳拟合.
【答案】D
【分析】根据回归直线方程的定义,结合选项,即可求解.
【详解】根据回归方程的定义,可得两个变量x与y之间的回归方程是反映x与y之间的真实关系的一种最佳拟合.
故选:D.
2.(24-25高二·四川成都·期中)下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.儿童的年龄与体重 D.物体的体积和质量
【答案】C
【分析】根据相关关系和函数关系的概念即可判断
【详解】A、D是函数关系;B是不相关关系;C是相关关系,
故选:C
3.下列关于回归分析与独立性检验的说法:①回归分析和独立性检验没有什么区别;②回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;③回归分析是研究两个变量之间的相关关系,而独立性检验是对两个变量是否具有某种关系的一种检验;④独立性检验可以100%确定两个变量之间是否具有某种关系.其中正确的是( )
A.①② B.③ C.③④ D.①②③④
【答案】B
【分析】根据回归分析和独立性检验的定义逐一判断即可.
【详解】解:回归分析是对两个变量之间的相关关系的一种分析,而相关关系是一种不确定关系;独立性检验是对两个变量是否具有某种关系的一种分析,并可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系,所以①②④错误,③正确.
故选:B
4.(24-25高三·上海·随堂练习)已知表示变量x与y之间的相关系数,表示变量u与v之间的相关系数,且,,则( )
A.变量x与y之间呈正相关关系,且x与y之间的相关性强于u与v之间的相关性
B.变量x与y之间呈负相关关系,且x与y之间的相关性强于u与v之间的相关性
C.变量u与v之间呈负相关关系,且x与y之间的相关性弱于u与v之间的相关性
D.变量u与v之间呈正相关关系,且x与y之间的相关性弱于u与v之间的相关性
【答案】C
【分析】根据线性相关系数越接近1,表示两个变量之间的相关性越强,线性相关系数的正负表示两个变量之间呈正相关关系或负相关关系.
【详解】因为线性相关系数,,
所以变量x与y之间呈正相关关系,变量u与v之间呈负相关关系.
因为|r|越接近1,两个变量的线性相关程度越高,所以x与y之间的相关性弱于u与v之间的相关性.
故选:C.
5.(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【答案】C
【分析】根据相关关系的概念逐项判定,即可求解.
【详解】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
故选:C.
6.(23-24高三下·天津·阶段练习)在一段时间内,分5次测得某种商品的价格(万元)和需求量之间的一组数据,绘制散点图如图所示,利用最小二乘法求得相应的经验回归方程为,根据上述信息,如下判断正确的是( )
价格 2
需求量 12 10 7
A.商品的价格和需求量存在正相关关系 B.与不具有线性相关关系
C. D.价格定为万元,预测需求量大约为
【答案】D
【分析】由散点图判断A,根据回归直线方程判断B,求出,,根据回归直线方程必过样本中心点求出,令求出,即可判断D.
【详解】由散点图可知,商品的价格和需求量存在负相关关系,故A错误;
由经验回归方程为,可知与具有线性相关关系,故A错误;
又,,
又经验回归直线方程必过样本中心点,
则,解得,故C错误;
当时,,
所以价格定为万元,预测需求量大约为,故D正确.
故选:D.
易错点05:混淆回归直线与回归曲线而致错
典例 (2025高三·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份 1 2 3 4 5
销售量(万件) 4.9 5.8 6.8 8.3 10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
【答案】(1)
(2)第9个月的月利润预报值最大.
【分析】(1)将非线性回归方程问题转化线性回归方程问题,根据最小二乘法求解即可.
(2)先求得的表达式,然后利用导数来求得最值问题.
【详解】(1)令,则,

,,
所以关于的回归方程为.
(2)由(1)知,

令(),
(),
令,得,单调递增,
令,得,单调递减,
令,得,
所以()在处取得极大值,也是最大值,
所以,
所以第9个月的月利润预报值最大.
【易错剖析】
求解本题失分的一个主要原因是错把回归曲线误认为是直线方程,二是在求解过程中计算失误.
【避错攻略】
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、回归分析与回归方程
(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
(3)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
3、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
易错提醒:在求回归曲线方程时一定要先判断回归曲线类型,若是非直线方程,就要转化为回归直线方程求解,在计算过程中要注意求回归系数的两个公式之间的相互转化.
常见的非线性回归模型:
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
1.(23-24高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2 2.5 3 3.5 4
4.04 4.01 3.98 3.96 3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【答案】D
【分析】根据给定的数据求出样本中心点,求出即可.
【详解】由表格中数据,得,
则,解得,因此,
由两边取对数,得,又,
所以,即.
故选:D
2.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
【答案】
【分析】设,则,根据回归方程性质可得回归直线所过定点.
【详解】由已知,
设,则,
由回归直线性质可得在直线上,
又,,
所以点在直线上,故点在曲线上.
故答案为:.
3.(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
【答案】(1)亿人
(2),
【分析】(1)将题中数据代入最小二乘法公式,求出的值,即可得出与的拟合函数关系式,再将代入函数关系式,即可得出结论;
(2)由题意可知,,由结合独立重复试验的概率公式可求得的值,然后利用二项分布的期望和方差公式可求得结果.
【详解】(1)设,则,
因为,,,
所以,,
所以,与的拟合函数关系式为
当时,,
则估计年我国在线直播生活购物用户的规模为亿人.
(2)由题意知,所以,,

由,可得,
因为,解得,
所以,,.
1.(23-24高三下·山东·开学考试)为研究某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设与的数据如表格所示:得到与的线性回归方程,则( )
3 4 6 7
2 2.5 4.5 7
A.-2 B.-1 C. D.
【答案】C
【分析】根据已知条件,求得,进而代入回归方程可求得,从而得出,联立,即可求得本题答案.
【详解】由已知可得,,,
所以,有,解得,
所以,,
由,得,
所以,,则.
故选:C.
2.(23-24高三上·内蒙古呼和浩特·期末)用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则( )
A. B. C.35 D.21
【答案】B
【分析】求出,即,得到答案.
【详解】由题意得,
故,
即,
故,解得.
故选:B
3.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【答案】B
【分析】令,由,得,因为,所以
则,即可求解.
【详解】令,则,
又,由,得,
因为,所以
则,
下午4点时对应的是,
可得,
故选:B
4.(2024高三·全国·专题练习)(多选题)某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中有可能适宜作为感染人数和时间的回归方程类型的是( )
A. B. C. D.
【答案】BD
【分析】由题意结合所给图象的变化趋势,结合选项,逐一分析判断即可求解.
【详解】根据图象可知,函数图象随着自变量的变大,函数值增长速度越来越快,
结合选项,可判定为指数函数或的特征,
故选:BD.
5.(23-24高三上·江西新余·期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用表示天数,表示每天核酸检测为阳性的人数,统计数据如下表所示:
1 2 3 4 5 6 7
6 11 21 34 66 101 196
根据散点图判断,核酸检测为阳性的人数关于天数的回归方程适合用来表示,则其回归方程为 .
参考数据:设,,,
参考公式:对于一组数据,,….其回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】
【分析】由题可得,然后根据最小二乘法即得.
【详解】由,可得,
设,则,
因为,,

所以,

所以,
所以.
故答案为:.
6.(24-25高三上·福建泉州·阶段练习)一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度 21 23 24 27 29 32
产卵数个 6 11 20 27 57 77
经计算得:线性回归模型的残差平方和,其中分别为观测数据中的温差和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且相关指数0.9522.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为;相关指数.
【答案】(1)
(2)(i)非线性回归模型拟合效果更好;(ii);
【分析】(1)求出、后代入公式直接计算得、,即可得解;
(2)(i)求出线性回归模型的相关指数,与比较即可得解;
(ii)直接把代入,计算即可得解.
【详解】(1)由题意,则,,
,,
y关于x的线性回归方程为.
(2)(i)对于线性回归模型,,,
相关指数为,
因为,所以用非线性回归模型拟合效果更好.
(ii)当,时(个)
所以温度为时,该种药用昆虫的产卵数估计为190个.
易错点06:求解独立性检验问题对的值理解不准确
典例 (24-25高三上·重庆北碚·阶段练习)一医疗团队为研究治疗某种疾病的新药能否有助于7天内治愈该疾病病人,在已患病的500例病人中,随机分为两组,实验组服用该新药,对照组不服用该药,在其他治疗措施相同的情况下,统计7天内痊愈病例数,得到如下数据:
7天内未痊愈 7天内痊愈
对照组 30 170
实验组 20 280
根据表格数据,下列结论正确的是( )
参考公式及数据:,其中.
0.10 0.010 0.001
2.706 6.635 10.828
A.在犯错误的概率不大于0.01的前提下,可以认为服用该新药与7天内治愈病人无关
B.在犯错误的概率不大于0.001的前提下,可以认为服用该新药与7天内治愈病人无关
C.根据小概率值的独立性检验,可以推断服用该新药与7天内治愈病人有关
D.根据小概率值的独立性检验,可以推断服用该新药与7天内治愈病人有关
【答案】C
【分析】求出卡方值,和6.635,10.828比较即可根据小概率值的独立性检验判断.
【详解】,所以根据小概率值的独立性检验,有充分证据推断服用该新药对7天内治愈病人有影响,
因此在犯错误的概率不大于0.01的前提下,可以推断服用该新药与7天内治愈病人有关,故C正确,A错误.
,所以根据小概率值的独立性检验,没有充分证据推断服用该新药对7天内治愈病人有关,
因此在犯错误的概率不大于0.001的前提下,不可以推断服用该新药与7天内治愈病人有关,故BD错误.
故选:C.
【易错剖析】
本题容易因对理解不准确而出错.
【避错攻略】
独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表
总计
总计
(3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
易错提醒:在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.在利用2×2列联表计算K2的值之前,先假设两个分类变量是无关的,最后再利用K2的值的大小对二者关系进行含概率的判断.
1.(24-25高三上·上海·单元测试)对于独立性检验,下列说法中错误的是( )
A.的值越大,说明两事件相关程度越大
B.的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
【答案】C
【分析】结合观测值计算公式,因越大,的值就越大,从而两事件关系越强,否则越弱;理解观测值的意义可知,当时,零假设不成立,即认为事件与有关,否则当时,没有充分理由说明零假设不成立,即认为事件与无关.
【详解】对于A,B,因观测值,的值越大,越大,事件A与事件B关系越强;反之,事件A与事件B关系越弱,故A,B项均正确;
对于C,D,因只有时,说明在犯错误的概率不超过0.05的前提下认为事件与有关,而,故C错误;D正确.
故选:C.
2.(2024·四川成都·三模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀
甲班 10
乙班 30
附:(),
0.05 0.025 0.010 0.005
3.841 5.024 6.635 7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.甲班人数少于乙班人数
B.甲班的优秀率高于乙班的优秀率
C.表中的值为15,的值为50
D.根据表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”
【答案】D
【分析】根据条件解出,,然后直接计算即可判断A,B,C错误,使用的计算公式计算,并将其与比较,即可得到D正确.
【详解】对于C,由条件知,,故,.
所以,,故C错误;
对于A,由于甲班人数为,
乙班人数为,故A错误;
对于B,由于甲班优秀率为,乙班优秀率为,故B错误;
对于D,由于,故D正确.
故选:D.
3.(23-24高三下·广西玉林·阶段练习)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.

(1)求的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在的居民称为青年组,年龄在的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面列联表,依据的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
年龄分组 阅读方式 合计
电子阅读 纸质阅读
青年
中老年
合计
0.15 0.1 0.05 0.025 0.01
2.072 2.706 3.841 5.024 6.635
【答案】(1)a的值为0.035,通过电子阅读的居民的平均年龄为41.5岁
(2)列联表见解析,能认为阅读方式与年龄有关联
【分析】(1)根据频率分布直方图中所有小矩形的面积之后为得到方程求出,再根据频率分布直方图中平均数的求法计算可得;
(2)首先完善列联表,再计算卡方,即可判断.
【详解】(1)由题图可得,,解得.
各组的频率依次为,,,,,
所以通过电子阅读的居民的平均年龄为:
(岁).
所以a的值为,通过电子阅读的居民的平均年龄为岁.
(2)因为200人中通过电子阅读与纸质阅读的人数之比为,
所以通过电子阅读的有150人,通过纸质阅读的有50人.
因为年龄在的居民称为青年组,年龄在的居民称为中老年组,
所以电子阅读的青年有(人),
中老年有(人).
补全列联表如下:(单位:人)
年龄分组 阅读方式 合计
电子阅读 纸质阅读
青年 90 20 110
中老年 60 30 90
合计 150 50 200
零假设为:阅读方式与年龄无关.
根据表中数据,计算得.
所以依据的独立性检验,我们推断不成立,即认为阅读方式与年龄有关联.
1.(2024·江苏苏州·模拟预测)设研究某两个属性变量时,作出零假设并得到2×2列联表,计算得,则下列说法正确的是( )
A.有99.5%的把握认为不成立 B.有5%的把握认为的反面正确
C.有95%的把握判断正确 D.有95%的把握能反驳
【答案】D
【分析】根据独立性检验的概念以及计算步骤,可得答案.
【详解】依题意,,因此有95%的把握反驳,
故选:D.
2.(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【答案】D
【分析】根据独立性检验可得正确选项.
【详解】依已知数据,得有的把握认为“患肺癌与吸烟有关”,
则选项D正确,其余都是错误的.
故选:D.
3.(2024高三·全国·专题练习)为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
未发病 发病 总计
未注射疫苗
注射疫苗
总计
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断错误的是(  )
A.注射疫苗发病的动物数为
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.有99%的把握认为疫苗有效
D.该疫苗的有效率不超过
【答案】C
【分析】易求得射疫苗发病的动物数判断A;列出列联表,可求得该试验未注射疫苗的动物中任取一只发病的概率可判断B;求得可判断C;未注射疫苗的动物中也有不发病的情况可判断D.
【详解】现从试验动物中任取一只,取得“注射疫苗”的概率为,
则注射疫苗发病的动物数为,故A正确.
列出列联表如下:
未发病 发病 总计
未注射疫苗
注射疫苗
总计
从该试验未注射疫苗的动物中任取一只,发病的概率为,故B正确.
∵,
∴没有的把握认为疫苗有效,故C错误.
考虑未注射疫苗的动物中也有个不发病的情况,该疫苗的有效率不超过,故D正确.
故选:C.
4.(24-25高三上·广东深圳·阶段练习)某中学为更好地开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.如果依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,则调查人数中男生可能有( )
附:
,其中.
A.150人 B.225人
C.300人 D.375人
【答案】BC
【分析】设男生人数为,根据题意用表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数,进而表示出表格中其它人数,利用公式计算出,由得到的范围,进而得到男生人数的范围,选出符合题意的选项.
【详解】设男生人数为,根据题意可得列联表如下:
男生 女生 合计
选修外出研学课程
不选修外出研学课程
合计
则,
依据依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,
则,
解得,则.
故选:BC.
5.(2025·宁夏内蒙古·模拟预测)为考察某种药物对预防疾病的效果,进行了动物(单位:只)试验,得到如下列联表:
药物 疾病 合计
未患病 患病
未服用 100 80
服用 150 70 220
合计 250 400
(1)求s,t;
(2)记未服用药物的动物患疾病的概率为,给出的估计值;
(3)根据小概率值的独立性检验,能否认为药物对预防疾病有效
附:,
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1),
(2)
(3)能认为药物对预防疾病有效
【分析】(1)根据列联表求和即可;
(2)用频率估计概率,计算即可;
(3)根据公式计算,然后根据临界值表分析判断即可.
【详解】(1)由列联表知,;
(2)由列联表知,未服用药物的动物有(只),
未服用药物且患疾病的动物有(只),
所以未服用药物的动物患疾病的频率为,
所以未服用药物的动物患疾病的概率的估计值为;
(3)零假设为:药物对预防疾病无效,
由列联表得到,
根据小概率值的独立性检验,推断不成立,
即认为药物对预防疾病有效,该推断犯错误的概率不超过,
所以根据小概率值的独立性检验,能认为药物对预防疾病有效.
21世纪教育网(www.21cnjy.com)
同课章节目录