2025年高考数学第一轮复习考点巩固考点巩固卷21统计与统计案例(七大考点)(原卷版+解析版)

文档属性

名称 2025年高考数学第一轮复习考点巩固考点巩固卷21统计与统计案例(七大考点)(原卷版+解析版)
格式 zip
文件大小 3.5MB
资源类型 试卷
版本资源 通用版
科目 数学
更新时间 2025-02-19 19:19:22

文档简介

考点巩固卷21 统计与统计案例(七大考点)
考点1 简单随机抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
1.电影《孤注一掷》的上映引发了电信诈骗问题的热议,也加大了各个社区反电信诈骗的宣传力度.已知某社区共有居民480人,其中老年人200人,中年人200人,青少年80人,若按年龄进行分层随机抽样,共抽取36人作为代表,则中年人比青少年多( )
A.6人 B.9人 C.12人 D.18人
【答案】B
【分析】根据题意可以计算出分层随机抽样的抽样比例,进而计算出中年人和青年人的人数,进而可以知道中年人比青少年多多少个.
【详解】设中年人抽取人,青少年抽取人,由分层随机抽样可知,
解得,故中年人比青少年多9人.
故选:B.
2.已知三种不同型号的产品数量之比依次为,现用分层抽样的方法抽取容量为的样本,若样本中型号产品有件,则为( )
A.60 B.70 C.80 D.90
【答案】B
【分析】由条件确定型号产品的抽样比,再根据频数,频率,样本容量的关系求.
【详解】因为三种不同型号的产品数量之比依次为,
且用分层抽样的方法抽取一个容量为的样本,
所以型号产品被抽的抽样比为:,
因为型号产品有件,所以,解得.
故选:B.
3.国内某优秀新能源电池制造企业在锂电池单位能量密度技术上取得了重大突破,该制造企业内的某车间有两条生产线,分别生产高能量密度锂电池和低能量密度锂电池,总产量为400个锂电池.质检人员采用分层随机抽样的方法随机抽取了一个容量为80的样本进行质量检测,已知样本中高能量密度锂电池有35个,则估计低能量密度锂电池的总产量为( ).
A.325个 B.300个 C.225个 D.175个
【答案】C
【分析】根据分层抽样计算规则计算可得.
【详解】根据分层随机抽样可知低能量密度锂电池的产量为(个).
故选:C
4.用按比例分配的分层随机抽样方法,从某学校的600名男生和800名女生中选取14人参与某项研学活动,则女生比男生多选取( )
A.8 人 B.6人 C.4人 D.2人
【答案】D
【分析】确定抽样比计算出男生和女生的人数即可得出结论.
【详解】依题意可知,分层抽样比为,
因此可得选取的男生为6人,女生为8人,
所以女生比男生多选取2人.
故选:D
5.已知甲组数据:1,3,5,7,9,11,乙组数据:2,4,8,16,根据不同组别,用分层抽样的方法随机抽取一个容量为5的样本,则该样本的平均数不可能是( )
A.5 B.7 C.9 D.11
【答案】D
【分析】先根据分层抽样算出甲乙两组数据抽到的数据个数,列出表格,在结合平均数公式计算得出答案;
【详解】根据分层抽样可知甲组数据抽取3个数据,乙组数据抽取2个数据,具体情况如下表:
甲组抽样 乙组抽样 平均数
3,5,7 2,8 5
5,7,11 4,8 7
5,7,9 8,16 9
平均数为11时,需5个样本数字之和为55,而样本之和最大值为.
故选:D.
6.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生近视情况形成的原因,采用分层抽样的方法抽取部分学生进行调查,若抽取的小学生人数为70,则抽取的高中生中近视人数为( )
A.10 B.20 C.25 D.40
【答案】B
【分析】根据题意,求得抽取的高中生人数是人,再结合图乙可知高中生的近视率为,即可求解.
【详解】由图甲可知抽取的高中生人数是,
又由图乙可知高中生的近视率为,所以抽取的高中生中近视人数为人.
故选:B.
7.为了检查某超市货架上的饮料是否含有塑化剂,要从编号依次为1到100的塑料瓶装饮料中抽取5瓶进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5瓶饮料的编号可能是( )
A.5,15,25,35,45 B.10,25,40,55,70
C.10,20,30,40,50 D.10,30,50,70,90
【答案】D
【分析】求出分段间隔,然后验证每个选项中样本编号的间隔即可得出结论.
【详解】利用系统抽样,把编号分为5段,每段20个,每段抽取1个,号码间隔为20.
选项A中样本间隔为10,选项B中样本间隔为15,选项C中样本间隔为10,
选项D中样本间隔为20.
故选:D
8.从一个含有个个体的总体中抽取一容量为的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为,三者关系可能是( )
A. B. C. D.
【答案】B
【分析】根据抽样的概念,每个个体被抽中的概率是均等的,进而即可选择答案.
【详解】因为在抽签法抽样、随机数法抽样和分层随机抽样中,每个个体被抽中的概率均为,
所以.
故选:B.
9.下列说法中正确的个数有( )
①对具有线性相关关系的变量,,其回归方程为,若样本点的中心为,则实数的值是;
②某校共有学生1003人,用简单随机抽样的方法先剔除3人,再按简单随机抽样的方法抽取为20人,则每个学生被抽到的概率为;
③若随机事件A,B满足:,,,则事件A与B相互独立;
④若随机变量,满足,则.
A.1 B.2 C.3 D.4
【答案】B
【分析】根据根据回归直线过样本中心点,计算可判断①正确;据简单随机抽样概率均等计算可知②错误;由,可求得,可判断③正确;根据方差的计算公式可知④错.
【详解】对于①:因为回归方程为,又样本点中心为,
所以,解得,则实数的值是,故①正确;
对于②:根据简单随机抽样概率均等可知,每个学生被抽到的概率为,故②错误.
对于③:由,可得,
解得,,所以,
所以事件A与B相互独立,故③正确;
对于④:由,可得,故④错误.
故正确的命题有2个.
故选:B.
10.为了解某校初中学生的近视情况,按年级用分层抽样的方法随机抽取100名学生进行视力检测,已知初一、初二、初三年级分别有800名,600名,600名学生,则不同的抽样结果共有( )
A. B. C. D.
【答案】A
【分析】根据分层抽样可知抽取初一学生40名,初二、初三学生各30名,由分步乘法计数原理即可求解.
【详解】由初一、初二、初三年级分别有800名,600名,600名学生可知,
抽样比为,
按年级用分层抽样的方法随机抽取初一学生40名,初二、初三学生各30名,
根据分步乘法计数原理可知,
不同的抽样结果共有.
故选:.
考点2 频率分布直方图
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于 .
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
11.某公司为了解用户对其产品的满意度,从使用该产品的用户中随机调查了100个用户,根据用户对产品的满意度评分,得到如图所示的用户满意度评分的频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.对该公司产品满意度评分低于60分的用户比例估计为35%
B.对该公司产品满意度评分不低于70分的用户比例估计为40%
C.估计该公司用户对产品的满意度评分的平均值不超过60分
D.估计该公司有一半以上的用户,对产品的满意度评分介于50分至80分之间
【答案】C
【分析】由频率分布直方图计算频率逐项判断A,B,D即可,计算平均数判断C即可.
【详解】对于A,对该公司产品满意度评分低于60分的用户比例估计为:
,故A正确;
对于B,对该公司产品满意度评分不低于70分的用户比例估计为:
,故B正确;
对于C,估计该公司用户对产品的满意度评分的平均值为:
,故C错误;
对于D,对产品的满意度评分介于50分至80分之间的用户比例为:

估计该公司有一半以上的用户,对产品的满意度评分介于50分至80分之间,故D正确.
故选:C.
12.在某次高中数学模拟考试中,对800名考生的考试成绩进行统计,得到如图所示的频率分布直方图,其中分组的区间分别为,,,,,.若考生成绩在内的人数为,考生成绩在内的人数为,则( )
A.20 B.10 C.60 D.40
【答案】D
【分析】由频率分布直方图求出、,即可得解.
【详解】由频率分布直方图可得,,
所以.
故选:D.
13.为了解高中学生每天的体育活动时间,某市教育部门随机抽取高中学生进行调查,把每天进行体育活动的时间按照时长(单位:分钟)分成组:,,,,,.然后对统计数据整理得到如图所示的频率分布直方图,则可估计这名学生每天体育活动时间的第百分位数为( )
A. B. C. D.
【答案】A
【分析】根据第百分位数的概念,知道它在第二组里.运用概率之和为,构造方程,解出即可.
【详解】第百分位数设为,而,则所求百分位数在第二组,
则可列方程解得.
故选:A.
14.为了加深师生对党史的了解,激发广大师生知史爱党 知史爱国的热情,某校举办了“学党史 育新人”的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法错误的是( )
A.的值为0.005
B.估计这组数据的众数为75分
C.估计成绩低于60分的有250人
D.估计这组数据的中位数为分
【答案】D
【分析】对A,根据频率和为1求解即可;对B,根据频率分布直方图的众数判断即可;对C,计算成绩低于60分的频率,进而可得人数;对D,根据成绩低于中位数的频率为0.5计算即可.
【详解】对A,由题意,,解得,故A正确;
对B,由直方图可得估计这组数据的众数为分,故B正确;
对C,由直方图可得成绩低于60分的频率为,故估计成绩低于60分的有人,故C正确;
对D,由A可得区间的频率分别为,
因为,,故中位数位于内.
设中位数为,则,解得,故D错误.
故选:D
15.某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方图得出了下列结论,其中正确的是( )

A.估计该学生每日完成作业的时间在2小时至2.5小时的有50天
B.估计该学生每日完成作业时间超过3小时的概率为0.3
C.估计该学生每日完成作业时间的中位数为2.625小时
D.估计该学生每日完成作业时间的众数为2.3小时
【答案】C
【分析】利用频率分别直方图、频数、频率、中位数、众数直接求解.
【详解】对于A,该学生每日完成作业的时间在2小时至2.5小时的天数为:天,故A错误;
对于B,估计该学生每日完成作业时间超过3小时的概率为,故B错误;
对于C,的频率为,的频率为,
则该学生每日完成作业时间的中位数为,故C正确;
对于D,估计该学生每日完成作业时间的众数为,故D错误;
故选:C
16.为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化”的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,估计这组数据的第85百分位数为( )分
A.84 B.85 C.86 D.87
【答案】C
【分析】根据百分位数定义,结合数据求解即可.
【详解】由,解得:,
所以前4组频率之和为,前5组频率之和为,
设这组数据的第85百分位数为,则,解得:,
故选:C
17.某校高三共有200人参加体育测试,将体测得分情况进行了统计,把得分数据按照分成6组,绘制了如图所示的频率分布直方图.根据规则,82分以上的考生成绩等级为A,则获得的考生人数约为( )
A.25 B.50 C.75 D.100
【答案】B
【分析】根据频率分布直方图求获得的频率,进而可得相应的人数.
【详解】由题意可知:估计获得的频率为,
所以获得的考生人数约为.
故选:B.
18.为深入贯彻落实习近平总书记对天津工作“三个着力”重要要求,天津持续深化改革,创建全国文明城区,城市文明程度显著提升,人民群众的梦想不断实现.在创建文明城区的过程中,中央文明办对某小区居民进行了创建文明城区相关知识网络问卷调查,从本次问卷中随机抽取了50名居民的问卷结果,统计其得分数据,将所得50份数据的得分结果分为6组:,并整理得到如下的频率分布直方图,则该小区居民得分的第70百分位数为( )

A.89.09 B.86.52 C.84.55 D.81.32
【答案】C
【分析】利用百分位数的概念以及频率分布直方图求解.
【详解】由题意得,
解得,
因为前4组数据的频率之和为,
前5组数据的频率之和为,
则分位数在内,设分位数为x,
则,解得,
所以分位数约为.
故选:C.
19.某市为了解全市12000名高一学生的的体能素质情况,在全市高一学生中随机抽取了1000名学生进行体能测试,并将这1000名的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,下列结论中正确的是( )
A.图中的值为0.020;
B.同一组中的数据用该组区间的中点值做代表,则这1000名学生的平均成绩约为80.5;
C.估计样本数据的75%分位数为88;
D.由样本数据可估计全市高一学生体测成绩优异(80分及以上)的人数约为5000人.
【答案】B
【分析】A.根据频率和为1,计算的值;B.根据平均数公式,判断B;C.根据百分位数公式,判断C;计算体测成绩在内的频率,再结合总人数,即可判断D.
【详解】A.由频率分布直方图可知,,
得:,故A错误;
B.,故B正确;
C.设百分位数,易得,
则,
解得:,故C错误;
D.则体测成绩在的频率为,
估计全市高一学生体测成绩优异(80分及以上)的人数约为人,故D错误.
故选:B.
20.某校举行知识竞赛,对全校参赛的1000名学生的得分情况进行了统计,把得分数据按,,,,分成5组,得到如图所示的频率分布直方图,则下列说法不正确的是( )
A.图中的x值为0.020 B.得分在的人数为400
C.这组数据的极差为50 D.这组数据的平均数的估计值为77
【答案】C
【分析】根据频率分布直方图中所有长方形的面积和为1,以及极值、频数以及平均数的计算,对每个选项进行逐一分析,即可判断和选择.
【详解】对于A,由,可解得,故选项A正确;
对于B,得分在80分及以上的人数的频率为,
故人数为,故选项B正确;
对于C,频率分布直方图无法看出这组数据的最大值和最小值,故选项C不正确;
对于D,这组数据的平均数的估计值为:,故选项D正确.
故选:C.
考点3 均值及方差的性质
平均数、方差的性质
如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
21.样本数据的平均数,方差,则样本数据,,,的平均数,方差分别为( )
A.9,4 B.9,2 C.4,1 D.2,1
【答案】A
【分析】由平均值、方差的性质求新数据的平均数和方差.
【详解】由,得样本数据,,,的平均数为,
由,得样本数据,,,的方差为.
故选:A
22.若数据的标准差为,则数据,,,…,的标准差为( )
A. B. C. D.
【答案】D
【分析】根据线性变化前后数据的方差的关系求解.
【详解】因为数据的标准差为,
由数据方差的性质,可得数据,,…,的标准差为,
故选:D.
23.已知数据的平均数为10,方差为10,则的平均数和方差分别为( )
A.32,90 B.32,92 C.30,90 D.30,92
【答案】A
【分析】根据平均数、方差的性质计算可得.
【详解】因为的平均数是10,方差是10,
所以的平均数是,方差是.
故选:A.
24.下列命题错误的是( )
A.若数据的标准差为,则数据的标准差为
B.若,则
C.若,则
D.若为取有限个值的离散型随机变量,则
【答案】D
【分析】根据方差以及标准差的性质即可求解A;结合二项分布的概率公式,即可求解B;结合正态分布的对称性,即可求解C;结合方差的非负性,即可求解D.
【详解】数据,,,,的标准差为,则数据,,,,的标准差为,故A正确;
,,则,得,
,故B正确;
,,
则,故C正确;
为取有限个值的离散型随机变量,
则,故D错误.
故选:D.
25.已知样本数据的平均数和标准差均为4,则数据的平均数与方差分别为( )
A. B. C. D.
【答案】B
【分析】根据样本数据同加上一个数和同乘以一个数后的新数据的平均值和方差的性质,即可求得答案.
【详解】由题意知样本数据的平均数和标准差均为4,则的方差为16,
则的平均数为,方差为,
故的平均数为,方差,
故选:B
26.已知一组数据,,,,的平均数是,方差是,则对于以下数据:,,,,下列选项正确的是( )
A.平均数是,方差是6 B.平均数是,方差是
C.平均数是5,方差是 D.平均数是5,方差是12
【答案】D
【分析】根据平均数以及方差的性质即可求解.
【详解】由于数据,,,,的平均数是,方差是,故数据:,,,,的平均数是,方差是,
故选:D
27.某人在“全球购”平台上购买了件商品,这些商品的价格如果按美元计算,则平均数为,标准差为,如果按人民币计算(汇率按1美元=7元人民币),则平均数和方差分别为( )
A., B., C., D.,
【答案】D
【分析】根据一组数据同乘以一个数后的平均数以及方差的性质计算即可.
【详解】由题意知这些商品的价格如果按人民币计算,价格是按美元计算的价格的7倍,故按人民币计,则平均数和方差分别为.
故选:D.
28.已知样本数据的平均数为 方差为,若样本数据,的平均数为,方差为,则( )
A. B. C. D.
【答案】D
【分析】由平均数和方差的运算性质即可求解.
【详解】由方差的性质,得,,…,的方差为,
故,解得.由,可知.
由平均数的性质,得,,…,的平均数为,
故,
解得.
故选:D.
29.一组数据的平均数和标准差分别为3和1,另一组数据(其中)的平均数和标准差分别为10和4,则( )
A.16 B.8 C. D.
【答案】C
【分析】
根据两组数据的线性关系确定它们的平均数与标准差的关系列方程,即可得的值,从而可得答案.
【详解】由题可知,,解得,则.
故选:C.
30.已知数据,,…,的平均数和方差分别为4,10,那么数据,,…,的平均数和方差分别为( )
A., B.1, C., D.,
【答案】D
【分析】
利用平均数与方差的运算性质求解即可.
【详解】设数据,,…,的平均数和方差分别为和,
则数据,,…,的平均数为,方差为,
得,,
故选:D.
考点4 总体百分位数的估计
百分位数
(1)定义
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
31.小明希望自己的高考数学成绩能超过120分,为了激励自己,他记录了近8次数学考试成绩,并绘制成折线统计图,如图,这8次成绩的第80百分位数是( )
A.100 B.105 C.110 D.120
【答案】C
【分析】根据百分位数定义求解即可.
【详解】因为,由图可知8次成绩由小到大排序,
第7个位置的数是110,所以这8次成绩的第80百分位数是110.
故选:C.
32.某校高三年级举行数学知识竞赛,并将100名学生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则估计这组数据的第85百分位数为( )
A.85 B.86 C.86.5 D.87
【答案】B
【分析】由频率分布直方图性质求,根据百分位数定义,结合数据求解即可.
【详解】由,解得:,所以前4组频率和为,前5组频率和为,
设这组数据的第85百分位数为,则,解得:,
故选:B
33.某地气象部门统计了当地2024年3月前8天每天的最高气温T(单位:℃),数据如下:
时间 第1天 第2天 第3天 第4天 第5天 第6天 第7天 第8天
T(℃) 8 12 8 14 16 11 18 21
则这8天的气温数据的75%分位数为( )
A.15 B.16 C.17 D.18
【答案】C
【分析】由小到大排列数据,再由百分数求法按步骤求解即可.
【详解】将8天的数据由小到大排列:.
因为,6是整数,
故第这8天的气温数据的75%分位数为.
故选:C.
34.已知某学校参加学科节数学竞赛决赛的8人的成绩(单位:分)为:72,78,80,81,83,86,88,90,则这组数据的第75百分位数是( )
A.86 B.87 C.88 D.90
【答案】B
【分析】根据样本数据百分位数的定义求解即可.
【详解】将数据从小到大排序得,
因为,
所以第75百分位数是.
故选:B.
35.已知一组数据:4,6,7,9,11,13,则这组数据的第65百分位数为( )
A.6 B.7 C.9 D.11
【答案】C
【分析】由百分位数的定义,求出第65百分位数是这组数据从小到大排列的第几个数,即可得到答案.
【详解】已知一组数据:4,6,7,9,11,13,共6个数,
则,
所以这组数据的第65百分位数为从小到大排列的第四个数9.
故选:C.
36.给出下列说法,其中正确的是(  )
A.某病8位患者的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50百分位数为
B.已知数据的平均数为2,方差为3,那么数据,,的平均数和方差分别为5,13
C.在回归直线方程中,相对于样本点的残差为
D.样本相关系数
【答案】C
【分析】根据百分位数的概念可判断A的真假;根据两组相关数据的平均数和方差的计算方法判断B的真假;计算残差判断C的真假;根据相关系数的取值范围判断D.
【详解】对A:将3,3,8,4,2,7,10,18由小到大排列为2,3,3,4,7,8,10,18,第50百分位数即为中位数,这组数的中位数为,所以A错误;
对B:由数据的平均数为2,方差为3,则数据,,的平均数为,方差为,所以B错误;
对C:残差,故C正确;
对D:样本的相关系数应满足,所以D错误.
故选:C
37.某台机器每天生产10000个零件,现连续12天检测,得到每天的次品零件个数依次为:8,12,9,18,16,17,15,9,18,20,13,11,则这组样本数据的中位数与第60百分位数之和是( )
A.29 B.30 C.30.5 D.31
【答案】B
【分析】由百分位数、中位数的定义即可求解.
【详解】将这12个数据从小到大排列为,
,所以排列后的第8个数即为第60百分位数:16,
中位数为,故所求为:.
故选:B.
38.样本数据12,8,32,10,24,22,12,33的第60百分位数为( )
A.8 B.12 C.22 D.24
【答案】C
【分析】根据给定条件,利用第60百分位数的定义求解即得.
【详解】样本数据12,8,32,10,24,22,12,33,按从小到大排序为8,10,12,12,22,24,32,33,
由,得样本数据的第60百分位数为升序排列的第五个数,即22.
故选:C
39.样本数据的第60百分位数为( )
A.23 B.31 C.33 D.36
【答案】C
【分析】由百分位数的定义,先将样本数据从小到大排列,再计算第60百分位数为第6和第7个数的平均数即可.
【详解】将这组数据从小到大排列为,
数据的第60百分位数为33,
故选:C.
40.样本数据11 ,12 ,13 ,15 ,16 ,13 ,14 ,15 ,11的第一四分位数为( )
A.11.5 B.12 C.12.5 D.13
【答案】B
【分析】把样本数据由小到大排列,再利用第一四分位数的定义求解即得.
【详解】样本数据由小到大排列为11 ,11,12 ,13 ,13 ,14 ,15 ,15,16 ,
由,得样本数据的第一四分位数为12.
故选:B
考点5 相关关系与相关系数
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
41.如图对两组数据,和,分别进行回归分析,得到散点图如图,并求得线性回归方程分别是和,并对变量,进行线性相关检验,得到相关系数,对变量,进行线性相关检验,得到相关系数,则下列判断正确的是( )
A. B. C. D.
【答案】D
【分析】由两散点图中散点的位置关系直接得答案.
【详解】由散点图可知,与负相关,与正相关,则,,故A、B错误;
且图形中点比更加集中在一条直线附近,
则,又,,得.
故C错误,D正确.
故选:D.
42.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】B
【分析】根据散点图和相关系数的概念和性质辨析即可.
【详解】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,
而所在散点图比较分散,线性相关性比较弱点,相关系数的绝对值越远离.
综上所得:.
故答案为:B.
43.上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
【答案】C
【分析】根据散点图判断两变量的线性相关性,再根据线性相关性与相关系数的关系判断即可.
【详解】由散点图可知,图一两个变量成正相关,且线性相关性较强,故,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故,,,故,所以.
故选:C.
44.调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】B
【分析】由散点图的特点可分析相关性的问题,从而判断选项,根据相关系数的定义可判断选项.
【详解】由散点图可知,散点的分布集中在一条直线附近,
所以学生身高和体重具有相关性,不正确;
又身高和体重的相关系数为,相关系数,
所以学生身高和体重呈正相关,正确,不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是,不正确.
故选:.
45.已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【答案】D
【分析】根据已知条件,结合回归方程可判断与正相关,再由变量与负相关,即可判断与负相关.
【详解】根据回归方程可知变量与正相关,又变量与负相关,
由正相关、负相关的定义可知,与负相关.
故选:D
46.某校数学建模兴趣小组为研究本地区儿子身高与父亲身高之间的关系,抽样调查后得出与线性相关,且经验回归方程为.调查所得的部分样本数据如下:
父亲身高 164 166 170 173 173 174 180
儿子身高 165 168 176 170 172 176 178
则下列说法正确的是( )
A.儿子身高是关于父亲身高的函数
B.当父亲身高增加时,儿子身高增加
C.儿子身高为时,父亲身高一定为
D.父亲身高为时,儿子身高的均值为
【答案】D
【分析】根据变量的线性相关、经验回归方程特点逐项分析即可得结论.
【详解】由题意知父亲身高与儿子身高具有线性相关关系,
不是函数关系,故A不正确;
当父亲身高增加时,儿子身高约增加,故B不正确;
当儿子身高为时,代入可得,父亲身高可能为,故C不正确;
若某父亲身高为,则其儿子的身高估计为,故D正确.
故选:D.
47.某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高x(单位:) 167 173 175 177 178 180 181
体重y(单位:) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A. B.
C. D.
【答案】A
【分析】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数.
【详解】身高的平均数为,
因为离群点的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉后经验回归直线的截距变小而斜率变大,故,
去掉后相关性更强,拟合效果也更好,且还是正相关,所以.
故选:A
48.已知变量,之间的一组相关数据如下表所示:
6 8 10 12
6 3 2
据此得到变量,之间的线性回归方程为,则下列说法不正确的是( )
A.变量,之间成负相关关系 B.可以预测,当时,
C. D.该回归直线必过点
【答案】C
【分析】由,可判断A正确;当时,得到的预测值,可判定B正确;由表格中的数据,求得样本中心,代入求得的值,可判定C不正确;由,求得,可判定D正确.
【详解】对于A中,由,可得变量之间呈现负相关关系,所以A正确;
对于B中,当,可得,所以B正确;
对于C中,由表格中的数据,可得,
则,解得,所以C不正确;
对于D中,由,可得,所以该回归直线必经过点,所以D正确.
故选:C.
49.已知变量x和y满足经验回归方程,且变量x和y之间的一组相关数据如表所示,则下列说法错误的是( )
6 8 10 12
7 4 3
A.变量x和y呈负相关 B.当时,
C. D.该经验回归直线必过点
【答案】C
【分析】对A:借助回归方程的斜率即可得;对B:将代入方程计算即可得;对C、D:借助线性回归方程必过点计算即可得.
【详解】对A:由可得,故变量x和y呈负相关,故A正确;
对B:当时,,故B正确;
对C:由表可得,,
故,解得,故C错误;
对D:由,,故D正确.
故选:C.
50.对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
【答案】C
【分析】利用散点图,结合相关系数的知识可得答案.
【详解】由题意可知,变量的散点图中,随的增大而增大,所以变量与呈现正相关;
再分别观察两个散点图,图比图点更加集中,相关性更好,所以线性相关系数.
故选:C.
考点6 线性回归方程(非线性)
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
51.某零售行业为了解宣传对销售额的影响,在本市内随机抽取了5个大型零售卖场,得到其宣传费用x(单位:万元)和销售额y(单位:万元)的数据如下:
x(万元) 3 4 5 6 7
y(万元) 45 50 60 65 70
由统计数据知y与x满足线性回归方程,其中,当宣传费用时,销售额y的估计值为( )
A.89.5 B.90.5 C.92.5 D.94.5
【答案】B
【分析】由题意求得样本中心点的坐标,进一步得,由此即可预测求解.
【详解】由表中数据可知,,
所以,解得,
所以当宣传费用时,销售额y的估计值为.
故选:B.
52.下列说法中,正确命题的个数为( )
① 已知随机变量服从二项分布,若,则.
②对具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,则实数的值是.
③以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则、的值分别是和.
④若样本数据的方差为,则数据:的方差为16
A.0个 B.1个 C.2个 D.3个
【答案】D
【分析】根据二项分布的期望公式及期望的性质判断①;根据回归直线方程必过样本中心点,判断②;将两边取对数,即可判断③;根据方差的性质判断④.
【详解】对于①:因为服从二项分布,所以,
所以,解得,故①正确;
对于②:因为线性回归直线必过样本中心点,所以,可得,故②正确;
对于③:由两边取对数可得,
令,求得线性回归方程为,所以,,则,,故③正确;
对于④:若样本数据的方差为,则数据的方差为,故④错误;
故正确的为①②③共个.
故选:D
53.下列说法正确的是( )
A.若数据,,…,的方差为1,则数据,,…,的标准差为4
B.已知一组数据2,3,5,7,8,9,9,11,则该组数据的第40百分位数为6
C.一组样本数据的频率分布直方图是单峰的且形状是对称的,则该组数据的平均数和中位数应该大体上差不多
D.经验回归直线恒过,且在回归直线上的样本点越多,拟合效果越好
【答案】C
【分析】由统计知识,依次判断即可.
【详解】解:对于A项,若数据的方差为1,则数据的方差为,标准差为2,故A项错误;
对于B项,由于,则该组数据的第40百分位数是第4个数据,为7,故B项错误;
对于C项,由于频率分布直方图是单峰的且形状是对称的,故C项正确;
对于D项,应是偏差平方和越小,拟合效果越好,故D项错误;
故选:C
54.云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某科技公司2018年至2022年云计算市场规模数据,且市场规模与年份代码的关系可以用模型(其中为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
由上表可得经验回归方程,则2026年该科技公司云计算市场规模的估计值为( )
(参考公式:)
A. B. C. D.
【答案】C
【分析】根据可得线性回归方程,再由回归方程求出2026年z的预测值,代入即可得解.
【详解】因为
所以
即经验回归方程
当时,
所以
即2026年该科技公司云计算市场规模y的估计值为.
故选:C.
55.下列说法中正确的是( )
A.具有线性相关关系的变量,,其线性回归方程为,若样本的中心,则
B.数据3,4,2,8,1,5,8,6的中位数为5
C.将一组数据中的每一个数据加上同一个正数后,方差变大
D.若甲、乙两组数据的相关系数分别为和0.89,则甲组数据的线性相关性更强
【答案】D
【分析】把样本点的中心坐标代入线性回归方程,求出判断A;由中位数的计算公式即可判断B;由方差的性质即可判断C;由相关系数的意义即可判断D.
【详解】对于A,把代入,可得,解得,故A错误;
对于B,数据3,4,2,8,1,5,8,6,即1,2,3,4,5,6,8,8的中位数为,故B错误;
对于C,将一组数据中的每一个数据加上同一个正数后,方差不变,故C错误;
对于D,若甲、乙两组数据的相关系数分别为和0.89,,因为,则甲组数据的线性相关性更强,故D正确.
故选:D.
56.下列命题错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1
B.设,若,,则
C.线性回归直线一定经过样本点的中心
D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地随机摸出20个球作为样本,用随机变量X表示样本中黄球的个数,则X服从二项分布,且
【答案】D
【分析】根据相关系数的表示意义、二项分布的有关性质、线性回归方程和超几何分布的定义依次判断选项即可.
【详解】A:两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故A正确;
B:由,得,解得,故B正确;
C:线性回归直线一定经过样本点的中心,故C正确;
D:由于是不放回地随机摸出20个球作为样本,
所以由超几何分布的定义知服从超几何分布,得,故D错误;
故选:D
57.已知变量x和y的统计数据如表:
x 1 2 3 4 5
y 6 6 7 8 8
根据上表可得回归直线方程,据此可以预测当时,(  )
A.8.5 B.9 C.9.5 D.10
【答案】D
【分析】根据给定的数表,求出样本的中心点,进而求出即可得解.
【详解】依题意,,,
即样本的中心点为,于是,解得,即,
当时,预测.
故选:D
58.下列说法中正确的个数为( )个
①对立事件一定是互斥事件;②在经验回归直线方程中,当解释变量每增加一个单位时,预报变量减少0.1个单位;③两个随机变量的线性相关性越强,相关系数绝对值越接近于1;④在回归分析模型中,若相关指数越小,则残差平方和越大,模型的拟合效果越好.
A.1 B.2 C.3 D.4
【答案】B
【分析】根据对立事件与互斥事件定义、回归直线中回归系数的含义、相关系数的计算公式和回归分析的基本思想依次判断各个选项即可.
【详解】对于①,对立事件一定是互斥事件,但互斥事件未必是对立事件,故①正确;
对于②,根据回归直线方程中回归系数的含义可知:当解释变量每增加一个单位时,预报变量增加个单位,故②错误;
对于③,根据相关系数的计算公式可知:两个变量的线性相关性越强,相关系数的绝对值越接近,故③正确;
对于④,根据回归分析的基本思想可知:相关指数越小,则残差平方和越大,模型的拟合效果越差,④错误.
故选:B.
59.下列说法不正确的是( ).
A.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是
【答案】A
【分析】利用百分位数的定义即可判断选项A,利用正态分布的性质即可判断选项B,根据线性相关系数的性质即可判断选项C,利用线性回归方程中的基本量即可判断选项D.
【详解】对A:因为,所以第百分位数为,A错误;
对B:若随机变量服从正态分布,且,
则,
则,B正确;
对C:若线性相关系数越接近,则两个变量的线性相关性越强,C正确;
对于D,样本点的中心为,所以,,
因为满足线性回归方程,所以,所以,D正确.
故选:A
60.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A,进一步可得回归方程,由此即可验算B选项,由百分位数的概念即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
对于B,当时,y的预测值为,故B错误;
对于C,样本数据y的第40百分位数为,故C错误;
对于D,由相关系数公式可知,去掉样本点后,x与y的样本相关系数r不会改变,故D正确.
故选:D.
考点7 独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
(2)两个分类变量和是否有关系的判断标准:
统计学研究表明:
当时,认为与无关;
当时,有的把握说与有关;
当时,有的把握说与有关;
当时,有的把握说与有关.
61.“民政送温暖,老人有饭吃”.近年来,各级政府,重视提高老年人的生活质量.在医疗、餐饮等多方面,为老人提供了方便.单从用餐方面,各社区,创建了“爱心食堂”、“爱心午餐”、“老人食堂”等等不同名称的食堂,解决了老人的吃饭问题.“爱心食堂A”为了更好地服务老人,于3月28日12时,食堂管理层人员对这一时刻用餐的118人,对本食堂推出的15种菜品按性价比“满意”和“不满意”作问卷调查,其中,有13人来食堂用餐不足5次,另有儿童5人,他们对菜品不全了解,不予问卷统计,在被问卷的人员中男性比女性多20人.用餐者对15种菜品的性价比认为“满意”的菜品数记为,当时,认为该用餐者对本食堂的菜品“满意”,否则,认为“不满意”.统计结果部分信息如下表:
满意 不满意 合计
男 40
女 20
合计
(1)①完成上面列联表;
②能有多大(百分比)的把握认为用餐者对本食堂菜品的性价比是否满意与性别有关?
(2)用分层抽样在对菜品的性价比“满意”的人群中抽取6人,再从这6人中随机抽取3人,用表示抽取的3人中的男性人数,求的分布列和期望.
附:参考公式和临界值表,其中,.
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
【答案】(1)①列联表见解析;②(2)分布列见解析,
【分析】(1)①依题意补全列联表;②计算值和临界值比较,得到把握性;
(2)根据分层抽样,得到男性4人和女性2人,从而可知的可能取值为,再利用古典概型求出相应取值的概率,即可求出分布,再利用期望的计算公式,即可求解.
【详解】(1)①由题意,问卷调查人数为(人),其中,男性60人,女性40人,
得完整列联表如下表:
满意 不满意 合计
男 40 20 60
女 20 20 40
吕计 60 40 100
②,而.
所以有的把握认为用餐者对本食堂菜品的性价比是否满意与性别有关.
(2)由(1)知,对菜品的性价比“满意”的人群中有40名男性和20名女性,用分层抽样分别抽取男性4人和女性2人,
易知的可能取值为,
,,

所以的分布列为
.
62.某学校举办了一次主题为“科技兴国,强国有我”的知识竞赛,并从所有参赛学生中随机抽取了男、女生各50人,统计他们的竞赛成绩(满分100分,每名参赛学生至少得60分),并将成绩分成4组:,,,(单位:分),得到如下的频率分布直方图.
(1)现将竞赛成绩不低于90分的学生称为“科技知识达人”,成绩低于90分的学生称为“非科技知识达人”.把随机抽取的参赛学生数据统计如下,将下列列联表补充完整,并判断是否有95%的把握认为能否获得“科技知识达人”称号与性别有关.
科技知识达人 非科技知识达人 合计
男生 15
女生
合计
(2)将频率视为概率,从所有参赛学生中随机抽取3人进行访谈,记这3人中是“科技知识达人”的人数为,求的分布列与数学期望.
附:(其中).
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)列联表见解析,有的把握认为能否获得“科技知识达人”称号与性别有关
(2)分布列见解析,期望
【分析】(1)补充完整列联表,计算的值,再与临界值比较即可;
(2)由题意可知,的可能取值为0,1,2,3,利用二项分布的概率公式求出相应的概率,进而得到的分布列,再结合期望公式求解.
【详解】(1)列联表补充完整如下:
科技知识达人 非科技知识达人 合计
男生 15 35 50
女生 5 45 50
合计 20 80 100
零假设:能否获得“科技知识达人”称号与性别无关,
则,
所以依据小概率值的独立性检验,我们推断不成立,即有的把握认为能否获得“科技知识达人”称号与性别有关;
(2)从所有参赛学生中任取一人是“科技知识达人”的概率,
由题意可知:,的可能取值为0,1,2,3,
则,



所以的分布列为:
0 1 2 3
所以.
63.某数学老师在其任教的甲、乙两个班级中各抽取30名学生进行测试,分数分布如表:
分数区间 甲班人数 乙班人数
[0,30) 3 6
[30,60) 6 6
[60,90) 9 12
[90,120) 6 3
[120,150] 6 3
(1)若成绩在120分以上(含120分)为优秀,求从乙班参加测试的成绩在90分以上(含90分)的学生中,随机任取2名学生,恰有1名为优秀的概率;
(2)根据以上数据完成下面的2×2列联表,则在犯错的概率不超过0.1的前提下,是否有足够的把握认为学生的数字成绩优秀与否和班级有关?
优秀 不优秀 总计
甲班
乙班
总计
参考公式:,其中.
【答案】(1);
(2)列联表见解析,没有足够的把握说明学生的数学成绩是否优秀与班级有关系.
【分析】(1)列举基本事件,利用古典概型的概率公式求解.
(2)由题意进行数据分析,完善列联表,计算,对照参数下结论.
【详解】(1)乙班参加测试的分以上的同学有人,其中成绩优秀的有3人,记为,另3人记为,
从这六名学生中抽取两名的样本空间,有15个样本点,
设事件表示恰有一位学生成绩优秀,则,有9个样本点,
所以所求概率为.
(2)由给定的分数分布表,得2×2列联表:
优秀 不优秀 总计
甲班 6 24 30
乙班 3 27 30
总计 9 51 60

在犯错概率小于的前提下,没有足够的把握说明学生的数学成绩是否优秀与班级有关系.
64.同城配送是随即时物流发展而出现的非标准化服务,省时省力是消费者使用同城配送服务的主要目的.某同城配送服务公司随机统计了800名消费者的年龄(单位:岁)以及每月使用同城配送服务的次数,得到每月使用同城服务低于5次的有550人,并将每月使用同城配送服务次数不低于5次的消费者按照年龄进行分组,得到如图所示的频率分布直方图.
(1)估计每月使用同城配送服务不低于5次的消费者年龄的平均值和中位数(结果精确到0.1,每组数据用该组区间的中点值代表);
(2)若年龄在内的人位于年龄段,年龄在内的人位于年龄段II,把每月使用同城配送服务低于5次的消费者称为“使用同城配送服务频率低”,否则称为“使用同城配送服务频率高”,若800名消费者中有400名在年龄段I,补全列联表,并判断是否有的把握认为消费者使用同城配送服务频率的高低与年龄段有关?
年龄段I 年龄段II 合计
使用同城配送服务频率高
使用同城配送服务频率低
合计
参考公式:,其中.附:
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1)平均数为33.4,中位数为32.3
(2)表格见解析,有的把握认为同城配送服务的使用频率高低与年龄段有关.
【分析】(1)根据频率分布直方图中的平均数和中位数求解公式求解即可;
(2)根据题目数据完善列联表,计算卡方,与临界值比较即可判断.
【详解】(1)每月使用同城配送服务不低于5次的消费者年龄的平均数为
设每月使用同城配送服务不低于5的消费者年龄的中位数为,
则,解得.
(2)补全的列联表如下:
年龄段I 年龄段II 合计
使用同城配送服务频率高 145 105 250
使用同城配送服务频率低 255 295 550
合计 400 400 800
所以.
所以,有的把握认为同城配送服务的使用频率高低与年龄段有关.
65.某地为调查年龄在35―50岁段人群每周的运动情况,从年龄在35―50岁段人群中随机抽取了200人的信息,将调查结果整理如下:
女性 男性
每周运动超过2小时 60 80
每周运动不超过2小时 40 20
(1)根据以上信息,能否有99%把握认为该地年龄在35―50岁段人群每周运动超过2小时与性别有关?
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人.再从这6人中随机抽取2人进行访谈,求这2人中至少有1人是女性的概率.
参考公式:,.
0.10 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
【答案】(1)有(2)
【分析】(1)根据二联表求解卡方,即可与临界值比较作答,
(2)列举基本事件,即可由古典概型的概率个数求解.
【详解】(1)由题意可得
女性 男性
每周运动超过2小时 60 80 140
每周运动不超过2小时 40 20 60
总计 100 100 200
由.
知:有99%把握认为该地35-50岁年龄段人每周运动超过2小时与性别有关.
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人
在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人,则女性抽取4人,记为:,,,,男性抽取2人,记为:,,从这6人中随机抽取2人,抽法有:
,,,,,,,,,,,,,,共15种,
这两人中至少有一人是女性的抽法有:
,,,,,,,,,,,,,共14种,故两人中至少有一人是女性的概率
66.为了有效预防流感,很多民众注射了流感疫苗.市防疫部门随机抽取了1000人进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.医学研究表明,流感的检测结果有检错的可能,已知患流感的人其检测结果有呈阳性(流感),而没有患流感的人其检测结果有呈阴性(未感染)
(1)估计该市流感感染率是多少?
(2)根据所给的数据,判断是否有99%的把握认为注射流感疫苗与预防流感有关;
(3)已知某人的流感检查结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附:.
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)(2)有(3)
【分析】(1)根据古典概型运算公式进行求解即可;
(2)根据题中数据得到列联表,结合卡方运算公式和附表中的值进行判断即可;
(3)利用条件概率和全概率公式进行求解即可.
【详解】(1)估计流感的感染率;
(2)列联表如下:
疫苗情况 患有流感 不患有流感 合计
打疫苗 220 580 800
不打疫苗 80 120 200
合计 300 700 100
所以,
所以有99.9%的把握认为注射流感疫苗与流感发病人数有关.
(3)设事件A为“一次检测结果呈阳性”,事件B为“被检测者确实患有流感”,
由题意得,,,,,
由全概率公式得,
所以,于是此人真的患有流感的概率是0.976.
67.为了引导学生阅读世界经典文学名著,某学校举办“名著读书日”活动,每个月选择一天为“名著读书日”,并给出一些推荐书目.为了了解此活动促进学生阅读文学名著的情况,该校在此活动持续进行了一年之后,随机抽取了校内100名学生,调查他们在开始举办读书活动前后的一年时间内的名著阅读数量,所得数据如下表:
不少于5本 少于5本 合计
活动前 35 65 100
活动后 60 40 100
合计 95 105 200
(1)依据小概率值的独立性检验,分析举办该读书活动对学生阅读文学名著是否有促进作用;
(2)已知某学生计划在接下来的一年内阅读6本文学名著,其中4本国外名著,2本国内名著,现从6本名著中随机抽取3本在上半年读完,求上半年读完的国内名著本数的分布列及数学期望.
附:,其中.
临界值表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)有促进作用(2)分布列见解析,
【分析】(1)根据公式计算得认为举办该读书活动对学生阅读文学名著有促进作用,该推断犯错误的概率不超过0.001;
(2)上半年读完的国内名著本数可能为0、1、2,由超几何分布的概率计算得到分布列,进而得到数学期望.
【详解】(1)零假设:该读书活动对学生阅读文学名著没有促进作用;
由表中数据可知,,
故可推断不成立,即认为举办该读书活动对学生阅读文学名著有促进作用,该推断犯错误的概率不超过0.001.
(2)由题意可知,的可能取值为0、1、2,
;;;
所以的分布列为:
0 1 2
所以的数学期望为:.
68.随着AI技术的不断发展,人工智能科技在越来越多的领域发挥着重要的作用.某校在寒假里给学生推荐了一套智能辅导系统,学生可自愿选择是否使用该系统完成假期的作业.开学时进行了入学测试,随机抽取了100名学生统计得到如下列联表:
使用智能辅导系统 未使用智能辅导系统 合计
入学测试成绩优秀 20 20 40
入学测试成绩不优秀 40 20 60
合计 60 40 100
(1)判断是否有95%的把握认为入学测试成绩优秀与使用智能辅导系统相关;
(2)若把这100名学生按照入学测试成绩是否优秀进行分层随机抽样,从中抽取5人,再从这5人中随机抽取2人,记抽取的2人中入学测试成绩优秀的人数为,求的分布列及数学期望.
附:,其中.
0.10 0.05 0.025 0.010
2.706 3.841 5.024 6.635
【答案】(1)没有(2)分布列见解析,
【分析】(1)计算卡方后与3.841比较大小即可得;
(2)借分层抽样的性质可得5人中成绩优秀的人数,再得出的取值可能后计算相应的概率即可得其分布列,即可得其期望.
【详解】(1),
没有的把握认为入学测试成绩优秀与使用智能辅导系统相关;
(2),,人中2人成绩优秀,3人成绩不优秀,
的取值可能为、、,
,,,
分布列为:
0 1 2

69.某海鲜餐厅在试营业期间,同时采用自助餐和团购套餐两种营销模式,其中自助餐模式是指顾客可随意享用餐厅内所有菜品,最长可用餐2小时;团购套餐是指顾客在APP上购买团购券后到店消费,只可享用套餐内所包含的菜品,用餐时间不限.该餐厅为了了解这两种营销模式的受欢迎程度,现随机调查了130位顾客对这两种营销模式的意见反馈,统计结果如下表:
认为自助餐更有性价比 认为团购套餐更有性价比
男性顾客 40 20
女性顾客 30 40
(1)依据小概率值的独立性检验,推断能否认为顾客对这两种营销模式的意见与顾客的性别有关;
(2)店长统计了第,,,天自助餐的用餐人数,统计结果如下(已知):
(天)
(用餐人数) 32 52 73 95
经计算得经验回归方程为,以样本的相关系数为标准,对该经验回归方程的拟合效果进行说明.
附:(i)在经验回归方程中,.
(ii)相关系数若,可认为该模型拟合效果良好,反之,则认为该模型拟合效果不好.
(iii),其中.
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1)答案见解析;(2)答案见解析.
【分析】(1)提出零假设,计算,比较其与临界值大小,给出结论.
(2)由条件,结合公式求相关系数即可判断.
【详解】(1)零假设为顾客对这两种营销模式的意见与顾客的性别独立,
由已知,
又,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此,可以认为成立,即认为顾客对这两种营销模式的意见与顾客的性别无关.
(2)因为经验回归方程为,
所以,,
又,
所以,

所以,
所以该经验回归方程的拟合效果非常好.
70.2024年3月,某校语文教师对学生提出“3月读一本书”的要求,每位学生都选择且只能选择《红楼梦》和《三国演义》中的一本,现随机调查该校男、女生各100人,整理得到列联表如下.
《红楼梦》 《三国演义》
男生 30 70
女生 60 40
(1)依据小概率值的独立性检验,能否认为学生选择《红楼梦》还是《三国演义》与性别有关?
(2)已知学生选择哪本书是相互独立的,用频率代替概率,从该校选择《红楼梦》的学生中随机抽取3人,抽到的女生人数设为,求的分布列和数学期望.
参考公式:,其中.
参考数据:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)有关(2)分布列见解析,
【分析】(1)利用公式计算,对照临界值表下结论;
(2)依题意,根据二项分布的概率公式求解概率,由此能求出的分布列和期望.
【详解】(1)因为,
所以依据小概率值的独立性检验,可以认为学生选择《红楼梦》还是《三国演义》与性别有关.
(2)由题可知,的所有可能取值为0,1,2,3,
选择《红楼梦》的学生是女生的概率为,所以.
所以, ,
, ,
所以的分布列为
0 1 2 3
P
所以
21世纪教育网(www.21cnjy.com)考点巩固卷21 统计与统计案例(七大考点)
考点1 简单随机抽样
1.电影《孤注一掷》的上映引发了电信诈骗问题的热议,也加大了各个社区反电信诈骗的宣传力度.已知某社区共有居民480人,其中老年人200人,中年人200人,青少年80人,若按年龄进行分层随机抽样,共抽取36人作为代表,则中年人比青少年多( )
A.6人 B.9人 C.12人 D.18人
2.已知三种不同型号的产品数量之比依次为,现用分层抽样的方法抽取容量为的样本,若样本中型号产品有件,则为( )
A.60 B.70 C.80 D.90
3.国内某优秀新能源电池制造企业在锂电池单位能量密度技术上取得了重大突破,该制造企业内的某车间有两条生产线,分别生产高能量密度锂电池和低能量密度锂电池,总产量为400个锂电池.质检人员采用分层随机抽样的方法随机抽取了一个容量为80的样本进行质量检测,已知样本中高能量密度锂电池有35个,则估计低能量密度锂电池的总产量为( ).
A.325个 B.300个 C.225个 D.175个
4.用按比例分配的分层随机抽样方法,从某学校的600名男生和800名女生中选取14人参与某项研学活动,则女生比男生多选取( )
A.8 人 B.6人 C.4人 D.2人
5.已知甲组数据:1,3,5,7,9,11,乙组数据:2,4,8,16,根据不同组别,用分层抽样的方法随机抽取一个容量为5的样本,则该样本的平均数不可能是( )
A.5 B.7 C.9 D.11
6.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生近视情况形成的原因,采用分层抽样的方法抽取部分学生进行调查,若抽取的小学生人数为70,则抽取的高中生中近视人数为( )
A.10 B.20 C.25 D.40
7.为了检查某超市货架上的饮料是否含有塑化剂,要从编号依次为1到100的塑料瓶装饮料中抽取5瓶进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5瓶饮料的编号可能是( )
A.5,15,25,35,45 B.10,25,40,55,70
C.10,20,30,40,50 D.10,30,50,70,90
8.从一个含有个个体的总体中抽取一容量为的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为,三者关系可能是( )
A. B. C. D.
9.下列说法中正确的个数有( )
①对具有线性相关关系的变量,,其回归方程为,若样本点的中心为,则实数的值是;
②某校共有学生1003人,用简单随机抽样的方法先剔除3人,再按简单随机抽样的方法抽取为20人,则每个学生被抽到的概率为;
③若随机事件A,B满足:,,,则事件A与B相互独立;
④若随机变量,满足,则.
A.1 B.2 C.3 D.4
10.为了解某校初中学生的近视情况,按年级用分层抽样的方法随机抽取100名学生进行视力检测,已知初一、初二、初三年级分别有800名,600名,600名学生,则不同的抽样结果共有( )
A. B. C. D.
考点2 频率分布直方图
11.某公司为了解用户对其产品的满意度,从使用该产品的用户中随机调查了100个用户,根据用户对产品的满意度评分,得到如图所示的用户满意度评分的频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.对该公司产品满意度评分低于60分的用户比例估计为35%
B.对该公司产品满意度评分不低于70分的用户比例估计为40%
C.估计该公司用户对产品的满意度评分的平均值不超过60分
D.估计该公司有一半以上的用户,对产品的满意度评分介于50分至80分之间
12.在某次高中数学模拟考试中,对800名考生的考试成绩进行统计,得到如图所示的频率分布直方图,其中分组的区间分别为,,,,,.若考生成绩在内的人数为,考生成绩在内的人数为,则( )
A.20 B.10 C.60 D.40
13.为了解高中学生每天的体育活动时间,某市教育部门随机抽取高中学生进行调查,把每天进行体育活动的时间按照时长(单位:分钟)分成组:,,,,,.然后对统计数据整理得到如图所示的频率分布直方图,则可估计这名学生每天体育活动时间的第百分位数为( )
A. B. C. D.
14.为了加深师生对党史的了解,激发广大师生知史爱党 知史爱国的热情,某校举办了“学党史 育新人”的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法错误的是( )
A.的值为0.005
B.估计这组数据的众数为75分
C.估计成绩低于60分的有250人
D.估计这组数据的中位数为分
15.某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方图得出了下列结论,其中正确的是( )

A.估计该学生每日完成作业的时间在2小时至2.5小时的有50天
B.估计该学生每日完成作业时间超过3小时的概率为0.3
C.估计该学生每日完成作业时间的中位数为2.625小时
D.估计该学生每日完成作业时间的众数为2.3小时
16.为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化”的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,估计这组数据的第85百分位数为( )分
A.84 B.85 C.86 D.87
17.某校高三共有200人参加体育测试,将体测得分情况进行了统计,把得分数据按照分成6组,绘制了如图所示的频率分布直方图.根据规则,82分以上的考生成绩等级为A,则获得的考生人数约为( )
A.25 B.50 C.75 D.100
18.为深入贯彻落实习近平总书记对天津工作“三个着力”重要要求,天津持续深化改革,创建全国文明城区,城市文明程度显著提升,人民群众的梦想不断实现.在创建文明城区的过程中,中央文明办对某小区居民进行了创建文明城区相关知识网络问卷调查,从本次问卷中随机抽取了50名居民的问卷结果,统计其得分数据,将所得50份数据的得分结果分为6组:,并整理得到如下的频率分布直方图,则该小区居民得分的第70百分位数为( )

A.89.09 B.86.52 C.84.55 D.81.32
19.某市为了解全市12000名高一学生的的体能素质情况,在全市高一学生中随机抽取了1000名学生进行体能测试,并将这1000名的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,下列结论中正确的是( )
A.图中的值为0.020;
B.同一组中的数据用该组区间的中点值做代表,则这1000名学生的平均成绩约为80.5;
C.估计样本数据的75%分位数为88;
D.由样本数据可估计全市高一学生体测成绩优异(80分及以上)的人数约为5000人.
20.某校举行知识竞赛,对全校参赛的1000名学生的得分情况进行了统计,把得分数据按,,,,分成5组,得到如图所示的频率分布直方图,则下列说法不正确的是( )
A.图中的x值为0.020 B.得分在的人数为400
C.这组数据的极差为50 D.这组数据的平均数的估计值为77
考点3 均值及方差的性质
21.样本数据的平均数,方差,则样本数据,,,的平均数,方差分别为( )
A.9,4 B.9,2 C.4,1 D.2,1
22.若数据的标准差为,则数据,,,…,的标准差为( )
A. B. C. D.
23.已知数据的平均数为10,方差为10,则的平均数和方差分别为( )
A.32,90 B.32,92 C.30,90 D.30,92
24.下列命题错误的是( )
A.若数据的标准差为,则数据的标准差为
B.若,则
C.若,则
D.若为取有限个值的离散型随机变量,则
25.已知样本数据的平均数和标准差均为4,则数据的平均数与方差分别为( )
A. B. C. D.
26.已知一组数据,,,,的平均数是,方差是,则对于以下数据:,,,,下列选项正确的是( )
A.平均数是,方差是6 B.平均数是,方差是
C.平均数是5,方差是 D.平均数是5,方差是12
27.某人在“全球购”平台上购买了件商品,这些商品的价格如果按美元计算,则平均数为,标准差为,如果按人民币计算(汇率按1美元=7元人民币),则平均数和方差分别为( )
A., B., C., D.,
28.已知样本数据的平均数为 方差为,若样本数据,的平均数为,方差为,则( )
A. B. C. D.
29.一组数据的平均数和标准差分别为3和1,另一组数据(其中)的平均数和标准差分别为10和4,则( )
A.16 B.8 C. D.
30.已知数据,,…,的平均数和方差分别为4,10,那么数据,,…,的平均数和方差分别为( )
A., B.1, C., D.,
考点4 总体百分位数的估计
31.小明希望自己的高考数学成绩能超过120分,为了激励自己,他记录了近8次数学考试成绩,并绘制成折线统计图,如图,这8次成绩的第80百分位数是( )
A.100 B.105 C.110 D.120
32.某校高三年级举行数学知识竞赛,并将100名学生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则估计这组数据的第85百分位数为( )
A.85 B.86 C.86.5 D.87
33.某地气象部门统计了当地2024年3月前8天每天的最高气温T(单位:℃),数据如下:
时间 第1天 第2天 第3天 第4天 第5天 第6天 第7天 第8天
T(℃) 8 12 8 14 16 11 18 21
则这8天的气温数据的75%分位数为( )
A.15 B.16 C.17 D.18
34.已知某学校参加学科节数学竞赛决赛的8人的成绩(单位:分)为:72,78,80,81,83,86,88,90,则这组数据的第75百分位数是( )
A.86 B.87 C.88 D.90
35.已知一组数据:4,6,7,9,11,13,则这组数据的第65百分位数为( )
A.6 B.7 C.9 D.11
36.给出下列说法,其中正确的是(  )
A.某病8位患者的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50百分位数为
B.已知数据的平均数为2,方差为3,那么数据,,的平均数和方差分别为5,13
C.在回归直线方程中,相对于样本点的残差为
D.样本相关系数
37.某台机器每天生产10000个零件,现连续12天检测,得到每天的次品零件个数依次为:8,12,9,18,16,17,15,9,18,20,13,11,则这组样本数据的中位数与第60百分位数之和是( )
A.29 B.30 C.30.5 D.31
38.样本数据12,8,32,10,24,22,12,33的第60百分位数为( )
A.8 B.12 C.22 D.24
39.样本数据的第60百分位数为( )
A.23 B.31 C.33 D.36
40.样本数据11 ,12 ,13 ,15 ,16 ,13 ,14 ,15 ,11的第一四分位数为( )
A.11.5 B.12 C.12.5 D.13
考点5 相关关系与相关系数
41.如图对两组数据,和,分别进行回归分析,得到散点图如图,并求得线性回归方程分别是和,并对变量,进行线性相关检验,得到相关系数,对变量,进行线性相关检验,得到相关系数,则下列判断正确的是( )
A. B. C. D.
42.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
43.上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
44.调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
45.已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
46.某校数学建模兴趣小组为研究本地区儿子身高与父亲身高之间的关系,抽样调查后得出与线性相关,且经验回归方程为.调查所得的部分样本数据如下:
父亲身高 164 166 170 173 173 174 180
儿子身高 165 168 176 170 172 176 178
则下列说法正确的是( )
A.儿子身高是关于父亲身高的函数
B.当父亲身高增加时,儿子身高增加
C.儿子身高为时,父亲身高一定为
D.父亲身高为时,儿子身高的均值为
47.某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高x(单位:) 167 173 175 177 178 180 181
体重y(单位:) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A. B.
C. D.
48.已知变量,之间的一组相关数据如下表所示:
6 8 10 12
6 3 2
据此得到变量,之间的线性回归方程为,则下列说法不正确的是( )
A.变量,之间成负相关关系 B.可以预测,当时,
C. D.该回归直线必过点
49.已知变量x和y满足经验回归方程,且变量x和y之间的一组相关数据如表所示,则下列说法错误的是( )
6 8 10 12
7 4 3
A.变量x和y呈负相关 B.当时,
C. D.该经验回归直线必过点
50.对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
考点6 线性回归方程(非线性)
51.某零售行业为了解宣传对销售额的影响,在本市内随机抽取了5个大型零售卖场,得到其宣传费用x(单位:万元)和销售额y(单位:万元)的数据如下:
x(万元) 3 4 5 6 7
y(万元) 45 50 60 65 70
由统计数据知y与x满足线性回归方程,其中,当宣传费用时,销售额y的估计值为( )
A.89.5 B.90.5 C.92.5 D.94.5
52.下列说法中,正确命题的个数为( )
① 已知随机变量服从二项分布,若,则.
②对具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,则实数的值是.
③以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则、的值分别是和.
④若样本数据的方差为,则数据:的方差为16
A.0个 B.1个 C.2个 D.3个
53.下列说法正确的是( )
A.若数据,,…,的方差为1,则数据,,…,的标准差为4
B.已知一组数据2,3,5,7,8,9,9,11,则该组数据的第40百分位数为6
C.一组样本数据的频率分布直方图是单峰的且形状是对称的,则该组数据的平均数和中位数应该大体上差不多
D.经验回归直线恒过,且在回归直线上的样本点越多,拟合效果越好
54.云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某科技公司2018年至2022年云计算市场规模数据,且市场规模与年份代码的关系可以用模型(其中为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
由上表可得经验回归方程,则2026年该科技公司云计算市场规模的估计值为( )
(参考公式:)
A. B. C. D.
55.下列说法中正确的是( )
A.具有线性相关关系的变量,,其线性回归方程为,若样本的中心,则
B.数据3,4,2,8,1,5,8,6的中位数为5
C.将一组数据中的每一个数据加上同一个正数后,方差变大
D.若甲、乙两组数据的相关系数分别为和0.89,则甲组数据的线性相关性更强
56.下列命题错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1
B.设,若,,则
C.线性回归直线一定经过样本点的中心
D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地随机摸出20个球作为样本,用随机变量X表示样本中黄球的个数,则X服从二项分布,且
57.已知变量x和y的统计数据如表:
x 1 2 3 4 5
y 6 6 7 8 8
根据上表可得回归直线方程,据此可以预测当时,(  )
A.8.5 B.9 C.9.5 D.10
58.下列说法中正确的个数为( )个
①对立事件一定是互斥事件;②在经验回归直线方程中,当解释变量每增加一个单位时,预报变量减少0.1个单位;③两个随机变量的线性相关性越强,相关系数绝对值越接近于1;④在回归分析模型中,若相关指数越小,则残差平方和越大,模型的拟合效果越好.
A.1 B.2 C.3 D.4
59.下列说法不正确的是( ).
A.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是
60.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
考点7 独立性检验
61.“民政送温暖,老人有饭吃”.近年来,各级政府,重视提高老年人的生活质量.在医疗、餐饮等多方面,为老人提供了方便.单从用餐方面,各社区,创建了“爱心食堂”、“爱心午餐”、“老人食堂”等等不同名称的食堂,解决了老人的吃饭问题.“爱心食堂A”为了更好地服务老人,于3月28日12时,食堂管理层人员对这一时刻用餐的118人,对本食堂推出的15种菜品按性价比“满意”和“不满意”作问卷调查,其中,有13人来食堂用餐不足5次,另有儿童5人,他们对菜品不全了解,不予问卷统计,在被问卷的人员中男性比女性多20人.用餐者对15种菜品的性价比认为“满意”的菜品数记为,当时,认为该用餐者对本食堂的菜品“满意”,否则,认为“不满意”.统计结果部分信息如下表:
满意 不满意 合计
男 40
女 20
合计
(1)①完成上面列联表;
②能有多大(百分比)的把握认为用餐者对本食堂菜品的性价比是否满意与性别有关?
(2)用分层抽样在对菜品的性价比“满意”的人群中抽取6人,再从这6人中随机抽取3人,用表示抽取的3人中的男性人数,求的分布列和期望.
附:参考公式和临界值表,其中,.
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
62.某学校举办了一次主题为“科技兴国,强国有我”的知识竞赛,并从所有参赛学生中随机抽取了男、女生各50人,统计他们的竞赛成绩(满分100分,每名参赛学生至少得60分),并将成绩分成4组:,,,(单位:分),得到如下的频率分布直方图.
(1)现将竞赛成绩不低于90分的学生称为“科技知识达人”,成绩低于90分的学生称为“非科技知识达人”.把随机抽取的参赛学生数据统计如下,将下列列联表补充完整,并判断是否有95%的把握认为能否获得“科技知识达人”称号与性别有关.
科技知识达人 非科技知识达人 合计
男生 15
女生
合计
(2)将频率视为概率,从所有参赛学生中随机抽取3人进行访谈,记这3人中是“科技知识达人”的人数为,求的分布列与数学期望.
附:(其中).
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
63.某数学老师在其任教的甲、乙两个班级中各抽取30名学生进行测试,分数分布如表:
分数区间 甲班人数 乙班人数
[0,30) 3 6
[30,60) 6 6
[60,90) 9 12
[90,120) 6 3
[120,150] 6 3
(1)若成绩在120分以上(含120分)为优秀,求从乙班参加测试的成绩在90分以上(含90分)的学生中,随机任取2名学生,恰有1名为优秀的概率;
(2)根据以上数据完成下面的2×2列联表,则在犯错的概率不超过0.1的前提下,是否有足够的把握认为学生的数字成绩优秀与否和班级有关?
优秀 不优秀 总计
甲班
乙班
总计
参考公式:,其中.
64.同城配送是随即时物流发展而出现的非标准化服务,省时省力是消费者使用同城配送服务的主要目的.某同城配送服务公司随机统计了800名消费者的年龄(单位:岁)以及每月使用同城配送服务的次数,得到每月使用同城服务低于5次的有550人,并将每月使用同城配送服务次数不低于5次的消费者按照年龄进行分组,得到如图所示的频率分布直方图.
(1)估计每月使用同城配送服务不低于5次的消费者年龄的平均值和中位数(结果精确到0.1,每组数据用该组区间的中点值代表);
(2)若年龄在内的人位于年龄段,年龄在内的人位于年龄段II,把每月使用同城配送服务低于5次的消费者称为“使用同城配送服务频率低”,否则称为“使用同城配送服务频率高”,若800名消费者中有400名在年龄段I,补全列联表,并判断是否有的把握认为消费者使用同城配送服务频率的高低与年龄段有关?
年龄段I 年龄段II 合计
使用同城配送服务频率高
使用同城配送服务频率低
合计
参考公式:,其中.附:
0.050 0.010 0.001
3.841 6.635 10.828
65.某地为调查年龄在35―50岁段人群每周的运动情况,从年龄在35―50岁段人群中随机抽取了200人的信息,将调查结果整理如下:
女性 男性
每周运动超过2小时 60 80
每周运动不超过2小时 40 20
(1)根据以上信息,能否有99%把握认为该地年龄在35―50岁段人群每周运动超过2小时与性别有关?
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人.再从这6人中随机抽取2人进行访谈,求这2人中至少有1人是女性的概率.
参考公式:,.
0.10 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
66.为了有效预防流感,很多民众注射了流感疫苗.市防疫部门随机抽取了1000人进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.医学研究表明,流感的检测结果有检错的可能,已知患流感的人其检测结果有呈阳性(流感),而没有患流感的人其检测结果有呈阴性(未感染)
(1)估计该市流感感染率是多少?
(2)根据所给的数据,判断是否有99%的把握认为注射流感疫苗与预防流感有关;
(3)已知某人的流感检查结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附:.
0.050 0.010 0.001
k 3.841 6.635 10.828
67.为了引导学生阅读世界经典文学名著,某学校举办“名著读书日”活动,每个月选择一天为“名著读书日”,并给出一些推荐书目.为了了解此活动促进学生阅读文学名著的情况,该校在此活动持续进行了一年之后,随机抽取了校内100名学生,调查他们在开始举办读书活动前后的一年时间内的名著阅读数量,所得数据如下表:
不少于5本 少于5本 合计
活动前 35 65 100
活动后 60 40 100
合计 95 105 200
(1)依据小概率值的独立性检验,分析举办该读书活动对学生阅读文学名著是否有促进作用;
(2)已知某学生计划在接下来的一年内阅读6本文学名著,其中4本国外名著,2本国内名著,现从6本名著中随机抽取3本在上半年读完,求上半年读完的国内名著本数的分布列及数学期望.
附:,其中.
临界值表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
68.随着AI技术的不断发展,人工智能科技在越来越多的领域发挥着重要的作用.某校在寒假里给学生推荐了一套智能辅导系统,学生可自愿选择是否使用该系统完成假期的作业.开学时进行了入学测试,随机抽取了100名学生统计得到如下列联表:
使用智能辅导系统 未使用智能辅导系统 合计
入学测试成绩优秀 20 20 40
入学测试成绩不优秀 40 20 60
合计 60 40 100
(1)判断是否有95%的把握认为入学测试成绩优秀与使用智能辅导系统相关;
(2)若把这100名学生按照入学测试成绩是否优秀进行分层随机抽样,从中抽取5人,再从这5人中随机抽取2人,记抽取的2人中入学测试成绩优秀的人数为,求的分布列及数学期望.
附:,其中.
0.10 0.05 0.025 0.010
2.706 3.841 5.024 6.635
69.某海鲜餐厅在试营业期间,同时采用自助餐和团购套餐两种营销模式,其中自助餐模式是指顾客可随意享用餐厅内所有菜品,最长可用餐2小时;团购套餐是指顾客在APP上购买团购券后到店消费,只可享用套餐内所包含的菜品,用餐时间不限.该餐厅为了了解这两种营销模式的受欢迎程度,现随机调查了130位顾客对这两种营销模式的意见反馈,统计结果如下表:
认为自助餐更有性价比 认为团购套餐更有性价比
男性顾客 40 20
女性顾客 30 40
(1)依据小概率值的独立性检验,推断能否认为顾客对这两种营销模式的意见与顾客的性别有关;
(2)店长统计了第,,,天自助餐的用餐人数,统计结果如下(已知):
(天)
(用餐人数) 32 52 73 95
经计算得经验回归方程为,以样本的相关系数为标准,对该经验回归方程的拟合效果进行说明.
附:(i)在经验回归方程中,.
(ii)相关系数若,可认为该模型拟合效果良好,反之,则认为该模型拟合效果不好.
(iii),其中.
0.050 0.010 0.001
3.841 6.635 10.828
70.2024年3月,某校语文教师对学生提出“3月读一本书”的要求,每位学生都选择且只能选择《红楼梦》和《三国演义》中的一本,现随机调查该校男、女生各100人,整理得到列联表如下.
《红楼梦》 《三国演义》
男生 30 70
女生 60 40
(1)依据小概率值的独立性检验,能否认为学生选择《红楼梦》还是《三国演义》与性别有关?
(2)已知学生选择哪本书是相互独立的,用频率代替概率,从该校选择《红楼梦》的学生中随机抽取3人,抽到的女生人数设为,求的分布列和数学期望.
参考公式:,其中.
参考数据:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
21世纪教育网(www.21cnjy.com)
同课章节目录