§2 统计与成对数据的统计分析
【备考指南】 样本的数字特征的计算及统计图表的分析,一般以客观题为主;变量的相关性及回归分析、独立性检验问题,常与函数、概率等综合命题.备考中务必注意独立性检验的原理,加强知识间的内在联系,凸显数据分析的重要性.
基础考点1 统计图表与数字特征
【典例1】 (1)(多选)为了解我国在芯片、软件方面的潜力,某调查机构对我国若干大型科技公司进行调查统计,得到了这两个行业从业者的年龄分布的饼形图和“90后”从事这两个行业的岗位分布雷达图,则下列说法中正确的是( )
A.芯片、软件行业从业者中,“90后”占总人数的比例超过60%
B.芯片、软件行业中从事技术、设计岗位的“90后”人数超过总人数的25%
C.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多
D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前”的总人数多
(2)(2024·广东茂名模拟)《中华人民共和国爱国主义教育法》已于2024年1月1日起施行.该法以法治方式推动和保障新时代爱国主义教育,对于传承和弘扬民族精神,凝聚力量,推进强国建设、民族复兴,意义重大而深远.某社区为了了解社区居民对《中华人民共和国爱国主义教育法》的了解,针对社区居民举办了一次关于《中华人民共和国爱国主义教育法》的知识竞赛,满分100分(95分及以上为优秀),结果认知程度高的有20人,按年龄分成5组,其中第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图.
①根据频率分布直方图,估计这20人的年龄的第74百分位数;
②在第四组和第五组中随机抽取3人,记这3人中年龄在第四组中的人数为X,求X的分布列和数学期望;
③若第二组社区居民的年龄的平均数与方差分别为26和2,第三组社区居民的年龄的平均数与方差分别为32.5和3.75,求这20人中年龄在区间[25,35)上的所有人的年龄的方差.
[听课记录]
总体估计的方法
(1)统计量法:①若数据已知,常借助s2等量对样本总体作出估计,其中=
②若数据未知,以频率分布直方图的形式给出,则应明确直方图中各统计量的求法.
(2)图表分析法:若根据图表比较样本数据的大小,可根据数据分布情况直观分析,大致判断平均数的范围,并依据数据的波动情况比较方差(标准差)的大小.
1.(2024·四川成都模拟)如图是2023年11月中国的10个城市地铁运营里程(单位:km)及运营线路条数的统计图,下列判断正确的是( )
A.这10个城市中北京的地铁运营里程最长且运营线路条数最多
B.这10个城市地铁运营里程的中位数是516 km
C.这10个城市地铁运营线路条数的平均数为15.4
D.这10个城市地铁运营线路条数的极差是12
2.(多选)(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
3.(多选)(2024·江苏南京模拟)某校对参加高校综合评价测试的学生进行模拟训练,从中抽出N名学生,其数学成绩的频率分布直方图如图所示.已知成绩在区间[90,100]内的学生人数为2.则( )
A.x的值为0.015,N的值为40
B.平均分为72,众数为75
C.中位数为75
D.已知该校共1 000名学生参加模拟训练,则不低于90分的人数一定为50
基础考点2 变量的相关性及回归分析
【典例2】 (2024·湖南衡阳模拟)为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.如图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1~10分别对应年份2013~2022.
根据散点图,分别用模型①y=bx+a,②y=c+d作为年研发投入y(单位:亿元)关于年份代码x的回归分析模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75 2.25 82.5 4.5 120 28.35
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的回归分析模型?并说明理由;
(2)(ⅰ)根据(1)中所选模型,求出y关于x的经验回归方程;
(ⅱ)设该科技公司的年利润L(单位:亿元)和年研发投入y(单位:亿元)满足L=(111.225-y)(x∈N*且x∈),问该科技公司哪一年的年利润最大?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=+x的斜率和截距的最小二乘估计分别为=-.
[听课记录]
进行回归分析的一般思路
(1)定关系:依据样本数据散点图或样本相关系数r,确定两个变量是否具有较强的相关关系.
(3)求系数:求出回归系数,.
其中=.
(4)写方程:=x+.
(5)作预测:依据经验回归方程给出预测值.
提醒:非线性回归分析可借助代数换元转化为线性回归分析.
1.(2024·辽宁重点中学模拟)某公司研发新产品的投入金额x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如表所示,由表中数据求得投入金额x与收益y满足经验回归方程=x+2.6,则下列结论不正确的是( )
x 5 6 8 9 12
y 16 20 25 28 36
A.x与y有正相关关系
B.经验回归直线经过点(8,25)
C.=2.4
D.x=9时,残差为0.2
2.(多选)(2024·重庆巴蜀中学模拟)两个具有相关关系的变量x,y的一组数据为(x1,y1),(x2,y2),…,(xn,yn),求得样本点中心为(),经验回归方程为=x+,决定系数为R2;若将数据调整为(x1,y1+1),(x2,y2+1),…,(xn,yn+1),求得新的样本点中心为(),经验回归方程为′=′x+′,决定系数为R′2,则以下说法正确的有( )
A.= B.=′
C.<′ D.R23.按照《中华人民共和国环境保护法》的规定,每年生态环境部都会同国家发改委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.如表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2017-2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2025年的酸雨区面积占国土面积的百分比.
(经验回归直线的斜率和截距的最小二乘法估计公式分别为:
≈6.
基础考点3 独立性检验
【典例3】 (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表;
单位:g
组别 小白鼠体重的增加量 合计
对照组
试验组
合计
②根据①中的列联表,依据小概率值α=0.05的独立性检验,能否认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:χ2=n=a+b+c+d.
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
[听课记录]
独立性检验的一般步骤
(1)根据样本数据完成2×2列联表;
(2)根据公式χ2=n=a+b+c+d,计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作统计判断.
提醒:(1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小.
(2)在犯错误的概率不超过0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.
1.(多选)(2024·湖北八市一模)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中通过分层随机抽样的方式随机抽取100名学生进行问卷调查,将调查的结果整理得到如下等高堆积条形图和列联表,则( )
单位:人
性别 对数学的兴趣 合计
感兴趣 不感兴趣
女生 a b a+b
男生 c d c+d
合计 a+c b+d 100
附:χ2=n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.表中a=12,c=30
B.可以估计该校高一新生中对数学不感兴趣的女生人数比男生多
C.根据小概率值α=0.05的χ2独立性检验,可以认为性别与对数学的兴趣有差异
D.根据小概率值α=0.01的χ2独立性检验,可以认为性别与对数学的兴趣没有差异
2.(2024·浙江嘉兴二模)为了有效预防流感,很多民众注射了流感疫苗.某市防疫部门从辖区居民中随机抽取了1 000人进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.医学研究表明,流感的检测结果是有错检的可能,已知患有流感的人其检测结果有95%呈阳性(感染),而没有患流感的人其检测结果有99%呈阴性(未感染).
(1)估计该市流感感染率;
(2)根据小概率值α=0.001的独立性检验,能否认为注射流感疫苗与预防流感有关;
(3)已知某人的流感检测结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附:χ2=
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1/1§2 统计与成对数据的统计分析
【备考指南】 样本的数字特征的计算及统计图表的分析,一般以客观题为主;变量的相关性及回归分析、独立性检验问题,常与函数、概率等综合命题.备考中务必注意独立性检验的原理,加强知识间的内在联系,凸显数据分析的重要性.
基础考点1 统计图表与数字特征
【典例1】 (1)(多选)为了解我国在芯片、软件方面的潜力,某调查机构对我国若干大型科技公司进行调查统计,得到了这两个行业从业者的年龄分布的饼形图和“90后”从事这两个行业的岗位分布雷达图,则下列说法中正确的是( )
A.芯片、软件行业从业者中,“90后”占总人数的比例超过60%
B.芯片、软件行业中从事技术、设计岗位的“90后”人数超过总人数的25%
C.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多
D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前”的总人数多
(2)(2024·广东茂名模拟)《中华人民共和国爱国主义教育法》已于2024年1月1日起施行.该法以法治方式推动和保障新时代爱国主义教育,对于传承和弘扬民族精神,凝聚力量,推进强国建设、民族复兴,意义重大而深远.某社区为了了解社区居民对《中华人民共和国爱国主义教育法》的了解,针对社区居民举办了一次关于《中华人民共和国爱国主义教育法》的知识竞赛,满分100分(95分及以上为优秀),结果认知程度高的有20人,按年龄分成5组,其中第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图.
①根据频率分布直方图,估计这20人的年龄的第74百分位数;
②在第四组和第五组中随机抽取3人,记这3人中年龄在第四组中的人数为X,求X的分布列和数学期望;
③若第二组社区居民的年龄的平均数与方差分别为26和2,第三组社区居民的年龄的平均数与方差分别为32.5和3.75,求这20人中年龄在区间[25,35)上的所有人的年龄的方差.
(1)BD [对于A,由饼形图知,芯片、软件行业从业者中,“90后”占总人数的比例为55%,没超过60%,A错误;
对于B,由雷达图和饼形图知,芯片、软件行业中从事技术、设计岗位的“90后”人数占总人数的(37%+12.6%)×55%=27.28%,B正确;
对于C,芯片、软件行业从事技术岗位的人中,“90后”占总人数的37%×55%=20.35%,
而“80后”占总人数的40%,从事技术岗位的人数比例不知,无法确定两者间的大小关系,C错误;
对于D,芯片、软件行业中,从事市场岗位的“90后”人数占总人数的14.4%×55%=7.92%,而“80前”总人数占总人数的5%,D正确.故选BD.]
(2)[解] ①由于5×0.01+5×0.07+5×0.06=0.7<0.74,5×0.01+5×0.07+5×0.06+5×0.04=0.9>0.74,
所以这20人的年龄的第74百分位数为:35+=36.
②由频率分布直方图可知,第四组的人数为20×0.04×5=4,第五组的人数为20×0.02×5=2,
随机变量X的取值为1,2,3.
则P(X=1)==P(X=2)==P(X=3)==.
随机变量X的分布列为:
X 1 2 3
P
所以E(X)=1×+2×+3×=2.
③由频率分布直方图得各组人数之比为1∶7∶6∶4∶2,
故各组中采用分层随机抽样的方法抽取20人,第二组和第三组分别抽取7人和6人,
设第二组、第三组的社区居民的年龄的平均数分别为方差分别为
则=26===3.75,
设第二组和第三组所有社区居民的年龄平均数为方差为s2,则===29,
s2=
={7×[2+(26-29)2]+6×[3.75+(32.5-29)2]}=因此,这20人中年龄在区间[25,35)上的所有人的年龄的方差为.
总体估计的方法
(1)统计量法:①若数据已知,常借助s2等量对样本总体作出估计,其中=
②若数据未知,以频率分布直方图的形式给出,则应明确直方图中各统计量的求法.
(2)图表分析法:若根据图表比较样本数据的大小,可根据数据分布情况直观分析,大致判断平均数的范围,并依据数据的波动情况比较方差(标准差)的大小.
1.(2024·四川成都模拟)如图是2023年11月中国的10个城市地铁运营里程(单位:km)及运营线路条数的统计图,下列判断正确的是( )
A.这10个城市中北京的地铁运营里程最长且运营线路条数最多
B.这10个城市地铁运营里程的中位数是516 km
C.这10个城市地铁运营线路条数的平均数为15.4
D.这10个城市地铁运营线路条数的极差是12
C [对于A,北京的地铁运营线路条数最多,而运营里程最长的是上海,A错误;
对于B,地铁运营里程的中位数是=537.3(km),B错误;
对于C,地铁运营线路条数的平均数为=15.4,C正确;
对于D,地铁运营线路条数的极差是27-8=19,D错误.故选C.]
2.(多选)(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
BD [A选项,x2,x3,x4,x5的平均数不一定等于x1,x2,…,x6的平均数,A错误;
B选项,x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数,B正确;
C选项,设样本数据x1,x2,…,x6为0,1,2,8,9,10,可知x1,x2,…,x6的平均数是5,x2,x3,x4,x5的平均数是5,
x1,x2,…,x6的方差
=×[(0-5)2+(1-5)2+(2-5)2+(8-5)2+(9-5)2+(10-5)2]=
x2,x3,x4,x5的方差
=×[(1-5)2+(2-5)2+(8-5)2+(9-5)2]
=∴s1>s2,C错误;
D选项,由题意,x1是最小值,x6是最大值,D正确.
故选BD.]
3.(多选)(2024·江苏南京模拟)某校对参加高校综合评价测试的学生进行模拟训练,从中抽出N名学生,其数学成绩的频率分布直方图如图所示.已知成绩在区间[90,100]内的学生人数为2.则( )
A.x的值为0.015,N的值为40
B.平均分为72,众数为75
C.中位数为75
D.已知该校共1 000名学生参加模拟训练,则不低于90分的人数一定为50
AB [由频率分布直方图可知,(0.005+x+0.020+0.030+0.025+0.005)×10=1,得x=0.015.因为分数在区间[90,100]内的频率为0.005×10=0.05,所以=0.05,所以N=40.
由频率分布直方图可知,众数为75,平均分为45×0.05+55×0.15+65×0.20+75×0.30+85×0.25+95×0.05=72.
因为分数在[40,50),[50,60),[60,70)内的频率和为(0.005+0.015+0.020)×10=0.4,所以中位数位于区间[70,80).
设中位数为a,则(a-70)×0.030=0.1,
解得a≈73.33.
综上所述,A,B正确,C错误;
样本可以估计总体,但是不能通过样本直接确定总体,样本与总体之间总是存在一定的偏差,故选项D错误.故选AB.]
【教师备选资源】
1.(多选)(2024·山东烟台一模)近年来,我国人口老龄化持续加剧,为改善人口结构,保障国民经济可持续发展,国家出台了一系列政策,如2016年起实施全面两孩生育政策,2021年起实施三孩生育政策等.根据下面的统计图,下列结论正确的是( )
2010至2022年我国新生儿数量折线图
A.2010至2022年每年新生儿数量的平均数高于1 400万
B.2010至2022年每年新生儿数量的25%分位数低于1 400万
C.2015至2022年每年新生儿数量呈现先增加后下降的变化趋势
D.2010至2016年每年新生儿数量的方差大于2016至2022年每年新生儿数量的方差
AC [对于A,由折线图可知:2010至2022年每年新生儿数量13个数据中有2010至2018年的数量(9个)均高于1 500万,3个数据低于1 400万,根据数据之间的差距可得 2010至2022年每年新生儿数量的平均数高于1 400万,故选项A正确;
对于B,由题图可知共有13个数据,因为13×25%=3.25,所以25%分位数是按照从小到大排列的数据的第4个数据,由折线图可知,第4个数据为2019年新生儿的数量,其值大于1 400万,故选项B错误;
对于C,由折线图可知2015至2022年每年新生儿数量呈现先增加后下降的变化趋势,故选项C正确;
对于D,由折线图可知:2010至2016年每年新生儿数量的波动比2016至2022年每年新生儿数量的波动小,所以2010至2016年每年新生儿数量的方差小于2016至2022年每年新生儿数量的方差,故选项D错误.故选AC.]
2.(多选)(2024·浙江强基联盟模拟)用分层随机抽样法从某校高一年级学生的数学竞赛成绩(满分150分)中抽取一个容量为120的样本,其中男生成绩的数据有80个,女生成绩的数据有40个,将这80个男生的成绩分为6组,绘制得到如图所示的频率分布直方图,下列说法正确的是( )
A.男生成绩的样本数据在[90,110)内的频率为0.015
B.男生成绩的样本数据的平均数为97
C.男生成绩的样本数据的第75百分位数为118
D.若女生成绩的样本数据的平均数为91,则总样本的平均数为95
BCD [由频率分布直方图性质可得男生成绩的样本数据在[90,110)内的频率为1-(0.002 5+0.007 5+0.007 5+0.012 5+0.005 0)×20=0.3,A错误;
男生成绩的平均数为
40×0.05+60×0.15+80×0.15+100×0.3+120×0.25+140×0.1=97,B正确;
由已知男生成绩的样本数据低于110的频率为0.65,
男生成绩的样本数据低于130的频率为0.9,
所以男生成绩的样本数据的第75百分位数为110+=118,C正确;
总样本的平均数为×97+×91=95,D正确.
故选BCD.]
3.已知某班男、女同学人数之比为5∶4,该班所有同学进行踢毽子比赛,比赛规则:每个同学用脚踢起毽子,在毽子落地前用脚接住并踢起,脚没有接到毽子则比赛结束.现记录了每个同学用脚踢起毽子开始到毽子落地,脚踢到毽子的次数,已知男同学用脚踢到毽子次数的平均数为21,方差为17,女同学用脚踢到毽子次数的平均数为12,方差为17,那么全班同学用脚踢
到毽子次数的平均数为________,方差为________.
17 37 [设男、女生分别有5a,4a人,则全班同学用脚踢到毽子次数的平均数为==17.
而全班同学用脚踢到毽子次数的方差为
[17+(21-17)2]+[17+(12-17)2]=37.]
基础考点2 变量的相关性及回归分析
【典例2】 (2024·湖南衡阳模拟)为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.如图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1~10分别对应年份2013~2022.
根据散点图,分别用模型①y=bx+a,②y=c+d作为年研发投入y(单位:亿元)关于年份代码x的回归分析模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75 2.25 82.5 4.5 120 28.35
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的回归分析模型?并说明理由;
(2)(ⅰ)根据(1)中所选模型,求出y关于x的经验回归方程;
(ⅱ)设该科技公司的年利润L(单位:亿元)和年研发投入y(单位:亿元)满足L=(111.225-y)(x∈N*且x∈),问该科技公司哪一年的年利润最大?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=+x的斜率和截距的最小二乘估计分别为=-.
[解] (1)根据题图2可知,模型①的残差波动性很大,说明拟合关系较差;
模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适合.
(2)(ⅰ)设t=所以y=c+dt,
所以=75-6.3×2.25=60.825,
所以y关于x的非线性经验回归方程为=60.825+6.3.
(ⅱ)由题设可得L=(111.225-y)=(111.225-6.3-60.825)=-6.3x+50.4
当==4,即x=16时,年利润L有最大值,故该公司2028年的年利润最大.
进行回归分析的一般思路
(1)定关系:依据样本数据散点图或样本相关系数r,确定两个变量是否具有较强的相关关系.
(3)求系数:求出回归系数,.
其中=.
(4)写方程:=x+.
(5)作预测:依据经验回归方程给出预测值.
提醒:非线性回归分析可借助代数换元转化为线性回归分析.
1.(2024·辽宁重点中学模拟)某公司研发新产品的投入金额x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如表所示,由表中数据求得投入金额x与收益y满足经验回归方程=x+2.6,则下列结论不正确的是( )
x 5 6 8 9 12
y 16 20 25 28 36
A.x与y有正相关关系
B.经验回归直线经过点(8,25)
C.=2.4
D.x=9时,残差为0.2
C [对于A,由表格可知,x越大,y越大,所以x与y有正相关关系,故A正确;
对于B==8,==25,
则样本点中心为(8,25),所以经验回归直线经过点(8,25),故B正确;
对于C,将样本点中心代入经验回归方程,得25=8+2.6,所以=2.8,故C错误;
对于D,=2.8x+2.6,当x=9时,=2.8×9+2.6=27.8,则残差为y-=28-27.8=0.2,故D正确.故选C.]
2.(多选)(2024·重庆巴蜀中学模拟)两个具有相关关系的变量x,y的一组数据为(x1,y1),(x2,y2),…,(xn,yn),求得样本点中心为(),经验回归方程为=x+,决定系数为R2;若将数据调整为(x1,y1+1),(x2,y2+1),…,(xn,yn+1),求得新的样本点中心为(),经验回归方程为′=′x+′,决定系数为R′2,则以下说法正确的有( )
A.= B.=′
C.<′ D.R2BC [==+1,A错误;
因为(yi+1)-且xi数据不变,所以=′,故B正确;
′==+1>,C正确;
因为=′xi+′=xi++1=i+1,
所以-=yi+1-(i+1)=yi-i,又-所以R2=R′2,故D错误.故选BC.]
3.按照《中华人民共和国环境保护法》的规定,每年生态环境部都会同国家发改委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.如表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2017-2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2025年的酸雨区面积占国土面积的百分比.
(经验回归直线的斜率和截距的最小二乘法估计公式分别为:
≈6.
[解] (1)由已知可得==3,==5.1,
由题可列下表:
xi- -2 -1 0 1 2
yi- 1.3 0.4 -0.1 -0.3 -1.3
所以=≈≈-0.98.
(2)由(1)知,y与x的样本相关系数r≈-0.98接近1,所以y与x之间具有极强的线性相关关系,可用一元线性回归模型进行描述.
由(1)知,==-0.59,
所以==5.1-(-0.59)×3=6.87,
所以所求经验回归方程为=-0.59x+6.87.
(3)令x=9,则=-0.59×9+6.87=1.56,
预测2025年的酸雨区面积占国土面积的百分比为1.56%.
【教师备选资源】
1.(2023·天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.824 5
C [∵样本相关系数r=0.824 5,且散点图呈左下角到右上角的带状分布,
∴花瓣长度和花萼长度呈正相关.
若从样本中抽取一部分,则这部分的样本相关系数不一定是0.824 5.故选C.]
2.(多选)在研究某种产品的零售价x(单位:元)与销售量y(单位:万件)之间的关系时,根据所得数据得到如下所示的对应表:
x 12 14 16 18 20
y 17 16 14 13 11
利用最小二乘法计算数据,得到的经验回归方程为=x+26.2,则下列说法中正确的是( )
A.x与y的样本相关系数r>0
B.经验回归直线必过点
C.<0
D.若该产品的零售价定为22元,可预测销售量是9.7万件
BCD [由表中数据可知
===16,===14.2.
对于A,由
知样本相关系数的正负取决于分子,又
=(-4)×2.8+×1.8+0×+2×+4×=-30<0,故A错误;
由变量x与y的平均值,得样本点中心为经验回归直线必过样本点中心故B正确;
将代入=x+26.2中,得14.2=×16+26.2,解得=-0.75,
所以=-0.75<0,故C正确;
因为=-0.75,所以经验回归方程为=-0.75x+26.2,当x=22时,=-0.75×22+26.2=-16.5+26.2=9.7,所以若该产品的零售价定为22元,可预测销售量是9.7万件,故D正确.故选BCD.]
3.移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.如图是2018~2022年移动物联网连接数w与年份代码t的散点图,其中年份2018~2022对应的t分别为1~5.
(1)根据散点图推断两个变量是否线性相关,计算样本相关系数(精确到0.01),并推断它们的相关程度;
(2)①假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型 (随机误差ei=yi-bxi).请推导:当随机误差平方和Q=取得最小值时,参数b的最小二乘估计;
②令变量x=t-y=w-则变量x与变量Y满足一元线性回归模型 利用①中结论求y关于x的经验回归方程,并预测2025年移动物联网连接数.
附:样本相关系数
[解] (1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.
因为=(1+2+3+4+5)=3,所以
=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
==≈≈0.98,
所以这两个变量正线性相关,且相关程度很强.
要使Q取得最小值,当且仅当
②由①知
所以y关于x的经验回归方程为=2.72x,
又==12.16,所以当t=8时,
x=8-3=5,w=y+=2.72×5+12.16=25.76,
所以预测2025年移动物联网连接数为25.76亿户.
基础考点3 独立性检验
【典例3】 (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表;
单位:g
组别 小白鼠体重的增加量 合计
对照组
试验组
合计
②根据①中的列联表,依据小概率值α=0.05的独立性检验,能否认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:χ2=n=a+b+c+d.
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
[解] (1)根据题意,试验组样本平均数为
=×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=19.8.
(2)①由题意知,这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,
第20位数据为23.2,第21位数据为23.6,
所以这组数据的中位数m=×(23.2+23.6)=23.4.
填写列联表如下:
单位:g
组别 小白鼠体重的增加量 合计
对照组 6 14 20
试验组 14 6 20
合计 20 20 40
②零假设为H0:小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量无差异.根据列联表中数据,计算χ2==6.4>3.841=x0.05,
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异,此推断犯错误的概率不超过0.05.
独立性检验的一般步骤
(1)根据样本数据完成2×2列联表;
(2)根据公式χ2=n=a+b+c+d,计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作统计判断.
提醒:(1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小.
(2)在犯错误的概率不超过0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.
1.(多选)(2024·湖北八市一模)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中通过分层随机抽样的方式随机抽取100名学生进行问卷调查,将调查的结果整理得到如下等高堆积条形图和列联表,则( )
单位:人
性别 对数学的兴趣 合计
感兴趣 不感兴趣
女生 a b a+b
男生 c d c+d
合计 a+c b+d 100
附:χ2=n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.表中a=12,c=30
B.可以估计该校高一新生中对数学不感兴趣的女生人数比男生多
C.根据小概率值α=0.05的χ2独立性检验,可以认为性别与对数学的兴趣有差异
D.根据小概率值α=0.01的χ2独立性检验,可以认为性别与对数学的兴趣没有差异
ACD [由题可知,抽取男生人数为600×=60,女生抽取的人数为400×=40,
由等高堆积条形图知,抽取男生对数学感兴趣的人数为60×0.5=30,抽取男生对数学不感兴趣的人数为60×0.5=30,
抽取女生对数学感兴趣的人数为40×0.3=12,抽取女生对数学不感兴趣的人数为40×0.7=28,则2×2列联表如下:
单位:人
性别 对数学的兴趣 合计
感兴趣 不感兴趣
女生 12 28 40
男生 30 30 60
合计 42 58 100
由此表可知,a=12,c=30,故A正确;
女生对数学不感兴趣的人数约为400×=280,男生对数学不感兴趣的人数约为600×=300,
所以估计该校高一新生中对数学不感兴趣的女生人数比男生少,故B 错误;
零假设为H0:性别与对数学的兴趣没有差异.
χ2=≈3.941>3.841=x0.05.
依据小概率值α=0.05的独立性检验,有充分证据推断H0不成立,即可以认为性别与对数学的兴趣有差异,故C正确;
零假设为H0:性别与对数学的兴趣没有差异.
则χ2=≈3.941<6.635=x0.01.
依据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即可以认为性别与对数学的兴趣没有差异,故D正确.故选ACD.]
2.(2024·浙江嘉兴二模)为了有效预防流感,很多民众注射了流感疫苗.某市防疫部门从辖区居民中随机抽取了1 000人进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.医学研究表明,流感的检测结果是有错检的可能,已知患有流感的人其检测结果有95%呈阳性(感染),而没有患流感的人其检测结果有99%呈阴性(未感染).
(1)估计该市流感感染率;
(2)根据小概率值α=0.001的独立性检验,能否认为注射流感疫苗与预防流感有关;
(3)已知某人的流感检测结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附:χ2=
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[解] (1)估计流感的感染率P==0.3.
(2)零假设为H0:注射流感疫苗与预防流感无关.
由题意,得 2×2列联表如下:
单位:人
疫苗情况 患流感情况 合计
患有流感 没有患流感
打疫苗 220 580 800
不打疫苗 80 120 200
合计 300 700 1 000
根据列联表,计算χ2==≈11.905.
因为11.905>10.828=x0.001,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为注射流感疫苗与预防流感有关,此推断犯错误的概率不超过0.001.
(3)设事件A为“一次检测结果呈阳性”,事件B为“被检测者确实患有流感”,
由题意得P(B)=0.3,P()=0.01,P(AB)=P(B)·P(A|B)=0.3×0.95=0.285,
由全概率公式得P(A)=P(B)·P(A|B)+P()=0.3×0.95+0.7×0.01=0.292,
所以P(B|A)==≈0.976,
所以此人真的患有流感的概率是0.976.
【教师备选资源】
(2024·安徽芜湖二模)某航天公司研发了一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离x(×103km) 56 63 71 79 90 102 110 117
损坏零件数y(个) 61 73 90 105 119 136 149 163
(1)建立y关于x的回归模型=x+,根据所给数据及回归模型,求y关于x的经验回归方程(精确到0.1,精确到1);
(2)该公司进行了第二项测试,从所有同型号推进器中随机抽取100台进行等距离飞行测试,对其中60台进行飞行前保养,测试结束后,有20台报废,其中保养过的推进器占比30%,请根据统计数据完成2×2列联表,并根据小概率值α=0.01的独立性检验,能否认为推进器是否报废与保养有关?
单位:台
报废情况 保养情况 合计
保养 未保养
报废 20
未报废
合计 60 100
附:经验回归直线=x+中斜率和截距的最小二乘估计公式分别为
=-χ2=n=a+b+c+d.
α 0.25 0.1 0.05 0.025 0.01 0.001
xα 1.323 2.706 3.841 5.024 6.635 10.828
[解] (1)由题意得
=≈1.6.
则=112-1.6×86≈-26,所以=1.6x-26.
(2)设零假设为H0:推进器是否报废与保养无关.
由题意,报废推进器中保养过的共20×30%=6台,未保养的推进器共20-6=14台,
补充2×2列联表如下:
单位:台
报废情况 保养情况 合计
保养 未保养
报废 6 14 20
未报废 54 26 80
合计 60 40 100
则χ2===9.375>6.635,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为是否报废与保养有关.
专题限时集训(十一) 统计与成对数据的统计分析
一、单项选择题
1.(2024·四川成都二模)对变量x,y有观测数据(xi,yi)(i∈N*),得散点图如图1;对变量u,v有观测数据(ui,vi)(i∈N*),得散点图如图2.r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则下列说法正确的是( )
A.变量x与y呈现正相关,且<
B.变量x与y呈现负相关,且>
C.变量x与y呈现正相关,且>
D.变量x与y呈现负相关,且<
C [由题意可知,变量x,y的散点图中,y随x的增大而增大,所以变量x与y呈现正相关;
再分别观察两个散点图,图1比图2的点更加集中,相关程度更高,所以>.故选C.]
2.(2024·安徽蚌埠模拟)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,某市物价部门对某商品在5家商场的售价x(元)及其一天的销售量y(件)进行调查,得到五对数据(xi,yi)(i=1,2,3,4,5),经过分析、计算,得=10=8,y关于x的经验回归方程为=-3x+,则对于数据(9,10)的残差为( )
A.-1 B.1 C.-3 D.3
A [因为经验回归直线过样本点中心(),即(10,8),将其代入=-3x+,可得8=-3×10+,
解得=38,当x=9时,=-3×9+38=11,所以残差为10-11=-1.故选A.]
3.样本数据x1,x2,…,xn的平均数=4,方差s2=1,则样本数据2x1+1,2x2+1,…,2xn+1的平均数,方差分别为( )
A.9,4 B.9,2
C.4,1 D.2,1
A [由=4,得样本数据2x1+1,2x2+1,…,2xn+1的平均数为2+1=2×4+1=9,
由s2=1,得样本数据2x1+1,2x2+1,…,2xn+1的方差为4s2=4.故选A.]
4.(2024·辽宁葫芦岛二模)某地为了了解学生的睡眠时间,根据初中和高中学生的人数比例采用分层随机抽样的方法,抽取了40名初中生和20名高中生,调查发现初中生每天的平均睡眠时间为8小时,方差为2,高中生每天的平均睡眠时间为7小时,方差为1.根据调查数据,估计该地区中学生每天睡眠时间的总体方差为( )
A.1.3 B.1.5
C.1.7 D.1.9
D [该地区中学生每天睡眠时间的平均数为:×8+×7=(小时),
该地区中学生每天睡眠时间的方差为:=≈1.9.
故选D.]
5.(2024·陕西西安模拟)某校为了解在校学生对中国传统文化的传承认知情况,随机抽取了100名学生进行中国传统文化知识考试,并将这100名学生的成绩整理得到如图所示的频率分布直方图.根据此频率分布直方图(分成[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]六组),下列结论中不正确的是( )
A.图中的a=0.012
B.若从成绩在[70,80),[80,90)内的学生中采用分层随机抽样的方法抽取10名学生,则成绩在[80,90)内的抽取3人
C.这100名学生成绩的中位数约为65
D.若同一组中的数据用该组区间的中点值作代表,则这100名学生的平均成绩约为68.2
C [由(0.008×2+a+0.020×2+0.032)×10=1,得a=0.012,所以A正确;
这100名学生中成绩在[70,80),[80,90)内的频率分别为0.2,0.12,0.08,所以采用分层随机抽样的方法抽取的10名学生中成绩在[80,90)内的有10×=3(人),故B正确;
根据频率分布直方图,因为0.08+0.2=0.28<0.5,0.08+0.2+0.32=0.6>0.5,所以这100名学生成绩的中位数在[60,70)之间,设中位数为x,则(x-60)×0.032=0.22,所以x=66.875,故C错误;
根据频率分布直方图的平均数的计算公式,可得=45×0.08+55×0.2+65×0.32+75×0.2+85×0.12+95×0.08=68.2,D正确.故选C.]
6.(2024·内蒙古锡林郭勒盟模拟)为了积极推进国家乡村振兴战略,某示范村不断自主创新,拓宽村民增收渠道,近年来取得了显著成效.据悉该村2023年经济总收入是2022年的2倍,为了更好地了解该村经济收入变化情况,统计了该村两年的经济收入构成比例,得到如图所示的条形图和饼图.则以下说法错误的是( )
A.2023年“种植收入”和2022年“种植收入”一样多
B.2023 年“养殖收入”与“第三产业收入”之和比2022年的全年总收入还多
C.2023年“外出务工收入”是2022年“外出务工收入”的
D.2023年“其他收入”比2022年“其他收入”的2倍还多
C [设2022年总收入为m,则2023年总收入为2m,
对于A,2022年种植收入为0.4m,2023年种植收入为0.2×2m=0.4m,A正确;
对于B,2023年养殖收入和第三产业收入之和为0.35×2m+0.2×2m=1.1m,B正确;
对于C,2022年外出务工收入为0.15m,2023年外出务工收入为0.05×2m=0.1m,是2022年外出务工收入的C不正确;
对于D,2022年其他收入为0.15m,2023年其他收入为0.2×2m=0.4m,
由于0.4m>2×0.15m,故2023年其他收入比2022年其他收入的2倍还多,D正确.
故选C.]
二、多项选择题
7.(2024·福建莆田模拟)已知一组正实数样本数据xi(i=1,2,3,…,10),满足x1≤x2≤x3≤…≤x10,则( )
A.样本数据的第80百分位数为x8
B.去掉样本的一个数据,样本数据的极差可能不变
C.若样本数据的频率分布直方图为单峰不对称,且在右边“拖尾”,则样本数据的平均数大于中位数
D.将样本数据中的每个数据变为原来的2倍,则所得的新样本数据的方差是原样本数据方差的2倍
BC [对于A,由10×80%=8,所以样本数据的第80百分位数为故A错误;
对于B,由题意存在这样一种可能,若x1=x2≤x3≤…≤x10,
则极差为x10-x1=x10-x2,此时样本数据的极差不变,故B正确;
对于C,数据的频率分布直方图为单峰不对称,向右边“拖尾”,大致如图.
由于“右拖”时最高峰偏左,中位数靠近高峰处,平均数靠近中点处,
此时平均数大于中位数,故C正确;
对于D,s′2=4s2,故D错误.故选BC.]
8.(2024·河南洛阳模拟)某研究机构为了探究过量饮酒与患疾病A是否有关,调查了400人,得到如图所示的2×2列联表,其中b=12a,则( )
单位:人
饮酒情况 疾病A 合计
患疾病A 不患疾病A
过量饮酒 3a b
不过量饮酒 a 2b
合计 400
参考公式与临界值表:χ2=
α 0.100 0.050 0.010 0.001
xα 2.706 3.841 6.635 10.828
A.任意一人不患疾病A的概率为0.9
B.任意一人不过量饮酒的概率为
C.任意一人在不过量饮酒的条件下不患疾病A的概率为
D.依据小概率值α=0.001的独立性检验,认为过量饮酒与患疾病A有关
ACD [由已知得4a+3b=400,又b=12a,所以a=10,b=120.
任意一人不患疾病A的概率为=0.9,所以A正确;
任意一人不过量饮酒的概率为=所以B错误;
任意一人在不过量饮酒的条件下不患疾病A的概率为=所以C正确;
对于D,2×2列联表如下:
单位:人
饮酒情况 疾病A 合计
患疾病A 不患疾病A
过量饮酒 30 120 150
不过量饮酒 10 240 250
合计 40 360 400
零假设为H0:过量饮酒与患疾病A无关.
由列联表数据得χ2==≈26.67,由于26.67>10.828=x0.001,
依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为过量饮酒与患疾病A有关,所以D正确.故选ACD.]
三、填空题
9.(2024·广东深圳模拟)某中学举行数学解题比赛,其中7人的比赛成绩分别为70,97,85,90,98,73,95,则这7人成绩的上四分位数是________.
97 [将7个数据从小到大排列为70,73,85,90,95,97,98,因为7×75%=5.25,所以这7人成绩的上四分位数是97.]
10.(2024·广东广州一模)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f (单位:心跳次数/分钟)的对应数据(Wi,f i)(i=1,2,…,8),根据生物学常识和散点图得出f 与W近似满足f =cWk(c,k为参数).令xi=ln Wi,yi=ln f i,计算得=8=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和≈0.28,则决定系数R2≈________.
-0.3 0.98 [因为f =cWk,两边取对数可得ln f =ln c+kln W,又xi=ln Wi,yi=ln f i,
且经验回归方程=x+7.4必过样本点中心(),
所以5=8+7.4,解得=-0.3,所以k=-0.3,
≈1-=0.98.]
四、解答题
11.(2024·山东烟台二模)ChatGPT是AI技术驱动的自然语言处理工具,引领了人工智能的新一轮创新浪潮.某数学兴趣小组为了解使用ChatGPT人群中年龄与是否喜欢该程序的关系,从某社区使用过该程序的人群中随机抽取了200名居民进行调查,并依据年龄样本数据绘制了如图所示的频率分布直方图.
(1)根据频率分布直方图,估计年龄样本数据的75%分位数;
(2)将年龄不超过(1)中75%分位数的居民视为青年居民,否则视为非青年居民.
①完成下列2×2列联表,并依据小概率值α=0.05的独立性检验,分析年龄与喜欢该程序是否有关联?
单位:人
喜欢情况 年龄 合计
青年 非青年
喜欢 20
不喜欢 60
合计 200
②按照等比例分层随机抽样的方式从样本中随机抽取8名居民.若从选定的这8名居民中随机抽取4名居民做进一步调查,求这4名居民中至少有3人为青年居民的概率.
参考公式:χ2=其中n=a+b+c+d.
参考数据:
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
[解] (1)由频率分布直方图可知,
年龄在40岁以下的居民所占比例为10×(0.010+0.025+0.030)=0.65,
年龄在50岁以下的居民所占比例为0.65+10×0.020=0.85,所以75%分位数位于[40,50)内,
由40+10×=45,
所以样本数据的75%分位数为45.
(2)①由题知,2×2列联表如下:
单位:人
喜欢情况 年龄 合计
青年 非青年
喜欢 90 20 110
不喜欢 60 30 90
合计 150 50 200
零假设为H0:年龄与是否喜欢该程序无关联.
根据列联表中的数据,可得
χ2=≈6.061>3.841=x0.05.
依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为年龄与是否喜欢该程序有关联.
②按照分层随机抽样,青年居民应抽取8×=6(人),非青年居民应抽取2人.
设从中随机抽取的4名居民中为青年居民的人数为X,
P(X=3)==P(X=4)==
所以P(X≥3)=P(X=3)+P(X=4)=
所以这4名居民中至少有3人为青年居民的概率为.
12.(2024·浙江台州二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)的关系如图所示,令vi=ln xi(i=1,2,…,5),数据经过初步处理,得如下统计表.
现有①y=bx+a和②y=n ln x+m两种作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的经验回归方程,并预测年广告费为6百万元时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润除受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1 000百万元的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①样本相关系数
经验回归直线=+x中
②参考数据:=8.06≈20.1,ln 5≈1.6,ln 6≈1.8.
[解] (1)设模型①和②的样本相关系数分别为r1,r2.
由题意可得
≈≈0.97,
===1.
所以<由样本相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为==5,
得m==8.8-0.96×5=4,
所以y=5v+4,即非线性经验回归方程为=5ln x+4.
当x=6时,=5ln 6+4≈13,因此当年广告费为6百万元时,产品的年销售量大约是13百万辆.
(3)年净利润为200×(5ln x+4)-200x-ξ(x>0),令g(x)=200×(5ln x+4)-200x-ξ,
所以g′(x)=-200.
可得g(x)在(0,5)上单调递增,在(5,+∞)上单调递减.
所以g(x)max=g(5)=200×(5ln 5+4-5)-ξ≈1 400-ξ,由题意得:1 400-ξ>1 000,即ξ<400,
P(ξ<400)=P(ξ>800)=0.3,
即该公司年净利润的最大值大于1 000百万元的概率为0.3.
11/31