(共26张PPT)
9.1 线性回归分析 9.1.1 变量的相关性
【课标要求】1.了解变量间的相关关系,并明确其与函数关系的区别和联系.2.能根据散
点图判断两个变量是否具有相关关系;3.了解两个变量间的相关系数 ,能利用相关系
数 判断两个变量线性相关程度的大小.
1
要点深化·核心知识提炼
2
题型分析·能力素养提升
01
要点深化·核心知识提炼
知识点1.相关关系
1.定义
像这样,两个变量之间具有一定的联系,但又没有确定性函数关系,这种关系称为相
关关系.
2.散点图
为直观地描述样本数据中两个变量间的关系,用横坐标表示其中的一个变量,纵坐标
表示另一个变量,则样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计
图叫作散点图.
3.线性相关关系
散点落在一条直线附近,我们称这两个变量线性相关.
4.相关关系的分类
具有相关关系的两个变量的散点图:
(1)如果散点呈从左下向右上方向发展的趋势,则称这两个变量之间正相关.
(2)如果散点呈从左上向右下方向发展的趋势,则称这两个变量之间负相关.
名师点睛
散点图的作用:
(1)散点图具有直观、简明的特点,能体现样本数据的密切程度,可以根据散点图
判断变量之间是否具有相关关系.
(2)通过散点图不但可以从点的位置判断测量值的大小、高低、变动范围与趋势,
还可以通过观察剔除异常数据,提高估计相关程度的准确性.
知识点2.相关系数
1.相关系数 的计算公式
.
2.相关系数 的性质
(1) .
(2)当 时, 与 呈正相关关系;当 时, 与 呈负相关关系.
(3) 越接近1, 与 相关的程度就越强; 越接近0, 与 相关的程度就越弱.
通常情况下,当 时,认为线性相关关系显著;当 时,认为几乎没有线
性相关关系.
名师点睛
当 时,两个变量完全正相关;当 时,两个变量完全负相关.
02
题型分析·能力素养提升
【题型一】相关关系的概念
例1 判断以下两个变量之间是否具有相关关系.
(1)正方形的面积与其周长之间的关系;
解 设正方形的面积为 ,周长为 ,则 ,即正方形的面积由其周长唯一
确定,因此二者是函数关系,不是相关关系.
(2)父母的身高与子女的身高之间的关系;
解 子女的身高除了与父母的身高有一定关系外,还与其他因素有关,即子女的身高并不是由其父母的身高唯一确定的,因此二者之间具有相关关系.
(3)学生的学号与身高;
解 学生的学号与身高之间没有任何关系,不具有相关关系.
(4)汽车匀速行驶时的路程与时间的关系.
解 若汽车匀速行驶时的速度为 ,行驶的路程为 ,时间为 ,则有 ,因此
当速度一定时,路程由时间唯一确定,二者是函数关系,而不是相关关系.
规律方法 函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关
系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
跟踪训练1 (多选题)下列说法正确的有( )
ABD
A.闯红灯与交通事故发生率的关系是相关关系
B.同一物体的加速度与作用力是函数关系
C.圆的周长与面积的关系是相关关系
D.广告费用与销售量之间的关系是相关关系
[解析] 闯红灯与发生交通事故之间不是因果关系,但具有相关性,是相关关系,所以A正确;物体的加速度与作用力的关系是函数关系,B正确;圆的周长与面积的关系是函数关系,C错误;广告费用与销售量之间是相关关系,D正确.
【题型二】散点图的应用
例2 某公司2017~2022年的年利润 与年广告支出 的统计资料如下表所示:
年份 2017 2018 2019 2020 2021 2022
12.2 14.6 16 18 20.4 22.3
0.62 0.74 0.81 0.89 1 1.11
判断 与 是否线性相关,若是线性相关,试判断是正相关还是负相关.
解 作出散点图(图略),由散点图可知,各点分布在一条直线附近,故 与 之间线
性相关,且是正相关.
跟踪训练2 对变量 , 由观测数据得散点图①,对变量 , 由观测数据得散点图②.由
这两个散点图可以判断( )
C
A.变量 与 正相关, 与 正相关
B.变量 与 正相关, 与 负相关
C.变量 与 负相关, 与 正相关
D.变量 与 负相关, 与 负相关
[解析] 通过观察散点图可以知道,图①散点呈从左上向右下方向发展的趋势,所以 与
负相关;图②散点呈从左下向右上方向发展的趋势,所以 与 正相关.
【题型三】相关系数
角度1 相关系数的性质
例3 (多选题)对两个变量的相关系数 ,下列说法正确的有( )
AD
A. 越大,两个变量的相关程度越大
B. 越小,两个变量的相关程度越大
C.当 趋近于0时,两个变量没有线性相关关系
D.当 越接近1时,两个变量线性相关程度越强
[解析] 越大,相关程度越大,A正确; 越小,相关程度越小,B错误;当 越接近于0时,
线性相关关系越弱,C错误;当 越接近1时,线性相关程度越强,D正确.
角度2 相关系数的计算及判断
例4 某厂的生产原料耗费 (单位:百万元)与销售额 (单位:百万元)之间有如下的
对应关系:
2 4 6 8
30 40 50 70
(1)画出 的散点图;
解 的散点图如图所示.
(2)计算 与 之间的相关系数,并刻画它们的相关程度.
解 由表中数据,得 , , , ,
,
根据 ,可得相关系数 ,故可以推断生
产原料耗费与销售额这两个变量正相关,且相关程度很强.
规律方法 线性相关强弱的判断方法
(1)散点图:根据散点图只是粗略作出判断,其图象越接近直线,相关性越强.
(2)相关系数:相关系数能够较准确地判断相关的程度,其绝对值越大,相关性越强.
跟踪训练3(1) 甲、乙、丙、丁四位同学各自对 , 两变量的线性相关性做试验,并
分别求得相关系数 ,如下表:
同学 甲 乙 丙 丁
0.82 0.78 0.69 0.85
则哪位同学的试验结果体现 , 两变量有更强的线性相关性( )
D
A.甲 B.乙 C.丙 D.丁
(2)关于两个变量 和 的7组数据如下表所示:
21 23 25 27 29 32 35
7 11 21 24 66 115 325
求变量 与 的相关系数,并判断变量 与 之间是正相关还是负相关.
解 ,
,
,
,
,
根据 ,可得相关系数 .
, 变量 与 之间正相关.(共40张PPT)
9.1 线性回归分析 9.1.2 线性回归方程
【课标要求】1.了解随机误差,并能分析判断线性回归模型的拟合效果.2.结合实例,根据
散点图,判断两个变量是否具有相关关系;3.了解最小二乘法原理,会求线性回归方程,并
能根据线性回归方程进行预测.
1
要点深化·核心知识提炼
2
题型分析·能力素养提升
01
要点深化·核心知识提炼
知识点1.线性回归问题
1.随机误差
具有线性相关关系的两个变量的取值 , , 的值不能由 完全确定,将 , 之间
的关系表示为 ,其中 是确定性函数, 称为随机误差.
称为线性回归模型.
2.回归直线和线性回归方程
直线 称为回归直线,此直线方程即为线性回归方程.
其中 称为回归截距, 称为回归系数, 称为回归值.
名师点睛
1.随机误差产生的主要原因
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
2.线性回归模型中 , 值的求法
(1) , 的估计值为 , ,则 ,
.
(2)线性回归方程 必经过样本点的中心 .
知识点2.非线性回归问题
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,把
它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟
这些散点拟合得最好的函数,然后用适当的变量进行变换,把问题转化为线性回归分析问
题,使之得到解决.
一般步骤为
名师点睛
由于涉及的数据比较多,考虑可操作性,相关题目往往会给出散点图,或将画散点图这
一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
02
题型分析·能力素养提升
【题型一】求线性回归方程
例1 某研究机构对高三学生的记忆力 和判断力 进行统计分析,得下表数据:
6 8 10 12
2 3 5 6
(1)请根据上表数据画出散点图;
解 散点图如图:
(2)请根据上表提供的数据,建立 关于 的线性回归方程.
相关公式: ,
解 由(1)中散点图可推断出 与 线性相关.
因为 , , ,
,代入公式,求得回归系数
, ,
所以线性回归方程为 .
跟踪训练1 为缓解医疗用品的短缺,各医疗单位都加紧了医疗用品的生产.某医疗器械厂统计了口罩生产车间每名工人的生产速度,并将所得数据分成五组,绘制出如图所示的频率直方图.
(1)估计口罩生产车间工人生产速度的中位数(结果写成分数的形式).
解 由频率直方图可知, ,
解得 .
, ,
中位数位于 之间.
设中位数为 ,
则 ,解得 .
(2)为了解该车间工人的生产速度是否与他们的工作年限有关,现从车间所有工人中随机调查了5名工人的生产速度以及他们的工龄(参加工作的年限),所得数据如下:
4 6 8 10 12
42 57 62 62 67
根据上表数据求每名工人的生产速度 关于他的工龄 的线性回归方程 .
附: , .
解 由题意得, ,
,
, ,
关于 的线性回归方程为 .
【题型二】利用线性回归方程对总体进行估计
例2 某市从2017年起每年在国庆期间都举办一届国际水上狂欢节,该市旅游部门将前五届水上狂欢节期间外地游客到该市旅游的人数统计如下表:
年份 2017 2018 2019 2020 2021
1 2 3 4 5
0.6 0.8 0.9 1.2 1.5
(1)求 关于 的线性回归方程 ;
解 因为 , , ,
,所以 , .
综上,线性回归方程为 .
(2)该市旅游部门估计,每位外地游客可为该市增加100元旅游收入,请利用(1)的
线性回归方程,预测2023年第七届国际水上狂欢节期间外地游客可为该市增加多少旅
游收入.
参考公式: , , , 为样本平均值.
解 由(1)中线性回归方程可知当 时, ,即增
加18.8万人,所以2023年第七届国际水上狂欢节期间外地游客可为该市增加的旅游收
入为1 880万元.
规律方法 (1)判断两个变量是否线性相关:可以利用经验,也可以画散点图.
(2)求线性回归方程,注意运算的正确性.
(3)根据线性回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
跟踪训练2 假设关于某种设备的使用年限 (单位:年)与所支出的维修费用 (单位:
万元)有如下统计资料:
2 3 4 5 6
2.2 3.8 5.5 6.5 7.0
已知 , , , , .
(1)计算 与 之间的相关系数(精确到 ),并求出线性回归方程.
解 由题知, , , , ,
,
根据相关系数 的计算公式,得 .
又 ,
,
所以线性回归方程为 .
(2)根据线性回归方程,预测假设使用年限为10年时,维修费用约是多少万元
解 由(1)中线性回归方程可知当 时, (万元),
即假设使用10年时,维修费用约为12.38万元.
【题型三】非线性回归分析
例3 某企业为确定下一年投入某种产品的研发费用,需
了解年研发费用 (单位:千万元)对年销售量 (单
位:千万件)的影响,统计了近10年投入的年研发费用
(1)利用散点图判断 和 (其中 , 均为大于0的常数)哪一个更
适合作为年销售量 和年研发费用 的回归方程类型(只要给出判断即可,不必说明理
由).
解 由散点图可知,选择回归类型 更适合.
与年销售量 的数据,得到如图所示的散点图.
(2)对数据作出如下处理,令 , ,得到相关统计量的值如下表:
15 15 28.25 56.5
根据第(1)问的判断结果及表中数据,求 关于 的回归方程.
附:对于一组数据 , , , ,其回归直线 的斜率和截距的
最小二乘估计分别为 <
m> , .
解 对 两边取对数,得 ,
即 .
由表中数据求得 ,
.
令 ,则 ,
即 .所以年销售量 与年研发费用 的回归方程为 .
续表
续表
跟踪训练3 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每
件产品的非原料成本 (单位:元)与生产该产品的数量 (单位:千件)有关,经统
计得到如下数据:
1 2 3 4 5 6 7 8
112 61 44.5 35 30.5 28 25 24
根据以上数据,绘制了如下散点图.
观察散点图,两个变量之间不具有线性相关关系,现考虑用反比例函数模型 和
指数函数模型 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的
回归方程为 , 与 的相关系数 .
参考数据 其中 :
183.4 2.72 1.53 360 489.47 0.135
(1)用反比例函数模型求 关于 的回归方程;
解 令 ,
则 可转化为 ,
因为 ,
所以
,
则 ,
所以 ,
所以 关于 的回归方程为 .
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到 ),并用其估计
产量为10千件时每件产品的非原料成本.
参考公式:对于一组数据 , , , ,其回归直线 的斜率和
截距的最小二乘估计分别为 , ,相关系数
.
解 与 的相关系数为
.
因为 ,所以用反比例函数模型拟合效果更好,
由(1)中线性回归方程可知,当 时, (元),
所以当产量为10千件时,每件产品的非原料成本为21.1元.(共32张PPT)
9.2 独立性检验
【课标要求】1.掌握分类变量和列联表的概念,并会依据列联表判断两个分类变量是否
独立.2.能利用 列联表进行独立性检验,提升利用图表进行数据分析的能力.3.理解
统计量 的意义和独立性检验的基本思想.
1
要点深化·核心知识提炼
2
题型分析·能力素养提升
01
要点深化·核心知识提炼
知识点1.列联表
一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类 和类 (如吸烟与不吸烟);Ⅱ
也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下列联表
所示的抽样数据:
Ⅰ Ⅱ 合计
类1 类2
合计
上述表格称为 列联表.
名师点睛
列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究两个分类变量
的列联表,并且每个分类变量只取两个值,这样的列联表称为 列联表.
知识点2.独立性检验
1.定义
用 统计量研究两个变量 和 是否有关的方法称为独立性检验.
2. 统计量
.
3.独立性检验的步骤
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设 Ⅰ与Ⅱ没有关系;
(2)根据 列联表及 公式,计算 的值;
(3)根据临界值,做出判断.
其中临界值如下表所示:
0.50 0.40 0.25 0.15 0.10
0.455 0.708 1.323 2.072 2.706
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.828
例如:
(1)若 ,则有 的把握认为“Ⅰ与Ⅱ有关系”;
(2)若 ,则有 的把握认为“Ⅰ与Ⅱ有关系”;
(3)若 ,则有 的把握认为“Ⅰ与Ⅱ有关系”;
(4)若 ,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能得出结论“
成立”,即Ⅰ与Ⅱ没有关系.
名师点睛
独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是
否有关,并且能较精确地给出这种判断的把握程度.
02
题型分析·能力素养提升
【题型一】对独立性检验的理解
例1 在吸烟与患肺癌是否相关的研究中,下列说法正确的是( )
C
A.若 ,我们有 的把握认为吸烟与患肺癌有关,则在100个吸烟的人中必有
99个人患肺癌
B.由独立性检验可知,当有 的把握认为吸烟与患肺癌有关时,若某人吸烟,则他有
的可能患有肺癌
C.通过计算得到 ,是指有 的把握认为吸烟与患肺癌有关联
D.以上三种说法都不正确
[解析] 若 ,我们有 的把握认为吸烟与患肺癌有关,而不是在100个吸烟的人中必有99个人患肺癌,故A不正确. 是指吸烟与患肺癌有关的概率,而不是吸烟的人有 的可能患有肺癌,故B不正确.C显然正确,D不正确.
跟踪训练1 (多选题)给出下列实际问题,其中用独立性检验可以解决的问题有
( )
ACD
A.两种药物治疗同一种病是否有区别 B.吸烟者得肺病的概率
C.吸烟是否与性别有关系 D.网吧与青少年的犯罪是否有关系
[解析] 独立性检验是判断两个分类变量是否有关系的方法,而B是概率问题,故选 .
【题型二】独立性检验的应用
例2 某校对学生课外活动进行调查,将结果整理成下表,用你所学过的知识进行分析,能
否有 的把握认为“喜欢体育还是文娱与性别有关系”?
单位:人
性别 课外活动 合计
体育 文娱 男 21 23 44
女 6 29 35
合计 27 52 79
解 提出假设 喜欢体育还是喜欢文娱与性别没有关系.
, , , , ,
.
当 成立时, 的概率约为 , 我们有 的把握认为,喜欢体育还是喜欢文娱与性别有关系.
跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的赞同情况,某教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师中对新课程教学模式赞同的有10人,不赞同的有10人;青年教师中对新课程教学模式赞同的有26人,不赞同的有4人.
(1)根据以上数据建立一个 列联表;
解 建立 列联表如下:
单位:人
教师类型 赞同情况 合计
赞同 不赞同 老教师 10 10 20
青年教师 26 4 30
合计 36 14 50
(2)分析对新课程教学模式的赞同情况与教师年龄是否有关联.
解 提出假设 对新课程教学模式的赞同情况与教师年龄无关联.
根据列联表中的数据可以求得
.
因为当 成立时, 的概率为 ,所以有 的把握认为对新课程教学模式的赞同情况与教师年龄无关联.
【题型三】 独立性检验与概率统计的综合应用
例3 某学校共有1 000名学生,其中男生400名,为了
解该校学生在学校的月消费情况,采取分层抽样随机
抽取了100名学生进行调查,月消费金额分布在
元之间.根据调查的结果绘制的学生在校
月消费金额的频率分布直方图如图所示,将月消费金
额不低于750元的学生称为“高消费群”.
(1)求 的值,并估计该校学生月消费金额的平均数(同一组中的数据用该组区间的
中点值作代表).
解 由题意知 ,
解得 ,
样本平均数 .
(2)若样本中属于“高消费群”的女生有20名,完成下面 列联表.根据这组数据,能
否认为该校学生属于“高消费群”与“性别”有关?
性别 消费情况 合计
属于“高消费群” 不属于“高消费群” 男
女
合计
(参考公式: ,其中 .)
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
解 由题意可知,样本中男生40人,女生60人.样本中属于“高消费群”的共有25人,其中女
生20人,得出以下 列联表:
单位:人
性别 消费情况 合计
属于“高消费群” 不属于“高消费群” 男 5 35 40
女 20 40 60
合计 25 75 100
提出假设 认为该校学生属于“高消费群”与“性别”无关.
根据列联表中的数据,可以求得
.
故有 的把握认为该校学生属于“高消费群”与“性别”有关.
规律方法 通过处理数据、提取信息、构建独立性检验模型、进行推断、获得结论,提升了学
生获取有价值信息并能进行定量分析的意识和能力.
跟踪训练3 电视传媒公司为了解某地区电视观众对某类体育节目的观看情况,随机抽取了100名观众进行调查,并根据调查结果绘制了观众日均收看该体育节目时间的频率分布直方图如下.
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的 列联表,并据此推断“体育迷”与性别是否有关.
单位:人
性别 观看情况 合计
非体育迷 体育迷 男
女 10 55
合计
解 由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而 列联表如下:
单位:人
性别 观看情况 合计
非体育迷 体育迷 男 30 15 45
女 45 10 55
合计 75 25 100
提出假设 “体育迷”与性别无关.
将 列联表中的数据代入公式计算,得
,
所以有 的把握认为“体育迷”与性别有关.
(2)将上述调查所得的频率视为概率.现在从该地区大量电视观众中,采用随机抽样的
方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为 .若每次抽取
的结果是相互独立的,求随机变量 的概率分布、均值 和方差 .
附: .
0.10 0.05 0.01
2.706 3.841 6.635
解 由频率分布直方图可知,抽到“体育迷”的频率为 ,将频率视为概率,即从观众
中随机抽取一名是“体育迷”的概率为 .
由题意知, , ,从而 的概率分布为
X 0 1 2 3
故 ,
.(共51张PPT)
培优课5
高考中概率与统计的热点题型
1
要点深化·核心知识提炼
2
题型分析·能力素养提升
01
要点深化·核心知识提炼
在高考的解答题中,对概率与随机变量及其分布相结合的综合问题的考查既是热点
又是重点,是高考必考的内容,并且常常与统计相结合,设计成包含概率计算、概率分布
表、随机变量的数学期望与方差、统计图表的识别等知识的综合题.以考生比较熟悉的
实际应用问题为载体,考查学生应用基础知识和基本方法分析问题和解决问题的能力.
02
题型分析·能力素养提升
【题型一】 求离散型随机变量的均值与方差
例1 [2021新高考Ⅰ] 某学校组织“一带一路”知识竞赛,有A,B两类问题.每位参加比赛的同
学先在两类问题中选择一类并从中随机抽取一个问题回答,若回答错误则该同学比赛结
束;若回答正确则从另一类问题中再随机抽取一个问题回答,无论回答正确与否,该同学
比赛结束.A类问题中的每个问题回答正确得20分,否则得0分;B类问题中的每个问题回
答正确得80分,否则得0分.已知小明能正确回答A类问题的概率为 ,能正确回答B类问
题的概率为 ,且能正确回答问题的概率与回答次序无关.
(1)若小明先回答A类问题,记 为小明的累计得分,求 的分布列.
解 随机变量 的所有可能取值为0,20,100,
则 , ,
.
故随机变量 的分布列如下:
X 0 20 100
P 0.2 0.32 0.48
(2)为使累计得分的期望最大,小明应选择先回答哪类问题?并说明理由.
解 设小明先回答B类问题,记 为小明的累计得分,
则随机变量 的所有可能取值为0,80,100,
则 , ,
,
故 .
由(1)知 .
因为 ,故应先回答B类问题.
题后反思离散型随机变量的均值和方差的求解,一般分两步:一是定型,即先判断随机变量的
分布是特殊类型,还是一般类型,如两点分布、二项分布、超几何分布等属于特殊类型;二是
定性,对于特殊类型的均值和方差可以直接代入相应公式求解,而对于一般类型的随机变量,应
先求其分布列,然后代入相应公式计算,注意离散型随机变量的取值与概率的对应.
跟踪训练1 高尔顿板是英国生物统计学家高尔顿设计用来研究随机现象的模型,在一块
木板上钉着若干排相互平行但相互错开的圆柱形小木块,小木块之间留有适当的空隙作
为通道,前面挡有一块玻璃,让一个小球从高尔顿板上方的通道口落下,小球在下落的过
程中与层层小木块碰撞,且等可能向左或向右滚下,最后掉入高尔顿板下方的某一球槽内.
如图1所示的高尔顿板有7层小木块,小球从通道口落下,第一次与第2层中间的小木块碰
撞,以 的概率向左或向右滚下,依次经过6次与小木块碰撞,最后掉入编号为1,2, ,7的
球槽内.例如小球要掉入3号球槽,则在6次碰撞中有2次向右4次向左滚下.
图1
(1)如图1,进行一次高尔顿板试验,求小球掉入5号球槽的概率.
解 设这个小球掉入5号球槽为事件 ,掉入5号球槽,需要向右4次向左2次,所以
,
所以这个小球掉入5号球槽的概率为 .
(2)小红、小明同学在研究了高尔顿板后,利用高尔顿板来到社团
文化节上进行盈利性“抽奖”活动.小红使用图1所示的高尔顿板,付费
6元可以玩一次游戏,小球掉入 号球槽得到的奖金为 元,其中
.小明改进了高尔顿板(如图2),首先将小木块减少成5层,
然后使小球在下落的过程中与小木块碰撞时,有 的概率向左, 的概
率向右滚下,最后掉入编号为1,2, ,5的球槽内,改进高尔顿板后只
需付费4元就可以玩一次游戏,小球掉入 号球槽得到的奖金为 元,
其中 .两位同学的高尔顿板游戏火爆进行,很多同学参加
了游戏,你觉得小红和小明同学谁的盈利多?请说明理由.
图2
解 小红的收益计算如下:
每一次游戏中, 的可能取值为0,4,8,12.
,
,
,
.
0 4
一次游戏付出的奖金 ,则小红的收益
为 .
小明的收益计算如下:
每一次游戏中, 的可能取值为0,1,4,9.
,
,
,
.
0 1
一次游戏付出的奖金 ,则小明的收益为
.
显然, ,所以小明的盈利多.
【题型二】概率与统计的综合问题
【例2】 2023年5月19日是第13个“世界家庭医生日”.某地区自2016年开始全面推行家庭医生签约服务.已知该地区人口为1 000万,从1岁到101岁的居民年龄结构的频率直方图如图1所示.为了解各年龄段居民签约家庭医生的情况,现调查了1 000名年满18周岁的居民,各年龄段被访者签约率如图2所示:
图1
图2
(1)国际上通常衡量人口老龄化的标准有以下四种: 岁以上人口占比达到
以上;②少年人口(14岁以下)占比 以下;③老少比 以上;④人口年龄中
位数在30岁以上.请任选两个角度分析该地区人口分布现状.
解 ①60岁以上人口比例是 ;
②少年(14岁以下)人口比例小于 ;
③老少比大于 ;
④由于1岁 岁人口比例为 ,1岁 岁人口比例为 ,所以该地区
人口年龄中位数在31岁 岁范围内.
所以由以上四条中任意两条均可分析出该地区人口已经老龄化.
(2)估计该地区年龄在71岁 岁且已签约家庭医生的居民人数.
解 由折线统计图可知,该地区年龄在71岁 岁且已签约家庭医生的居民人数为 万.
(3)据统计,该地区被访者的签约率约为 ,为把该地区年满18岁居民的签约率提高
到 以上,应着重提高图2中哪个年龄段的签约率?并结合数据对你的结论作出解释.
解 由图1、图2可知该地区年龄在18岁 岁的人口为180万 万之间,签约率为 ;
年龄在31岁 岁的人口数为 万,签约率为 ;
年龄在51岁 岁的人口数为 万,签约率为 ;
年龄在61岁 岁的人口数为 万,签约率为 ;
年龄在71岁 岁的人口数为 万,签约率为 ;
年龄在81岁以上的人口数为 万,签约率为 .
由以上数据可知,这个地区年龄在31岁 岁的人数为360万,基数较其他年龄段是最大的,且签约率仅为 ,比较低,所以应着重提高 岁年龄段的签约率.
题后反思 概率与统计作为考查考生应用意识的重要载体,已成为高考的一大亮点和热点.它
与其他知识融合、渗透,情境新颖,充分体现了概率与统计的工具性和交汇性.统计以考查抽样
方法、样本的频率分布、样本特征数的计算为主,概率以考查概率计算为主,往往和实际问题
相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来,只有这样才能有效地解
决问题.
跟踪训练2 零部件生产水平,是评判一个国家高端装备制造能力的重要标准之一.其中切
割加工技术是一项重要技术.某研究机构自主研发了一种切割设备,经过长期生产经验,
可以认为设备正常状态下切割的零件尺寸服从正态分布 .按照技术标准要求,从
该设备切割的一个批次零件中任意抽取10件作为样本,如果样本尺寸的平均值与零件标
准尺寸相差的绝对值小于 (单位: ),且所有零件尺寸均在 范
围内,则认定该切割设备的技术标准为 级;如果样本尺寸的平均值与零件标准尺寸相
差的绝对值大于等于0.1小于 ,且所有零件尺寸均在 范围内,则认定
该切割设备的技术标准为 级;如果样本尺寸的平均值与零件标准尺寸相差的绝对值
大于等于0.5或存在零件尺寸在 范围外,则认定该切割设备的技术标准
为 级.
(1)设某零件的标准尺寸为 ,下面是检验员抽取该设备切割的10个零件尺寸:
100.03100.5299.98 100.4 99.92
100.35100.66100.78 99.92 100.44
经计算,有 ,其中 为抽取的第 个样本的尺寸, ,2,3, ,10,用样
本的平均数 作为 的估计值 ,用样本的标准差 作为 的估计值 ,根据数据判断
该切割设备的技术标准.
解 由题意, ,
,
所以 , ,样本的均值与零件标准尺寸差为 ,并且对每一个数据 ,均有 ,由此判断该切割设备技术标准为 级标准.
(2)生产该种零件的某制造商购买了该切割设备,正常投入生产,公司制定了两种销售
方案(假设每种方案对销售量没有影响):
方案1:每个零件均按70元定价销售;
方案2:若零件的实际尺寸在 范围内,则该零件为Ⅰ级零件,每个零件定价100
元,否则为Ⅱ级零件,每个零件定价60元.
哪种销售方案能够给公司带来更多的利润?请说明.
附:若随机变量 ,则 ,
解 方案1:每个零件售价为70元.
方案2:设生产的零件售价为随机变量 ,则 可以取60,100.
由题意,设备正常状态下切割的零件尺寸为 ,且 ,所以
,
,
所以随机变量 的分布列为
60 100
P
所以 的数学期望 .
综上,方案2能够给公司带来更多的利润.
【题型三】概率与线性回归的综合问题
例3 某人经营淡水池塘养草鱼,根据过去40期的养殖档案,
该池塘的养殖重量 (百斤)都在20百斤以上,其中不足4
0百斤的有8期,不低于40百斤且不超过60百斤的有24期,超
过60百斤的有8期.根据统计,该池塘的草鱼重量的增加量
(百斤)与使用某种饵料的质量 (百斤)之间的关系如
图所示.
(1)根据数据可知 与 具有线性相关关系,请建立 关于 的线性回归方程
;如果此人设想使用某种饵料10百斤时,草鱼重量的增加量须多于5百斤,请
根据回归方程计算,确定此方案是否可行?并说明理由.
解 依题意,得 , , , ,
所以 , ,
所以 ,
当 时, ,故此方案可行.
(2)养鱼的池塘对水质含氧量与新鲜度要求较高,某商家为该养殖户提供收费服务,即提
供不超过3台增氧冲水机,每期养殖使用的冲水机运行台数与鱼塘的鱼重量 有如下关系:
鱼的重量(单位:百斤)
冲水机只需运行台数 1 2 3
若某台增氧冲水机运行,则商家每期可获利5千元;若某台冲水机未运行,则商家每期亏损2千元.视频率为概率,商家欲使每期冲水机总利润的均值达到最大,应提供几台增氧冲水机?
解 设盈利为 ,安装1台,盈利 .
安装2台,当 时, , ,
当 时, , ,
所以 .
安装3台,当 时, , ,
当 时, , ,
当 时, , ,
所以 .
因为 ,所以应提供2台增氧冲水机.
反思感悟
主要考查概率与回归方程等知识,考查数据处理能力和应用意识,注意分析数据,定型求解,正确
计算是关键.
跟踪训练3 蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数 和平均温度 有关,
现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
21 23 25 27 29 32 35
7 11 21 24 66 115 325
27.429 81.286 3.612 40.182 147.714
表中 , .
(1)根据散点图判断, 与 (其中 为自然对数的底数)
哪一个更适宜作为平均产卵数 关于平均温度 的回归模型(给出判断即可,不必说明
理由).
解 由散点图可以判断, 更适宜作为平均产卵数 关于平均温度 的回归模型.
(2)求出 关于 的线性回归方程(结果精确到小数点后第三位).
解 对 两边取自然对数得 ,
令 , , ,则 .
因为 ,
,
所以 关于 的线性回归方程为 ,
所以 关于 的线性回归方程为 .
(3)根据以往统计,该地每年平均温度达到 以上时蝗虫会对农作物造成严重伤害,
需要人工防治,其他情况均不需要人工防治,记该地每年平均温度达到 以上的概率
为 .
①记该地今后 年恰好需要2次人工防治的概率为 ,求 取得最大值时对应的概率 ;
解 由题意可知 ,
所以
.
因为 ,且 ,
所以当 时, ;
当 时, .
所以函数 在区间 , 上单调递增,在区间 , 上单调递减,
所以函数 在 处取得极大值,亦即最大值,
所以 .
②根据①中的结论,当 取最大值时,记该地今后6年需要人工防治的次数为 ,求 的
均值和方差.
由①可知,当 时, 取最大值.
又因为 ,所以 .
由题意可知 ,所以 , .
【题型四】概率与独立性检验的综合问题
例4 [2023全国甲] 为探究某药物对小鼠的生长抑制作用,将40只小鼠均分为两组,分别为对照组(不加药物)和实验组(加药物).
(1)设其中两只小鼠中对照组小鼠数目为 ,求 的分布列和数学期望;
解 依题意, 的可能取值为0,1,2,
则 , , ,
所以 的分布列为
0 1 2
故 .
(2)测得40只小鼠体重如下(单位: ):(已按从小到大排好)
对照组: 17.3 18.4 20.1 20.4 21.5
23.2 24.6 24.8 25.0 25.4 26.1
26.3 26.4 26.5 26.8 27.0 27.4
27.5 27.6 28.3
实验组:5.4 6.6 6.8 6.9 7.8 8.2
9.4 10.0 10.4 11.2 14.4 17.3
19.02 20.2 23.6 23.8 24.5
25.1 25.2 26.0
(ⅰ)求40只小鼠体重的中位数 ,并完成下面 列联表:
对照组
实验组
解 依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位数据与第21位数据的平均数.
因为原数据已经排好,所以我们只需要观察对照组第一排数据与实验组第二排数据即可,
可得第11位数据为 ,后续依次为 , , , , ,
, , , , , ,
故第20位数据为 ,第21位数据为 ,
所以 ,
故列联表为
合计
对照组 6 14 20
实验组 14 6 20
合计 20 20 40
(ⅱ)根据 列联表,能否有 的把握认为药物对小鼠生长有抑制作用.
参考数据:
0.10 0.05 0.010
2.706 3.841 6.635
解 由(ⅰ)可得, ,
所以能有 的把握认为药物对小鼠生长有抑制作用.
反思感悟此类题目虽然涉及的知识点较多,但每个知识点考查程度相对较浅,考查深度有限,所
以解决此类问题,最主要的是正确掌握概率与统计案例的基本知识,并能对这些知识点进行有
效地融合,把统计图表中的量转化为概率及分布列求解中的有用的量是解决此类问题的关键所
在.
跟踪训练4 从2020年开始,国家逐步推行全新的高考制度.新高考不再分文理科,部分省
份采用 模式,其中语文、数学、外语三科为必考科目,满分各150分,另外考生还
要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在物理、历史2门科目
中选1门,在政治、地理、化学、生物4门科目中选2门参加考试,每科目满分100分.为了
应对新高考,某高中从高一年级1 000名学生(其中男生550人,女生450人)中,采用分层
抽样的方法从中抽取 名学生进行调查.
(1)已知抽取的 名学生中含女生45人,求 的值及抽取到的男生人数.
解 由题意,得 ,解得 ,抽取到的男生人数为 .
(2)学校计划在高一上学期开设选修中的“物理”和“历史”两个科目,为了了解学生对这
两个科目的选课情况,对在(1)的条件下抽取到的 名学生进行问卷调查(已知每名
学生在这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得
到的 列联表.请将列联表补充完整,并依据小概率值 的独立性检验,能否认
为选择科目与性别有关?说明你的理由.
性别 选择科目 合计
物理 历史 男生 10
女生 25
合计
解 列联表为
性别 选择科目 合计
物理 历史 男生 45 10 55
女生 25 20 45
合计 70 30 100
零假设为 选择科目与性别无关.
根据列联表中的数据,经计算得到
.
依据小概率值 的独立性检验, 不成立,因此可以认为选择科目与性别有关.
(3)在抽取到的45名女生中按(2)中的选课情况进行分层抽样,从中抽出9名女生,再
从这9名女生中抽取4人,设这4人中选择“历史”的人数为 ,求 的 概率分布及期望.
附: ,其中 .
0.05 0.01
3.841 6.635
解 从45名女生中用分层抽样抽取9名女生,所以这9名女生中有5人选择“物理”,4人选择
“历史”,9名女生中再选择4名女生,则这4名女生中选择“历史”的人数 的所有可能取
值为0,1,2,3,4.设事件 发生的概率为 ,则
, ,
, ,
.
所以 的分布列为
0 1 2 3 4
.(共40张PPT)
章末总结提升
1
网络构建·知识导图
2
要点归纳·典例提升
01
网络构建·知识导图
02
要点归纳·典例提升
要点一 独立性检验
独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出
列联表,从表格中可以直观地得到两个分类变量是否有关系.
【典例1】 某中学为了研究高三年级学生的身高和性别的关联问题,从高三年级800名学生中随机抽取200名学生测量身高,得到 列联表如下:
单位:人
性别 身高 合计
女 80 16 96
男 20 84 104
合计 100 100 200
试分析该校高三学生身高与性别是否有关.
解 提出假设 认为该中学高三年级学生身高与性别无关系.
由列联表的数据可求得 ,
当 成立时, 的概率约为 ,
我们有 的把握认为,该校高三学生的身高与性别有关联.
跟踪训练1 在研究某种新措施对某种传染病的防治效果问题时,得到以下数据:
单位:例
是否采用新措施 试验数据 合计
存活数 死亡数 对照 114 36 150
新措施 132 18 150
合计 246 54 300
试分析新措施对防治这种传染病是否有效.
解 提出假设 新措施对防治这种传染病无效.
由列联表中的数据可求得
,
因为当 成立时, 的概率约为 ,
所以我们有 的把握认为新措施对防治这种传染病有效.
要点二 回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤
为通过散点图和经验,选择线性回归方程的类型,然后通过一定的规则确定出相应的线性
回归方程,通过一定的方法进行检验,最后应用于实际或对预报变量进行预测.
【典例2】 某班5名学生的数学和物理成绩如下表:
学生编号 1 2 3 4 5
88 76 73 66 63
78 65 71 64 61
(1)画出散点图;
解 散点图如图.
(2)求物理成绩 与数学成绩 的线性回归方程;
解 ,
.
,所以
,
所以 关于 的线性回归方程是 .
(3)一名学生的数学成绩是96分,试预测他的物理成绩(结果保留整数).
解 ,则 (分),即当数学成绩是96分时,可
以预测他的物理成绩是82分.
跟踪训练2 如图所示的是某企业2016年至2022年污水净化量(单位:吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合 和
的关系,请用相关系数加以说明;
解 由题意, , ,
,
与 之间存在较强的正相关关系.
(2)建立 关于 的线性回归方程,预测2023年该企业污水净化量.
参考数据: , , , .
参考公式:相关系数 ,线性回归方程 中的系数分别
为 , .
解 由题意得, , ,
,
关于 的线性回归方程为 .
当 时, ,
预测2023年该企业污水净化量约为57吨.
要点三 概率与统计的综合应用
概率与统计作为考查学生应用意识的重要载体,已成为近几年高考的一大亮点和热
点,它与其他知识融合、渗透,情境新颖,充分体现了概率与统计的工具性和交汇性,本部
分有助于提升学生研判和信息整合的综合能力.
【典例3】 某高中组织学生参加线上某疾病防控知识竞答活动,现从参与答题的男生、女生中分别随机抽取20名学生的得分情况,得到如下统计图:
单位:人
成绩 性别 合计
男 女 80分以上
80分以下
合计 20 20 40
(1)学校对得分80分以上的学生,颁发“知识达人”荣誉称号.根据直方图补全 列联
表,并判断是否有 的把握认为是否为“知识达人”与性别有关.
解 列联表如下:
单位:人
成绩 性别 合计
男 女 80分以上 6 9 15
80分以下 14 11 25
合计 20 20 40
根据列联表中的数据可以求得 ,
没有 的把握认为是否为“知识达人”与性别有关.
(2)从成绩在 的学生中,按分层抽样抽取6人,再从6人中随机抽取3人,
求恰有1人成绩在 的概率.
附: ,其中 .
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
解 从成绩在 之间的学生中,按分层抽样抽取6人,其中成绩在
内的抽2人,成绩在 内的抽4人,
恰有1人成绩在 内的概率 .
规律方法 (1)频率直方图中需要注意纵坐标的实际含义,不要误认为是概率值.
(2)对于列联表中的数字规律要摸清.
跟踪训练3 (细颗粒物)是指空气中直径小于或等于2.5微米的颗粒物(也称可
入肺颗粒物).为了探究车流量与 的质量分数是否相关,现采集到某城市周一至周
五某一时间段车流量与 的数据如下表:
时间 周一 周二 周三 周四 周五
50 51 54 57 58
69 70 74 78 79
(1)根据上表数据,请在下面坐标系(如图)中画出散点图;
解 散点图如图所示.
(2)根据上表数据,用最小二乘法求出 关于 的线性回归方程 ;
解 由(1)知,样本点分布在一条直线附近, 与 具有线性相关关系,计算得
,
,
,
,
,
.
故 关于 的线性回归方程是 .
(3)若周六同一时间段车流量是25万辆,试根据(2)中求出的线性回归方程预测此时
的质量分数(结果保留整数).
解 当 时, ,
可以预测此时 的质量分数约为37微克/立方米.
要点四 非线性回归分析在实际中的应用
1.转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关
系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线
性问题线性化.
2.主要培养学生数学建模和数学运算的能力.
【典例4】 某机构为研究某种图书每册的成本费
(单位:元)与印刷数量 (单位:千册)的关系,收
集了一些数据并进行了初步处理,得到了下面的散
点图及一些统计量的值.
15.2 5 3.63 0.26 9 2085.5 -230.3 0.787 7.049
表中 , .
(1)根据散点图判断 与 哪一个模型更适合作为该图书每册的成
本费 与印刷数量 的线性回归方程.(只要求给出判断,不必说明理由)
解 由散点图判断, 更适合作为该图书每册的成本费 (单位:元)与印刷数量 (单位:千册)的线性回归方程.
(2)根据(1)的判断结果及表中数据,建立 关于 的线性回归方程(回归系数的结
果精确到 ).
解 令 ,先建立 关于 的线性回归方程,
因为 ,
所以 ,
所以 关于 的线性回归方程为 ,
所以 关于 的非线性回归方程为 .
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)
解 假设印刷 千册,依题意得 ,解得 ,所
以至少印刷10 000册才能使销售利润不低于78 840元.
规律方法 可线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函
数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.
跟踪训练4 二手车经销商小王对其所经营的A型号二手汽车的使用年数 与销售价格
(单位:万元/辆)进行整理,得到如下数据:
2 3 4 5 6 7
20 12 8 6.4 4.4 3
3.00 2.48 2.08 1.86 1.48 1.10
如图是 关于 的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合 与
的关系,请用相关系数加以说明.
解 由题意,计算
,
,
且 , , ,
所以
.
所以 与 的相关系数大约为 ,说明 与 的线性相关程度很高.
(2)求 关于 的回归方程,并预测某辆A型号二手车当使用年数为9年时,售价约为多
少.( , 小数点后保留两位有效数字)
解 ,
所以 .
所以 关于 的线性回归方程是 .
又 ,所以 关于 的回归方程是 .
令 ,解得 ,即预测某辆A型号二手车当使用年数为9年
时售价约1.46万元.
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归
方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.
参考数据: , , , ,
, , , .
参考公式:线性回归直线 中斜率和截距的最小二乘估计公式分别为
, .
.
解 当 时,
,
所以 ,解得 ,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.