(共56张PPT)
第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
必备知识 探新知
关键能力 攻重难
课堂检测 固双基
素养目标 定方向
素养目标 定方向
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.了解最小二乘法原理.掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
2.针对实际问题,会用一元线性回归模型进行预测.
3.了解随机误差、残差、残差图的概念.
1.通过对散点图、线性回归的分析,培养数据分析素养.
2.借助回归模型的建立,培养数学建模、数据分析及数学运算素养.
必备知识 探新知
一元线性回归模型
知识点 1
想一想:具有相关关系的两个变量,其样本点散布在某一条直线y=bx+a的附近,可以用一次函数 y=bx+a来描述两个变量之间的关系吗?
提示:不能.
因变量
响应变量
解释
随机误差
[解析] 在回归模型中,x是解释变量,y是响应变量,当解释变量取值一定时,响应变量的取值带有一定的随机性.
C
最小二乘法与经验回归方程
知识点 2
经验回归直线
练一练:
如果记录了x,y的几组数据分别为(0,1),(1,3),(2,5),(3,7),那么y关于x的经验回归方程必过点( )
A.(2,2) B.(1.5,2)
C.(1,2) D.(1.5,4)
D
残差与残差分析
知识点 3
观测值
预测值
观测值
预测值
残差
残差分析
(3)对模型刻画数据效果的分析
①残差图法:在残差图中,如果残差比较均匀地集中在以_______________________________,则说明经验回归方程较好地刻画了两个变量的关系;
②残差平方和法:残差平方和____________________越小,模型的拟合效果越好;
横轴为对称轴的水平带状区域内
大
小
练一练:
甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好( )
A.甲 B.乙
C.丙 D.丁
[解析] 决定系数R2越大,表示回归模型的拟合效果越好.
A
关键能力 攻重难
随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位;次)之间的对应数据如下表所示:
题|型|探|究
题型一
求经验回归方程
典例 1
x/件 2 4 5 6 8
y/次 30 40 50 60 70
(1)根据表中数据画出散点图;
(2)根据表中的数据,求出y关于x的经验回归方程;
(3)当这种商品的成交量突破100件(含100 件)时,预测这家店铺的浏览量至少为多少?
[分析] 以横轴表示成交量,纵轴表示浏览量,画出散点图,若散点图显示两变量线性相关,则依据公式求解经验回归方程,再利用经验回归方程进行估计.
[解析] (1)散点图如图所示.
佩戴头盔是一项对家庭与社会负责的表现,某市对此不断进行安全教育.下表是该市某主干路口连续4年监控设备抓拍到的驾驶员不戴头盔的统计数据:
对点训练
年度 2020 2021 2022 2023
年度序号x 1 2 3 4
不戴头盔人数y 1 250 1 050 1 000 900
题型二
R2的求解与回归模型的拟合
我国在第七十五届联合国大会上提出:“中国将提高国家自主贡献力度,采取更加有力的政策和措施,二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和.”减少碳排放,实现碳中和,人人都可出一份力.某中学数学教师组织开展了题为“家庭燃气灶旋钮的最佳角度”的数学建模活动.
实验假设:
①烧开一壶水有诸多因素,本建模的变量设定为燃气用量与旋钮的旋转角度,其他因素假设一样;
典例 2
②由生活常识知,旋转角度很小或很大,一壶水甚至不能烧开或造成燃气浪费,因此旋转角度设定在10°到90°之间,建模实验中选取5个代表性数据:18°,36°,54°,72°,90°.
某数学建模小组收集了“烧开一壶水”的实验数据,如表:
项目旋转角度 开始烧水时燃气表度数/dm3 水烧开时燃气表度数/dm3
18° 9 080 9 210
36° 8 958 9 080
54° 8 819 8 958
72° 8 670 8 819
90° 8 498 8 670
以x表示旋转角度,y表示燃气用量.
(1)用列表法整理数据(x,y);
x(旋转角度:度) 18 36 54 72 90
y(燃气用量:dm3)
[解析] (1)整理数据如表:
x(旋转角度:度) 18 36 54 72 90
y(燃气用量:dm3) 130 122 139 149 172
某运动员训练次数与训练成绩之间的数据关系如表:
对点训练
次数(x) 30 33 35 37 39 44 46 50
成绩(y) 30 34 37 39 42 46 48 51
(1)作出散点图;
(2)求出经验回归方程;
(3)作出残差图;
(4)计算R2,并说明运动员的训练次数对成绩的影响占百分之几.
[解析] (1)作出该运动员训练次数x与成绩y的散点图,如图所示.由散点图可知,它们之间具有相关关系.
(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
作残差图如图所示.
由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适.
(4)计算R2≈0.985 5,说明了该运动的训练次数对成绩的影响占98.55%.
题型三
非线性经验回归问题
某公交公司推出扫码支付优惠乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示推出的天数,y表示每天使用扫码支付的人次(一人次等于十人),统计数据如下表:
典例 3
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
根据以上数据,绘制了如图所示的散点图.
某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
对点训练
课堂检测 固双基
1.关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,响应变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
[解析] 用散点图反映两个变量间的关系时,存在误差.
D
2.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
[解析] 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大.
C
3.根据如下样本数据:
x 2 3 4 5 6
y 4 2.5 -0.5 -2 -3
B
4.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如表:
x 2 4 5 6 8
y 30 40 60 50 70
10第八章检测题
考试时间120分钟,满分150分.
一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列说法中正确的是( C )
A.相关关系是一种不确定的关系,回归分析是对相关关系的分析,因此没有实际意义
B.独立性检验对分类变量关系的研究没有100%的把握,所以独立性检验研究的结果在实际中也没有多大的实际意义
C.相关关系可以对变量的发展趋势进行预报,这种预报可能会是错误的
D.独立性检验如果得出的结论有99%的可信度,就意味着这个结论一定是正确的
[解析] 相关关系虽然是一种不确定关系,但是回归分析可以在某种程度上对变量的发展趋势进行预报,这种预报在尽量减小误差的条件下可以对生产与生活起到一定的指导作用,独立性检验对分类变量的检验也是不确定的,但是其结果也有一定的实际意义,故选C.
2.相关变量x,y的样本数据如下:
x 1 2 3 4 5
y 2 2 3 5 6
经回归分析可得y与x线性相关,并由最小二乘法求得经验回归方程=1.1x+a,则a=( C )
A.0.1 B.0.2
C.0.3 D.0.4
[解析] 由题意,==3,
==3.6,
∵经验回归方程为=1.1x+a,
∴3.6=1.1×3+a,
∴a=0.3.故选C.
3.已知经验回归方程=2x+相应于点(3,6.5)的残差为-0.1,则的值为( B )
A.0.5 B.0.6
C.-0.5 D.-0.6
[解析] 因为经验回归方程=2x+相应于点(3,6.5)的残差为-0.1,
所以6.5=6+-0.1,解得=0.6.
4.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:
YX y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
对于同一样本,以下数据能说明X与Y有关的可能性最大的一组为( D )
A.a=5,b=10,c=6,d=7
B.a=5,b=6,c=10,d=7
C.a=7,b=6,c=10,d=5
D.a=6,b=7,c=10,d=5
[解析] 对于同一样本,|ad-bc|越小,说明X与Y相关性越弱,而|ad-bc|越大,说明X与Y相关性越强,通过计算知,对于选项A,B,C,都有|ad-bc|=|35-60|=25;对于选项D,有|ad-bc|=40.故选D.
5.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:
年龄 饮食习惯 合计
偏爱蔬菜 偏爱肉类
50岁以下 4 8 12
50岁以上 16 2 18
合计 20 10 30
则可以说其亲属的饮食习惯与年龄有关的把握为( C )
A.95% B.99%
C.99.5% D.99.9%
[解析] 因为χ2==10>7.879=x0.005,所以有99.5%的把握认为其亲属的饮食习惯与年龄有关.
6.废品率x%与每吨生铁成本y(元)之间的经验回归方程为=234+3x,表明( B )
A.废品率每增加1%,生铁成本增加3x元
B.废品率每增加1%,生铁成本每吨平均增加3元
C.废品率每增加1%,生铁成本增加234元
D.废品率不变,生铁成本为234元
[解析] 经验回归方程表示废品率x%与每吨生铁成本y(元)之间的相关关系,当经验回归方程为=234+3x时,表明废品率每增加1%,生铁成本每吨平均增加3元,故选B.
7.两个相关变量满足如下关系:
x 10 15 20 25 30
y 1 003 1 005 1 010 1 011 1 014
两变量的经验回归方程为( A )
A.=0.56x+997.4
B.=0.63x-231.2
C.=50.2x+501.4
D.=60.4x+400.7
[解析] ==20,
==1 008.6,
利用公式可得=
=0.56,又=-=997.4.
∴经验回归方程为=0.56x+997.4.故选A.
8.如图是某市2022年10月至2023年10月间,每月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2022年10月—2023年10月)
根据散点图选择y=a+b和y=c+dln x两个模型进行拟合,经过数据处理得到的两个经验回归方程分别为=0.936 9+0.028 5和=0.955 4+0.030 6ln x,并得到以下一些统计量的值:
=0.936 9+0.028 5 =0.955 4+0.030 6 ln x
R2 0.923 0.973
注:是样本数据中x的平均数,是样本数据中y的平均数,则下列说法不一定成立的是( C )
A.当月在售二手房均价y与月份代码x呈现正相关关系
B.根据=0.936 9+0.028 5可以预测2024年1月在售二手房均价约为1.050 9万元/平方米
C.曲线=0.936 9+0.028 5与=0.955 4+0.030 6ln x的图形经过点(,)
D.=0.955 4+0.030 6ln x回归曲线的拟合效果好于=0.936 9+0.028 5的拟合效果
[解析] 对于A,散点从左下到右上分布,所以当月在售二手房均价y与月份代码x呈现正相关关系,故正确,不符合题意;对于B,令x=16,由=0.936 9+0.028 5=1.050 9,所以可以预测2024年1月在售房均价约为1.050 9万元/平方米,故正确,不符合题意;对于C,非线性回归曲线不一定经过(,),故错误,符合题意;对于D,R2越大,拟合效果越好,故正确,不符合题意.
二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多个选项是符合题目要求的,全部选对的得5分,选对但不全的得2分,有选错的得0分)
9.晚上睡眠充足是提高学习效率的必要条件,高中甲的高三年级学生晚上10点10分必须休息,高中乙的高三年级学生晚上11点休息,并鼓励学生还可以继续进行夜自习,稍晚再休息.有关人员分别对这两所高中的高三年级学习总成绩前50名学生的学习效率进行问卷调查,其中高中甲有30名学生的学习效率高,且从这100名学生中随机抽取1人,抽到学习效率高的学生的概率是0.4,则( AC )
附:K2=.
P(K2≥k0) 0.050 0.010 0.005 0.001
k0 3.841 6.635 7.879 10.828
A.高中甲的前50名学生中有60%的学生学习效率高
B.高中乙的前50名学生中有40%的学生学习效率高
C.有99.9%的把握认为“学生学习效率高低与晚上睡眠是否充足有关”
D.认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率超过0.05
[解析] 高中甲的前50名学生中有30人学习效率高,即×100%=60%,所以A正确;高中乙的前50名学生中有10人学习效率高,即×100%=20%,所以B错误;这100名学生中学习效率高的学生有100×0.4=40(人),根据题意填写2×2列联表如下:
学习效率高 学习效率不高 合计
高中甲 30 20 50
高中乙 10 40 50
合计 40 60 100
计算观测值K2==≈16.667>10.828,
所以有99.9%的把握认为“学生学习效率高低与晚上睡眠是否充足有关”, C正确;认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率不超过0.05,所以D错误.故选AC.
10.在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的经验回归方程为=x+,那么下面说法正确的是( BCD )
A.经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
B.经验回归直线=x+必经过点(,)
C.经验回归直线=x+表示最接近y与x之间真实关系的一条直线
D.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
[解析] 经验回归直线是最能体现这组数据的变化趋势的直线,不一定经过样本数据中的点,故A不正确,C正确;经验回归直线一定经过样本中心点,故B正确;相关系数r满足|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小,故D正确.
11.某地建立农业科技图书馆,供农民免费借阅,收集了近5年借阅数据如表:
年份 2019 2020 2021 2022 2023
年份代码x 1 2 3 4 5
年借阅量y(万册) 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的经验回归方程为=0.24x+,下列结论正确的有( AC )
A.=4.68
B.借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.6
C.y与x的线性相关系数r>0
D.2024年的借阅量一定不少于6.12万册
[解析] =×(1+2+3+4+5)=3,=×(4.9+5.1+5.5+5.7+5.8)=5.4,因为y关于x的经验回归方程为=0.24x+,所以5.4=0.24×3+,解得=4.68,故A正确;5×75%=3.75,故借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.7,故B不正确;因为0.24>0,所以y与x的线性相关系数r>0,故C正确;经验回归方程为=0.24x+4.68,当x=6时,=6.12,故2024年的借阅量约为6.12万册,故D错误.
12.对于表中x,y之间的一组数据:
x 1 3 6 7 8
y 1 2 3 4 5
甲、乙两位同学给出的拟合直线方程分别为①=x+1和②=x+.若通过分析得出②的拟合效果好,则下列分析理由正确的是( BCD )
A.①的残差和大于②的残差和,所以②拟合效果更好
B.①的残差平方和大于②的残差平方和,所以②拟合效果更好
C.①的R2小于②的R2,所以②拟合效果更好
D.残差图中直线②的残差点分布的水平带状区域比①的残差点分布的水平带状区域更窄,所以直线②拟合效果更好
[解析] 不可以根据残差和的大小来分析模型的拟合效果的好坏,故A错误;用=x+1作为拟合直线时,所得y的实际值与y的估计值的差的平方和即残差平方和为:S1=2+(2-2)2+(3-3)2+2+2=.用=x+作为拟合直线时,所得残差平方和为:S2=(1-1)2+(2-2)2+2+(4-4)2+2=,∴S2
三、填空题(本大题共4小题,每小题5分,共20分)
13.某艺术馆为了研究学生性别和喜欢国画之间的联系,随机抽取80名学生进行调查(其中有男生50名,女生30名),并绘制等高堆积条形图(如图所示),则这80名学生中喜欢国画的人数为_58__.
[解析] 由等高堆积条形图可知,男生中喜欢国画的占80%,女生中喜欢国画的占60%,则这80名学生中喜欢国画的人数为50×80%+30×60%= 58.
14.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
若由资料可知y对于x呈线性相关关系,且经验回归方程为=+x,其中已知=1.23,请估计使用年限为20年时,维修费用为_24.68__万元.
[解析] 由表中数据可知:
==4,
==5.
又∵经验回归直线一定经过样本点中心(,),
∴5=+1.23×4,∴= 0.08,
∴经验回归方程为=1.23x+0.08.
故估计使用年限为20年时,维修费用为=1.23×20+0.08=24.68(万元).
15.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 4 5 6 7 8 9
销量y(件) 90 84 83 80 75 68
由表中数据,求得经验回归方程为=-4x+.若在这些样本点中任取一点,则它在经验回归直线左下方的概率为 .
[解析] 样本点中心坐标为,所以=80+4×=106,所以经验回归方程为=-4x+106,经验证可知有2个点位于回归直线左下方,其概率为=.
16.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:
喜爱打篮球 不喜爱打篮球 合计
男生 20 a 25
女生 b 15 c
合计 30 d 50
则a+b+c+d=_60__;在犯错误的概率不超过_0.005__的前提下认为喜爱打篮球与性别有关.
附:χ2=.
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
[解析] 由列联表数据可求得
a=5,b=10,c=25,d=20,
所以a+b+c+d=60;χ2=≈8.33>7.879,
所以在犯错误的概率不超过0.005的前提下认为“喜爱打篮球与性别有关”.
四、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)某种木材体积与树木的树龄之间有如下的对应关系:
树龄 2 3 4 5 6 7 8
体积 30 34 40 60 55 62 70
(1)请作出这些数据的散点图;
(2)你能由散点图发现木材体积与树木的树龄近似成什么关系吗?
[解析] (1)以横轴表示树木的树龄,纵轴表示树木的体积,可得相应的散点图如图所示:
(2)由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树龄成相关关系且呈正相关.
18.(本小题满分12分)某大型企业人力资源部为了研究企业员工的工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示.
积极支持企业改革 不太赞成企业改革 总计
工作积极 54 40 94
工作一般 32 63 95
总计 86 103 189
李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过 0.01 的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”.
他们两人的结论正确吗?他们的结论为什么不一样?
[解析] 正确.由列联表中的数据,
得χ2=≈10.759.
10.759>7.879>6.635,
若以7.879为临界值,则在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系;
若以6.635为临界值,则在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系.
19.(本小题满分12分)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如表所示:
使用年限(单位:年) 1 2 3 4 5 6 7
失效费(单位:万元) 2.90 3.30 3.60 4.40 4.80 5.20 5.90
(1)由表中数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明(精确到0.01);
(2)求出y关于x的经验回归方程,并估算该种机械设备使用8年的失效费.
参考公式:r=,=,=-.
参考数据:(xi-)(yi-)=14,(yi-)2=7.08.
[解析] (1)由表知:=×(1+2+3+4+5+6+7)=4,则(xi-)2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,故r==≈0.99,所以r的值非常接近于1,即可用线性回归模型拟合y与x的关系;
(2)由表知:=×(2.90+3.30+3.60+4.40+4.80+5.20+5.90)=4.30,则===0.5,=-=4.3-0.5×4=2.3.
故所求经验回归方程为=0.5x+2.3.
令x=8,则=0.5×8+2.3=6.3(万元).
所以估计该设备使用8年的失效费为6.3万元.
20.(本小题满分12分)某种产品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)求经验回归方程;
(3)试预测广告费支出为10万元时,销售额为多少?
附:=,=-.
参考数据:=145,iyi=1 380.
[解析] (1)根据表格中的5组数据,绘制散点图如图所示:
(2)由表格数据可知:
= (2+4+5+6+8)=5,
=(30+40+60+50+70)=50,
故===6.5,
=-=50-6.5×5=17.5,
故所求经验回归方程为=6.5x+17.5.
(3)由(2)知,=6.5x+17.5,
令x=10,解得=82.5.
故广告费支出为10万元时,销售额约为82.5万元.
21.(本小题满分12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不小于80件者为“生产能手”,请你利用已知条件画出2×2列联表,根据α=0.1的独立性检验,能否认为生产能手与工人所在的年龄组有关联?
参考数据及公式如下:
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
χ2=
[解析] (1)由已知得,样本中有25周岁以上(含25周岁)组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=.
(2)由题中频率分布直方图可知,在抽取的100名工人中,“25周岁以上(含25周岁)组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),
据此可得2×2列联表如表:
年龄分组 生产能手 非生产能手 合计
25周岁以上(含25周岁)组 15 45 60
25周岁以下组 15 25 40
合计 30 70 100
假设H0:生产能手与工人所在的年龄组无关.
根据列联表中的数据,经计算得到χ2=≈1.79<2.706=x0.1.
根据α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为生产能手与工人所在的年龄组无关.
22.(本小题满分12分)某人计划于2023年7月购买一辆某品牌新能源汽车,他从当地该品牌销售网站了解到近五个月实际销量如表所示:
月份 2023.02 2023.03 2023.04 2023.05 2023.06
月份编号t 1 2 3 4 5
实际销量y(万辆) 0.5 0.6 1 1.4 1.7
(1)经分析,可用线性回归模型拟合当地该品牌新能源汽车实际销量y(万辆)与月份编号t之间的相关关系.请用最小二乘法求y关于t的线性经验回归方程:=t+,并预测2023年7月份当地该品牌新能源汽车的销量;
(2)已知某地拟购买新能源汽车的消费群体十分庞大,某调研机构对其中的200名消费者的购车补贴金额的心理预期值进行了一个抽样调查,得到下表:
补贴金额预期值区间(万元) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7]
频数 20 60 60 30 20 10
将频率视为概率,现用随机抽样的方法从该地区拟购买新能源汽车的所有消费者中随机抽取3人,记被抽取的3人中对补贴金额的心理预期值不低于3万元的人数为ξ.求ξ的分布列及均值E(ξ).
参考公式:==-.
[解析] (1)易知==3,
==1.04,
t=12+22+32+42+52=55,
tiyi=1×0.5+2×0.6+3×1+4×1.4+5×1.7=18.8,
=-=1.04-0.32×3=0.08,
则y关于t的线性经验回归方程为=0.32t+0.08.
当t=6时,=2.
即2023年7月份当地该品牌新能源汽车的销量约为2万辆.
(2)根据题中的频数表可知,任意抽取1名拟购买新能源汽车的消费者,对补贴金额的心理预期值不低于3万元的概率为=.
由题意可知ξ~B,ξ的所有可能取值为0,1,2,3.
P(ξ=0)=C03=,
P(ξ=1)=C12=,
P(ξ=2)=C21=,
P(ξ=3)=C30=,
故ξ的分布列为
ξ 0 1 2 3
P
所以E(ξ)=3×=.(共48张PPT)
第八章 成对数据的统计分析
章末知识梳理
知识结构·理脉络
要点梳理·晰精华
素养突破·提技能
知识结构 · 理脉络
要点梳理 · 晰精华
变量的相关关系
知识点 1
1.散点图
为了直观地描述成对样本数据中两个变量间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则每一对成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
2.线性相关与非线性相关
(1)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
(2)非线性相关
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关.
样本相关系数
知识点 2
1.样本相关系数
(1)计算公式:
2.样本相关系数的意义
样本相关系数r是一个描述成对样本数据的数字特征,r的符号反映了相关关系的正负性;|r|的大小反映了两个变量相关的程度,具体如下:
(1)r的正负
当r>0时,称成对数据正相关;当r<0时,称成对数据负相关.
(2)r的绝对值
当|r|越接近于1时,成对数据的线性相关程度越强;
|r|越接近于0,成对数据线性相关程度越弱.
3.判断相关关系的两种方法
(1)通过作散点图,观察由所给的数据描出的点是否在一条直线附近来判定,直观方便.
(2)利用相关系数.
一元线性回归模型参数的最小二乘估计
知识点 3
分类变量与列联表
知识点 4
(1)分类变量
(2)2×2列联表
如下表所示,我们将给出成对分类变量数据的交叉分类频数的表格,称为2×2列联表.
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
(3)等高堆积条形图
与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.分别计算出中间四个数各自的频率,可以用等高堆积条形图直观展示上述计算结果.
独立性检验的基本思想
知识点 5
1.独立性检验的定义
一般地,假设有两个分类变量X和Y,其样本频数
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
2.临界值表
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
3.应用独立性检验的主要环节
(1)提出零假设H0:分类变量X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
素养突破 · 提技能
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,也是本章的重点、高考的热点,主要考查线性回归分析.题型既有选择、填空题,也有解答题.
要点一
回归分析
连锁经营公司所属5个零售店某月的销售额利润资料如表:
典例 1
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
(1)画出销售额和利润额的散点图;
(2)若销售额和利润额具有相关关系,试计算利润额y对销售额x的经验回归直线方程;
(3)估计要达到1 000万元的利润额,销售额约为多少万元.
[解析] (1)根据表中所给的5对数据,在平面直角坐标系中画出散点图,如图所示.
[规律方法] 1.建立经验回归模型的步骤
(1)确定研究对象,明确变量x,y.
(2)画出变量的散点图,观察它们之间的关系.
(3)确定经验回归方程的类型.
(4)按一定规则估计经验回归方程中的参数(如最小二乘法).
(5)得出经验回归方程.
2.分析两个变量线性相关的常用方法
(1)散点图法,该法主要是用来直观地分析两变量间是否存在相关关系.
(2)相关系数法,该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
独立性检验的基本思想是:先作出零假设H0,即假设两个分类变量没有关系,再根据这个假设应用统计的方法进行分析,得到一个统计量χ2的值,再由统计学得到的各临界值,确定我们的假设是否成立,以及假设的不合理程度.
要点二
独立性检验的基本思想与方法
某校为了探索一种新的教学模式, 进行了一项课题实验,乙班为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行测试,成绩如下表(总分:150分).
甲班
典例 2
成绩 [80,90) [90,100) [100,110) [110,120) [120,130]
频数 4 20 15 10 1
乙班
成绩 [80,90) [90,100) [100,110) [110,120) [120,130]
频数 1 11 23 13 2
(1)现从甲班成绩位于[90,120)内的试卷中抽取9份进行试卷分析,请问用什么抽样方法更合理,并写出最后的抽样结果;
(2)根据所给数据可估计在这次测试中,甲班的平均分是101.8,请你估计乙班的平均分,并计算两班平均分相差几分;
(3)完成下面2×2列联表,依据小概率值α=0.05的独立性检验,分析这两个班在这次测试中成绩的差异与实施课题实验是否有关,并说明理由.
成绩小于100分 成绩不小于 100分 总计
甲班26 50
乙班 12 50
总计 36 64 100
(3)补全列联表如下:
成绩小于100分 成绩不小于100分 总计
甲班 24 26 50
乙班 12 38 50
总计 36 64 100
零假设H0:两个班的成绩差异与实施课题实验无关.
概率、统计与独立性检验的综合问题在高考中常常出现,一般为解答题,难度中等.有时古典概型与独立性检验综合,有时样本的分布与独立性检验综合,更有三者融合在一起的综合性较强的题目出现.
要点三
概率、统计与独立性检验的综合问题
某电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查.根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图如图所示:
典例 3
将日均收看该体育节目的时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,试根据小概率值α=0.05的独立性检验,分析“体育迷”是否与性别有关;
性别 电视观众 合计
非体育迷 体育迷 男
女 10 55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X).
[解析] (1)由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,从而2×2列联表如下:
性别 电视观众 合计
非体育迷 体育迷 男 30 15 45
女 45 10 55
合计 75 25 100
零假设H0:“体育迷”与性别无关.(共42张PPT)
第八章 成对数据的统计分析
8.1 成对数据的统计相关性
必备知识 探新知
关键能力 攻重难
课堂检测 固双基
素养目标 定方向
素养目标 定方向
1.结合实例了解样本相关系数的统计含义.
2.了解样本相关系数与“标准化”成对数据向量夹角的关系.
3.结合实例,会通过相关系数比较多组成对数据的相关性.
1.通过画散点图来判断变量的相关关系,提升数据分析素养.
2.通过样本相关系数的计算,培养数学运算及逻辑推理素养.
必备知识 探新知
变量的相关关系
知识点 1
(1)两个变量的关系
分类 函数关系 相关关系
特征 两变量有_______的关系 两个变量有关系,但又没有确切到可由其中一个去_____________另一个的程度
(2)散点图:将样本中的每一个序号下的成对数据用_____________中的点表示出来得到的统计图.
确定
精确地决定
直角坐标系
(3)正相关与负相关
正相关 负相关
当一个变量的值增加时,另一个变量的相应值也呈现_____________ 当一个变量的值增加时,另一个变量的相应值呈现_____________
(4)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在___________附近,则称这两个变量线性相关.
想一想:正相关与负相关是对所有具有相关关系的两个变量而言的,对吗?
提示:不对,正相关与负相关是针对线性相关关系而言的.
增加的趋势
减少的趋势
一条直线
练一练:
下列两个变量之间的关系是相关关系的是( )
A.正方体的棱长和体积
B.单位圆中角的弧度数和所对弧长
C.当亩产量为常数时,土地面积和总产量
D.日照时间与水稻的亩产量
[解析] 选项A,B,C中两个变量之间是函数关系,选项D中两个变量之间是相关关系.
D
样本的相关系数
知识点 2
线性相关性的强弱
(2)相关系数的性质
1 _________时,成对数据正相关;_________时,成对数据负相关,-1≤r≤1.
2 |r|越小,两个变量之间的线性相关程度越_____,|r|越大,两个变量之间的线性相关程度越_____.
3 |r|=1时,成对数据构成的点都在_________________上.
r>0
r<0
弱
强
一条确定的直线
练一练:
对四组不同数据进行统计,获得如图所示的散点图,对它们的样本相关系数进行比较,正确的是( )
①样本相关系数r1
②样本相关系数r2
A
A.r2C.r4③样本相关系数r3
④样本相关系数r4
[解析] 由给出的四组数据的散点图可以看出,图①和图③中的成对数据是正相关的,样本相关系数大于0,图②和图④中的成对数据是负相关的,样本相关系数小于0,图①和图②中的点相对更加集中于一条直线附近,所以相关性更强,所以r1接近于1,r2接近于-1,由此可得r2关键能力 攻重难
(多选)下列选项中,两变量间具有相关关系的是( )
A.一个人的身高与他(她)的体重之间的关系
B.曲线上的点与该点的坐标之间的关系
C.苹果的产量与气候之间的关系
D.森林中的同一种树木,其横断面直径与高度之间的关系
[分析] 直接利用相关关系的定义逐一判断即可.
题|型|探|究
题型一
相关关系的判断
典例 1
ACD
[解析] 选项A,一般地,人的身高与体重是一种相关关系;选项B,曲线上的点与该点的坐标是一种确定的对应关系,不是相关关系;选项C,苹果的产量与气候之间的关系是一种相关关系;选项D,森林中的同一种树木,其横断面直径与高度之间的关系是相关关系.
[规律方法] 对相关关系的理解
(1)相关关系与函数关系是两种不同的变量关系,函数关系是一种确定性关系,可以用一个变量确切地表示另一个变量;相关关系是一种非确定性关系,两个变量虽然有关系,但又没有确切到可由其中一个去精确地决定另一个的程度.
(2)根据变量变化趋势可将相关关系分为正相关和负相关;根据变量分布特征可将相关关系分为线性相关和非线性相关(曲线相关).
下列五组变量:
①匀速行驶的汽车行驶的路程和行驶的时间;②学生的平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.
其中两个变量正相关的是( )
A.①③ B.②④
C.②⑤ D.④⑤
[解析] ①④中两个变量是确定的函数关系,③中两个变量负相关,只有②⑤中两个变量正相关.
对点训练
C
题型二
由散点图判断相关关系
如图所示的散点图分别反映的变量间的相关关系是( )
A.正相关,负相关,不相关
B.负相关,不相关,正相关
C.负相关,正相关,不相关
D.正相关,不相关,负相关
典例 2
D
[分析] 分别分析三个散点图中的点的分布情况,可得第一个图中两个变量正相关,第二个图中两个变量不相关,第三个图中两个变量负相关.
[解析] 对于图(1),图中的点成带状分布,且从左到右上升,两个变量正相关;对于图(2),图中的点杂乱无章,没有明显的规律,两个变量不相关;对于图(3),图中的点成带状分布,且从左到右下降,两个变量负相关.故选D.
[规律方法] 判断两个变量具有相关关系的方法
(1)根据直观感觉或生活经验等判断;(2)根据成对数据的变化趋势判断;(3)根据散点图判断:若散点图中各点分布在一条直线或曲线附近,则变量具有相关关系.
由散点图判断两个变量正、负相关的方法
如果散点图中的点落在从左下角到右上角的区域,两个变量正相关;如果散点图中的点落在从左上角到右下角的区域,两个变量负相关.
由散点图判断线性相关程度强弱的方法
在散点图中,散点在某条直线附近越集中,两个变量的线性相关程度越强;散点在某条直线附近越分散,两个变量的线性相关程度越弱.
(1)对变量x,y由观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v由观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
对点训练
C
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
[解析] 由图①可以看出,散点图在从左上角到右下角的带状区域内,所以变量x与y负相关;由图②可知,散点图在从左下角到右上角的带状区域内,所以变量u与v正相关.
(2)下列散点图中,两个变量线性相关程度最强的是( )
A
[解析] 对于A选项,散点图中的点成带状分布,且集中分布在一条直线附近,所以两个变量具有较强的线性相关关系;对于B,C,D选项,散点图中的点成片状分布,两个变量的线性相关程度较弱或不具有线性相关关系.故选A.
题型三
样本相关系数
(1)对于样本相关系数r来说,下列说法正确的是( )
A.|r|≤1,|r|越接近0,相关程度越强;|r|越接近1,相关程度越弱
B.|r|≥1,|r|越接近1,相关程度越强;|r|越大,相关程度越弱
C.|r|≤1,|r|越接近1,相关程度越强;|r|越接近0,相关程度越弱
D.|r|≥1,|r|越接近1,相关程度越弱;|r|越大,相关程度越强
[解析] 用样本相关系数r可以衡量两个变量之间线性相关程度的强弱,|r|≤1,|r|越接近1,表示两个变量之间的线性相关程度越强;|r|越接近0,表示两个变量之间的线性相关程度越弱.故选C.
典例 3
C
(2)为了对2023年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号 1 2 3 4 5 6 7 8
数学成绩x 68 72 78 81 85 88 91 93
物理成绩y 70 66 81 83 79 80 92 89
用变量y与x的样本相关系数r(精确到0.01)说明物理成绩y与数学成绩x的线性相关程度的强弱,并说明它们的变化趋势特征.
[规律方法] 在统计中常用样本相关系数r来衡量两个变量间线性相关程度的强弱.r的范围为[-1,1],r为正时,两个变量正相关;r为负时,两个变量负相关;|r|越接近1,两个变量间线性相关程度越强;r越接近0,两个变量间线性相关程度越弱.
为了解某地区足球特色学校的发展状况,某调查小组得到统计数据如下表:
对点训练
年份x 2014 2015 2016 2017 2018
足球特色学校y(百个) 0.30 0.60 1.00 1.40 1.70
根据上表数据,计算y与x的样本相关系数r,并说明y与x的线性相关程度的强弱.
易|错|警|示
典例 4
D
课堂检测 固双基
1.有以下五组变量:
①某商品的销售价格与销售量;
②学生的学籍号与学生的数学成绩;
③坚持每天吃早餐的人数与患胃病的人数;
④气温与冷饮销售量;
⑤电瓶车的重量和行驶每千米的耗电量.
其中两个变量成正相关的是( )
A.①③ B.②④
C.②⑤ D.④⑤
D
[解析] 对于①,一般情况下,某商品的销售价格与销售量成负相关关系;对于②,学生的学籍号与学生的数学成绩没有相关关系;对于③,一般情况下,坚持每天吃早餐的人数与患胃病的人数成负相关关系;对于④,一般情况下,气温与冷饮销售量成正相关关系;对于⑤,一般情况下,电瓶车的重量和行驶每千米的耗电量成正相关关系.综上所述,其中两个变量成正相关的序号是④⑤.
2.两个变量负相关时,散点图的特征是( )
A.点散布在从左下角到右上角的区域内
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点散布在从左上角到右下角的区域内
[解析] 有负相关关系的各点整体呈递减趋势,因此点应散布在从左上角到右下角的区域内.
D
3.已知两个变量的3对观测数据(0,1),(1,0),(2,-0.9),则它们的样本相关系数的大小可能是( )
A.-0.98 B.0
C.0.02 D.0.97
[解析] 由3对观测数据可知两个变量负相关,所以样本相关系数r<0.
A
0.3第八章 8.2
A组·基础自测
一、选择题
1.(多选)小明同学在做市场调查时得到如下样本数据:
x 1 3 6 10
y 8 a 4 2
他由此得到经验回归方程为=-2.1x+15.5,则下列说法正确的是( ABC )
A.变量x与y负线性相关
B.当x=2时,=11.3
C.a=6
D.变量x与y之间是函数关系
[解析] 因为=-2.1,所以变量x与y负线性相关,A正确;将x=2代入经验回归方程,得=11.3,B正确;将(,)代入经验回归方程,得a=6,C正确;变量x与y之间是相关关系,不是函数关系,D错误.
2.设两个变量x与y之间具有线性相关关系,相关系数为r,经验回归方程为=+x,那么必有( A )
A.与r符号相同 B.与r符号相同
C.与r符号相反 D.与r符号相反
[解析] 因为相关系数r为正,表示正相关,回归直线方程上升,r为负,表示负相关,回归直线方程下降,所以与r的符号相同.
3.如图所示的是四张残差图,其中回归模型的拟合效果最好的是( B )
[解析] 四张残差图中,只有选项A,B中的残差图是水平带状区域分布,且选项B中的残差点散点分布集中在更狭窄的范围内,所以选项B中回归模型的拟合效果最好.
4.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元 8.2 8.6 10.0 11.3 11.9
支出y/万元 6.2 7.5 8.0 8.5 9.8
根据上表可得经验回归方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元的家庭的年支出为( B )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
[解析] 由题意可得=×(8.2+8.6+10.0+11.3+11.9)=10,
=×(6.2+7.5+8.0+8.5+9.8)=8,
所以=8-0.76×10=0.4,
所以线性经验回归方程为=0.76x+0.4,把x=15代入,可得=0.76×15+0.4=11.8(万元).
5.已知x与y之间的几组数据如表:
x 1 2 3 4 5 6
y 0 2 1 3 3 4
假设根据上表数据所得经验回归方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( C )
A. >b′,>a′ B.>b′,C. <b′,>a′ D.<b′,<a′
[解析] 过(1,0)和(2,2)的直线方程为y′=2x-2,画出六点的散点图,回归直线的大概位置如图所示,
显然,b′>,>a′.
二、填空题
6.已知经验回归方程=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.2),则残差平方和是_0.06__.
[解析] 因为=2x+1,所以当x=2时,=5,e1=-0.1;x=3时,=7,e2=0.1;x=4时,=9,e3=0.2.
所以残差平方和为e+e+e=0.01+0.01+0.04=0.06.
7.如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的经验回归方程为=x+1,则=_0.8__.
[解析] 由题图知==2,
==2.6,
将(2,2.6)代入=x+1中,解得=0.8.
8.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令z=ln y,求得经验回归方程为=0.25x-2.58,则该模型的经验回归方程为 =e0.25x-2.58 .
[解析] 由z=ln y,=0.25x-2.58,
得ln =0.25x-2.58,
所以=e0.25x-2.58,
故该模型的经验回归方程为=e0.25x-2.58.
三、解答题
9.小李准备在某商场租一间商铺开服装店,为了解市场行情,在商场调查了20家服装店,统计得到了它们的面积x(单位:m2)和日均客流量y(单位:人) 的数据(xi,yi)(i=1,2,…,20),并计算得i=2 400,i=210,(xi-)2=42 000,(xi-)(yi-)=6 300.
(1)求y关于x的回归直线方程;
(2)已知服装店每天的经济效益V=k+mx(k>0,m>0),该商场现有60~150 m2的商铺出租,根据(1)的结果进行预测,要使单位面积的经济效益z最高,小李应该租多大面积的商铺?
附:回归直线=x+的斜率和截距的最小二乘估计分别为=,=-.
解析:(1)由已知可得=120,=i=10.5,===0.15,
=-=10.5-0.15×120=-7.5,
所以回归直线方程为=0.15x-7.5.
(2)根据题意得z==+m,60≤x≤150,设f(x)==-,令t=,≤t≤,则f(x)=g(t)=0.15t-7.5t2=-7.5(t-0.01)2+0.000 75,
当t=0.01,即x=100时,f(x)取最大值,
又k>0,m>0,所以此时z也取最大值,因此,小李应该租100 m2的商铺.
10.在一段时间内,某淘宝网店一种商品的销售价格x(元)和日销售量y(件)之间的一组数据为:
价格x(元) 22 20 18 16 14
日销售量y(件) 37 41 43 50 56
求出y关于x的经验回归方程,并说明该方程拟合效果的好坏.
参考数据:iyi=3 992,=1 660.
[解析] 作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为==18,
==45.4.
所以==-2.35,
=45.4-(-2.35)×18=87.7.
所以经验回归方程为=-2.35x+87.7.
yi-i与yi-的值如表:
yi- 1 0.3 -2.4 -0.1 1.2
yi- -8.4 -4.4 -2.4 4.6 10.6
计算得(yi-i)2=8.3,(yi-)2=229.2,所以R2=1-≈0.964.
因为0.964很接近于1,
所以该模型的拟合效果比较好.
B组·能力提升
一、选择题
1.(多选)某公司过去五个月的广告费支出x(单位:万元)与销售额y(单位:万元)之间有下列对应数据:
x 2 4 5 6 8
y ▲ 40 60 50 70
工作人员不慎将表格中y的第一个数据丢失,已知y对x呈线性相关关系,且经验回归方程为=6.5x+17.5,则下列说法正确的有( AB )
A.销售额y与广告费支出x正相关
B.丢失的数据(表中▲处)为30
C.该公司广告费支出每增加1万元,销售额一定增加6.5万元
D.若该公司下月广告费支出为8万元,则销售额约为75万元
[解析] 由回归方程=6.5x+17.5,可知=6.5,则销售额y与广告费支出x正相关,所以A正确;设丢失的数据为m,由表中的数据可得=5,=,把点代入经验回归方程,可得=6.5×5+17.5,解得m=30,所以B正确;该公司广告费支出每增加1万元,销售额不一定增加6.5万元,所以C不正确;若该公司下月广告费支出为8万元,则销售额约为y=6.5×8+17.5=69.5(万元),所以D不正确,故选AB.
2.(多选)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为l1:y=0.68x+,计算其相关系数为r1.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到经验回归直线的方程为l2:y=x+0.68,相关系数为r2,以下结论中,正确的是( ACD )
A.r1>0,r2>0 B.r1>r2
C.=0.12 D.0<<0.68
[解析] 由图可知两变量呈现正相关,故r1>0,r2>0,且r13.已知变量y关于x的经验回归方程为=ebx-0.5,其一组数据如下表所示:
x 1 2 3 4
y e e3 e4 e6
若x=5,则预测y的值可能为( D )
A.e5 B.e
C.e7 D.e
[解析] 将式子两边取对数,得到ln =bx-0.5,令z=ln ,得到z=bx-0.5,列出x,z的取值对应的表格,
x 1 2 3 4
z 1 3 4 6
则==2.5,==3.5,
∵(,)满足z=bx-0.5,∴3.5=b×2.5-0.5,
解得b=1.6,∴z=1.6x-0.5,∴y=e1.6x-0.5,当x=5时,=e1.6×5-0.5=e,故选D.
二、填空题
4.对某台机器购置后的运行年限x(x=1,2,3,…)与当年利润y的统计分析知x,y具备线性相关关系,经验回归方程为=10.47-1.3x,估计该台机器最为划算的使用年限为 8 年.
[解析] 当年利润小于或等于零时应该报废该机器,当y=0时,令10.47-1.3x=0,解得x≈8,故估计该台机器最为划算的使用年限为8年.
5.某品牌服装专卖店为了解保暖衬衣的销售量(y件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表.
时间 二月上旬 二月中旬 二月下旬 三月上旬
旬平均气温x(℃) 3 8 12 17
旬销售量y(件) 55 m 33 24
由表中数据算出线性经验回归方程=bx+a中的b=-2,样本中心点为(10,38).
(1)表中数据m= 40 ;
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为 14 件.
[解析] (1)由=38,得m=40.
(2)由=-得=58,故=-2x+58,
当x=22时,=14,
故三月中旬的销售量约为14件.
三、解答题
6.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得x=0.038,y=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.
已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数
r=,≈1.377.
[解析] (1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量===0.39.
(2) (xi-)(yi-)=xiyi-10 =0.013 4,
(xi-)2=x-10()2=0.002,
(yi-)2=y-10()2=0.094 8,
所以=
=≈0.01×1.377=0.013 77,
所以样本相关系数r==≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,
即该林区这种树木的总材积量的估计值为1 209 m3.
C组·创新拓展
某印刷企业为了研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步整理,得到了下面的散点图及一些统计量的值.
(xi-)2 (xi-)(yi-) (ui-)2 (ui-)(yi-)
5 3.5 0.2 2 30 0.7 7
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y与印刷数量x的经验回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据建立y关于x的经验回归方程(结果精确到0.1);
(3)若该图书每册的定价为9元,则至少应该印刷多少册,才能使销售利润不低于80 000元(假设能够全部售出).
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其经验回归直线v=βω+α的斜率和截距的最小二乘法估计分别为=,=-.
[解析] (1)由散点图判断y=c+更适合作为该图书每册的成本费y与印刷数量x的经验回归方程.
(2)令u=,先建立y关于u的经验回归方程.由于===10,
故=-=3.5-10×0.2=1.5,
所以y关于u的经验回归方程为=1.5+10u,从而y关于x的经验回归方程为
=1.5+.
(3)假设印刷x千册,依据题意得9x-x≥80,解得x≥12,
所以至少应该印刷12 000册图书,
才能使销售利润不低于80 000元.第八章 8.1
A组·基础自测
一、选择题
1.下列说法正确的是( C )
A.圆的面积与半径之间的关系是相关关系
B.吸烟与健康之间的关系是函数关系
C.一定范围内,学生的成绩与学习时间是正相关关系
D.人的体重与视力成负相关关系
[解析] 圆的面积与半径之间的关系是确定的关系,是函数关系,所以A错误;吸烟与健康之间的关系不是函数关系,是相关关系,所以B错误;一定范围内,学生的成绩与学习时间成正相关关系,所以C正确;人的体重与视力没有相关关系的,所以D错误.
2.已知x,y是两个变量,下列四个散点图中,x,y呈正相关趋势的是( A )
[解析] x,y呈正相关趋势时,散点图应该是从左下到右上趋势,由图可知选项A中的散点图是从左下到右上趋势,描述了y随着x的增大而增大的变化趋势,故选A.
3.如图是样本容量均为7的A,B两组成对样本数据的散点图.已知A组成对样本数据的相关系数为r1,B组成对样本数据的相关系数为r2,则( C )
A.r1=r2
B.r1C.r1>r2
D.无法判断r1与r2的大小关系
[解析] 根据散点图知A、B两组两个变量之间均为正相关,即r1>0,r2>0,由图知A组的样本点几乎在一条直线上,B组中部分样本点分散在一条直线附近,∴r1>r2>0,故选C.
4.(多选)某校地理学兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是( BCD )
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与气压的相关性都很强
[解析] 由左图知气压随海拔高度的增加而减小,由右图知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,故B、C、D正确,A错误.
5.在下列各图中,两个变量具有相关关系的是( D )
A.①② B.①③
C.②④ D.②③
[解析] 显然题图①属于函数关系,因为每个x值对应一个y值,这是确定的关系;题图②中散点图中各点分布的区域大致为从左下角到右上角,这属于正相关关系;题图③中尽管从散点图中各点分布的区域来看,二者既不属于正相关关系,也不属于负相关关系,但是各点大致在一条曲线附近,对于每个x,其对应的y呈现出一定的规律性,因此这两个变量具有相关关系;题图④中各点分布很均匀,但对于每个x,y的分布没有规律,因此不属于相关关系.故选D.
二、填空题
6.对四组变量y和x进行线性相关检验,已知n是观测值组数,r是相关系数.
①n=7,r=0.954 5;
②n=15,r=0.381 2;
③n=17,r=0.498 5;
④n=8,r=0.987 0,
则变量y与x具有线性相关关系的是_①④__.
[解析] 相关系数r的绝对值越大,线性相关程度越高,故选①④.
7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为_-1__.
[解析] 因为这组样本数据的所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,所以这组样本数据完全相关,其相关系数是-1.
8.某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x与日销售量y之间有如下关系:
x 5 6 7 8
y 10 8 7 3
x,y之间的相关系数为_-0.964_8__.(结果保留四位小数)参考数据:(xi-)(yi-)=-11,(xi-)2=5,(yi-)2=26,=11.401.
[解析] 根据参考数据,得相关系数r==≈-0.964 8.
三、解答题
9.两对变量A和B,C和D的取值分别对应如表1和表2,画出散点图,分别判断它们是否具有相关关系;若具有相关关系,说出它们相关关系的区别.
A 26 18 13 10 4 -1
B 20 24 34 38 50 64
表1
C 0 5 10 15 20 25 30 35
D 541.67 608.66 672.09 704.99 806.71 902.59 945.42 1 006.75
表2
[解析] 散点图分别如图(1)和图(2).
从图中可以看出两图中的点各自分布在一条直线附近,因此两对变量都具有相关关系.
图(1)中,当A的值由小变大时,B的值由大变小,故A和B负相关.
图(2)中,当C的值由小变大时,D的值也是由小变大,故C和D正相关.
B组·能力提升
一、选择题
1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率/% 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是( C )
A.利润率与人均销售额成正比例函数关系
B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系
D.利润率与人均销售额成负相关关系
[解析] 根据题意,画出利润率与人均销售额的散点图,如图所示.
由散点图可知,利润率与人均销售额成正相关关系.故选C.
2.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据计算得到的相关系数为r1;方案二:剔除点(10,21)后,根据剩下的数据计算得到的相关系数为r2.则( D )
A.0C.-1[解析] 由散点图得两个变量负相关,所以r1<0,r2<0.因为剔除点(10,21)后,剩下的样本点线性相关程度更强,所以|r2|更接近1,所以-13.研究表明,开始吸烟年龄X分别为16岁、18岁、20岁和22岁者,其得肺癌的相对危险度Y依次为15.10,12.81,9.72,3.21;每天吸烟支数U分别为10,20,30者,其得肺癌的相对危险度V分别为7.5,9.5和16.6,用r1表示变量X与Y之间的线性相关系数,用r2表示变量U与V之间的线性相关系数,则下列说法正确的是( D )
A.r1=r2 B.0C.0[解析] 由题意可知,开始吸烟年龄递增时,得肺癌的相对危险度呈递减趋势,所以开始吸烟年龄与得肺癌的危险度呈负相关,所以r1<0,同理可知,得肺癌的危险度与每天吸烟支数呈正相关,所以r2>0.因此可得r1<0二、填空题
4.如图所示的五组数据(x,y)中,去掉_(4,10)__后,剩下的四组数据相关性增强.
[解析] 去掉点(4,10)后,其余四点大致在一条直线附近,相关性增强.
5.若已知(yi-)2是(xi-)2的4倍,(xi-)(yi-)是(xi-)2的1.5倍,则相关系数r的值为 .
[解析] 由已知得(yi-)2=4(xi-)2,(xi-)(yi-)=1.5(xi-)2,所以r==.
三、解答题
6.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一组数据,如表所示:
x(0.01%) 104 180 190 177 147 134 150 191 204 121
y(min) 100 200 210 185 155 135 170 205 235 125
判断含碳量与冶炼时间的相关关系的强弱.
[解析] 由已知数据列成下表.
i 1 2 3 4 5 6 7 8 9 10
xi 104 180 190 177 147 134 150 191 204 121
yi 100 200 210 185 155 135 170 205 235 125
xiyi 10 400 36 000 39 900 32 745 22 785 18 090 25 500 39 155 47 940 15 125
=159.8,=172,=265 448,=312 350,iyi=287 640
于是r=≈0.990 6.y与x具有很强的线性相关关系.
C组·创新拓展
某农科所对冬季昼夜温差(最高温度与最低温度的差)大小与某反季节大豆新品种一天内发芽数之间的关系进行了分析研究,他们分别记录了12月1日至12月6日每天昼夜最高、最低的温度(如图甲),以及实验室每天每100颗种子中的发芽数情况(如图乙).
(1)请画出发芽数y与温差x的散点图;
(2)判断两个变量是否线性相关,计算样本相关系数,并刻画它们的相关程度.
参考数据:i=75,i=162,iyi=2 051,≈4.2,≈6.5.
参考公式:样本相关系数
r=
(当|r|>0.75时,认为成对样本数据的线性相关程度较强).
[解析] (1)散点图如图所示.
(2)r=≈≈0.952.
由样本相关系数r≈0.952>0.75,可以推断发芽数与温差这两个变量呈正相关,且线性相关程度较强.(共48张PPT)
第八章 成对数据的统计分析
8.3 列联表与独立性检验
必备知识 探新知
关键能力 攻重难
课堂检测 固双基
素养目标 定方向
素养目标 定方向
1.基于2×2列联表,通过实例了解独立性检验的基本思想.
2.掌握独立性检验的基本步骤.
3.能利用条形图、列联表探讨两个分类变量的关系.
4.了解χ2的含义及其应用.
5.会用独立性检验解决简单的实际问题.
1.通过学习独立性检验的基本思想,提升逻辑推理素养.
2.借助χ2公式,培养数学运算素养.
3.借助条形图,培养直观想象素养.
4.通过利用独立性检验解决实际问题,提升数据分析能力.
必备知识 探新知
分类变量与列联表
知识点 1
(1)分类变量:用来区别不同的现象或性质的___________,其取值可以用实数表示.
(2)2×2列联表:如果随机事件X与Y的样本数据如下表格形式
Y=0 Y=1 合计
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
随机变量
练一练:
下面是一个2×2列联表:
X Y 合计
Y=0 Y=1 X=0 a 21 73
X=1 8 25 33
合计 b 46
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,60 D.54,52
[解析] 因为a+21=73,所以a=52,b=a+8=52+8=60.
C
独立性检验
知识点 2
(1)零假设:设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.由于{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,故要判断事件{X=1}和{Y=1}之间是否有关联,需要判断假定关系_______________________________是否成立.通常称H0为零假设.
(2)独立性检验:利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
(3)公式:χ2=________________,其中n=a+b+c+d为样本容量.
H0:P(Y=1|X=0)=P(Y=1|X=1)
(4)对照表及检验规则:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
当χ2≥xα时就推断“X与Y不独立”,这种推断犯错误的概率不超过α;当χ2<xα时,可以认为“X与Y独立”.
练一练:
根据表格计算:
性别 不看电视 看电视
男 37 85
女 35 143
χ2≈_____________(保留3位小数).
4.514
关键能力 攻重难
某学校对高三学生做了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张.性格外向的学生594人中有213人在考前心情紧张,作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系.
题|型|探|究
题型一
列联表与等高堆积条形图
典例 1
[解析] 作列联表如下:
性格内向 性格外向 合计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
合计 426 594 1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数所占的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
2.利用等高条形图判断两个分类变量是否相关的步骤
微提醒:等高堆积条形图的缺点是不能给出推断“两个分类变量有关系”犯错误的概率.
为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液做尿棕色素定性检查,结果如下表.问:铅中毒病人组和对照组的尿棕色素阳性数有无差别?
对点训练
尿棕色素 合计
阳性数 阴性数 铅中毒病人组 29 7 36
铅中毒对照组 9 28 37
合计 38 35 73
[解析] 由上述列联表可知,在铅中毒病人组中尿棕色素为阳性的约占80.56%,而铅中毒对照组仅约占24.32%.说明它们之间有较大差别.
画出等高堆积条形图如图所示.
由列联表及等高堆积条形图可知,铅中毒病人组与对照组相比较,尿棕色素为阳性数差别明显,因此铅中毒病人组和对照组的尿棕色素阳性数有明显差别.
题型二
独立性检验
某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
典例 2
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
[分析] (1)根据列联表,用频率代替概率,可分别估计男、女顾客对该商场服务满意的概率;(2)求出χ2的值,与临界值表对比可得结论.
[规律方法] 解决独立性检验问题的基本步骤
2024年春季,某出租汽车公司决定更换一批小汽车以代替原来报废的出租车,现有A,B两款车型的使用寿命(单位:年)频数表如下:
对点训练
使用寿命/年 5 6 7 8 总计
A型出租车/辆 10 20 45 25 100
B型出租车/辆 15 35 40 10 100
(1)填写下表,并判断是否有99%的把握认为出租车的使用寿命与汽车车型有关;
使用寿命不高于6年 使用寿命不低于7年 总计
A型
B型
总计
(2)司机师傅小李准备在一辆开了4年的A型车和一辆开了4年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明,他应如何选择?
[解析] (1)根据题目所给数据得到如下2×2的列联表:
使用寿命不高于6年 使用寿命不低于7年 总计
A型 30 70 100
B型 50 50 100
总计 80 120 200
题型三
独立性检验的综合应用
某校鼓励即将毕业的大学生到西部偏远地区去支教,校学生就业部针对即将毕业的男、女生是否愿意到西部支教进行问卷调查,得到的情况如下表所示:
典例 3
性别 支教 合计
愿意去支教 不愿意去支教 女生 20
男生 40
合计 70 100
(1)完成上述2×2列联表;
(2)根据表中的数据,试根据小概率值α=0.05的独立性检验,分析愿意去西部支教是否与性别有关?
(3)若在接受调查的所有男生中按照“是否愿意去支教”进行分层抽样,随机抽取10人,再在10人中抽取3人进行面谈,记面谈的男生中,不愿意去支教的人数为ξ,求ξ的分布列以及数学期望.
[分析] (2)根据列联表求出χ2和相应的频率,从而分析是否与性别有关;(3)由超几何分布公式求出相应的分布列,计算出数学期望.
[解析] (1)2×2列联表如下:
性别 支教 合计
愿意去支教 不愿意去支教 女生 30 20 50
男生 40 10 50
合计 70 30 100
[规律方法] 解决一般的独立性检验问题的步骤:
某地为了调查市民对“一带一路”倡议的了解程度,随机选取了100名年龄在20岁至60岁的市民进行问卷调查,并通过问卷的分数把市民划分为了解“一带一路”倡议与不了解“一带一路”倡议两类,数据如表所示.
对点训练
年龄/岁 [20,30) [30,40) [40,50) [50,60]
调查人数 30 30 25 15
了解“一带一路”倡议人数 12 28 15 5
(1)完成下面的2×2列联表,并判断是否有90%的把握认为以40岁为分界点对“一带一路”倡议的了解有差异;(结果精确到0.001)
年龄低于40岁的人数 年龄不低于40岁的人数 合计
了解
不了解
合计
(2)以频率估计概率,若在该地选出4名市民(年龄在20岁至60岁),记4名市民中了解“一带一路”倡议的人数为X,求随机变量X的分布列、数学期望和方差.附:
α 0.15 0.10 0.05 0.025 0.010
xα 2.072 2.706 3.841 5.024 6.635
[分析] (1)由表格读取信息,年龄低于40岁的共60人,年龄不低于40岁的共40人,填写2×2列联表,再把数据代入χ2公式计算;
(2)在总体未知的市民中选取4人,由频率估计概率得出选出的每位市民是了解“一带一路”倡议的概率,可知随机变量X服从二项分布.
[解析] (1)根据已知数据得到2×2列联表:
年龄低于40岁的人数 年龄不低于40岁的人数 合计
了解 40 20 60
不了解 20 20 40
合计 60 40 100
课堂检测 固双基
1.判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是( )
A.残差 B.独立性检验
C.等高堆积条形图 D.回归分析
[解析] 用独立性检验考查两个分类变量是否有关系时,算出随机变量χ2的值越大,说明“X与Y有关系”成立的可能性越大.
B
2.下列关于独立性检验的叙述:
①常用等高堆积条形图表示列联表数据的频率特征;
②独立性检验依据的是小概率原理;
③独立性检验的结果是完全正确的;
④对分类变量X与Y的随机变量χ2的观测值来说,χ2越小,X与Y有关系的把握程度就越大.
其中叙述正确的个数为( )
A.1 B.2
C.3 D.4
B
[解析] 因为独立性检验常用等高堆积条形图表示列联表数据的频率特征,故①正确;独立性检验依据的是小概率原理,故②正确;独立性检验的结果不是完全正确的,故③不正确;对分类变量X与Y的随机变量χ2的观测值来说,χ2越大,X与Y有关系的把握程度才越大,故④不正确.所以正确的个数为2,故选B.
3.一个2×2列联表如下:
y1 y2 总计
x1 a 35 45
x2 7 b n
总计 m 73 s
则表中m,n的值分别是( )
A.10,38 B.17,45
C.10,45 D.17,38
B
[解析] 由a+35=45,得a=10.由a+7=m,得m=17.由m+73=s,得s=90.由45+n=s,得n=45.
4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2的值χ2≈27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_______的(填“有关”或“无关”).
[解析] 由χ2≈27.63与临界值比较,在犯错误的概率不超过0.001的前提下,说明打鼾与患心脏病有关.
有关第八章 8.3
A组·基础自测
一、选择题
1.(多选)下列说法正确的是( AB )
A.事件A与B独立,即两个事件互不影响
B.事件A与B关系越密切,则χ2就越大
C.χ2的大小是判定事件A与B是否相关的唯一根据
D.若判定两事件A与B相关,则A发生B一定发生
[解析] 由事件的独立性知,A选项正确;由独立性检验的意义知,B选项正确;χ2的大小是判定事件A与B是否相关的一种方法,不是唯一依据,C选项不正确;若事件A与B相关,则A发生B可能发生,也可能不发生,D选项不正确.
2.分类变量X和Y的列表如下,则下列说法判断正确的是( C )
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
A.ad-bc越小,说明X和Y关系越弱
B.ad-bc越大,说明X和Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
[解析] 列联表可以较为准确地判断两个变量之间的相关关系程度,
由χ2=,
当(ad-bc)2越大,χ2越大,表明X与Y的关系越强.
(ad-bc)2越接近 0,说明两个分类变量X和Y无关的可能性越大.
3.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有显著效果的图形是( D )
[解析] 分析四个等高条形图得选项D中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.
4.为了了解手机品牌的选择是否和年龄的大小有关,随机抽取部分A品牌手机使用者和B品牌手机使用者进行统计,统计结果如下表:
年龄 手机品牌 合计
A品牌 B品牌
30岁以上 40 20 60
30岁以下(含30岁) 15 25 40
合计 55 45 100
根据表格计算得χ2≈8.249,据此判断下列结论正确的是( C )
A.没有任何把握认为“手机品牌的选择与年龄大小有关”
B.可以在犯错误的概率不超过0.001的前提下认为“手机品牌的选择与年龄大小有关”
C.可以在犯错误的概率不超过0.01的前提下认为“手机品牌的选择与年龄大小有关”
D.可以在犯错误的概率不超过0.01的前提下认为“手机品牌的选择与年龄大小无关”
[解析] χ2≈8.249>6.635=x0.01,由小概率值α=0.01的独立性检验知,在犯错误的概率不超过0.01的前提下认为“手机品牌的选择与年龄大小有关”.
5.已知随机事件A与B的样本数据的2×2列联表如下:
项目 A 总计
B m 12-m 12
10-m 20+m 30
总计 10 32 42
其中m,12-m均为大于4的整数,若在犯错误的概率不超过0.01的前提下“判断A和B之间有关系”时,则m=( B )
附:χ2=.
α 0.10 0.05 0.025 0.010 0.005
xα 2.706 3.841 5.024 6.635 7.879
A.6 B.7
C.8 D.9
[解析] 由题意可得,解得4χ2=
=≥6.635,
解得m≥6.07,故m=7.
二、填空题
6.如果根据性别与是否爱好运动的列联表得到χ2≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错误的可能性不超过 5% .
[解析] 因为P(χ2≥3.841)≈0.05.
所以判断性别与是否爱好运动有关,出错的可能性不超过5%.
7.若两个分类变量x和y的列联表为:
yx y1 y2
x1 5 15
x2 40 10
则x与y之间有关系的概率约为 0.999 .
[解析] χ2=≈18.822.
∵18.822>10.828,
∴x与y之间有关系的概率约为1-0.001=0.999.
8.下面是一个2×2列联表:
项目 y1 y2 合计
x1 a 21 70
x2 5 c 30
合计 b d 100
则b-d=_8__,χ2≈_24.047__.(保留小数点后3位)
[解析] 由2×2列联表得:a=49,b=54,c=25,d=46.所以b-d=54-46=8.
χ2=≈24.047.
三、解答题
9.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
[解析] (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)根据题表中的数据可得
K2==≈10.256.
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
10.为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
SO2PM2.5 [0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2PM2.5 [0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,依据小概率α=0.01的独立性检验,判断该市一天空气中PM2.5浓度与SO2浓度是否有关?
[解析] (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
SO2PM2.5 [0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
(3)零假设H0:该市一天空气中PM2.5浓度与SO2浓度无关.
根据(2)的列联表得χ2=≈7.484>6.635=x0.01.
根据小概率值α=0.01的独立性检验,我们认为H0不成立,
即认为该市一天空气中PM2.5浓度与SO2浓度有关,此推断犯错误的概率不超过0.01.
B组·能力提升
一、选择题
1.(多选)晚上睡眠充足是提高学习效率的必要条件.某高中高二的学生分为寄宿生和走读生两类,其中寄宿生晚上9:50必须休息,睡眠能得到充分的保证;走读生晚上大多10:30休息,甚至更晚.为了了解这两类学生的学习效率情况,该校有关部门分别对这两类学生学习总成绩的前50名进行问卷调查,得到如表所示的统计数据,则下列说法正确的是( BC )
学习效率 寄宿生 走读生
效率高 30 10
效率低 20 40
A.走读生前50名学生中有40%的学生学习效率高
B.寄宿生前50名学生中有60%的学生学习效率高
C.根据α=0.001的独立性检验,可以认为“学生学习效率高低与晚上睡眠是否充足”有关
D.根据α=0.001的独立性检验,可以认为“学生学习效率高低与晚上睡眠是否充足”无关
[解析] 对于A,P(走读生学习效率高)==20%,故选项A错误;对于B,P(寄宿生学习效率高)==60%,故选项B正确;对于C,零假设为H0:学生学习效率高低与晚上睡眠是否充足无关.根据列联表中的数据,经计算得到
χ2=≈16.667>10.828=x0.001,根据α=0.001的独立性检验,我们推断H0不成立,即认为“学生学习效率高低与晚上睡眠是否充足”有关,该推断犯错误的概率不超过0.001.故选项C正确,选项D错误.
2.(多选)有两个分类变量X,Y,其列联表如下所示,
Y1 Y2
X1 a 20-a
X2 15-a 30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( CD )
A.6 B.7
C.8 D.9
[解析] 根据公式,得
χ2=
=>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8或9时满足题意.
3.某校团委对“学生性别和喜欢某热门软件是否有关联”进行了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该软件的人数占男生人数的,女生喜欢该软件的人数占女生人数的.若有99%的把握认为喜欢该软件和性别有关联,则男生至少有( B )
参考公式:χ2=,其中n=a+b+c+d.
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
A.12人 B.18人
C.24人 D.30人
[解析] 设男生人数为x,女生人数为.作出2×2列联表:
喜欢该软件 不喜欢该软件 合计
男生 x x x
女生 x x
合计 x x
可得χ2==>6.635.
解得x>17.69,∵x为整数,所以,若在犯错误的概率不超过0.01的前提下认为是否喜欢该软件和性别有关,则男生至少有18人.故选B.
二、填空题
4.某校在两个班进行教学方式对比试验,两个月后进行了一次检测,实验班与对照班成绩统计如表所示(单位:人):
80及80分以上 80分以下 总计
实验班 35 15 50
对照班 20 m 50
总计 55 45 n
(1)m= 30 ,n= 100 ;
(2)根据表中数据得到的结论是 有99%的把握说“教学方式与成绩有关系” .
[解析] (1)m=45-15=30,n=50+50=100.
(2)由表中的数据得χ2=≈9.091.
因为9.091>6.635,所以有99%的把握说“教学方式与成绩有关系”.
5.如图所示是调查某学校高一、高二年级学生参加社团活动的等高堆积条形图,阴影部分的高表示参加社团的频率.已知该校高一、高二年级学生人数均为600人(所有学生都参加了调查),现从参加社团的同学中按分层随机抽样的方式抽取45人,则抽取的高二学生人数为_27__.
[解析] 根据等高堆积条形图可知,参加社团的高一和高二年级学生的人数比为2∶3,由分层随机抽样的性质可得抽取的高二学生人数为45×=27.
三、解答题
6.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图.
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
箱产量<50 kg 箱产量≥50 kg
旧养殖法
新养殖法
附:
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
χ2=.
[解析] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,
∴P(A)=P(BC)=P(B)P(C),
旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62,
新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66,
则事件A的概率估计值为P(A)=P(B)·P(C)=
0.62×0.66=0.409 2,
∴A发生的概率为0.409 2.
(2)根据箱产量的频率分布直方图得到列联表:
箱产量<50 kg 箱产量≥50 kg 总计
旧养殖法 62 38 100
新养殖法 34 66 100
总计 96 104 200
则χ2=≈15.705,
由15.705>6.635.
故有99%的把握认为箱产量与养殖方法有关.
C组·创新拓展
某校为调查高中生在校参加体育活动的时间,随机抽取了100名高中学生进行调查,其中男女各占一半,下面是根据调查结果绘制的学生日均体育锻炼时间的频率分布直方图:
将日均体育锻炼时间不低于40分钟的学生评价为“良好”,已知“良好”评价中有18名女生.
参考公式:χ2=
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
(1)请将下面的列联表补充完整;
性别 成绩 合计
非良好 良好
男生
女生
合计
(2)依据小概率值α=0.01的独立性检验,分析高中生的性别与喜欢体育锻炼是否有关.
[解析] (1)设学生日均体育锻炼时间为x分钟,
根据频率分布直方图可知P(x≥40)=(0.025+0.020+0.005)×10=0.5.
抽取总人数为100,所以评价为“良好”的学生人数为50.列联表如下:
性别 成绩 合计
非良好 良好
男生 18 32 50
女生 32 18 50
合计 50 50 100
(2)零假设为H0:体育锻炼与性别之间无关.
由χ2=
==7.84>6.635,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为性别与体育锻炼有关联,此推断犯错误的概率不大于0.01.