首页
高中语文
高中数学
高中英语
高中物理
高中化学
高中历史
高中道德与法治(政治)
高中地理
高中生物
高中音乐
高中美术
高中体育
高中信息技术
高中通用技术
资源详情
高中数学
北师大版(2019)
选择性必修 第一册
第七章 统计案例
本章综合与复习
北师大版高中数学选择性必修第一册第七章统计案例章末综合提升课件+学案+检测+答案
文档属性
名称
北师大版高中数学选择性必修第一册第七章统计案例章末综合提升课件+学案+检测+答案
格式
zip
文件大小
6.2MB
资源类型
试卷
版本资源
北师大版(2019)
科目
数学
更新时间
2025-07-05 18:37:41
点击下载
文档简介
(共48张PPT)
第七章 统计案例
章末综合提升
巩固层·知识整合
提升层·题型探究
类型1 线性回归分析
判断两个变量是否线性相关有两种方法:一是画出“散点图”;二是计算相关系数r的值.值得注意的是,在求回归直线之前,要先判断它们是否线性相关,否则求出的回归直线可能毫无意义.
【例1】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件数X/个 10 20 30 40 50 60 70 80 90 100
加工时间Y/分钟 62 68 75 81 89 95 102 108 115 122
类型2 可线性化的回归分析
利用线性回归拟合曲线的一般步骤
(1)绘制散点图,根据样本点的分布,选择接近的、合适的曲线类型.
(2)进行变量替换y′=f (y),x′=g(x).使变换后的两个变量呈线性相关关系.
(3)按最小二乘法原理求线性回归方程.
(4)将线性化方程转换为关于原始变量X,Y的回归方程.
【例2】 在一次抽样调查中测得样本的5个样本点,数值如下表:
试建立Y与X之间的回归方程.
[思路点拨] 先确定拟合函数模型,再利用公式求出回归方程.
X 0.25 0.5 1 2 4
Y 16 12 5 2 1
t 4 2 1 0.5 0.25
Y 16 12 5 2 1
由置换后的数值表作散点图如下:
由散点图可以看出Y与t呈近似的线性相关关系.列表如下
i ti yi ti yi
1 4 16 64 16 256
2 2 12 24 4 144
3 1 5 5 1 25
4 0.5 2 1 0.25 4
5 0.25 1 0.25 0.062 5 1
∑ 7.75 36 94.25 21.312 5 430
类型3 独立性检验的基本方法
独立性检验的基本步骤
(1)找相关数据,作列联表;
(2)求统计量χ2;
(3)判断可能性,注意与临界值做比较,得出事件有关的确信度.若χ2>6.635时,则有99%的把握认为“X与Y有关系”.若χ2>3.841,则有95%的把握认为“X与Y有关系”;若χ2>2.706,则有90%的把握认为“X与Y有关系”;如果χ2≤2.706,就认为没有充分的证据显示“X与Y有关系”.
【例3】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
机床 产品质量
一级品 二级品 总计
甲机床 150 50 200
乙机床 120 80 200
总计 270 130 400
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
章末综合测评(一) 动量守恒定律
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
√
14
15
章末综合测评(六) 统计案例
16
17
18
19
(满分:150分 时间:120分钟)
一、单项选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.下列说法中①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1,或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.正确的有( )
A.①② B.②③ C.①③ D.①②③
C [由相关系数的定义可知①③正确.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
2.大学生和研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如下表所示:
性别 学位
学士 硕士 总计
男 162 27 189
女 143 8 151
总计 305 35 340
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
根据以上数据,则( )
A.有99%的把握认为获取学位类别与性别有关
B.有95%的把握认为获取学位类别与性别有关
C.有90%的把握认为获取学位类别与性别有关
D.获取学位类别与性别无关
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
3.如图所示,有5组数据(x,y),去掉哪组数据后,剩下的4组数据的线性相关系数最大( )
A.A B.B
C.C D.D
√
D [去掉D点,其他四点大致分布在一条直线附近.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
4.已知X与Y之间的一组数据:
√
X 0 1 2 3
Y 1 3 5 7
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
5.在一次抽样调查中,经过计算得到χ2=0.27,根据这一数据,我们有理由认为( )
A.两个分类变量关系较弱
B.两个分类变量关系较强
C.两个分类变量无关系
D.以上说法都不正确
√
C [根据临界值判断.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
6.下列图形中具有相关关系的两个变量是( )
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
C [A,B中显然任何一个x都有唯一确定的y和它对应,是一种函数关系;C中从散点图中可看出所有点看上去都在一条直线附近波动,具有相关关系,而且是一种线性相关;D中所有的点在散点图中没有显示任何关系,因此变量间是不相关的.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
7.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则线性回归方程是( )
A.Y=1.23X+4 B.Y=1.23X+5
C.Y=1.23X+0.08 D.Y=0.08X+1.23
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
二、多项选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.
9.下列变量关系不是函数关系的是( )
A.人的寿命与性别之间的关系
B.等边三角形的边长与面积之间的关系
C.施肥量与产量之间的关系
D.学习时间与学习成绩之间的关系
√
ACD [函数关系是一种确定性关系,相关关系是一种非确定性关系.]
√
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
10.下面是两个变量的一组样本数据:
X 2 3 4 5 6
Y 2.2 3.8 5.5 6.5 7
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
根据以上数据,可知下列结论正确的是( )
A.Y与X正相关
B.Y与X负相关
C.Y与X之间的相关系数r约为0.979
D.Y与X之间的相关系数r约为-0.979
√
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
√
P(χ2≥k) 0.025 0.010 0.005 0.001
k 5.024 6.635 7.879 10.828
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
三、填空题:本题共3小题,每小题5分,共15分.
12.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份X 1 2 3 4
用水量Y 4.5 4 3 2.5
5.25
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
Y=11.47+2.62X
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
Y=0.84X+29 8.4 [由题意得Y=0.84X+29;
若父亲身高增加10 cm时,孩子身高增加0.84×10=8.4 cm.]
Y=0.84X+29
8.4
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
四、解答题:本题共5小题,共77分.解答时应写出文字说明、证明过程或演算步骤.
15.(13分)在500名患者身上试验某种血清治疗某种疾病的作用,与另外500名未用血清的患者进行比较研究,结果如下表:
使用血清情况 治疗情况
治愈 未治愈 总计
用血清治疗 254 246 500
未用血清治疗 223 277 500
总计 477 523 1 000
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
问该种血清能否起到治疗该种疾病的作用?
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
17.(15分)某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:
画出散点图并计算相关系数r,判断热茶销售量与气温之间是否具有线性相关关系?
气温X/℃ 26 18 13 10 4 -1
杯数Y 20 24 34 38 50 64
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
18.(17分)有两个变量A与B,它们的可能取值分别为{A1,A2}和{B1,B2},其一组观测值如下2×2列联表所示:
A B
B1 B2 总计
A1 a 20-a 20
A2 15-a 30+a 45
总计 15 50 65
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
其中a,15-a均是大于5的整数,则a取何值时有90%的把握认为“A与B之间有关系”?
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
19.(17分)如图是某地区2007年至2023年环境基础设施投资额Y(单位:亿元)的折线图.
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
为了预测该地区2025年的环境基础设施投资额,建立了Y与时间变量T的两个线性回归模型.根据2007年至2023年的数据(时间变量T的值依次为1,2,…,17)建立模型①:Y=-30.4+13.5T;根据2017年至2023年的数据(时间变量T的值依次为1,2,…,7)建立模型②:Y=99+17.5T.
(1)分别利用这两个模型,求该地区2025年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
[解] (1)利用模型①,该地区2025年的环境基础设施投资额的预测值为Y=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2025年的环境基础设施投资额的预测值为Y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
(ⅰ)从折线图可以看出,2007年至2023年的数据对应的点没有随机散布在直线Y=-30.4+13.5T上下,这说明利用2007年至2023年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2017年相对2016年的环境基础设施投资额有明显增加,2017年至2023年的数据对应的点位于一条直线的附近,这说明从2017年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2017年至2023年的数据建立的线性模型Y=99+17.5T可以较好地描述2017年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
14
15
16
17
18
19
(ⅱ)从计算结果看,相对于2023年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.章末综合测评(六)
1.C [由相关系数的定义可知①③正确.]
2.A [χ2=≈7.343>6.635.故有99%的把握认为获取学位类别与性别有关.]
3.D [去掉D点,其他四点大致分布在一条直线附近.]
4.D [线性回归方程Y=X+,必过点(),即(1.5,4).]
5.C [根据临界值判断.]
6.C [A,B中显然任何一个x都有唯一确定的y和它对应,是一种函数关系:C中从散点图中可看出所有点看上去都在一条直线附近波动,具有相关关系,而且是一种线性相关:D中所有的点在散点图中没有显示任何关系,因此变量间是不相关的.]
7.C [由题知=1.23,直线经过中心(4,5),则=0.08,所以线性回归方程为Y=1.23X+0.08.]
8.A [根据与r的计算公式可知,与r的符号始终相同.]
9.ACD [函数关系是一种确定性关系,相关关系是一种非确定性关系.]
10.AC [=90,=140.78,xiyi=112.3,=4,=5,代入公式得r≈0.979.由r>0可知,Y与X正相关.]
11.AD [A,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;故A正确;B,在线性回归方程Y=3-5X中,当变量X每增加1个单位时,Y平均减少5个单位,故B不正确;C,线性回归方程Y=X+,可能不过散点中的任何一个点,故C不正确;D,在2×2列联表中,由计算得χ2=13.079,对照临界值得,有99%的把握确认这两个变量间有关系,故D正确.故选AD.]
12.5.25 [=2.5,=3.5,∵线性回归方程过样本点(),∴3.5=-0.7×2.5+=5.25.]
13.Y=11.47+2.62X [∵≈2.62,=11.47,∴线性回归方程为Y=11.47+2.62X.]
14.Y=0.84X+29 8.4 [由题意得Y=0.84X+29:
若父亲身高增加10 cm时,孩子身高增加0.84×10=8.4 cm.]
15.解:由列联表给出的数据,
χ2=≈3.852 2.
因为3.852 2>3.841,所以我们有95%以上的把握认为这种血清能起到治疗该种疾病的作用.
16.解:(1)由题意知n=10,xi==8,
yi==2,
又=720-10×82=80,xiyi-n=184-10×8×2=24,
由此得=0.3,=2-0.3×8=-0.4.
故所求线性回归方程为Y=0.3X-0.4.
(2)由于变量Y的值随X值的增加而增加(=0.3>0),故X与Y之间是正相关.
(3)将X=7代入线性回归方程可以预测该家庭的月储蓄为Y=0.3×7-0.4=1.7(千元).
17.解:由表中数据画出散点图,如图所示.
由表中数据得(26+18+13+10+4-1)≈11.67,
(20+24+34+38+50+64)≈38.33,
xiyi=26×20+18×24+13×34+10×38+4×50-1×64=1 910,
=262+182+132+102+42+(-1)2=1 286,
=202+242+342+382+502+642=10 172,
计算r≈-0.97接近于-1,
所以热茶销售量与气温之间具有较强的线性相关关系.
18.解:要使A与B之间有90%的把握认为有关系,则χ2>2.706,又∵χ2=,
∴χ2=
=,
∵χ2>2.706,
∴>2.706,
即(13a-60)2>≈1 124.
∴13a-60>33.5或13a-60<-33.5.
∴a>7.2或a<2.又∵
∴5
∴7.2
19.解:(1)利用模型①,该地区2025年的环境基础设施投资额的预测值为Y=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2025年的环境基础设施投资额的预测值为Y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.理由如下:
(ⅰ)从折线图可以看出,2007年至2023年的数据对应的点没有随机散布在直线Y=-30.4+13.5T上下,这说明利用2007年至2023年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2017年相对2016年的环境基础设施投资额有明显增加,2017年至2023年的数据对应的点位于一条直线的附近,这说明从2017年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2017年至2023年的数据建立的线性模型Y=99+17.5T可以较好地描述2017年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2023年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
21世纪教育网(www.21cnjy.com)类型1 线性回归分析
判断两个变量是否线性相关有两种方法:一是画出“散点图”;二是计算相关系数r的值.值得注意的是,在求回归直线之前,要先判断它们是否线性相关,否则求出的回归直线可能毫无意义.
【例1】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件数X/个 10 20 30 40 50 60 70 80 90 100
加工时间Y/分钟 62 68 75 81 89 95 102 108 115 122
(1)Y与X是否具有线性相关关系?
(2)如果Y与X具有线性相关关系,求出线性回归方程.
参考数据:=55=91.7=38 500=87 777xiyi=55 950.
[解] (1)r==≈0.999 8,
∴Y与X具有较强的线性相关关系.
(2)设所求的线性回归方程为Y=X+,则===91.7-0.668×55=54.96.
所以所求的线性回归方程为Y=0.668X+54.96.
类型2 可线性化的回归分析
利用线性回归拟合曲线的一般步骤
(1)绘制散点图,根据样本点的分布,选择接近的、合适的曲线类型.
(2)进行变量替换y′=f(y),x′=g(x).使变换后的两个变量呈线性相关关系.
(3)按最小二乘法原理求线性回归方程.
(4)将线性化方程转换为关于原始变量X,Y的回归方程.
【例2】 在一次抽样调查中测得样本的5个样本点,数值如下表:
X 0.25 0.5 1 2 4
Y 16 12 5 2 1
试建立Y与X之间的回归方程.
[思路点拨] 先确定拟合函数模型,再利用公式求出回归方程.
[解] 由数值表可作散点图如图所示.
根据散点图可知Y与X近似地呈反比例函数关系,
设Y=,令t=,则Y=kt,原数据变为
t 4 2 1 0.5 0.25
Y 16 12 5 2 1
由置换后的数值表作散点图如下:
由散点图可以看出Y与t呈近似的线性相关关系.列表如下
i ti yi tiyi
1 4 16 64 16 256
2 2 12 24 4 144
3 1 5 5 1 25
4 0.5 2 1 0.25 4
5 0.25 1 0.25 0.062 5 1
∑ 7.75 36 94.25 21.312 5 430
=7.2.
所以=≈0.8.
所以Y=0.8+4.134 4t.
所以Y对X的回归方程是Y=0.8+.
类型3 独立性检验的基本方法
独立性检验的基本步骤
(1)找相关数据,作列联表;
(2)求统计量χ2;
(3)判断可能性,注意与临界值做比较,得出事件有关的确信度.若χ2>6.635时,则有99%的把握认为“X与Y有关系”.若χ2>3.841,则有95%的把握认为“X与Y有关系”;若χ2>2.706,则有90%的把握认为“X与Y有关系”;如果χ2≤2.706,就认为没有充分的证据显示“X与Y有关系”.
【例3】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
机床 产品质量
一级品 二级品 总计
甲机床 150 50 200
乙机床 120 80 200
总计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:χ2=,
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
[解] (1)根据表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)根据题表中的数据可得
χ2=≈10.256.
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
章末综合测评(六) 统计案例
(满分:150分 时间:120分钟)
一、单项选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.下列说法中①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1,或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.正确的有( )
A.①② B.②③
C.①③ D.①②③
C [由相关系数的定义可知①③正确.]
2.大学生和研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如下表所示:
性别 学位
学士 硕士 总计
男 162 27 189
女 143 8 151
总计 305 35 340
根据以上数据,则( )
A.有99%的把握认为获取学位类别与性别有关
B.有95%的把握认为获取学位类别与性别有关
C.有90%的把握认为获取学位类别与性别有关
D.获取学位类别与性别无关
A [χ2=≈7.343>6.635.故有99%的把握认为获取学位类别与性别有关.]
3.如图所示,有5组数据(x,y),去掉哪组数据后,剩下的4组数据的线性相关系数最大( )
A.A B.B
C.C D.D
D [去掉D点,其他四点大致分布在一条直线附近.]
4.已知X与Y之间的一组数据:
X 0 1 2 3
Y 1 3 5 7
则Y与X的线性回归方程Y=X+必过点( )
A.(2,2) B.(1.5,0)
C.(1,2) D.(1.5,4)
D [线性回归方程Y=X+,必过点(),
即(1.5,4).]
5.在一次抽样调查中,经过计算得到χ2=0.27,根据这一数据,我们有理由认为( )
A.两个分类变量关系较弱
B.两个分类变量关系较强
C.两个分类变量无关系
D.以上说法都不正确
C [根据临界值判断.]
6.下列图形中具有相关关系的两个变量是( )
A B
C D
C [A,B中显然任何一个x都有唯一确定的y和它对应,是一种函数关系;C中从散点图中可看出所有点看上去都在一条直线附近波动,具有相关关系,而且是一种线性相关;D中所有的点在散点图中没有显示任何关系,因此变量间是不相关的.]
7.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则线性回归方程是( )
A.Y=1.23X+4 B.Y=1.23X+5
C.Y=1.23X+0.08 D.Y=0.08X+1.23
C [由题知=1.23,直线经过中心(4,5),则=0.08,所以线性回归方程为Y=1.23X+0.08.]
8.设两个变量X和Y之间具有线性相关关系,它们的相关系数是r,Y关于X的回归直线的斜率是,纵截距是,那么必有( )
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相反
A [根据与r的计算公式可知,与r的符号始终相同.]
二、多项选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.
9.下列变量关系不是函数关系的是( )
A.人的寿命与性别之间的关系
B.等边三角形的边长与面积之间的关系
C.施肥量与产量之间的关系
D.学习时间与学习成绩之间的关系
ACD [函数关系是一种确定性关系,相关关系是一种非确定性关系.]
10.下面是两个变量的一组样本数据:
X 2 3 4 5 6
Y 2.2 3.8 5.5 6.5 7
根据以上数据,可知下列结论正确的是( )
A.Y与X正相关
B.Y与X负相关
C.Y与X之间的相关系数r约为0.979
D.Y与X之间的相关系数r约为-0.979
AC [=90=140.78xiyi=112.3,=5,代入公式得r≈0.979.由r>0可知,Y与X正相关.]
11.下列说法中正确的是( )
A.将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变
B.设有一个线性回归方程Y=3-5X,变量X增加1个单位时,Y平均增加5个单位
C.线性回归方程Y=X+必过散点中的某个点
D.在一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系
附:
P(χ2≥k) 0.025 0.010 0.005 0.001
k 5.024 6.635 7.879 10.828
AD [A,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;故A正确;B,在线性回归方程Y=3-5X中,当变量X每增加1个单位时,Y平均减少5个单位,故B不正确;C,线性回归方程Y=X+,可能不过散点中的任何一个点,故C不正确;D,在2×2列联表中,由计算得χ2=13.079,对照临界值得,有99%的把握确认这两个变量间有关系,故D正确.故选AD.]
三、填空题:本题共3小题,每小题5分,共15分.
12.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份X 1 2 3 4
用水量Y 4.5 4 3 2.5
用水量Y与月份X之间具有较好的线性相关关系,其线性回归方程是Y=-0.7X+,则=________.
5.25 [∵),∴3.5=-0.7×2.5+.∴=5.25.]
13.某化工厂为预测某产品的回收率Y,需要研究它和原料有效成分含量X之间的相关关系.现取了8对观测值,计算得xi=52yi=228=478xiyi=1 849,则Y对X的线性回归方程是________.
Y=11.47+2.62X [∵==11.47,∴线性回归方程为Y=11.47+2.62X.]
14.生活经验告诉我们,儿子的身高与父亲的身高具有较强的正相关性,某体育老师调查了大学三年级某班所有男生的身高和父亲的身高(单位:cm),利用最小二乘法计算出=0.84,=29,则儿子的身高Y与父亲的身高X的线性回归方程是________,据此估计其它班级,如果父亲的身高增加10 cm,儿子的身高平均增加________cm.
Y=0.84X+29 8.4 [由题意得Y=0.84X+29;
若父亲身高增加10 cm时,孩子身高增加0.84×10=8.4 cm.]
四、解答题:本题共5小题,共77分.解答时应写出文字说明、证明过程或演算步骤.
15.(13分)在500名患者身上试验某种血清治疗某种疾病的作用,与另外500名未用血清的患者进行比较研究,结果如下表:
使用血清情况 治疗情况
治愈 未治愈 总计
用血清治疗 254 246 500
未用血清治疗 223 277 500
总计 477 523 1 000
问该种血清能否起到治疗该种疾病的作用?
[解] 由列联表给出的数据,
χ2=≈3.852 2.
因为3.852 2>3.841,所以我们有95%以上的把握认为这种血清能起到治疗该种疾病的作用.
16.(15分)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得xi=80yi=20xiyi=184=720.
(1)求家庭的月储蓄Y对月收入X的线性回归方程Y=X+;
(2)判断变量X与Y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程Y=X+中,=,=-,其中为样本平均值.
[解] (1)由题意知n=10=8,
=2,
又=720-10×82=80=184-10×8×2=24,
由此得==2-0.3×8=-0.4.
故所求线性回归方程为Y=0.3X-0.4.
(2)由于变量Y的值随X值的增加而增加(=0.3>0),故X与Y之间是正相关.
(3)将X=7代入线性回归方程可以预测该家庭的月储蓄为Y=0.3×7-0.4=1.7(千元).
17.(15分)某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:
气温X/℃ 26 18 13 10 4 -1
杯数Y 20 24 34 38 50 64
画出散点图并计算相关系数r,判断热茶销售量与气温之间是否具有线性相关关系?
[解] 由表中数据画出散点图,如图所示.
由表中数据得=(26+18+13+10+4-1)≈11.67,
=(20+24+34+38+50+64)≈38.33,
xiyi=26×20+18×24+13×34+10×38+4×50-1×64=1 910,
=262+182+132+102+42+(-1)2=1 286,
=202+242+342+382+502+642=10 172,
计算r≈-0.97接近于-1,
所以热茶销售量与气温之间具有较强的线性相关关系.
18.(17分)有两个变量A与B,它们的可能取值分别为{A1,A2}和{B1,B2},其一组观测值如下2×2列联表所示:
A B
B1 B2 总计
A1 a 20-a 20
A2 15-a 30+a 45
总计 15 50 65
其中a,15-a均是大于5的整数,则a取何值时有90%的把握认为“A与B之间有关系”?
[解] 要使A与B之间有90%的把握认为有关系,则χ2>2.706,
又∵χ2=,
∴χ2=
=
=,
∵χ2>2.706,
∴>2.706,
即(13a-60)2>≈1 124.
∴13a-60>33.5或13a-60<-33.5.
∴a>7.2或a<2.又∵
∴5
∴7.2
故a=8或a=9,即a=8或9时,有90%的把握认为A与B有关系.
19.(17分)如图是某地区2007年至2023年环境基础设施投资额Y(单位:亿元)的折线图.
为了预测该地区2025年的环境基础设施投资额,建立了Y与时间变量T的两个线性回归模型.根据2007年至2023年的数据(时间变量T的值依次为1,2,…,17)建立模型①:Y=-30.4+13.5T;根据2017年至2023年的数据(时间变量T的值依次为1,2,…,7)建立模型②:Y=99+17.5T.
(1)分别利用这两个模型,求该地区2025年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解] (1)利用模型①,该地区2025年的环境基础设施投资额的预测值为Y=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2025年的环境基础设施投资额的预测值为Y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2007年至2023年的数据对应的点没有随机散布在直线Y=-30.4+13.5T上下,这说明利用2007年至2023年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2017年相对2016年的环境基础设施投资额有明显增加,2017年至2023年的数据对应的点位于一条直线的附近,这说明从2017年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2017年至2023年的数据建立的线性模型Y=99+17.5T可以较好地描述2017年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2023年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
21世纪教育网(www.21cnjy.com)章末综合测评(六) 统计案例
(满分:150分 时间:120分钟)
一、单项选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.下列说法中①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1,或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.正确的有( )
A.①② B.②③
C.①③ D.①②③
2.大学生和研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如下表所示:
性别 学位
学士 硕士 总计
男 162 27 189
女 143 8 151
总计 305 35 340
根据以上数据,则( )
A.有99%的把握认为获取学位类别与性别有关
B.有95%的把握认为获取学位类别与性别有关
C.有90%的把握认为获取学位类别与性别有关
D.获取学位类别与性别无关
3.如图所示,有5组数据(x,y),去掉哪组数据后,剩下的4组数据的线性相关系数最大( )
A.A B.B
C.C D.D
4.已知X与Y之间的一组数据:
X 0 1 2 3
Y 1 3 5 7
则Y与X的线性回归方程Y=X+必过点( )
A.(2,2) B.(1.5,0)
C.(1,2) D.(1.5,4)
5.在一次抽样调查中,经过计算得到χ2=0.27,根据这一数据,我们有理由认为( )
A.两个分类变量关系较弱
B.两个分类变量关系较强
C.两个分类变量无关系
D.以上说法都不正确
6.下列图形中具有相关关系的两个变量是( )
A B
C D
7.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则线性回归方程是( )
A.Y=1.23X+4 B.Y=1.23X+5
C.Y=1.23X+0.08 D.Y=0.08X+1.23
8.设两个变量X和Y之间具有线性相关关系,它们的相关系数是r,Y关于X的回归直线的斜率是,纵截距是,那么必有( )
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相反
二、多项选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.
9.下列变量关系不是函数关系的是( )
A.人的寿命与性别之间的关系
B.等边三角形的边长与面积之间的关系
C.施肥量与产量之间的关系
D.学习时间与学习成绩之间的关系
10.下面是两个变量的一组样本数据:
X 2 3 4 5 6
Y 2.2 3.8 5.5 6.5 7
根据以上数据,可知下列结论正确的是( )
A.Y与X正相关
B.Y与X负相关
C.Y与X之间的相关系数r约为0.979
D.Y与X之间的相关系数r约为-0.979
11.下列说法中正确的是( )
A.将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变
B.设有一个线性回归方程Y=3-5X,变量X增加1个单位时,Y平均增加5个单位
C.线性回归方程Y=X+必过散点中的某个点
D.在一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系
附:
P(χ2≥k) 0.025 0.010 0.005 0.001
k 5.024 6.635 7.879 10.828
三、填空题:本题共3小题,每小题5分,共15分.
12.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份X 1 2 3 4
用水量Y 4.5 4 3 2.5
用水量Y与月份X之间具有较好的线性相关关系,其线性回归方程是Y=-0.7X+,则=________.
13.某化工厂为预测某产品的回收率Y,需要研究它和原料有效成分含量X之间的相关关系.现取了8对观测值,计算得xi=52yi=228=478xiyi=1 849,则Y对X的线性回归方程是________.
14.生活经验告诉我们,儿子的身高与父亲的身高具有较强的正相关性,某体育老师调查了大学三年级某班所有男生的身高和父亲的身高(单位:cm),利用最小二乘法计算出=0.84,=29,则儿子的身高Y与父亲的身高X的线性回归方程是________,据此估计其它班级,如果父亲的身高增加10 cm,儿子的身高平均增加________cm.
四、解答题:本题共5小题,共77分.解答时应写出文字说明、证明过程或演算步骤.
15.(13分)在500名患者身上试验某种血清治疗某种疾病的作用,与另外500名未用血清的患者进行比较研究,结果如下表:
使用血清情况 治疗情况
治愈 未治愈 总计
用血清治疗 254 246 500
未用血清治疗 223 277 500
总计 477 523 1 000
问该种血清能否起到治疗该种疾病的作用?
16.(15分)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得xi=80yi=20xiyi=184=720.
(1)求家庭的月储蓄Y对月收入X的线性回归方程Y=X+;
(2)判断变量X与Y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程Y=X+中,=,=-,其中为样本平均值.
17.(15分)某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:
气温X/℃ 26 18 13 10 4 -1
杯数Y 20 24 34 38 50 64
画出散点图并计算相关系数r,判断热茶销售量与气温之间是否具有线性相关关系?
18.(17分)有两个变量A与B,它们的可能取值分别为{A1,A2}和{B1,B2},其一组观测值如下2×2列联表所示:
A B
B1 B2 总计
A1 a 20-a 20
A2 15-a 30+a 45
总计 15 50 65
其中a,15-a均是大于5的整数,则a取何值时有90%的把握认为“A与B之间有关系”?
19.(17分)如图是某地区2007年至2023年环境基础设施投资额Y(单位:亿元)的折线图.
为了预测该地区2025年的环境基础设施投资额,建立了Y与时间变量T的两个线性回归模型.根据2007年至2023年的数据(时间变量T的值依次为1,2,…,17)建立模型①:Y=-30.4+13.5T;根据2017年至2023年的数据(时间变量T的值依次为1,2,…,7)建立模型②:Y=99+17.5T.
(1)分别利用这两个模型,求该地区2025年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
21世纪教育网(www.21cnjy.com)类型1 线性回归分析
判断两个变量是否线性相关有两种方法:一是画出“散点图”;二是计算相关系数r的值.值得注意的是,在求回归直线之前,要先判断它们是否线性相关,否则求出的回归直线可能毫无意义.
【例1】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件数X/个 10 20 30 40 50 60 70 80 90 100
加工时间Y/分钟 62 68 75 81 89 95 102 108 115 122
(1)Y与X是否具有线性相关关系?
(2)如果Y与X具有线性相关关系,求出线性回归方程.
参考数据:=55=91.7=38 500=87 777xiyi=55 950.
[尝试解答] ________________________________________________________
___________________________________________________________________
___________________________________________________________________
___________________________________________________________________
类型2 可线性化的回归分析
利用线性回归拟合曲线的一般步骤
(1)绘制散点图,根据样本点的分布,选择接近的、合适的曲线类型.
(2)进行变量替换y′=f(y),x′=g(x).使变换后的两个变量呈线性相关关系.
(3)按最小二乘法原理求线性回归方程.
(4)将线性化方程转换为关于原始变量X,Y的回归方程.
【例2】 在一次抽样调查中测得样本的5个样本点,数值如下表:
X 0.25 0.5 1 2 4
Y 16 12 5 2 1
试建立Y与X之间的回归方程.
[思路点拨] 先确定拟合函数模型,再利用公式求出回归方程.
[尝试解答] ________________________________________________________
___________________________________________________________________
___________________________________________________________________
___________________________________________________________________
类型3 独立性检验的基本方法
独立性检验的基本步骤
(1)找相关数据,作列联表;
(2)求统计量χ2;
(3)判断可能性,注意与临界值做比较,得出事件有关的确信度.若χ2>6.635时,则有99%的把握认为“X与Y有关系”.若χ2>3.841,则有95%的把握认为“X与Y有关系”;若χ2>2.706,则有90%的把握认为“X与Y有关系”;如果χ2≤2.706,就认为没有充分的证据显示“X与Y有关系”.
【例3】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
机床 产品质量
一级品 二级品 总计
甲机床 150 50 200
乙机床 120 80 200
总计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:χ2=,
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
[尝试解答] ________________________________________________________
___________________________________________________________________
___________________________________________________________________
___________________________________________________________________
21世纪教育网(www.21cnjy.com)
点击下载
同课章节目录
点击下载
VIP下载