第一章 学业质量标准检测
时间120分钟,满分150分.
一、选择题(本大题共12个小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列不具有相关关系的是( D )
A.瑞雪兆丰年 B.名师出高徒
C.吸烟有害健康 D.喜鹊叫喜,乌鸦叫丧
[解析] 喜鹊叫喜,乌鸦叫丧是一种迷信说法,无任何关系.
2.为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如下等高条形图:
根据图中的信息,下列结论中不正确的是( D )
A.样本中的男生数量多于女生数量
B.样本中喜欢手机支付的数量多于现金支付的数量
C.样本中多数男生喜欢手机支付
D.样本中多数女生喜欢现金支付
[解析] 由左图知,样本中的男生数量多于女生数量,A正确;
由左图知样本中喜欢手机支付的数量多于现金支付的数量,B正确;
由左图知,样本中多数男生喜欢手机支付,C正确;
由右图知样本中女生喜欢现金支付人数比手机支付人数少,D错误.
故选D.
3.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算发现K2=6.023,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是( C )
P(K2≥k)
…
0.25
0.15
0.10
0.025
0.010
0.005
…
k
…
1.323
2.072
2.706
5.024
6.635
7.879
…
A.90% B.95%
C.97.5% D.99.5%
[解析] ∵K2=6.023>5.024,故其可信度为97.5%.
4.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施( A )
实验效果
教学措施
优、良、中
差
总计
实验班
48
2
50
对比班
38
12
50
总计
86
14
100
A.有关 B.无关
C.关系不明确 D.以上都不正确
[解析] 由公式计算得K2=≈8.306>6.635,则认为“实验效果与教学措施有关”的概率为0.99.
5.(2019·唐山高二检测)四名同学根据各自的样本数据研究变量x、y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
② y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( D )
A.①② B.②③
C.③④ D.①④
[解析] y与x正(或负)相关时,线性回归直线方程=x+中,x的系数>0(或<0),故①④错.
6.(2019·福州高二检测)在一次试验中,当变量x取值分别是1,,,时,变量Y的值依次是2,3,4,5,则Y与之间的回归曲线方程是( A )
A.=+1 B.=+3
C.=2x+1 D.=x-1
[解析] 把x=1,,,代入四个选项,逐一验证可得=+1.
7.已知回归直线的斜率的估计值是2,样本点的中心为(4,12),则回归直线的方程是( A )
A.=2x+4 B.=x+2
C.=2x-20 D.=x+2
[解析] 由回归直线方程=x+的定义知,=2,
∵回归直线过样本点的中心,∴12=2×4+,
∴=4,∴回归直线方程为=2x+4.
8.以下关于线性回归的判断,正确的个数是( D )
①若散点图中所有点都在一条直线附近,则这条直线为回归直线;
②散点图中的绝大多数都线性相关,个别特殊点不影响线性回归,如图中的A,B,C点;
③已知回归直线方程为=0.50x-0.81,则x=25时,y的估计值为11.69;
④回归直线方程的意义是它反映了样本整体的变化趋势.
A.0 B.1
C.2 D.3
[解析] 能使所有数据点都在它附近的直线不止一条,而据回归直线的定义知,只有按最小二乘法求得回归系数,得到的直线=bx+才是回归直线,
∴①不对;②正确;
将x=25代入=0.50x-0.81,得=11.69,
∴③正确;④正确,故选D.
9.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( D )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
[解析] 因为K==,
K==,
K==,
K==,
则K>K>K>K,所以阅读量与性别有关联的可能性最大.
10.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:
喜爱打篮球
不喜爱打篮球
总计
男生
19
6
25
女生
9
16
25
总计
28
22
50
根据表中的数据及K2的公式,算得K2≈8.12.
临界值表:
P(K2>k0)
0.100
0.050
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
根据临界值表,你认为喜爱打篮球与性别之间有关系的把握是( C )
A.97.5% B.99%
C.99.5% D.99.9%
[解析] ∴7.879故有99.5%的把握认为喜爱打篮球与性别之间有关系.
11.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
P(K2≥k)
0.050
0.010
0.005
0.001
k
3.841
6.635
7.879
10.828
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( D )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
[解析] 根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
12.有人收集了春节期间平均气温x与某取暖商品销售额y的有关数据如下表:
平均气温/℃
-2
-3
-5
-6
销售额/万元
20
23
27
30
根据以上数据,用线性回归的方法,求得销售额y与平均气温x之间线性回归方程=x+的系数=-2.4,则预测平均气温为-8 ℃时该商品销售额为( A )
A.34.6万元 B.35.6万元
C.36.6万元 D.37.6万元
[解析] ==-4,==25,
∵线性回归直线过点(,),∴25=-2.4×(-4)+,∴=15.4.
∴线性回归方程是=-2.4x+15.4.当x=-8时,y=34.6(万元),故选A.
二、填空题(本大题共4个小题,每小题5分,共20分,将正确答案填在题中横线上)
13.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病是否有关系;
③吸烟者得肺病的概率;
④吸烟人群是否与性别有关系;
⑤上网与青少年的犯罪率是否有关系.
其中,用独立性检验可以解决的问题有__②④⑤__.
[解析] 独立性检验主要是对两个分类变量是否有关系进行检验,主要涉及两种变量对同一种事情的影响,或者是两种变量在同一问题上体现的区别等.
14.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:
冷漠
不冷漠
总计
多看电视
68
42
110
少看电视
20
38
58
总计
88
80
168
则在犯错误的概率不超过__0.001__的前提下认为多看电视与人变冷漠有关系.
[解析] 可计算K2的观测值k=11.377>10.828.
15.已知x,y取值如下表:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若x,y具有线性相关关系,且回归方程为=0.95x+a,则a=__2.6__.
[解析] 由已知=2,=4.5,而回归方程过点(,),则4.5=0.95×2+a,∴a=2.6.
16.某小卖部为了了解热茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
杯数
24
34
38
64
由表中数据算得线性回归方程=bx+a中的b≈-2,预测当气温为-5℃时,热茶销售量为__70__杯.(已知回归系数=,=-b)
[解析] 根据表格中的数据可求得=×(18+13+10-1)=10,=×(24+34+38+64)=40.
∴=- =40-(-2)×10=60,∴=-2x+60,当x=-5时,=-2×(-5)+60=70.
三、解答题(本大题共6个小题,共70分,解答应写出文字说明、证明过程或演算步骤)
17.(本题满分10分)考察黄烟经过培养液处理与是否跟发生青花病的关系.调查了457株黄烟,得到下表中数据,请根据数据做统计分析.
培养液处理
未处理
合计
青花病
25
210
235
无青花病
80
142
222
合计
105
352
457
附:K2=
p(K2≥k)
0.05
0.01
0.005
0.001
k
3.841
6.635
7.879
10.83
[解析] 根据公式
K2=≈41.61,
由于41.61>10.828,
说明有99.9%的把握认为黄烟经过培养液处理与是否跟发生青花病是有关系的.
18.(本题满分12分)某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从该部门内随机抽选了10个企业为样本,有如下资料:
产量x(千件)
生产费用(千元)
40
150
42
140
48
160
55
170
65
150
79
162
88
185
100
165
120
190
140
185
(1)计算x与y的相关系数;
(2)对这两个变量之间是否线性相关进行检验;
(3)设回归方程为=x+,求回归系数.
[解析] (1)根据数据可得:
=77.7,=165.7,x=70 903,y=277 119,
xiyi=132 938,所以r==0.808,
即x与y之间的相关系数r≈0.808.
(2)因为r>0.75,所以可认为x与y之间具有线性相关关系.
(3)==0.398,=165.7-0.397×77.7=134.8.
19.(本题满分12分)(2019·江西抚州市高二检测)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
附:
P(K2≥k0)
0.100
0.050
0.010
k0
2.706
3.841
6.635
K2=
[解析] 将2×2列联表中的数据代入计算公式,得K2的观测值
k==≈4.762.
由于4.762>3.841,所以在犯错误的概率不超过0.05的前提下可以认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
20.(本题满分12分)某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.
[解析] 根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
所以ad-bc=982×17-8×493=12 750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.
相应的等高条形图如图所示.
图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
21.(本题满分12分)为了响应厦门市政府“低碳生活,绿色出行”的号召,思明区委文明办率先在全市发起“少开一天车,呵护厦门蓝”绿色出行活动.“从今天开始,从我车……”铿锵有力的话语,传递了绿色出行、低碳生活的理念.
某机构随机调查了本市部分成年市民某月骑车次数,统计如下:
次数人数年龄
[0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
18岁至31岁
8
12
20
60
140
150
32岁至44岁
12
28
20
140
60
150
45岁至59岁
25
50
80
100
225
450
60岁及以上
25
10
10
18
5
2
若规定:18岁至44岁为青年人,45岁至59岁为中年人,60岁及以上为老年人,用样本估计总体的思想,解决如下问题:
(1)估计本市一个18岁以上青年人每月骑车的平均次数;
(2)若月骑车次数不少于30次者称为“骑行爱好者”,根据这些数据,能否在犯错误的概率不超过0.001的前提下认为“骑行爱好者”与“青年人”有关?
[解析] (1)估计本市一个18岁以上青年人每月骑车的平均次数为(20×5+40×15+40×25+200×35+200×45+300×55)÷(20+40+40+200+200+300)=42.75.
(2)2×2列联表如下:
骑行爱好者
非骑行爱好者
总计
青年人
700
100
800
非青年人
800
200
1 000
总计
1 500
300
1 800
K2==18>7.879,
∴能在犯错误的概率不超过0.001的前提下认为“骑行爱好者”与“青年人”有关.
22.(本题满分12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得=i=9.97,s==≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=,≈0.09.
[解析] (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数
r=
≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为
(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
≈16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
课件58张PPT。第一章统计案例章末整合提升知 识 网 络知识整合二、独立性检验
1.判断两个分类变量之间是否有关系可以通过等高条形图作粗略判断.需要确知所作判断犯错误的概率情况下,可进行独立性检验,独立性检验可以得到较为可靠的结论.
2.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式计算K2的值.
(3)比较K2与临界值的大小关系做统计推断.专题突破对所抽取的样本的数据进行分析,分析两个变量之间的关系——线性关系或非线性关系,并由一个变量的变化去推测另一个变量的变化,这就是对样本进行回归分析.回归分析的过程就是建立回归模型的过程.具体步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画出散点图,观察它们是线性相关的,还是符合哪一种函数模型;③由经验确定回归方程的类型(如线性回归方程,反比例函数模型,指数函数模型,对数函数模型等);④用最小二乘法求回归方程的参数;⑤检查回归模型的拟合程度,如分析残差图,求相关指数R2等.专题一 ?回归分析 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:
(1)画出散点图,并初步判断是否线性相关;
(2)若线性相关,求回归直线方程;
(3)求出相关指数;
(4)作出残差图;
(5)进行残差分析.典例 1 [分析] 作残差分析时,一般从以下几个方面予以说明:(1)散点图;(2)相关指数;(3)残差图中的异常点和样本点的带状分布区域的宽窄.
[解析] (1)散点图,如图所示.
由图可知,x,y线性相关. 想象一下一个人从出生到死亡,在每个生日都测量身高,并作出这些数据散点图,这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析.下表是一位母亲给儿子作的成长记录.
(1)年龄(解释变量)和身高(预报变量)之间具有怎样的相关关系?
(2)如果年龄相差5岁,则身高有多大差异?(3~16岁之间)
(3)如果身高相差20 cm,其年龄相差多少?
(4)计算残差,说明该函数模型能够较好地反映年龄与身高的关系吗?请说明理由.典例 2 专题二 ?独立性检验 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系?
注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.典例 3 某高校共有15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生样本数据?典例 4 (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为:
[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率;(3)由(2)知,300名学生中有300×0.75=225人的每周平均体育运动时间超过4个小时.75人的每周平均体育运动时间不超过4个小时.
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:
平均体育运动时间与性别列联表数形结合思想是一种非常重要的思想方法,就是把“数”与“形”有机地结合起来,充分应用“形”的直观性、“数”的严密性与准确性,使抽象问题直观化、复杂问题简单化,从而使问题得到解决.在回归分析问题中,利用散点图可以判断所考察的两个变量之间是否具有线性相关性.专题三 ?数形结合思想 关于人体的脂肪含量y(%)和年龄x(岁)关系的研究中,得到如下一组数据:典例 5 [解析] (1)以年龄为x轴,脂肪含量为y轴,可得相应的散点图,如图所示.由散点图可知两者之间具有相关关系.在回归分析过程中,由于两个变量间的关系并非是线性关系,也可能是二次函数形、指数函数型、对数函数型等其中的一种,对于前者我们可以借助于线性回归模型y=bx+a+e来处理;对于后者在解答过程中,我们常利用变量间的转换,把非线性回归问题转化成线性回归问题,最终用线性回归方程进行研究.专题四 ?转化与化归思想 (2019·辽宁沈阳第二中学检测)在彩色显影中,析出银的光学密度x与形成染料的光学密度y的试验数据如下:典例 6 一、选择题
1.在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
[解析] 当R2越大时,残差平方和越小.B B C 4.根据下面给出的2009年至2018年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2013年减少二氧化硫排放量的效果最显著
B.2012年我国治理二氧化硫排放显现成效
C.2011年以来我国二氧化硫年排放量呈减少趋势
D.2011年以来我国二氧化硫年排放量与年份正相关D
[解析] 考查正、负相关及对柱形图的理解.
由柱形图得,从2011年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关,故选D.根据以上数据,该数学兴趣小组有多大把握认为“喜爱该食品与性别有关”( )
A.99%以上 B.97.5%以上
C.95%以上 D.85%以上C 10.759
(3)由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系.由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型.