(共50张PPT)
章末检测(八) 成对数据的统计分析
(时间:120分钟 满分:150分)
一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的
四个选项中,只有一项是符合题目要求的)
1. 某市对机动车单双号限行进行了调查,在参加调查的2 600名有车人中
有1 700名持反对意见,2 500名无车人中有1 400名持反对意见,在运用这
些数据说明“拥有车辆”与“反对机动车单双号限行”是否相关时,用下
列哪种方法最有说服力( )
A. 独立性检验 B. 期望
C. 残差 D. 频率分布直方图
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
√
解析: 独立性检验是检验两个不同分类的变量是否相关的方法,刚好
符合题意,而期望、残差、频率分布直方图都不是分析两个不同分类的变
量是否相关的方法,故采用独立性检验最有说服力.故选A.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2. 现有一组样本数据点(-1, ),(3,2),(5, ),(6,3),
则该组样本数据点的相关系数r=( )
A. -1 B. -
C. D. 1
解析: 根据题意可知:这些样本数据点均在直线y= x+1上,故|
r|=1,由直线的斜率为正,可知r>0,所以r=1.故选D.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
3. 某地根据以往数据,得到当地16岁男性的身高y cm与其父亲身高x cm的
经验回归方程为 = x+29,当地人小王16岁时身高167 cm,他父亲身高
180 cm,则小王身高的残差为( )
A. -2 cm B. -3 cm
C. 2 cm D. 3 cm
解析: 当x=180时,得 =140+29=169,167-169=-2(cm),所
以小王身高的残差为-2 cm.故选A.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
4. 为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽
取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说
法正确的是( )
A. 有99%的人认为该电视栏目优秀
B. 有99%的人认为该电视栏目是否优秀与改革有关系
C. 在犯错误的概率不超过1%的前提下,认为该电视栏目是否优秀与改革
有关系
D. 没有理由认为该电视栏目是否优秀与改革有关系
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析: 只有χ2≥6.635=x0.01时,才能在犯错误的概率不超过1%的
前提下,认为该电视栏目是否优秀与改革有关系,而即使χ2≥6.635也
只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性
大小的推论.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
5. 用模型y=aekx拟合一组数据(xi,yi)(i=1,2,3,…,7),其中
x1+x2+…+x7=14,设z=ln y,得变换后的经验回归方程为 =x+1,
则y1·y2·…·y7=( )
A. e35 B. e21
C. 35 D. 21
解析: 由题意得 = =2,故 = +1=3,即ln y1+ln y2
+…+ln y7=3×7=21,故ln(y1y2·…·y7)=21,解得y1·y2·…·y7=e21.故
选B.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
6. 研究表明,健康成年人的血清总胆固醇值y(单位:mmol/L)和年龄x
(单位:岁)之间满足经验回归方程 = x+ ,且年龄每增加一岁,血
清总胆固醇值增加0.08 mmol/L. 某单位组织职工体检,随机抽取了六名职
工的血清总胆固醇值如下:
年龄x/岁 25 32 35 41 51 56
血清总胆固醇 值y/(mmol/L) 3.01 3.21 3.58 4.68 5.03 5.33
若某个健康职工45岁,估计他的血清总胆固醇值为( )
A. 4.54 mmol/L B. 4.63 mmol/L
C. 4.76 mmol/L D. 5.06 mmol/L
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析: 由题知 =0.08,故 =0.08x+ ,又 =
=40, = =4.14,所以样本点的中心为
(40,4.14),将其坐标代入 =0.08x+ ,解得 =0.94,于是经验回
归方程为 =0.08x+0.94,估计该职工的血清总胆固醇值为0.08×45+
0.94=4.54(mmol/L),故选A.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
7. 某学校校医研究温差x(℃)与本校当天新增感冒人数y(人)的关
系,该医生记录了5天的数据,且样本中心点为(8,25).由于保管不
善,记录的5天数据中有两个数据看不清楚,现用m,n代替,已知
18≤m≤24,26≤n≤34,则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 在m,n确定的条件下,去掉样本点(8,25),则样本的相关系数r增
大
B. 在m,n确定的条件下,经过拟合,发现基本符合经验回归方程 =
2.6x+ ,则 =4
C. 在m,n确定的条件下,经过拟合,发现基本符合经验回归方程 =
2.6x+ ,则当x=12时,残差为0.4
D. 事件“m=20,n=28”发生的概率为
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析: 对于A,因为经验回归直线过数据的样本中心点(8,25),所
以在m,n确定的条件下去掉样本点(8,25),则样本相关系数r不变,
所以A错误;对于B,由样本中心点为(8,25),可得25=2.6×8+ ,
解得 =4.2,所以B错误;对于C,由B知 =2.6x+4.2,当x=12,可
得y=35.4,则35-35.4=-0.4,所以C错误;对于D,由m+n=48,
18≤m≤24,26≤n≤34,则(m,n)的取值为(18,30),(19,
29),(20,28),(21,27),(22,26),所以m=20,n=28的概
率为 ,所以D正确.故选D.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
8. 针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有
关联进行了一次调查,其中被调查的男生、女生人数均为5m
(m∈N*),男生中喜欢短视频的人数占男生人数的 ,女生中喜欢短视
频的人数占女生人数的 .零假设为H0:喜欢短视频和性别相互独立.若依
据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为
( )
附:χ2= ,
α 0.05 0.01
xα 3.841 6.635
A. 7 B. 8
√
C. 9 D. 10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析: 根据题意,2×2列联表中,a=4m,b=m,c=3m,d=
2m,于是χ2= = = ,由于依
据α=0.05的独立性检验认为喜欢短视频和性别不独立,根据表格可知
≥3.841,解得m≥8.066 1,于是m的最小值为9.故选C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
二、多项选择题(本大题共3小题,每小题6分,共18分.在每小题给出的
四个选项中,有多项符合题目要求,全部选对的得6分,部分选对的得部
分分,有选错的得0分)
9. 小明同学在做市场调查时得到如下样本数据:
x 1 3 6 10
y 8 a 4 2
他由此得到经验回归方程为 =-2.1x+15.5,则下列说法正确的是( )
A. 变量x与y线性负相关 B. 当x=2时可以估计y=11.3
C. a=6 D. 变量x与y之间是函数关系
√
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析: 由经验回归方程为 =-2.1x+15.5,可知变量x与y之间
线性负相关,故A正确;当x=2时, =-2.1×2+15.5=11.3,故B正
确;∵ =5, = ,∴样本点的中心坐标为(5, ),代入 =
-2.1x+15.5,得 =-2.1×5+15.5,解得a=6,故C正确;变量x
与y之间具有线性负相关关系,不是函数关系,故D错误.故选A、B、C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
10. 已知由样本数据点集合{(xi,yi)|i=1,2,…,n},求得的经验
回归方程为 =1.5x+0.5,且 =3,现发现两个数据点(1.2,2.2)和
(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,
则( )
A. 变量x与y具有正相关关系
B. 去除后y的估计值增长速度变快
C. 去除后l的方程为 =1.2x+1.4
D. 去除后的样本点(2,3.75)的残差为-0.05
√
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析: 将 =3,代入 =1.5x+0.5,得 =5,因为重新求得的回
归直线l的斜率为1.2,故变量x与y具有正相关关系,故A正确;因为1.5
>1.2,所以y的增长速度变慢,故B错误;设新的数据所有的横坐标的平
均值为 ,则(n-2) =n -(1.2+4.8)=3n-6=3(n-2),
故 =3,设纵坐标的平均值为 ,则(n-2) =n -(2.2+7.8)
=5n-10=5(n-2), =5,设新的经验回归方程为 =1.2x+ ,
把(3,5)代入得5=1.2×3+ , =1.4,故新的经验回归方程为 =
1.2x+1.4,故C正确;把x=2代入新的经验回归方程,得 =3.8,3.75
-3.8=-0.05,故D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
11. 某校计划在课外活动中新增攀岩项目,
为了解学生喜欢攀岩与性别是否有关联,
面向该校学生开展了一次随机调查,其中
参加调查的男、女生人数相同,并绘制等
高堆积条形图(如图),则( )
A. 参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B. 参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C. 若参与调查的男、女生人数均为100,则有99%的把握认为喜欢攀岩与
性别有关联
D. 无论参与调查的男、女生人数为多少,都有99%的把握认为喜欢攀岩与
性别有关联
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析: 对于A,参与调查的男、女生人数相同,男生中喜欢攀岩的占
80%,女生中喜欢攀岩的占30%,所以参与调查的学生中喜欢攀岩的男生
人数比喜欢攀岩的女生人数多,故选项A正确;对于B,参与调查的女生中
喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,所以不喜欢攀岩的人
数比喜欢攀岩的人数多,故选项B不正确;对于C,若参与调查的男、女生
人数都为100,则可得2×2列联表为
性别 是否喜欢攀岩 合计
喜欢攀岩 不喜欢攀岩
男 80 20 100
女 30 70 100
合计 110 90 200
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
所以χ2= ≈50.505>6.635,所以有99%的把握认为喜
欢攀岩与性别有关联,故选项C正确;对于D,如果不确定参与调查的男、
女生人数,无法计算是否有99%的把握认为喜欢攀岩与性别有关联,故选
项D不正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
三、填空题(本大题共3小题,每小题5分,共15分.把答案填在题中横
线上)
12. 某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些
中年人的情况,经计算得χ2= ≈15.968,因为χ2>
10.828,则断定中年人秃发与心脏病有关系.那么这种判断出错的可能性
最大为 .
解析:因为χ2>10.828=x0.001,所以认为中年人秃发与患心脏病有关,且
这种判断出错的可能性不大于0.001.
0.001
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
13. 中国是茶的故乡,也是茶文化的发源地.茶的发现和利用已有四千七百
多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出
特色茶食品“金萱排骨茶”,为了解每壶“金萱排骨茶”中所放茶叶量x
(单位:克)与食客的满意率y的关系,通过调查研究发现选择函数模型y
= ekx+c来拟合y与x的关系,根据以下数据:
茶叶量x/克 1 2 3 4 5
z=ln(100y) 4.34 4.36 4.44 4.45 4.51
可求得y关于x的回归方程为 .
= e0.043x+4.291
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验
回归直线v= + u的斜率和截距的最小二乘估计分别为 =
, = - )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析:对等式100y=ekx+c两边同时取对数,可得:z=ln(100y)=kx+
c,易知 = =3, = =4.42,则 (xi
- )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=
10, (xi- )(zi- )=(1-3)×(4.34-4.42)+(2-3)×
(4.36-4.42)+(3-3)×(4.44-4.42)+(4-3)×(4.45-
4.42)+(5-3)×(4.51-4.42)=0.43, = =
=0.043, = -k =4.42-0.043×3=4.291,综上, =0.043x+
4.291,又 =ln(100 )= x+ ,可得 = e0.043x+4.291.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
14. 高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成
绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班学生.从这
次考试成绩看:
①在甲、乙两人中,语文成绩名次比总成绩名次靠前的学生是 ;
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是
.
乙
数
学
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析:①在甲、乙两人中,语文成绩名次比总名次靠前的是乙.②观察散
点图,发现丙的总成绩在年级中的名次是倒数第5名,数学的名次是倒数
第11名,显然丙的语文成绩名次拉低了丙的总成绩排名,故丙同学的成绩
名次更靠前的科目是数学.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
四、解答题(本大题共5小题,共77分.解答时应写出必要的文字说明、证
明过程或演算步骤)
15. (本小题满分13分)某企业通过调查问卷的形式对本企业900名员工的
工作满意程度进行调查,并随机抽取了其中30名员工(16名女工,14名男
工)的得分,如下表:
女 47 36 32 48 34 44 43 47
男 37 35 34 43 46 36 38 40
女 46 41 43 42 50 43 35 49
男 39 32 48 33 40 34
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(1)根据以上数据,估计该企业得分大于45分的员工人数;
解: 从表中可知,30名员工中有8名得分大于45分,所以任选一名员
工,他(她)的得分大于45分的概率是 = ,所以估计此次调查中,该
企业约有900× =240名员工的得分大于45分.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均
得分为 “满意”,否则为 “不满意”,请完成下列表格:
性别 工作是否满意 合计
“满意”的人数 “不满意”的人数
女员工 16
男员工 14
合计 30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解: 依题意,完成2×2列联表如下:
性别 工作是否满意 合计
“满意”的人数 “不满意”的人数
女员工 12 4 16
男员工 3 11 14
合计 15 15 30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(3)根据上述表中数据,依据小概率值α=0.01的独立性检验,能否认
为该企业员工性别与工作是否满意有关?
解: 零假设为H0:性别与工作是否满意无关,根据表中数据,求得
χ2= ≈8.571>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,
即认为性别与工作是否满意有关,此推断犯错误的概率不大于0.01.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
16. (本小题满分15分)两个具有相关关系的变量x,y的一组统计数据为
(x1,y1),(x2,y2),…,(xn,yn).其样本中心点为(25,
36.8),且由统计数据知 (xi- )2=138, (yi- )2=310.5,
样本相关系数r≈0.96.
(1)求 -n ;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解: (xi- )2=(x1- )2+(x2- )2+…+(xn- )2
= + +…+ -2 (x1+x2+…+xn)+n
= -2n +n = -n ,
由已知可得 -n =138.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)根据样本相关系数r以及下面所附公式,建立y关于x的经验回归
方程.
解: 由已知得 =25, =36.8,
∵ = = =1.5,
∴ ≈0.96×1.5=1.44,
= - =36.8-1.44×25=0.8,
∴y关于x的经验回归方程为 =1.44x+0.8.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
17. (本小题满分15分)为了研究昼夜温差与引发感冒的关系,医务人员
对某高中在同一时间段相同温差下的学生感冒情况进行抽样调研,所得数
据统计如表①所示,并将男生感冒的人数与温差情况统计如表②所示.
表①
性别 患感冒的情况 合计
患感冒人数 不患感冒人数
男生 30 70 100
女生 42 58 p
合计 m n 200
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
表②
温差x 6 7 8 9 10
患感冒人数y 8 10 14 20 23
(1)求出m,n,p的值;
解: 根据题表①中的数据可以得出m=72,n=128,p=100.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)依据小概率值α=0.05的独立性检验判断是否可以认为在相同的温
差下“性别”与“患感冒的情况”具有相关性;
解: 零假设为H0:“性别”与“患感冒的情况”无关.
根据列联表中的数据,经计算得到χ2= =3.125<
3.841=x0.05,
所以根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即认为在相同的温差下“性别”与“患感冒的情
况”无关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(3)根据表②数据,计算y与x的样本相关系数r,并说明y与x的线性相
关性强弱(若0.75<|r|≤1,则认为y与x线性相关性很强;0.3<|
r|≤0.75,则认为y与x线性相关性一般;|r|≤0.3,则认为y与x线
性相关性较弱).
参考数据: (xi- )2=10, (yi- )2=164, ≈20.248 5.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解: 由题意知, = =8, = =15,所以
(xi- )(yi- )=40,
则r= = ≈ ≈0.987 7>0.75,
所以y与x的线性相关性很强.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
18. (本小题满分17分)注重劳动教育是中国特色社会主义教育制度的重
要内容,直接决定社会主义建设者和接班人的劳动精神面貌、劳动价值取
向和劳动技能水平.某市开辟特色劳动教育基地,指导学生种植豆角,某
同学针对豆角亩产量的增加量y(百千克)与某种液体肥料每亩使用量x
(千克)之间的关系进行研究,得出了y与x具有线性相关关系的结论.现
从劳动基地的豆角试验田中随机抽取5亩,其亩产增加量与该肥料每亩使
用量关系如下表:
某种液体肥料每亩使用量x/千克 2 3 4 5 6
豆角亩产量的增加量y/百千克 4 5 5 7 9
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(1)求豆角亩产量的增加量y对该液体肥料每亩使用量x的经验回归方程
= x+ ,预测该液体肥料每亩使用量为12千克时,豆角亩产量的增加
量为多少百千克?
解: 由题可得 = =4, = =6.
xiyi=2×4+3×5+4×5+5×7+6×9=132,
=22+32+42+52+62=90.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
则 = = = , =6- ×4= .
则所求经验回归方程为 = x+ .
当液体肥料每亩使用量为12千克时,
豆角亩产量的增加量为 = ×12+ = =15.6(百千克).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)若豆角亩产量的增加量不低于6百千克的试验田称为“优质试验
田”,现从抽取的5亩试验田随机选出3亩,记其中优质试验田的数量为
X,求X的分布列和数学期望.
解: 由题可知“优质试验田”有两亩,则X的所有可能取值为0,
1,2,
则P(X=0)= = ,P(X=1)= = ,P(X=2)= =
.
所以X的分布列为
X 0 1 2
P
则期望为E(X)=0× +1× +2× = .
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
19. (本小题满分17分)某电视厂家准备在“五一”期间举行促销活动,
现在根据已有的广告费与销售量的数据确定此次广告费支出.广告费支出x
(单位:万元)和销售量y(单位:万台)的数据如下:
年份 2018 2019 2020 2021 2022 2023 2024
广告费支出
x 1 2 4 6 11 13 19
销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(1)若用线性回归模型拟合y与x的关系,求出y关于x的经验回归方程;
解: 由题意得 =8, =4.2, xiyi=279.4, =708,
所以 = = =0.17, = - =4.2-0.17×8=
2.84,
所以y关于x的经验回归方程为 =0.17x+2.84.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)若用模型y=c+d 拟合y与x的关系,可得经验回归方程为 =
1.63+0.99 ,经计算,线性回归模型和该模型的R2分别约为0.75和
0.88,请用R2说明选择哪个回归模型更好;
解: 因为R2越接近于1,模型的拟合效果越好,所以选用 =1.63+
0.99 回归模型更好.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解: 当广告费x=20时,销售量y的预测值 =1.63+0.99
≈6.057 28≈6.06(万台),
故利润z的预测值 =200×(1.63+0.99 )-20≈1 191.456≈1 191.46
(万元).
(3)已知利润z(单位:万元)与x,y的关系为z=200y-x.根据(2)
的结果回答:当广告费x=20时,销售量及利润的预测值是多少?(精确
到0.01)
参考数据: xiyi=279.4, =708, ≈2.236.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
THANKS
演示完毕 感谢观看