第三章统计案例学案+滚动训练+章末检测+模块检测

文档属性

名称 第三章统计案例学案+滚动训练+章末检测+模块检测
格式 zip
文件大小 3.1MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-05-21 22:47:57

文档简介

模块综合试卷
(时间:120分钟,满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分)
1.(2016·四川)设i为虚数单位,则(x+i)6的展开式中含x4的项为(  )
A.-15x4 B.15x4
C.-20ix4 D.20ix4
考点 二项展开式中的特定项问题
题点 求二项展开式的特定项
答案 A
解析 由题意可知,含x4的项为Cx4i2=-15x4.
2.已知集合A={5},B={1,2},C={1,3,4},若从这三个集合中各取一个元素构成空间直角坐标系中点的坐标,则确定的不同点的个数为(  )
A.36 B.35 C.34 D.33
考点 分步乘法计数原理
题点 分步乘法计数原理的应用
答案 D
解析 不考虑限定条件确定的不同点的个数为CCA=36,
但集合B,C中有相同元素1,由5,1,1三个数确定的不同点的个数只有三个,故所求的个数为36-3=33.
3.抛掷一枚质地均匀的硬币两次,在第一次正面向上的条件下,第二次反面向上的概率为(  )
A. B. C. D.
考点 条件概率的定义及计算公式
题点 直接利用公式求条件概率
答案 C
解析 记事件A表示“第一次正面向上”,事件B表示“第二次反面向上”,则P(AB)=,P(A)=,∴P(B|A)==.
4.已知随机变量ξ服从正态分布N(1,σ2),且P(ξ<2)=0.6,则P(0<ξ<1)等于(  )
A.0.4 B.0.3 C.0.2 D.0.1
考点 正态分布的概念及性质
题点 求正态分布的均值或方差
答案 D
解析 由已知可得曲线关于直线x=1对称,P(ξ<2)=0.6,所以P(ξ>2)=P(ξ<0)=0.4,故P(0<ξ<1)=P(0<ξ<2)=(1-0.4-0.4)=0.1.
5.给出以下四个说法:
①绘制频率分布直方图时,各小长方形的面积等于相应各组的组距;
②在刻画回归模型的拟合效果时,R2的值越大,说明拟合的效果越好;
③设随机变量ξ服从正态分布N(4,22),则P(ξ>4)=;
④对分类变量X与Y,若它们的随机变量K2的观测值k越小,则判断“X与Y有关系”的犯错误的概率越小.
其中正确的说法是(  )
A.①④ B.②③ C.①③ D.②④
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
答案 B
解析 ①中各小长方形的面积等于相应各组的频率;②正确,相关指数R2越大,拟合效果越好,R2越小,拟合效果越差;③随机变量ξ服从正态分布N(4,22),正态曲线对称轴为x=4,所以P(ξ>4)=;④对分类变量X与Y,若它们的随机变量K2的观测值k越小,则说明“X与Y有关系”的犯错误的概率越大.
6.设某地区历史上从某次特大洪水发生以后,在30年内发生特大洪水的概率是0.8,在40年内发生特大洪水的概率是0.85.在过去的30年内该地区都未发生特大洪水,则在未来10年内该地区发生特大洪水的概率是(  )
A.0.25 B.0.3 C.0.35 D.0.4
考点 互斥、对立、独立重复试验的概率问题
题点 互斥事件、对立事件、独立事件的概率问题
答案 A
解析 设在未来10年内该地区发生特大洪水的概率是P,根据条件可得,0.8×1+(1-0.8)×P=0.85,解得P=0.25.
7.某机构对儿童记忆能力x和识图能力y进行统计分析,得到如下数据:
记忆能力x
4
6
8
10
识图能力y
3
5
6
8
由表中数据,求得线性回归方程为=0.8x+,若某儿童记忆能力为12,则预测他的识图能力约为(  )
A.9.5 B.9.8 C.9.2 D.10
考点 线性回归分析
题点 线性回归方程的应用
答案 A
解析 ∵=×(4+6+8+10)=7,=×(3+5+6+8)=5.5,∴样本点的中心为(7,5.5),
代入回归方程得5.5=0.8×7+,∴=-0.1,
∴=0.8x-0.1,
当x=12时,=0.8×12-0.1=9.5,故选A.
8.甲、乙、丙3位志愿者安排在周一至周五5天中参加某项志愿者活动,要求每人参加一天且每天至多安排一人,并要求甲安排在另外两位前面,则不同的安排方法共有(  )
A.40种 B.30种 C.20种 D.60种
考点 排列的应用
题点 排列的简单应用
答案 C
解析 分类解决.甲排周一,乙,丙只能是周二至周五4天中选两天进行安排,有A=12(种)方法;甲排周二,乙,丙只能是周三至周五选两天安排,有A=6(种)方法;甲排周三,乙丙只能安排在周四和周五,有A=2(种)方法.由分类加法计数原理可知,共有12+6+2=20(种)方法.
9.如图所示,A,B,C表示3种开关,若在某段时间内它们正常工作的概率分别为0.9,0.8,0.7,那么此系统的可靠性为(  )
A.0.504 B.0.994
C.0.496 D.0.06
考点 互斥、对立、独立重复试验的概率问题
题点 互斥事件、对立事件、独立事件的概率问题
答案 B
解析 1-P(  )=1-P()·P()·P()
=1-0.1×0.2×0.3=1-0.006=0.994.
10.已知5的展开式中含的项的系数为30,则a等于(  )
A. B.- C.6 D.-6
考点 二项展开式中的特定项问题
题点 由特定项或特定项的系数求参数
答案 D
解析 5的展开式通项Tk+1=C·(-1)kak·=(-1)kakC,
令-k=,则k=1,
∴T2=-aC,∴-aC=30,∴a=-6,故选D.
11.假设每一架飞机的引擎在飞行中出现故障的概率为1-p,且各引擎是否有故障是独立的,已知4引擎飞机中至少有3个引擎正常运行,飞机就可成功飞行;2引擎飞机要2个引擎全部正常运行,飞机才可以成功飞行.要使4引擎飞机更安全,则p的取值范围是(  )
A. B.
C. D.
考点 独立重复试验的计算
题点 用独立重复试验的概率公式求概率
答案 B
解析 4引擎飞机成功飞行的概率为Cp3(1-p)+p4,2引擎飞机成功飞行的概率为p2,要使Cp3(1-p)+p4>p2,必有<p<1.
12.若在二项式n的展开式中前三项的系数成等差数列,则把展开式中所有的项重新排成一列,有理项都互不相邻的概率为(  )
A. B. C. D.
考点 排列与组合的应用
题点 排列、组合在古典概型中的应用
答案 D
解析 注意到二项式n的展开式的通项是Tk+1=C·()n-k·k=C·2-k·.依题意有C+C·2-2=2C·2-1=n,即n2-9n+8=0,(n-1)(n-8)=0(n≥2),解得n=8.∴二项式8的展开式的通项是Tk+1=C·2-k·,展开式中的有理项共有3项,所求的概率为=.
二、填空题(本大题共4小题,每小题5分,共20分)
13.任意选择四个日期,设X表示取到的四个日期中星期天的个数,则E(X)=________,D(X)=________.
考点 二项分布、两点分布的均值
题点 二项分布的均值
答案  
解析 由题意得,X~B,所以E(X)=,D(X)=.
14.围棋盒子中有多粒黑子和白子,已知从中取出2粒都是黑子的概率为,都是白子的概率是.则从中任意取出2粒恰好是同一色的概率是________.
考点 排列与组合的应用
题点 排列、组合在古典概型中的应用
答案 
解析 设“从中取出2粒都是黑子”为事件A,“从中取出2粒都是白子”为事件B,“任意取出2粒恰好是同一色”为事件C,则C=A∪B,且事件A与B互斥.所以P(C)=P(A)+P(B)=+=.即任意取出2粒恰好是同一色的概率为.
15.某数学老师身高为176 cm,他爷爷、父亲和儿子的身高分别是173 cm,170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.
考点 线性回归分析
题点 线性回归方程的应用
答案 183.5
解析 记从爷爷起向下各代依次为1,2,3,4,5用变量x表示,其中5代表孙子.各代人的身高为变量y,则有
x
1
2
3
4
y
173
170
176
182
计算知=2.5,=175.25.由回归系数公式得=3.3,
=-=175.25-3.3×2.5=167,∴线性回归方程为=3.3x+167,当x=5时,y=3.3×5+167=183.5,故预测其孙子的身高为183.5 cm.
16.某城市新修建的一条道路上有12盏路灯,为了节省用电而又不能影响正常的照明,可以熄灭其中的3盏灯,但两端的灯不能熄灭,也不能熄灭相邻的两盏灯,则熄灯的方法有________种.(填数字)
考点 组合的应用
题点 有限制条件的组合问题
答案 56
解析 分析题意可知,最终剩余的亮着的灯共有9盏,且两端的必须亮着,所以可用插空的方法,共有8个空可选,所以应为C=56(种).
三、简答题(本大题共6小题,共70分)
17.(10分)已知(a2+1)n展开式中的各项系数之和等于5的展开式的常数项,而(a2+1)n的展开式的系数最大的项等于54,求a的值.
考点 二项式定理的应用
题点 二项式定理的简单应用
解 5的展开式的通项为Tk+1=C5-kk=5-kC,
令20-5k=0,得k=4,
故常数项T5=C×=16.
又(a2+1)n展开式的各项系数之和等于2n,
由题意知2n=16,得n=4,
由二项式系数的性质知,(a2+1)n展开式中系数最大的项是中间项T3,
故有Ca4=54,解得a=±.
18.(12分)从7名男生和5名女生中选出5人,分别求符合下列条件的选法数.
(1)A,B必须被选出;
(2)至少有2名女生被选出;
(3)让选出的5人分别担任体育委员、文娱委员等5种不同职务,但体育委员由男生担任,文娱委员由女生担任.
考点 排列与组合的应用
题点 排列组合的综合应用
解 (1)除选出A,B外,从其他10个人中再选3人,选法数为C=120.
(2)按女生的选取情况分类:选2名女生、3名男生,选3名女生、2名男生,选4名女生、1名男生,选5名女生.所有选法数为CC+CC+CC+C=596.
(3)选出1名男生担任体育委员,再选出1名女生担任文娱委员,从剩下的10人中任选3人担任其他3种职务.根据分步乘法计数原理,所有选法数为C·C·A=25 200.
19.(12分)近年来,随着以煤炭为主的能源消耗大幅攀升、机动车持有量急剧增加,某市空气中的PM2.5(直径小于等于2.5微米的颗粒物)的含量呈逐年上升的趋势,如图是根据该市环保部门提供的2011年至2015年该市PM2.5年均浓度值画成的散点图.(为便于计算,把2011年编号为1,2012年编号为2,…,2015年编号为5)
(1)以PM2.5年均浓度值为因变量,年份的编号为自变量,利用散点图提供的数据,用最小二乘法求出该市PM2.5年均浓度值与年份编号之间的线性回归方程=x+;
(2)按世界卫生组织(WHO)过渡期-1的标准,空气中的PM2.5的年均浓度限值为35微克/立方米,该市若不采取措施,试预测到哪一年该市空气中PM2.5的年均浓度值将超过世界卫生组织(WHO)过渡期-1设定的限制.
参考公式:=,=-.
考点 线性回归分析
题点 线性回归方程的应用
解 (1)由散点图可得,变量xi,yi组成的几组数据为(1,13),(2,15),(3,20),(4,22),(5,25),
则=3,=19,
所以==3.1.
=-=19-3.1×3=9.7.
所以所求线性回归方程为=3.1x+9.7.
(2)由3.1x+9.7>35,得x>8.16,
因为x∈N,所以x=9.
故可预测到2019年该市空气中PM2.5的年均浓度值将超过世界卫生组织(WHO)过渡期-1设定的限值.
20.(12分)将一个半径适当的小球放入如图所示的容器最上方的入口处,小球将自由下落.小球在下落过程中,将3次遇到黑色障碍物,最后落入A袋或B袋中.已知小球每次遇到黑色障碍物时向左、右两边下落的概率都是.
(1)求小球落入A袋中的概率P(A);
(2)在容器入口处依次放入4个小球,记ξ为落入A袋中小球的个数,试求ξ=3的概率与ξ的均值E(ξ).
考点 常见的几种均值
题点 二项分布的均值
解 (1)方法一 记小球落入B袋中的概率为P(B),则P(A)+P(B) =1.
由于小球每次遇到黑色障碍物时一直向左或者一直向右下落,小球将落入B袋,
∴P(B)=3+3=,
∴P(A)=1-=.
方法二 由于小球每次遇到黑色障碍物时,有一次向左和两次向右或两次向左和一次向右下落时小球将落入A袋,∴P(A)=C3+C3=.
(2)由题意,ξ~B,
∴P(ξ=3)=C31=,
∴E(ξ)=4×=3.
21.(12分)“中国式过马路”存在很大的交通安全隐患.某调查机构为了解路人对“中国式过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
男性
女性
总计
反感
10
不反感
8
总计
30
已知在这30人中随机抽取1人抽到反感“中国式过马路”的路人的概率是.
(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),并据此资料分析反感“中国式过马路”与性别是否有关?
(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“中国式过马路”的人数为X,求X的分布列和均值.
附:K2=.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
解 (1)
男性
女性
总计
反感
10
6
16
不反感
6
8
14
总计
16
14
30
由已知数据得K2的观测值k=≈1.158<2.706.
所以,没有充足的理由认为反感“中国式过马路”与性别有关.
(2)X的可能取值为0,1,2,
P(X=0)==,
P(X=1)==,
P(X=2)==.
所以X的分布列为
X
0
1
2
P



X的均值为E(X)=0×+1×+2×=.
22.(12分)设袋子中装有a个红球、b个黄球、c个蓝球,且规定:取出1个红球得1分,取出1个黄球得2分,取出1个蓝球得3分.
(1)当a=3,b=2,c=1时,从该袋子中依次任取(有放回,且每个球取到的机会均等)2个球,记随机变量ξ为取出此2球所得分数之和,求ξ的分布列;
(2)从该袋子中任取(每球取到的机会均等)1个球,记随机变量η为取出此球所得分数.若E(η)=,D(η)=,求a∶b∶c.
考点 均值与方差的应用
题点 均值与方差的综合应用
解 (1)根据题意,得ξ的所有可能取值为2,3,4,5,6.
故P(ξ=2)==,P(ξ=3)==,
P(ξ=4)==,
P(ξ=5)==,
P(ξ=6)==.
所以ξ的分布列为
ξ
2
3
4
5
6
P





(2)根据题意,知η的分布列为
η
1
2
3
P



所以E(η)=++=,
D(η)=2·+2·+2·=,
化简
解得a=3c,b=2c,故a∶b∶c=3∶2∶1.
章末检测试卷(三)
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分)
1.对有线性相关关系的两个变量建立的线性回归方程=+x中,回归系数 (  )
A.可以小于0 B.大于0
C.能等于0 D.只能小于0
考点 线性回归分析
题点 回归直线的概念
答案 A
解析 ∵=0时,则r=0,这时不具有线性相关关系,但可以大于0也可以小于0.
2.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为=7.19x+73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是(  )
A.身高一定为145.83 cm
B.身高大于145.83 cm
C.身高小于145.83 cm
D.身高在145.83 cm左右
考点 线性回归分析
题点 线性回归方程的应用
答案 D
解析 用线性回归方程预测的不是精确值,而是估计值.当x=10时,y=145.83,只能说身高在145.83左右.
3.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是(  )
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
A.线性函数模型 B.二次函数模型
C.指数函数模型 D.对数函数模型
考点 回归分析
题点 建立回归模型的基本步骤
答案 A
解析 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.
4.如图是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出(  )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例约为80%
C.男生比女生喜欢理科的可能性大些
D.男生中不喜欢理科的比例约为60%
考点 定性分析的两类方法
题点 利用图形定性分析
答案 C
解析 由图可知,女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.
5.为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是(  )
A.有99%的人认为该电视栏目优秀
B.有99%的人认为该电视栏目是否优秀与改革有关系
C.有99%的把握认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 只有K2≥6.635时才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的推论,与是否有99%的人等无关.
6.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是(  )
A.相关系数r变大
B.残差平方和变大
C.R2变大
D.解释变量x与预报变量y的相关性变强
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 B
解析 由散点图知,去掉D后,x,y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
7.某车间加工零件的数量x与加工时间y的统计数据如下表:
零件数x(个)
10
20
30
加工时间y(分钟)
21
30
39
现已求得上表数据的回归方程=x+中的值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为(  )
A.84分钟 B.94分钟
C.102分钟 D.112分钟
考点 线性回归分析
题点 线性回归方程的应用
答案 C
解析 由已知可得=20,=30,
又=0.9,∴=-=30-0.9×20=12.
∴回归方程为=0.9x+12.
∴当x=100时,=0.9×100+12=102.
故选C.
8.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是(  )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
考点 线性回归分析
题点 线性回归方程的应用
答案 C
解析 因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=ay+b(a>0),所以z=-0.1ax+a+b,-0.1a<0,所以x与z负相关.故选C.
9.根据一组样本数据(x1,y1),(x2,y2),…,(xn,yn)的散点图分析存在线性相关关系,求得其线性回归方程=0.85x-85.7,则在样本点(165,57)处的残差为(  )
A.54.55 B.2.45
C.3.45 D.111.55
考点 残差分析与相关指数
题点 残差及相关指数的运算
答案 B
解析 把x=165代入=0.85x-85.7,得y=0.85×165-85.7=54.55,由57-54.55=2.45,故选B.
10.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的回归直线(如图所示),以下结论中正确的是(  )
A.x和y的相关系数为直线l的斜率
B.x和y的相关系数在0到1之间
C.当n为偶数时,分布在l两侧的样本点的个数一定相同
D.直线l过点(,)
考点 线性回归分析
题点 线性回归方程的应用
答案 D
解析 两个变量的相关系数不是直线的斜率,有专门的计算公式,所以A错误;两个变量的相关系数在-1到0之间,所以B错误;C中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误;根据线性回归方程一定经过样本点中心可知D正确.
11.某大学体育部为了解新生的身高与地域是否有关,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
不低于170 cm
低于170 cm
合计
北方学生
60
20
80
南方学生
10
10
20
合计
70
30
100
则下列说法正确的是(  )
A.有95%的把握认为“学生的身高是否超过170 cm与地域有关”
B.没有90%的把握认为“学生的身高是否超过170 cm与地域有关”
C.有97.5%的把握认为“学生的身高是否超过170 cm与地域有关”
D.没有95%的把握认为“学生的身高是否超过170 cm与地域有关”
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
k0
1.323
2.072
2.706
3.841
5.024
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 A
解析 将2×2列联表中的数据代入公式计算,得
K2==≈4.762,
由于4.762>3.841,所以有95%的把握认为“学生的身高是否超过170 cm与地域有关”.故选A.
12.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )
表1
  成绩
性别  
不及格
及格
总计

6
14
20

10
22
32
总计
16
36
52
表2
  视力
性别  


总计

4
16
20

12
20
32
总计
16
36
52
表3
  智商
性别  
偏高
正常
总计

8
12
20

8
24
32
总计
16
36
52
表4
  阅读量
性别  
丰富
不丰富
总计

14
6
20

2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 结合各列联表中数据,得K2的观测值分别为k1,k2,k3,k4.
因为k1==,
k2==,
k3==,
k4==,
则k4>k2>k3>k1,所以阅读量与性别有关联的可能性最大.
二、填空题(本大题共4小题,每小题5分,共20分)
13.某小卖部为了了解热茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温度数,并制作了对照表:
气温(℃)
18
13
10
-1
杯数(杯)
24
34
38
64
由表中数据算得线性回归方程=x+中的≈-2,预测当气温为-5 ℃时,热茶销售量大约为________杯.
考点 线性回归分析
题点 线性回归方程的应用
答案 70
解析 根据表格中的数据可求得=×(18+13+10-1)=10,=×(24+34+38+64)=40,
∴=-=40-(-2)×10=60,
∴线性回归方程为=-2x+60,
当x=-5时,=-2×(-5)+60=70.
14.在评价建立的线性回归模型刻画身高和体重之间关系的效果时,R2=________,可以叙述为“身高解释了64%的体重变化,而随机变量贡献了剩余的36%”.
考点 残差分析与相关指数
题点 残差及相关指数的概念
答案 0.64
解析 当R2=0.64时,说明体重的差异有64%是由身高引起的,所以身高解释了64%的体重变化,而随机变量贡献了剩余的36%.
15.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①在犯错误的概率不超过5%的前提下认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④这种血清预防感冒的有效率为5%.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 ①
解析 查对临界值表知P(K2≥3.841)≈0.05,故有95%的把握认为“这种血清能起到预防感冒的作用”.95%仅是指“血清与预防感冒有关”的可信程度,但也有“在100个使用血清的人中一个患感冒的人也没有”的可能.故答案为①.
16.已知x,y之间的一组数据如下表:
x
2
3
4
5
6
y
3
4
6
8
9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=x-;④y=x.其中拟和效果最好的是________.
考点 两个模型拟合效果的比较
题点 两个模型拟合效果的比较
答案 ④
解析 根据最小二乘法得变量x与y间的线性回归直线必过点(,),
则==4,
==6,
拟合直线①②不过点(4,6).
对于③,y=x-,当x=4时,y=6,
当x=6 时,y=9.2,
对于④,y=x,当x=4时,y=6,当x=6时,y=9.
综上可知,拟合效果最好的直线是④.
三、解答题(本大题共6小题,共70分)
17.(10分)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:
表1:男生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
5
25
30
25
15
表2:女生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
10
20
40
20
10
(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;
(2)完成下面的2×2列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.
上网时间少于60分钟
上网时间不少于60分钟
总计
男生
女生
总计
附:K2=,其中n=a+b+c+d为样本容量.
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)设上网时间不少于60分钟的人数为x,
依题意有=,解得x=225,
所以估计其中上网时间不少于60分钟的人数是225.
(2)填2×2列联表如下:
上网时间少于60分钟
上网时间不少于60分钟
总计
男生
60
40
100
女生
70
30
100
总计
130
70
200
由表中数据可得到K2=≈2.20<2.706,
故没有90%的把握认为“大学生上网时间与性别有关”.
18.(12分)某地随着经济的发展居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2011
2012
2013
2014
2015
储蓄存款y (千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 010,z=y-5得到下表2:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的线性回归方程;
(3)用所求线性回归方程预测到2020年年底,该地储蓄存款可达多少?
(附:对于线性回归方程=x+,其中=,=-)
考点 线性回归方程
题点 求线性回归方程
解 (1)=3,=2.2,izi=45,=55,
==1.2,=- =2.2-1.2×3=-1.4,
∴=1.2t-1.4.
(2)将t=x-2 010,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2 010)-1.4,即=1.2x-2 408.4.
(3)∵=1.2×2 020-2 408.4=15.6,
∴预测到2020年年底,该地储蓄存款额可达15.6千亿元.
19.(12分)某校团对“学生性别与是否喜欢韩剧有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的,若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有多少人?
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
解 设男生人数为x,依题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
总计
男生


x
女生



总计

x

若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则K2>3.841,
由K2==x>3.841,
解得x>10.24,
∵,为整数,∴若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有12人.
20.(12分)为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x
1
2
3
4
5
y
7.0
6.5
5.5
3.8
2.2
(1)求y关于x的线性回归方程=x+;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:==,
=-.
考点 线性回归分析
题点 线性回归方程的应用
解 (1)由题知=3,=5,iyi=62.7,=55,
===-1.23,
=-=5-(-1.23)×3=8.69,
所以y关于x的线性回归方程为=-1.23x+8.69.
(2)年利润z=x(-1.23x+8.69)-2x=-1.23x2+6.69x
=-1.232+1.23×2,
即当x=≈2.72时,年利润z最大.
21.(12分)为研究某种图书每册的成本费y(元)与印刷数x(千册)的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.



(xi-)2
(xi-)
·(yi-)
(ui-)2
(ui-)
·(yi-)
15.25
3.63
0.269
2085.5
-230.3
0.787
7.049
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个更适宜作为每册成本费y(元)与印刷数x(千册)的回归方程类型?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据建立y关于x的回归方程;(回归系数的结果精确到0.01)
(3)若每册书定价为10元,则至少应该印刷多少千册才能使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)
(附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn)),其回归直线=+ω的斜率和截距的最小二乘估计分别为=,=- .
考点 非线性回归分析
题点 非线性回归分析
解 (1)由散点图判断,y=c+适宜作为每册成本费y与印刷册数x的回归方程.
(2)令u=,先建立y关于u的线性回归方程,
由于==≈8.96.
∴=-·=3.63-8.96×0.269≈1.22,
∴y关于u的线性回归方程为=1.22+8.96u,
从而y关于x的回归方程为=1.22+,
(3)假设印刷x千册,由题意,得10x-·x≥78.840.
即8.78x≥87.8,∴x≥10,∴至少印刷10千册.
22.(12分)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.并根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
总计


10
55
总计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列、均值E(X)和方差D(X).
附:K2=
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
非体育迷
体育迷
总计

30
15
45

45
10
55
总计
75
25
100
将2×2列联表中的数据代入公式计算,得
K2的观测值k===≈3.030.
因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意知X~B,从而X的分布列为
X
0
1
2
3
P




E(X)=np=3×=,
D(X)=np(1-p)=3××=.

§3.1 回归分析的基本思想及其初步应用
学习目标 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.
知识点一 线性回归模型
思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?
答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.
设所求的线性回归方程为=x+,
则===0.5,
=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为=0.5x+0.4.
梳理 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关系.
(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为==,=- ,其中(,)称为样本点的中心.
(4)线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
知识点二 线性回归分析
具有相关关系的两个变量的线性回归方程为=x+.
思考1 预报变量与真实值y一样吗?
答案 不一定.
思考2 预报值与真实值y之间误差大了好还是小了好?
答案 越小越好.
梳理 (1)残差平方和法
①i=yi-i=yi-xi- (i=1,2,…,n)称为相应于点(xi,yi)的残差.
②残差平方和(yi-i)2越小,模型的拟合效果越好.
(2)残差图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
(3)利用相关指数R2刻画回归效果
其计算公式为:R2=1-,其几何意义:R2越接近于1,表示回归的效果越好.
知识点三 建立回归模型的基本步骤
1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
2.画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
3.由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程).
4.按一定规则(如最小二乘法)估计回归方程中的参数.
5.得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
1.求线性回归方程前可以不进行相关性检验.( × )
2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ )
3.利用线性回归方程求出的值是准确值.( × )
类型一 求线性回归方程
例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.

考点 线性回归方程
题点 求线性回归方程
解 (1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,
==4,
=62+82+102+122=344,
===0.7,
=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程可知,当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
反思与感悟 (1)求线性回归方程的基本步骤
①列出散点图,从直观上分析数据间是否存在线性相关关系.
②计算:,,,,iyi.
③代入公式求出=x+中参数,的值.
④写出线性回归方程并对实际问题作出估计.
(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
跟踪训练1 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
由此资料可知y对x呈线性相关关系.
(1)求线性回归方程;
(2)求使用年限为10年时,该设备的维修费用为多少?
考点 线性回归方程
题点 求线性回归方程
解 (1)由上表中的数据可得
=4,=5,=90,iyi=112.3,
∴=
==1.23,
∴=-=5-1.23×4=0.08.
∴线性回归方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38.
即使用年限为10年时,该设备的维修费用约为12.38万元.
类型二 回归分析

例2 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x
14
16
18
20
22
y
12
10
7
5
3
求出y对x的线性回归方程,并说明拟合效果的程度.
考点 残差分析与相关指数
题点 残差及相关指数的应用
解 =(14+16+18+20+22)=18,
=(12+10+7+5+3)=7.4.
=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
可得回归系数=
==-1.15,
所以=7.4+1.15×18=28.1,
所以线性回归方程为=-1.15x+28.1.
列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
则(yi-i)2=0.3,(yi-)2=53.2.
R2=1-≈0.994.
所以回归模型的拟合效果很好.
反思与感悟 (1)该类题属于线性回归问题,解答此类题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助线性回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
②残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
③相关指数法:R2=1-越接近1,表明回归的效果越好.
跟踪训练2 关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.
考点 残差分析与相关指数
题点 残差及相关指数的应用
解 由(1)可得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.82.
由于R=0.845,R=0.82,0.845>0.82,
∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.

例3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.



(xi-)2
(wi-)2
(xi-)
·(yi-)
(wi-)
·(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
=,=- .
考点 非线性回归分析
题点 非线性回归分析
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,
即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
反思与感悟 求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
跟踪训练3 在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
考点 非线性回归分析
题点 非线性回归分析
解 由数值表可作散点图如图,
根据散点图可知y与x近似地呈反比例函数关系,
设=,令t=,则=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
i
ti
yi
tiyi
t
1
4
16
64
16
2
2
12
24
4
3
1
5
5
1
4
0.5
2
1
0.25
5
0.25
1
0.25
0.062 5

7.75
36
94.25
21.312 5
所以=1.55,=7.2.
所以=≈4.134 4,
=-≈0.8.
所以=4.134 4t+0.8.
所以y与x之间的回归方程是=+0.8.
1.下列两个变量之间的关系不是函数关系的是(  )
A.角度和它的余弦值
B.正方形的边长和面积
C.正n边形的边数和内角度数和
D.人的年龄和身高
考点 回归分析
题点 回归分析的概念和意义
答案 D
解析 函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.
2.设有一个线性回归方程=2-1.5x,当变量x增加1个单位时(  )
A.y平均增加1.5个单位
B.y平均增加2个单位
C.y平均减少1.5个单位
D.y平均减少2个单位
考点 线性回归分析
题点 线性回归方程的应用
答案 C
解析 由回归方程中两个变量之间的关系可以得到.
3.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是(  )
A.①② B.①③ C.②③ D.③④
考点 回归分析
题点 回归分析的概念和意义
答案 B
解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.
4.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
由上表可得回归直线方程=x+中的=-5,据此模型预测当零售价为14.5元时,每天的销售量为(  )
A.51个 B.50个
C.54个 D.48个
考点 线性回归分析
题点 线性回归方程的应用
答案 C
解析 由题意知=17.5,=39,代入回归直线方程得=126.5,126.5-14.5×5=54,故选C.
5.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x;
(2)已知变量x与y线性相关,求出线性回归方程.
考点 线性回归方程
题点 求线性回归方程
解 (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=- =4-2×1.5=1,
故线性回归方程为=2x+1.
回归分析的步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程=x+);
(4)按一定规则估算回归方程中的参数;
(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.
一、选择题
1.对于线性回归方程=x+ (>0),下列说法错误的是(  )
A.当x增加一个单位时,的值平均增加个单位
B.点(,)一定在=x+所表示的直线上
C.当x=t时,一定有y=t+
D.当x=t时,y的值近似为t+
考点 线性回归分析
题点 线性回归方程的应用
答案 C
解析 线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上.
2.给定x与y的一组样本数据,求得相关系数r=-0.690,则(  )
A.y与x的线性相关性很强
B.y与x的相关性很强
C.y与x正相关
D.y与x负相关
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 因为r<0,所以y与x负相关,又|r|∈[0.75,1]才表示y与x具有很强的线性相关性,所以选D.
3.某校小卖部为了了解奶茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程=-2x+60,则样本数据中污损的数据y0应为(  )
气温x(℃)
-1
13
10
18
杯数y
y0
34
38
24
A.58 B.64 C.62 D.60
考点 线性回归分析
题点 线性回归方程的应用
答案 B
解析 由表中数据易知=10,代入=-2x+60中,得=40.由=40,得y0=64.
4.已知变量x与y负相关,且由观测数据求得样本平均数=3,=3.5,则由该观测数据求得的线性回归方程可能是(  )
A.=-2x+9.5 B.=2x-2.4
C.=-0.3x-4.4 D.=0.4x+2.3
考点 线性回归方程
题点 求线性回归方程
答案 A
解析 因为变量x与y负相关,所以排除B,D,将样本平均数=3,=3.5代入选项验证可知,选项A符合题意.
5.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 A
解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
6.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=x+,则(  )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
考点 线性回归分析
题点 线性回归方程的应用
答案 B
解析 作出散点图如下:
观察图象可知,回归直线=x+的斜率<0,
当x=0时,=>0.故>0,<0.
7.已知某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,那么年支出预计不会超过(  )
A.9亿元 B.10亿元
C.9.5亿元 D.10.5亿元
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 D
解析 y=0.8×10+2+e=10+e≤10.5.
8.下列数据符合的函数模型为(  )
x
1
2
3
4
5
6
7
8
9
10
y
2
2.69
3
3.38
3.6
3.8
4
4.08
4.2
4.3
A.y=2+x B.y=2ex
C.y=2 D.y=2+ln x
考点 非线性回归分析
题点 非线性回归分析
答案 D
解析 分别将x值代入解析式判断知满足y=2+ln x.
9.为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用最小二乘法求得的回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法中正确的是(  )
A.l1与l2有交点(s,t)
B.l1与l2相交,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
考点 线性回归方程
题点 样本点中心的应用
答案 A
解析 回归直线l1,l2都过样本点的中心(s,t),但它们的斜率不确定,故选项A正确.
二、填空题
10.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
考点 线性相关系数
题点 线性相关系数的应用
答案 1
解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1.
11.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为________.
考点 线性相关系数
题点 线性相关系数的应用
答案 0.25
解析 R2=1-=0.25.
12.已知一个线性回归方程为=1.5x+45,x∈{1,5,7,13,19},则=________.
考点 线性回归方程
题点 样本点中心的应用
答案 58.5
解析 ∵==9,且=1.5x+45,
∴=1.5×9+45=58.5.
13.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令=ln y,求得线性回归方程为=0.25x-2.58,则该模型的回归方程为________.
考点 非线性回归分析
题点 非线性回归分析
答案 y=e0.25x-2.58
解析 因为=0.25x-2.58,=ln y,
所以y=e0.25x-2.58.
三、解答题
14.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少时间?
(注:=,=-)
考点 线性回归方程
题点 求线性回归方程
解 (1)散点图如图.
(2)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
所以===0.7,
所以=- =3.5-0.7×3.5=1.05.
所以=0.7x+1.05.
回归直线如图中所示.
(3)将x=10代入回归直线方程,得=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05小时.
四、探究与拓展
15.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表:




散点图
残差平方和
115
106
124
103
以上的试验结果体现拟合A,B两变量关系的模型拟合精度高的是(  )
A.甲 B.乙 C.丙 D.丁
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 D
解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.
16.为了研究某种细菌随时间x变化繁殖个数y的变化情况,收集数据如下:
时间x(天)
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;
(2)求y与x之间的回归方程;
(3)计算相关指数R2,并描述解释变量与预报变量之间的关系.
考点 非线性回归分析
题点 非线性回归分析
解 (1)散点图如图所示:
(2)由散点图看出样本点分布在一条指数曲线y=c1ec2x的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
所以=0.69x+1.115,则有=e0.69x+1.115.
(3)

6.08
12.12
24.17
48.18
96.06
191.52
y
6
12
25
49
95
190
=(yi-)2=4.816 1,
(yi-)2≈-62≈24 642.83,
R2=1-≈1-≈0.999 8,
即时间解释了99.98%的细菌繁殖个数的变化.
§3.2 独立性检验的基本思想及其初步应用
学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.
知识点一 分类变量及2×2列联表
思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
体育
文娱
合计
男生
210
230
440
女生
60
290
350
合计
270
520
790
如何判定“喜欢体育还是文娱与性别是否有联系”?
答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
梳理 (1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
知识点二 等高条形图
1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
2.如果通过直接计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系.
知识点三 独立性检验
1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.K2=,其中n=a+b+c+d为样本容量.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(2)利用公式计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
1.列联表中的数据是两个分类变量的频数.( √ )
2.事件A与B的独立性检验无关,即两个事件互不影响.( × )
3.K2的大小是判断事件A与B是否相关的统计量.( √ )
类型一 等高条形图的应用
例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
考点 定性分析的两类方法
题点 利用图形定性分析
解 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
反思与感悟 在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?
考点 定性分析的两类方法
题点 利用图形定性分析
解 根据题目所给的数据得到如下2×2列联表:
经常上网
不经常上网
总计
不及格
80
120
200
及格
120
680
800
总计
200
800
1 000
得出等高条形图如图所示:
比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.
类型二 独立性检验
例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 将2×2列联表中的数据代入公式计算,得
K2的观测值k=
=
=≈4.762.
因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
反思与感悟 (1)独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
(2)独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.
②利用公式K2=计算随机变量K2的观测值k.
③如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)2×2列联表如下所示:
赞同
不赞同
总计
老教师
10
10
20
青年教师
24
6
30
总计
34
16
50
(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.
由公式得K2=≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
类型三 独立性检验的综合应用
例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,
由P(A)=P(BC)=P(B)P(C),
则旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62,
新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66,
则事件A的概率估计值为P(A)=P(B)P(C)=0.62×0.66=0.409 2,
∴A发生的概率为0.409 2.
(2)根据箱产量的频率分布直方图得到列联表:
箱产量<50 kg
箱产量≥50 kg
总计
旧养殖法
62
38
100
新养殖法
34
66
100
总计
96
104
200
则K2=≈15.705,
由15.705>6.635,
故有99%的把握认为箱产量与养殖方法有关.
反思与感悟 两个分类变量相关关系的判断
(1)等高条形图法:在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
(2)观测值法:通过2×2列联表,先计算K2的观测值k,然后借助k的含义判断“两个分类变量有关系”这一结论成立的可信程度.
跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由K2=≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为
X
0
1
2
P



X的均值为E(X)=0++=1.
1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  )
A.平均数 B.方差 C.回归分析 D.独立性检验
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 D
2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 B
解析 k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.
3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是(  )
考点 定性分析的两类方法
题点 利用图形定性分析
答案 D
解析 由等高条形图易知,D选项两个分类变量关系最强.
4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是(  )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好
总成绩不好
总计
数学成绩好
478
a
490
数学成绩不好
399
24
423
总计
b
c
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2)计算随机变量K2的观测值
k=≈6.233>5.024,
因为P(K2≥5.024)≈0.025,
所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
一、选择题
1.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
106
则表中a,b的值分别为(  )
A.94,96 B.52,50
C.52,60 D.54,52
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得K2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为(  )
A.0.1% B.1% C.99% D.99.9%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 易知K2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.
3.在独立性检验中,两个分类变量“X与Y有关系”的可信度为99%,则随机变量K2的观测值k的取值范围是(  )
A.[3.841,5.024) B.[5.024,6.635)
C.[6.635,7.879) D.[7.879,10.828)
考点 分类变量与列联表
题点 求观测值
答案 C
4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
总计
甲班
11
34
45
乙班
8
37
45
总计
19
71
90
则随机变量K2的观测值约为(  )
A.0.600 B.0.828
C.2.712 D.6.004
考点 分类变量与列联表
题点 求观测值
答案 A
解析 根据列联表中的数据,可得随机变量K2的观测值k=≈0.600.故选A.
5.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为(  )
A.与 B.与
C.与 D.与
考点 定性分析的两类方法
题点 利用图形定性分析
答案 A
解析 由题意,==,因为|ad-bc|的值越大,两个分类变量有关系的可能性就越大,故选A.
6.有两个分类变量X,Y,其列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为(  )
A.8 B.9
C.8或9 D.6或8
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
解析 根据公式,得K2的观测值
k=
=>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8或9时满足题意.
7.某班主任对全班50名学生进行了作业量的调查,数据如下表:
认为作业量大
认为作业量不大
合计
男生
18
9
27
女生
8
15
23
合计
26
24
50
则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过(  )
A.0.01 B.0.025 C.0.005 D.0.001
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 由公式得K2的观测值k=≈5.059>5.024.∵P(K2≥5.024)=0.025,∴犯错误的概率不超过0.025.
二、填空题
8.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 ③
解析 K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.
9.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
 专业
性别  
非统计专业
统计专业

13
10

7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K2=≈4.844,因为K2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
解析 因为K2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.
10.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.
附:K2=.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A,由已知得P(A)==,
所以q=25,p=25,a=40,b=60.
K2==≈4.167>3.841.
故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.
三、解答题
11.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.
考点 定性分析的两类方法
题点 利用图形定性分析
解 建立性别与态度的2×2列联表如下:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据列联表中所给的数据,可求出男生中作肯定态度的频率为=0.2,女生中作肯定态度的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.
根据列联表中的数据得到K2的观测值k=≈5.622>5.024.
因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.
12.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:
喜欢
不喜欢
合计
大于40岁
20
5
25
20岁至40岁
10
20
30
合计
30
25
55
(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?
(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由公式K2=得,观测值k≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人文景观”景点与年龄有关.
(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B1,B2,B3,B4,C1,C2,
从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个,其中恰有1位大于40岁的市民和1 位20岁至40岁的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为.
四、探究与拓展
13.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其中2×2列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
对同一样本,以下数据能说明X与Y有关的可能性最大的一组是(  )
A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5 D.a=3,b=2,c=4,d=5
考点 分类变量与列联表
题点 求列联表中的数据
答案 D
解析 对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|ad-bc|=|10-12|=2.对于选项D,有|ad-bc|=|15-8|=7,显然7>2.
14.2017年世界第一届轮滑运动会(the first edtion of Roller Games)在南京举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱轮滑,其余不喜爱.得到2×2列联表如下.
喜爱轮滑
不喜爱轮滑
总计

10
6
16

6
8
14
总计
16
14
30
(1)根据2×2列联表,判断能否在犯错误的概率不超过0.10的前提下认为性别与喜爱轮滑有关?
(2)从女志愿者中抽取2人参加接待工作,若其中喜爱轮滑的人数为ξ,求ξ的分布列和均值.
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
解 (1)假设:是否喜爱轮滑与性别无关.由已知数据可求得K2的观测值为
k=≈1.157 5<2.706.
因此不能在犯错误的概率不超过0.10的前提下认为喜爱轮滑与性别有关.
(2)喜爱轮滑的人数ξ的可能取值为0,1,2,
则P(ξ=0)===,
P(ξ=1)==,
P(ξ=2)==.
所以喜爱轮滑的人数ξ的分布列为
ξ
0
1
2
P



所以喜爱轮滑的人数ξ的均值为E(ξ)=0×+1×+2×=.
滚动训练五(§3.1~§3.2)
一、选择题
1.下列语句表示的事件中的因素不具有相关关系的是(  )
A.瑞雪兆丰年 B.名师出高徒
C.吸烟有害健康 D.喜鹊叫喜,乌鸦叫丧
考点 回归分析
题点 回归分析的概念和意义
答案 D
解析 “喜鹊叫喜,乌鸦叫丧”是一种迷信说法,它们之间无任何关系,故选D.
2.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是(  )
①模型Ⅰ的相关系数r为-0.98;②模型Ⅱ的相关系数r为0.80;③模型Ⅲ的相关系数r为-0.50;④模型Ⅳ的相关系数r为0.25.
A.Ⅰ B.Ⅱ C.Ⅲ D.Ⅳ
考点 线性相关系数
题点 线性相关系数的应用
答案 A
解析 相关系数的绝对值越大,其相关性越强,模型Ⅰ相关系数为-0.98,其绝对值最大,相关性也最强,∴模型Ⅰ的拟合效果最好,故选A.
3.下列关于K2的说法正确的是(  )
A.K2在任何相互独立的问题中都可以用来检验有关系还是无关系
B.K2的值越大,两个事件的相关性就越大
C.K2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适用
D.K2的观测值的计算公式为k=
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 本题主要考查对K2的理解,K2是用来判断两个分类变量是否有关系的随机变量,所以A错;K2的值越大,说明我们能以更大的把握认为两个分类变量有关系,不能判断相关性的大小,所以B错;D中(ad-bc)应为(ad-bc)2.
4.已知变量x与y具有相关关系,且由观测数据得到的样本数据散点图如图所示,则由该观测数据求得的回归方程可能是(  )
A.=-1.314x+1.520
B.=1.314x+1.520
C.=-1.314x-1.520
D.=1.314x-1.520
考点 线性回归方程
题点 求线性回归方程
答案 B
解析 由样本数据散点图可知,回归方程中>0,>0,故选B.
5.下列说法中,错误说法的个数是(  )
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②回归方程=3-7x,变量x增加1个单位时,平均增加7个单位;
③在一个2×2列联表中,若K2的观测值k=13.079,则有99.9%以上的把握认为两个变量之间有关系.
A.0 B.1 C.2 D.3
答案 B
考点 线性回归分析
题点 线性回归方程的应用
解析 数据的方差与加了什么样的常数无关,故①正确;对于回归方程=3-7x,变量x增加1个单位时,平均减少了7个单位,故②错误;若k=13.079>10.828,则有99.9%以上的把握认为这两个变量之间有关系,故③正确.
6.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算发现K2的观测值k=6.023,则市政府认为市民收入增减与旅游愿望有关系的可信度是(  )
A.90% B.95%
C.97.5% D.99.5%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 由临界值表得P(K2≥5.024)≈0.025,而6.023>5.024,所以认为市民收入增减与旅游愿望有关系的可信度为97.5%.
7.高三某班学生每周用于数学学习的时间x(单位:小时)与数学成绩y(单位:分)之间有如下数据:
x
24
15
23
19
16
11
20
16
17
13
y
92
79
97
89
64
47
83
68
71
59
根据上表可得回归方程的系数≈3.53.若某学生每周用于数学学习的时间为18小时,则可预测该学生的数学成绩(结果保留整数)是(  )
A.71分 B.80分 C.74分 D.77分
考点 线性回归分析
题点 线性回归方程的应用
答案 D
解析 学生每周用于数学学习的时间的平均值
==17.4(小时),数学成绩的平均值
==74.9(分),所以=-=74.9-3.53×17.4=13.478.
当x=18时,=3.53×18+13.478=77.018≈77,所以预测该学生的数学成绩为77分.
8.某市通过随机询问100位市民能否做到“光盘”,得到如下的2×2的列联表:
不能做到“光盘”
能做到“光盘”
总计

45
10
55

30
15
45
总计
75
25
100
下列说法正确的是(  )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能做到‘光盘’与性别无关”
C.有90%的把握认为“该市居民能做到‘光盘’与性别有关”
D.有90%的把握认为“该市居民能做到‘光盘’与性别无关”
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 由题设知,K2=≈3.030>2.706,∴有90%的把握认为“该市居民能做到‘光盘’与性别有关”.
二、填空题
9.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.
考点 线性回归方程
题点 样本点中心的应用
答案 68
解析 由表知=30,设模糊不清的数据为m,
则=(62+m+75+81+89)=,
因为=0.67+54.9,
即=0.67×30+54.9,
解得m=68.
10.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场以降低生产成本,某白酒酿造企业市场部对该企业9月份的产品销量(千箱)与单位成本(元)的资料进行线性回归分析,结果如下:=,=71,=79,iyi=1 481,=≈-1.818 2,=71-(-1.818 2)×≈77.36,则销量每增加1千箱,单位成本下降________元.
考点 线性回归分析
题点 线性回归方程的应用
答案 1.818 2
解析 由已知得=-1.818 2x+77.36,销售量每增加1千箱,则单位成本下降1.818 2元.
11.为了调查患慢性气气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结构如下表:
患慢性气管炎
未患慢性气管炎
总计
吸烟
20
20
40
不吸烟
5
55
60
总计
25
75
100
根据列联表数据,求得K2=________(保留3位有效数字),根据下表,在犯错误的概率不超过________的前提下认为患慢性气管炎与吸烟有关.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 22.2 0.001
解析 K2的观测值k=
≈22.2>10.828.
所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关.
三、解答题
12.某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时,请完成每周平均体育运动时间与性别的列联表,并判断在犯错误的概率不超过0.05的前提下是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
P(K2≥k0)
0.100
0.050
0.010
0.005
k0
2.706
3.841
6.635
7.879
K2=.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2的观测值
k=≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
四、探究与拓展
13.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3e2x+1的图象附近,则可通过转换得到的线性回归方程为________.
考点 非线性回归分析
题点 非线性回归分析
答案 y=1+ln 3+2x
解析 由y=3e2x+1,得ln y=ln(3e2x+1),即ln y=2x+1+ln 3,令u=ln y,v=x,则线性回归方程为u=1+ln 3+2v.
14.甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸x(单位:cm)及个数y,如下表:
零件尺寸x
1.01
1.02
1.03
1.04
1.05
零件
个数y

3
7
8
9
3

7
4
4
4
a
由表中数据得y关于x的线性回归方程为=-91+100x(1.01≤x≤1.05),其中合格零件尺寸为1.03±0.01(cm).完成下面列联表,并判断是否有99%的把握认为加工零件的质量与甲、乙有关?
合格零件数
不合格零件数
总计


总计
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程的综合应用
解 =1.03,=,由=-91+100x知,=-91+100×1.03,
所以a=11,由于合格零件尺寸为1.03±0.01 cm,
故甲、乙加工的合格与不合格零件的数据表为:
合格零件数
不合格零件数
总计

24
6
30

12
18
30
总计
36
24
60
所以K2=
==10,
因为K2=10>6.635,故有99%的把握认为加工零件的质量与甲、乙有关.
章末复习
学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.
1.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方程为=x+,其中==,=- .
2.2×2列联表
2×2列联表如表所示:
B

总计
A
a
b
a+b

c
d
c+d
总计
a+c
b+d
n
其中n=a+b+c+d为样本容量.
3.独立性检验
常用随机变量
K2=来检验两个变量是否有关系.
类型一 回归分析
例1 (2016·全国Ⅲ改编)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=- .
考点 线性回归分析
题点 线性回归方程的应用
解 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2019年对应的t=12代入回归方程得
=0.92+0.10×12=2.12.
所以预测2019年我国生活垃圾无害化处理量约为2.12亿吨.
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 经分析预测,美国通用汽车等10家大公司的销售总额xi(i=1,2,…,10,单位:百万美元)与利润yi(i=1,2,…,10,单位:百万美元)的近似线性关系为=0.026x+,经统计i=623 090,i=29 300.
(1)求;
(2)若通用汽车公司的销售总额x1=126 974(百万美元),残差1=-387,估计通用汽车的利润;
(3)福特公司的销售总额为96 933百万美元,利润为3 835,比较通用汽车公司与福特公司利润的解释变量对于预报变量变化的贡献率说明了什么?(以上答案精确到个位)
考点 残差分析与相关指数
题点 残差及相关指数的应用
解 (1)由i=623 090,i=29 300,
得样本点中心为(62 309,2 930),
所以=2 930-0.026×62 309≈1 310.
(2)由(1)知=0.026x+1 310,
当x1=126 974时,
1=0.026×126 974+1 310≈4 611,
所以y1=1+1=4 611+(-387)=4 224,
估计通用汽车公司的利润为4 224百万美元.
(3)由(1)(2)可得通用汽车公司利润的解释变量对于预报变量变化的贡献率为R,
则R=1-=1-≈0.911=91.1%.
设福特公司利润的解释变量对于预报变量变化的贡献率为R,
由=0.026x+1 310得
2=0.026×96 933+1 310≈3 830,
则R=1-=1-≈0.999 97
=99.997%.
由R<R知,用=0.026x+1 310作为解释变量与预报变量的关系,预报通用汽车公司的效果没有预报福特公司的效果好,或者说预报通用汽车公司的精确度低于预报福特公司的精确度.
类型二 独立性检验
例2 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:
     是否愿意提供
志愿者服务
性别     
愿意
不愿意
男生
20
10
女生
10
20
(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?
(2)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?
下面的临界值表供参考:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
独立性检验统计量K2=,其中n=a+b+c+d.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由题意,男生抽取6×=4(人).
(2)K2=≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.
反思与感悟 独立性检验问题的求解策略
(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.
(2)通过公式K2=
先计算观测值k,再与临界值表作比较,最后得出结论.
跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).
(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;
(2)根据以上数据完成下列2×2列联表;
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
总计
(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.
(2)2×2列联表如表所示:
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)K2==10>6.635,
故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.
1.甲、乙、丙、丁四位同学各自对A,B两变量进行线性相关检验,并用回归分析方法分别求得相关系数r如下表:




r
0.82
0.78
0.69
0.85
则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是(  )
A.甲 B.乙
C.丙 D.丁
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强.故选D.
2.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是(  )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 根据临界值表,10.828>9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
3.某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如下表:
广告费用x(万元)
2
3
5
6
销售利润y(万元)
5
7
9
11
由表中数据,得线性回归方程l:=x+,则下列结论正确的是(  )
A.<0 B.<0
C.直线l过点(4,8) D.直线l过点(2,5)
考点 线性回归方程
题点 样本点中心的应用
答案 C
解析 因为=1.4>0,=-=8-1.4×4=2.4>0,所以排除A,B;因为=1.4x+2.4,所以1.4×2+2.4=5.2≠5,所以点(2,5)不在直线l上,所以排除D;因为=4,=8,所以回归直线l过样本点的中心(4,8),故选C.
4.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁.为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
附表:
P(K2≥k0)
0.10
0.05
0.025
k0
2.706
3.841
5.024
参照附表,在犯错误的概率不超过________(填百分比)的前提下,认为“小鼠是否被感染与服用疫苗有关”.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
解析 K2的观测值k=≈4.762>3.841,所以在犯错误的概率不超过5%的前提下,认为“小鼠是否被感染与服用疫苗有关”.
5.对于线性回归方程=x+,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.
考点 线性回归分析
题点 线性回归方程的应用
答案 =x+14 24
解析 首先把两组值代入线性回归方程,得
解得
所以线性回归方程是=x+14.
令x+14=38,可得x=24,即当x=24时,y的估计值是38.
1.建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出散点图,观察它们之间的关系.
(3)由经验确定回归方程的类型.
(4)按照一定的规则估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常.
2.独立性检验是利用随机变量K2来判断两个分类变量间是否存在相关关系的方法,常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量K2的值来判断更精确些.
一、选择题
1.有人收集了春节期间平均气温x与某取暖商品销售额y的有关数据如表:
平均气温(℃)
-2
-3
-5
-6
销售额(万元)
20
23
27
30
则该商品销售额与平均气温有(  )
A.确定性关系 B.正相关关系
C.负相关关系 D.函数关系
考点 回归分析
题点 回归分析的概念和意义
答案 C
解析 根据春节期间平均气温x与某取暖商品销售额y的有关数据知,y随x的减小而增大,是负相关关系,故选C.
2.如果K2的观测值为8.654,可以认为“x与y无关”的可信度为(  )
A.99.5% B.0.5%
C.99% D.1%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 ∵8.654>7.879,∴x与y无关的可信度为0.5%.
3.下面的等高条形图可以说明的问题是(  )
A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的
B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同
C.此等高条形图看不出两种手术有什么不同的地方
D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握
考点 定性分析的两类方法
题点 利用图形定性分析
答案 D
解析 由等高条形图可知选项D正确.
4.为了了解疾病A是否与性别有关,在某医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:
患疾病A
不患疾病A
总计

20
5
25

10
15
25
总计
30
20
50
则认为疾病A与性别有关的把握约为(  )
A.95% B.99%
C.99.5% D.99.9%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 由公式得K2=≈8.333>7.879,故有(1-0.005)×100%=99.5%的把握认为疾病A与性别有关.
5.某考察团对全国10大城市进行职工人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)统计调查,y与x具有线性相关关系,回归方程为=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为(  )
A.83% B.72%
C.67% D.66%
考点 线性相关系数
题点 线性相关系数的应用
答案 A
解析 将y=7.675代入回归方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.
6.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
314
407
根据以上数据可得出(  )
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 k=≈0.164<0.455,
即没有充足的理由认为种子是否经过处理跟生病有关.
7.为预测某种产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取了8组观察值.计算知i=52,i=228,=478,iyi=1 849,则y关于x的回归方程是(  )
A.=11.47+2.62x
B.=-11.47+2.62x
C.=2.62+11.47x
D.=11.47-2.62x
考点 线性回归分析
题点 线性回归方程的应用
答案 A
解析 由=,=- ,
直接计算得≈2.62,≈11.47,
所以线性回归方程为=2.62x+11.47.
8.若对于变量y与x的10组统计数据的回归模型中,相关指数R2=0.95,又知残差平方和为120.53,那么(yi-)2的值为(  )
A.241.06 B.2 410.6
C.253.08 D.2 530.8
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 B
解析 设总偏差平方和为x,根据公式R2=1-,有0.95=1-,
∴x==2 410.6,故选B.
二、填空题
9.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 85% 15%
解析 由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
10.为了规定工时定额,需要确定加工零件所花费的时间,为此进行5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得线性回归方程为=0.67x+54.9,则y1+y2+y3+y4+y5的值为______.
考点 线性回归方程
题点 样本点中心的应用
答案 375
解析 由题意,得=(x1+x2+x3+x4+x5)=30,且回归直线=0.67x+54.9恒过点(,),则=0.67×30+54.9=75,所以y1+y2+y3+y4+y5=5=375.
11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.
①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 ③
解析 K2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
三、解答题
12.如表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出如表数据的散点图;
(2)请根据如表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
考点 线性回归分析
题点 线性回归方程的应用
解 (1)由题设所给数据,可得散点图如图.
(2)由数据,计算得:=86,
==4.5,
==3.5,
iyi=66.5,
所以,由最小二乘法确定的回归方程的系数为
=
==0.7,
=-=3.5-0.7×4.5=0.35,
因此,所求的线性回归方程为=0.7x+0.35.
(3)由(2)中的线性回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
四、探究与拓展
13.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,线性回归方程为=10.47-1.3x,估计该台机器使用________年最合算.
考点 线性回归分析
题点 线性回归方程的应用
答案 8
解析 只要预计利润不为负数,使用该机器就算合算,即≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.
14.某校高一年级理科有8个班,在一次数学考试中成绩情况分析如下:
班级
1
2
3
4
5
6
7
8
大于145分人数
6
6
7
3
5
3
3
7
不大于145分人数
39
39
38
42
40
42
42
38
附:xiyi=171,x=204.
(1)求145分以上成绩y对班级序号x的线性回归方程;(精确到0.000 1)
(2)能否在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
解 (1)=4.5,=5,xiyi=171,x=204,
==
=-≈-0.214 3,
=-=5-(-0.214 3)×4.5≈5.964 4,
∴线性回归方程为=-0.214 3x+5.964 4.
(2)K2==1.8,
∵1.8<6.635,∴不能在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.