人教A版(2019)高中数学 选择性必修第三册 第八章 成对数据的统计分析章末知识梳理(课件共53张PPT+作业)

文档属性

名称 人教A版(2019)高中数学 选择性必修第三册 第八章 成对数据的统计分析章末知识梳理(课件共53张PPT+作业)
格式 zip
文件大小 2.4MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2021-11-26 22:24:07

文档简介

第八章检测题
考试时间120分钟,满分150分.
一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.如果散点图中所有的样本点均在同一条直线上,那么残差平方和与相关系数分别为( B )
A.1,0 B.0,1
C.0.5,0.5 D.0.43,0.57
2.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( B )
A.总偏差平方和 B.残差平方和
C.回归平方和 D.相关指数
3.相关变量x,y的样本数据如下:
x 1 2 3 4 5
y 2 2 3 5 6
经回归分析可得y与x线性相关,并由最小二乘法求得经验回归方程=1.1x+a,则a=( C )
A.0.1 B.0.2
C.0.3 D.0.4
[解析] 由题意,==3,
==3.6,
∵经验回归方程为=1.1x+a,
∴3.6=1.1×3+a,
∴a=0.3.故选C.
4.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:
  YX   y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
对于同一样本,以下数据能说明X与Y有关的可能性最大的一组为( D )
A.a=5,b=10,c=6,d=7 B.a=5,b=6,c=10,d=7
C.a=7,b=6,c=10,d=5 D.a=6,b=7,c=10,d=5
[解析] 对于同一样本,|ad-bc|越小,说明X与Y相关性越弱,而|ad-bc|越大,说明X与Y相关性越强,通过计算知,对于选项A,B,C,都有|ad-bc|=|35-60|=25;对于选项D,有|ad-bc|=40.故选D.
5.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同
学从交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20名市民,得到如下2×2列联表:
A B 总计
认可 13 5 18
不认可 7 15 22
总计 20 20 40
附:χ2=,n=a+b+c+d.
P(χ2≥k) 0.1 0.05 0.010 0.005
k 2.706 3.841 6.635 7.879
根据表中的数据,下列说法中正确的是( D )
A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”
B.有99%以上的把握认为“是否认可与城市的拥堵情况有关”
C.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”
D.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”
[解析] 由题意,根据2×2列联表中的数据,得χ2=≈6.465,又3.841<6.465<6.635,所以可以在犯错误的概率不超0.05的前提下认为“是否认可与城市的拥堵情况有关”.故选D.
6.根据下面的列联表得到如下四个判断:
①有99.9%的把握认为“患肝病与嗜酒有关”;②有99%的把握认为“患肝病与嗜酒有关”;③在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”;④在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”.
嗜酒 不嗜酒 总计
患肝病 700 60 760
未患肝病 200 32 232
总计 900 92 992
其中正确命题的个数为( C )
A.0 B.1
C.2 D.3
[解析] 由题中列联表中数据可求得χ2=≈7.349>6.635,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关”,即有99%的把握认为“患肝病与嗜酒有关”,所以②③正确,④不正确,且7.349<10.828,所以①不正确.故选C.
7.某车间加工零件的数量x与加工时间y的统计数据如下表:
零件数x(个) 10 20 30
加工时间y(分钟) 21 30 39
现已求得上表数据的经验回归方程=x+中的的值为0.9,则据此经验回归模型可以预测,加工100个零件所需要的加工时间约为( C )
A.84分钟 B.94分钟
C.102分钟 D.112分钟
[解析] 由已知可得=20,=30,又=0.9.
∴=-=30-0.9×20=12.
∴经验回归方程为=0.9x+12.
∴当x=100时,=0.9×100+12=102(分钟).
故选C.
8.已知随机变量ξ~N(μ,62),有下列四个命题:甲:P(ξ<a-1)>P(ξ>a+2),乙:P(ξ>a)=0.5,丙P(ξ≤a)=0.5,丁:P(a<ξ<a+1)<P(a+1<ξ<a+2),如果只有一个假命题,则该命题为( D )
A.甲 B.乙
C.丙 D.丁
[解析] 乙、丙同时成立时,a=μ,这时甲成立,∴丁错误.
二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多个选项是符合题目要求的,全部选对的得5分,选对但不全的得2分,有选错的得0分)
9.晚上睡眠充足是提高学习效率的必要条件,高中甲的高三年级学生晚上10点10分必须休息,高中乙的高三年级学生晚上11点休息,并鼓励学生还可以继续进行夜自习,稍晚再休息.有关人员分别对这两所高中的高三年级学习总成绩前50名学生的学习效率进行问卷调查,其中高中甲有30名学生的学习效率高,且从这100名学生中随机抽取1人,抽到学习效率高的学生的概率是0.4,则( AC )
附:K2=.
P(K2≥k0) 0.050 0.010 0.005 0.001
k0 3.841 6.635 7.879 10.828
A.高中甲的前50名学生中有60%的学生学习效率高
B.高中乙的前50名学生中有40%的学生学习效率高
C.有99.9%的把握认为“学生学习效率高低与晚上睡眠是否充足有关”
D.认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率超过0.05
[解析] 高中甲的前50名学生中有30人学习效率高,即×100%=60%,所以A正确;高中乙的前50名学生中有10人学习效率高,即×100%=20%,所以B错误;这100名学生中学习效率高的学生有100×0.4=40(人),根据题意填写2×2列联表如下:
学习效率高 学习效率不高 合计
高中甲 30 20 50
高中乙 10 40 50
合计 40 60 100
计算观测值K2==≈16.667>1.828,
所以有99.9%的把握认为“学生学习效率高低与晚上睡眠是否充足有关”, C正确;认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率不超过0.05,所以D错误.故选AC.
10.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=-5x+150,则下列结论正确的是( AD )
A.y与x具有负的线性相关关系
B.若r表示y与x之间的线性相关系数,则r=-5
C.当销售价格为10元/件时,销售量为100件
D.当销售价格为10元/件时,销售量为100件左右
[解析] 由经验回归方程=-5x+150可知y与x具有负的线性相关关系,故A正确;y与x之间的线性相关系数|r|≤1,故B错误;当销售价格为10元时,销售量为-5×10+150=100(件)左右,故C错误,D正确.
11.下表提供了其厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求得y关于x的经验回归方程为=0.7x+0.35,则下列结论正确的是( ABC )
x 3 4 5 6
y 2.5 t 4 4.5
A.产品的生产能耗与产量呈正相关
B.经验回归直线一定过点(4.5,3.5)
C.A产品每多生产1吨,则相应的生产能耗约增加0.7吨
D.t的值是3.15
[解析] 因为经验回归方程为=0.7x+0.35,所以产品的生产能耗与产量呈正相关,A产品每多生产1吨,则相应的生产能耗约增加0.7吨,A,C正确;
由题意,得==4.5,
∵=0.7x+0.35,
∴=0.7×4.5+0.35=3.5,
∴t=4×3.5-2.5-4-4.5=3,所以B正确,D错误.
12.(2021·北京一零一中学)下列说法中正确的有( ABD )
A.一支田径队有男、女运动员共98人,其中男运动员有56人.按男、女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员的人数是12人
B.在某项测量中,测量结果X服从正态分布N( 1,σ2 )(σ>0),若X在(0,1)内取值的概率为0.4.则X在(0,2)内取值的概率为0.8
C.废品率x%和每吨生铁成本y (元)之间的回归直线方程为=2x+256,这表明废品率每增加1%,生铁成本每吨大约增加258元
D.为了检验某种血清预防感冒的作用,把500名未使用血清和使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防作用”,利用2×2列联表计算得χ2的观测值k≈3.918,经查对临界值表知P(χ2≥3.841 )≈0.05,由此,得出以下判断:在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防的作用”
[解析] ∵田径队有男、女运动员共98人,其中男运动员有56人,
∴这支田径队有女运动员98-56=42 (人),
用分层抽样的方法从该队的全体运动员中抽取一个容量为28的样本,
∵每个个体被抽到的概率是=.
∵田径队有女运动员42人,
∴女运动员要抽取42×=12(人).故A正确.
根据正态分布的规律,测量结果X服从正态分布
N(1,σ2)(σ>0),若X在(0,1)内取值的概率为0.4,则X在(0,2)内取值的概率为2×0.4=0.8.故B正确.
废品率x%和每吨生铁成本y(元)之间的回归直线方程为=2x+256,
这表明废品率每增加1%,生铁成本每吨大约增加2元.
故C不正确.
根据独立性检验的方法与结论可知,D正确.故选ABD.
三、填空题(本大题共4小题,每小题5分,共20分)
13.某艺术馆为了研究学生性别和喜欢国画之间的联系,随机抽取80名学生进行调查(其中有男生50名,女生30名),并绘制等高堆积条形图(如图所示),则这80名学生中喜欢国画的人数为__58__.
[解析] 由等高堆积条形图可知,男生中喜欢国画的占80%,女生中喜欢国画的占60%,则这80名学生中喜欢国画的人数为50×80%+30×60%= 58.
14.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
若由资料可知y对于x呈线性相关关系,且经验回归方程为=+x,其中已知=1.23,请估计使用年限为20年时,维修费用为__24.68__万元.
[解析] 由表中数据可知:
==4,
==5.
又∵经验回归直线一定经过样本点中心(,),
∴5=+1.23×4,∴= 0.08,
∴经验回归方程为=1.23x+0.08.
故估计使用年限为20年时,维修费用为=1.23×20+0.08=24.68(万元).
15.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 4 5 6 7 8 9
销量y(件) 90 84 83 80 75 68
由表中数据,求得经验回归方程为=-4x+.若在这些样本点中任取一点,则它在经验回归直线左下方的概率为____.
[解析] 样本点中心坐标为,所以=80+4×=106,所以经验回归方程为=-4x+106,经验证可知有2个点位于回归直线左下方,其概率为=.
16.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:
喜爱打篮球 不喜爱打篮球 合计
男生 20 a 25
女生 b 15 c
合计 30 d 50
则a+b+c+d=__60__;在犯错误的概率不超过__0.005__的前提下认为喜爱打篮球与性别有关.
附:χ2=.
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
[解析] 由列联表数据可求得
a=5,b=10,c=25,d=20,
所以a+b+c+d=60;χ2=≈8.33>7.879,
所以在犯错误的概率不超过0.005的前提下认为“喜爱打篮球与性别有关”.
四、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)某大型企业人力资源部为了研究企业员工的工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示.
积极支持企业改革 不太赞成企业改革 总计
工作积极 54 40 94
工作一般 32 63 95
总计 86 103 189
李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过 0.01 的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”.
他们两人的结论正确吗?他们的结论为什么不一样?
[解析] 正确.由列联表中的数据,
得χ2=≈10.759.
10.759>7.879>6.635,
若以7.879为临界值,则在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系;
若以6.635为临界值,则在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系.
18.(本小题满分12分)随着时代的进步与科技的发展,“网购”已发展成为一种新的购物潮流,足不出户就可以在网上买到自己想要的东西.某网店统计了2016年至2020年(2016年时t=1)在该网店的购买人数y(单位:百人)的数据如下表:
年份(t) 1 2 3 4 5
y 24 27 41 64 79
(1)依据表中给出的数据,求出y关于t的经验回归方程;
(2)根据(1)中的经验回归方程,预测2021年在该网店购物的人数是否有可能破万?
参考公式:经验回归方程=+t中,=,=-.参考数据:iyi=852.
[解析] (1)由表中数据可得,=3,==47,(ti-)2=10,
所以==14.7,=47-14.7×3=2.9,
所以=14.7t+2.9.
(2)2021年时t=6,此时y=14.7×6+2.9=91.1<100,
所以预测2021年在该网店购物的人数不会破万.
19.(本小题满分12分)某种产品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)求经验回归方程;
(3)试预测广告费支出为10万元时,销售额为多少?
附:=,=-.
参考数据:=145,iyi=1 380.
[解析] (1)根据表格中的5组数据,绘制散点图如图所示:
(2)由表格数据可知:
= (2+4+5+6+8)=5,
=(30+40+60+50+70)=50,
故===6.5,
=-=50-6.5×5=17.5,
故所求经验回归方程为=6.5x+17.5.
(3)由(2)知,=6.5x+17.5,
令x=10,解得=82.5.
故广告费支出为10万元时,销售额约为82.5万元.
20.(本小题满分12分)(2021·湖南长沙市雅礼中学)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起, 第x天的高度为y cm,测得一些数据如下表所示:
第x天 1 4 9 16 25 36 49
高度y/cm 0 4 7 9 11 12 13
作出这组数的散点图如图:
(1 )请根据散点图判断,y=ax+b与y=c+d中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并预测第144 天这株幼苗的高度(结果保留1位小数).
附:=,=-.
参考数据:
xi yi yi
140 28 56 283
[解析] (1)根据散点图可知,y=c+d更适宜作为幼苗高度y关于时间x的回归方程类型.
(2)令μ=,则y=c+d构造新的成对数据,如下表所示:
x 1 4 9 16 25 36 49
μ= 1 2 3 4 5 6 7
y 0 4 7 9 11 12 13
容易计算,=4,=8.
通过上表计算可得
===.
∵回归直线=μ+过点(,),
∴=-=-,
故y关于μ的经验回归直线方程为=μ-,从而可得y关于x的经验回归方程为=-.
令x=144,则=≈24.9,∴预测第144天幼苗的高度大约为24.9 cm.
21.(本小题满分12分)某调查组利用网站进行民意调查,数据调查显示,民生问题是百姓最关心的热点,参与调查者中关注此问题的约占80%,现从参与调查者中随机选出200人,并将这200人按年龄分组,第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65],得到的频率分布直方图如图所示.
(1)求a;
(2)估计参与调查者的平均年龄;
(3)把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,若选出的200人中不关注民生问题的中老年人有10人,问是否有99%的把握认为是否关注民生与年龄有关?
附:
P(K2≥k0) 0.150 0.100 0.050 0.025 0.010 0.005 0.001
k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828
K2=,n=a+b+c+d.
[解析] (1)∵0.010×10+0.015×10+0.030×10+a×10+0.010×10=1,
∴a=0.035.
(2)=0.01×10×20+0.015×10×30+0.035×10×40+0.03×10×50+0.01×10×60=41.5,
∴估计参与调查者的平均年龄为:41.5岁.
(3)选出的200人中,各组的人数分别为:
第1组:200×0.010×10=20人,第2组:200×0.015×10=30人,第3组:200×0.035×10=70人,第4组:200×0.030×10=60人,第5组:200×0.010×10=20人,
∴青少年组有20+30+70=120人,中老年组有200-120=80人,
∵参与调查者中关注此问题的约占80%,
∴有200×(1-80%)=40人不关心民生问题,
∴选出的200人中不关注民生问题的青少年有30人,
∴2×2列联表如下:
关注民生问题 不关注民生问题 合计
青少年 90 30 120
中老年 70 10 80
合计 160 40 200
∴K2==4.6875<6.635,
∴没有99%的把握认为是否关注民生与年龄有关.
22.(本小题满分12分)某人计划于2021年7月购买一辆某品牌新能源汽车,他从当地该品牌销售网站了解到近五个月实际销量如表所示:
月份 2021.02 2021.03 2021.04 2021.05 2021.06
月份编号t 1 2 3 4 5
实际销量y(万辆) 0.5 0.6 1 1.4 1.7
(1)经分析,可用线性回归模型拟合当地该品牌新能源汽车实际销量y(万辆)与月份编号t之间的相关关系.请用最小二乘法求y关于t的线性经验回归方程:=t+,并预测2021年7月份当地该品牌新能源汽车的销量;
(2)已知某地拟购买新能源汽车的消费群体十分庞大,某调研机构对其中的200名消费者的购车补贴金额的心理预期值进行了一个抽样调查,得到下表:
补贴金额预期值区间(万元) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7]
频数 20 60 60 30 20 10
将频率视为概率,现用随机抽样的方法从该地区拟购买新能源汽车的所有消费者中随机抽取3人,记被抽取的3人中对补贴金额的心理预期值不低于3万元的人数为ξ.求ξ的分布列及均值E(ξ).
参考公式:==,=-.
[解析] (1)易知==3,
==1.04,
t=12+22+32+44+52=55,
tiyi=1×0.5+2×0.6+3×1+4×1.4+5×1.7=18.8

===0.32,
=-=1.04-0.32×3=0.08,
则y关于t的线性经验回归方程为=0.32t+0.08.
当t=6时,=2.
即2021年7月份当地该品牌新能源汽车的销量约为2万辆.
(2)根据题中的频数表可知,任意抽取1名拟购买新能源汽车的消费者,对补贴金额的心理预期值不低于3万元的概率为=.
由题意可知ξ~B,ξ的所有可能取值为0,1,2,3.
P(ξ=0)=C03=,
P(ξ=1)=C12=,
P(ξ=2)=C21=,
P(ξ=3)=C30=,
故ξ的分布列为
ξ 0 1 2 3
P
所以E(ξ)=3×=.(共53张PPT)
第八章 成对数据的统计分析
章末知识梳理
核心知识归纳
要点专项突破
知识体系构建
知识体系构建
核心知识归纳
   变量的相关关系
1.相关关系
两个变量有关系,但又没有确切到可以由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.散点图
为了直观地描述成对样本数据中两个变量间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则每一对成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
3.相关关系的分类:正相关和负相关.
知识点1
4.线性相关与非线性相关
(1)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
(2)非线性相关
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关.
知识点2
2.样本相关系数的意义
样本相关系数r是一个描述成对样本数据的数字特征,r的符号反映了相关关系的正负性;|r|的大小反映了两个变量相关的程度,具体如下:
(1)r的正负
当r>0时,称成对数据正相关;当r<0时,称成对数据负相关.
(2)r的绝对值
当|r|越接近于1时,成对数据的线性相关程度越强;
|r|越接近于0,成对数据线性相关程度越弱.
3.判断相关关系的两种方法
(1)通过作散点图,观察由所给的数据描出的点是否在一条直线附近来判定,直观方便.
(2)利用相关系数.
   一元线性回归模型参数的最小二乘估计
1.最小二乘估计
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),当a,b的取值为
知识点3
   分类变量与列联表
(1)分类变量
(2)2×2列联表
如下表所示,我们将给出成对分类变量数据的交叉分类频数的表格,称为2×2列联表.
知识点4
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
(3)等高堆积条形图
与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.分别计算出中间四个数各自的频率,可以用等高堆积条形图直观展示上述计算结果.
   独立性检验的基本思想
1.独立性检验的定义
一般地,假设有两个分类变量X和Y,其样本频数
知识点5
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
2.临界值表
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
3.应用独立性检验的主要环节
(1)提出零假设H0:分类变量X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
要点专项突破
要点一 回归分析
1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,也是本章的重点、高考的热点,主要考查线性回归分析.题型既有选择、填空题,也有解答题.
2.回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析.因此,回归分析的方法主要还是指线性回归分析的方法.要注意理解以下几点:①确定线性相关系数,判断变量是否线性相关的依据是观察样本点的散点图和线性回归系数的大小;②模型的合理性的刻画,确定线性相关程度的方法是通过计算相关系数r进行判断.
     连锁经营公司所属5个零售店某月的销售额利润资料如表:
典例 1
商品名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
[解析] (1)根据表中所给的5对数据,在平面直角坐标系中画出散点图,如图所示.
[规律方法] 1.建立经验回归模型的步骤
(1)确定研究对象,明确变量x,y.
(2)画出变量的散点图,观察它们之间的关系.
(3)确定经验回归方程的类型.
(4)按一定规则估计经验回归方程中的参数(如最小二乘法).
(5)得出经验回归方程.
2.分析两个变量线性相关的常用方法
(1)散点图法,该法主要是用来直观地分析两变量间是否存在相关关系.
(2)相关系数法,该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
要点二 独立性检验的基本思想与方法
独立性检验的基本思想是:先作出零假设H0,即假设两个分类变量没有关系,再根据这个假设应用统计的方法进行分析,得到一个统计量χ2的值,再由统计学得到的各临界值,确定我们的假设是否成立,以及假设的不合理程度.
进行独立性检验要注意理解以下三个问题:
(1)独立性检验适用于两个分类变量.
(2)两个分类变量是否有关系的直观判断.
一是根据2×2列联表计算|ad-bc|,值越大两变量的相关性越强.
二是观察等高堆积条形图,两个深色条的高度相差越大,两变量的相关性越强.
(3)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握确认两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.
     某校为了探索一种新的教学模式, 进行了一项课题实验,乙班为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行测试,成绩如下表(总分:150分).
甲班
典例 2
成绩 [80,90) [90,100) [100,110) [110,120) [120,130]
频数 4 20 15 10 1
乙班
成绩 [80,90) [90,100) [100,110) [110,120) [120,130]
频数 1 11 23 13 2
(1)现从甲班成绩位于[90,120)内的试卷中抽取9份进行试卷分析,请问用什么抽样方法更合理,并写出最后的抽样结果;
(2)根据所给数据可估计在这次测试中,甲班的平均分是101.8,请你估计乙班的平均分,并计算两班平均分相差几分;
(3)完成下面2×2列联表,依据小概率值α=0.05的独立性检验,分析这两个班在这次测试中成绩的差异与实施课题实验是否有关,并说明理由.
成绩小于100分 成绩不小于 100分 总计
甲班26 50
乙班 12 50
总计 36 64 100
(3)补全列联表如下:
成绩小于100分 成绩不小于100分 总计
甲班 24 26 50
乙班 12 38 50
总计 36 64 100
要点三 概率、统计与独立性检验的综合问题
概率、统计与独立性检验的综合问题在高考中常常出现,一般为解答题,难度中等.有时古典概型与独立性检验综合,有时样本的分布与独立性检验综合,更有三者融合在一起的综合性较强的题目出现.
(1)独立性检验中的统计量χ2的计算公式中分母是列联表中除了总合计的四个合计量的乘积,分子是总合计量与样本频数中四个数的交叉乘积之差的平方的乘积,解题时要正确使用列联表中的数据,对照公式把它们放到应该放的地方.注意确定性思维和统计思维的差异,确定性思维作出的是完全确定的、百分之百正确的结论,但统计思维作出的是带有随机性的、不能完全确定的结论.若在解题时忽视了这两种思维方式的差异,就可能对统计计算的结果作出错误的解释.
(2)求解此类综合问题时要充分运用样本的分布、古典概型分布列、均值、独立性检验等相关知识.
     某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本,并称出它们的质量(单位:g) ,质量值落在[495 ,510)内的产品为合格品,否则为不合格品.统计结果如下表及图所示.
甲流水线样本的频数分布表
典例 3
产品质量/g 频数
[490,495) 6
[495,500) 8
[500,505) 14
[505 ,510) 8
[510,515] 4
乙流水线样本的频率分布直方图
(1)求甲流水线样本合格的频率;
(2)从乙流水线上质量值落在[505 ,515]内的产品中任取3件产品,求这3件产品中恰好只有2件合格品的概率;
(3)由以上统计数据完成下面的2×2列联表,并回答有多大的把握认为产品的包装质量与两条自动包装流水线的选择有关.
甲流水线 乙流水线 总计
合格品
不合格品
总计
(3)由(1)知甲流水线样本中合格品数为30,乙流水线样本中合格品数为0.9×40=36.
2×2列联表如下:
甲流水线 乙流水线 总计
合格品 30 36 66
不合格品 10 4 14
总计 40 40 80