数学·必修3(苏教版)
第2章 统计
抽样方法
2.1.1 简单随机抽样
1.下列调查中,属于简单随机抽样的是( )
A.2014年巴西世界杯运动员的体检
B.袋装牛奶合格率调查
C.汽车站行李安检
D.美国总统的支持率调查
答案:B
2.从某鱼塘中捕得120条鱼,做了记号再放回塘中,经过适当的时间后,再从塘中捕得100条鱼,计算其中有记号的鱼为10条,试估计鱼塘中共有鱼的条数为( )
A.1 000 B.1 200 C.130 D.1 300
答案:B
3.从50个产品中随机抽取10个进行检查,则总体个数为________,样本容量为________.
解析:样本容量无单位.
答案:50 10
4.福利彩票的中奖号码是在1~36个号码中选出7个号码来按规则确定中奖情况,这种从36个号码中选7个号码的抽样方法是________.
解析:由抽样法的特点决定.
答案:抽签法
5.关于简单随机抽样,下列说法中正确的有________.
①当总体中个体数不多时,可以采用简单随机抽样;
②采用简单随机抽样不会产生任何代表性差;
③用随机数表法抽取样本时,读数的方向可以向右,也可以向左、向下、向上等等;
④抽签法抽取样本对每个个体来说都是公平的.
解析:由简单随机抽样法特点决定.
答案:①③④
6.用简单随机抽样从含有6个个体的总体中抽取一个容量为3的样本,个体a被抽到的可能性是________.
答案:
7.为了解某地普通话水平测试的650名学生的成绩,从中抽取了200名学生的成绩进行统计分析,在这个问题中,200名学生成绩是________.
解析:掌握抽样法的有关概念.
答案:样本
8.用简单随机抽样方法从含有6个个体的总体中,抽取一个容量为2的样本,某一个体a“第一次被抽到”的可能性、“第二次被抽到”的可能性分别是________,________.
解析:简单随机抽样的特点是每个个体被抽到都是等可能的.
答案:
9.为了了解某班学生的考试合格率,要从该班70名学生中抽取30人进行考察分析,则这次考察的总体数为________,样本容量为________.
解析:掌握总体与个体、样本容量的有关概念.
答案:70 30
10.已知:高三(1)班有50名学生,学号为01~50号,数学老师在上统计课时,运用随机数表法随机提问5名学生.老师首先选定随机数表(见教材附录)中第4行第5组数码(26),然后依次提问,那么被提问的5名学生是26号,________号,________号,________号,________号.
解析:按随机数表法读数即可.随机数表见教材附录.
答案:27 31 05 03
11.某中学高中一年级有400人,高中二年级有320人,高中三年级有280人.以每人被抽取的可能性为0.2,向该中学抽取一个容量为n的样本,则n等于________.
解析:n=(400+320+280)×0.2=200.
答案:200
12.1936年,美国著名的《文学摘要》杂志社,为了预测总统候选人罗斯福与兰登两个谁能当选,他们以电话簿上的地址和俱乐部成员名单上的地址发出1 000万封信,收回回信200万封,在调查史上这是少有的样本容量,花费了大量的人力、物力,《文学摘要》相信自己的调查结果,即兰登将以57%对43%的比例获胜,并进行大量宣传,最后选举却是罗斯福以62%对38%的巨大优势获胜,这个调查断送了这家原本颇有名气的杂志社的前程,不久只得关门停刊,试分析这次调查失败的原因.
解析:失败的原因:(1)抽样方法不公平,样本不具有代表性,样本不是从总体(全体美国公民)中随机地抽取的.当年,美国有私人电话和参加俱乐部的家庭都是比较富裕的家庭,1929~1933年的世界经济危机,使美国经济遭到打击,“罗斯福新政”动用行政手段干预经济,损害了部分富人的利益,“喝了富人的血”,但广大的美国人民从中得到了好处,所以,从富人中抽取的样本严重偏离了总体;(2)样本容量相对过小,也是导致估计出现偏差的重要原因,因为样本容量越大,估计才能越准确,发出的信不少,但回收率太低.
数学·必修3(苏教版)
第2章 统计
2.1 抽样方法
2.1.2 系统抽样
1.从2 009名志愿者中选取50名组成一个志愿团,若采用下面的方法选取:先用简单随机抽样从2 009人中剔除9人,余下的2 000人再按系统抽样的方法进行选取,则每人入选的机会( )
A.不全相等 B.均不相等
C.都相等 D.无法确定
答案:C
2.为了解3 600名学生对学校食堂的意见,打算从中抽取一个容量为90的样本,考虑采用系统抽样,则分段间隔k为( )
A.40 B.30 C.20 D.12
答案:A
3.系统抽样适用的总体应是( )
A.容量较少的总体
B.个体差异较大的总体
C.个体数较多但均衡的总体
D.任何总体
答案:C
4.某厂将在64名员工中用系统抽样的方法抽取4名参加2014年职工劳技大赛,将这64名员工编号为1~64,若已知8号、24号、56号在样本中,那么样本中另外一个员工的编号是________.
解析:采用系统抽样,将64名员工平均分成4段,每段16名,因为8号、24号、56号在样本中,故可推出8号、24号、56号是从第1,2,4段中抽取的,则从第3段中抽取的号码是8+2×16=40.
答案:40
5.某校高中二年级有253名学生,为了了解他们的视力情况,准备按1∶5的比例抽取一个样本,试用系统抽样方法进行抽取,并写出过程.
解析:(1)先把这253名学生编号001,002,…,253.
(2)用随机数表法任取出3个号,从总体中剔除与这三个号对应的学生.
(3)把余下的250名学生重新编号1,2,3,…,250.
(4)分段,取分段间隔k=5,将总体均分成50段,每段含5名学生.
(5)从第一段即1~5号中随机抽取一个号作为起始号,如l.
(6)从后面各段中依次取出l+5,l+10,l+15,…,l+245这49个号.
这样就按1∶5的比例抽取了一个样本容量为50的样本.
6.(2014·湘潭调研)某大学有教师1 001人,中层以上领导干部20人,现抽取教师40人,中层以上领导干部4人组成代表队参加活动,应怎样抽取?
解析:教师1 001人抽取40人,适宜用系统抽样;中层以上领导20人抽取4人,适宜用抽签法.
(1)将1 001名教师用随机方式编号.
(2)从总体中剔除1人(剔除方法可用随机数表法)将剩下的1 000名教师重新编号(分别为0001,0002,…,1 000),并平均分成40段,其中一段包含=25个个体.
(3)在第一段0001,0002,…,0025,这25个编号中用简单随机抽样抽出一个(如0003)作为起始号码.
(4)将编号为0003,0028,0053,…,0978的个体抽出.
(5)将20名中层以上领导用随机方式编号,编号为01,02,…,20.
(6)将这20个号码分别写在一个大小、形状相同小纸条上,揉成小球,制成号签.
(7)将得到的号签放入一个不透明的容器中,充分搅拌.
(8)从容器中逐个抽取4个号签,并记录上面的编号.
(9)从总体中将与所抽号签的编号相一致的个体取出,以上两类方法得到的个体便是代表队成员.
7.下列抽样中不是系统抽样的是________(填序号).
①从标有1~15号的15个球中,任选3个作为样本.按从小号到大号排序,随机选起始号i0以后i0+5,i0+10(超过15则再从1数起)号作样本;
②工厂生产的产品,用传送带将产品送入包装车间前,检验人员从传送带上每隔三分钟抽一件产品进行检验;
③搞某一市场调查,规定在商场门口随机找一个人进行询问调查,直到调查到事先规定的调查人数为止;
④在报告厅对与会听众进行调查,通知每排(每排人数相等)座位号为14的观众留下来座谈.
解析:样本总体不确定,抽样的方法不能保证每个个体按事先规定的等可能性入样.
答案:③
8.下列抽样问题中最适合用系统抽样法抽样的是______(填序号).
①从全班48名学生中随机抽取8人参加一项活动;
②一个城市有210家百货商店,其中大型商店20家,中型商店40家,小型商店150家.为了掌握各商店的营业情况,要从中抽取一个容量为21的样本;
③从参加模拟考试的1 200名高中生中随机抽取100人分析试题作答情况;
④从参加模拟考试的1 200名高中生中随机抽取10人了解某些情况.
解析:当总体中的个体数较多,样本中的个体数也较多时最好用系统抽样.此时用简单随机抽样较麻烦.
答案:③
9.一个总体中有100个个体,随机编号0,1,2,…,99,依从小到大的编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是________.
解析:因为m=8,k=8,则m+k=16,个位为6,又在第8组中,所以此号码为76.
答案:76
10.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,现打算从中抽取一个容量为50的样本,按系统抽样的方法将总体分成50个部分,如果第一部分编号为0001,0002,0003…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为________.
解析:总体中共有1 000个个体,样本容量为50,分段间隔1 000÷50=20,在第一部分抽取的是0015,第40个号码是39×20+0015=0795.
答案:0795
11.某种福利彩票有1 000个有机会中奖的号码(设号码为000~999),有关机构按随机抽取的方式确定最后两位数为36的号码为中奖号码.试分别写出10个中奖号码.
解析:(1)把1 000个号码分成10组.
(2)第一组选036,根据系统抽样,各号码依次为036,136,236,336,436,536,636,736,836,936.
12.下面给出某村委会调查本村各户收入情况作的抽样,阅读并回答问题.
本村人口:1 200人,户数300,每户平均人口数4人.
应抽户数:30.
抽样间隔:=40.
确定随机数字:取一张人民币,编号后两位数为12.
确定第一样本户:编号12的户为第一样本户.
确定第二样本户:12+40=52,52号为第二样本户.
……
(1)该村委会采用了何种抽样方法?
(2)抽样过程存在哪些问题?试修改.
(3)何处是用简单随机抽样?
解析:(1)系统抽样.
(2)本题是对某村各户进行抽样,而不是对某村人口抽样.抽样间隔:=10,其他步骤相应改为确定随机数字:取一张人民币,末位数为2.(假设)确定第一样本户:编号02的住户为第一样本户;确定第二样本户:2+10=12,12号为第二样本户.
(3)确定随机数字:取一张人民币,取其末位数为2.
数学·必修3(苏教版)
第2章 统计
2.1 抽样方法
2.1.3 分层抽样
1.某大学共有本科生10 000人,其中一、二、三、四年级的学生比为4∶3∶2∶1,要用分层抽样的方法从所有本科生中抽取一个容量为200的样本,则应抽取三年级的学生为( )
A.160人 B.80人
C.120人 D.40人
答案:D
2.简单随机抽样、系统抽样、分层抽样之间的共同点是( )
A.都是从总体中逐个抽取
B.将总体分成几部分,按事先规定的要求在各部分抽取
C.抽样过程中每个个体被抽取的机会相同
D.将总体分成几层,分层进行抽取
答案:C
3.一个年级有12个班,每个班的同学从1至50排学号,为了交流学习经验,要求每班学号为14的同学留下进行交流,这里运用的是________.
解析:依据概念,区分三种抽样.
答案:系统抽样
4.某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采用分层抽样抽取一个容量为45的样本,那么高一、高二、高三各年级抽取人数分别为________.
解析:对应设x,y,z,由===,可直接求出.
答案:15,10,20
5.某公司有2 000名员工,其中高层管理人员占5%,属于高收入者;中层管理人员占15%,属于中等收入者;一般员工占80%,属于低收入者,现对该公司员工的收入情况进行调查,拟调查10%的员工,应当怎样进行抽样?
解析:按收入水平分层,2 000×10%=200(人),200×5%=10(人),200×15%=30(人),200×80%=160(人),故应从高层管理人员中抽取10人,从中层管理人员中抽取30人,从一般员工中抽取160人,再对这200人的收入调查.
6.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n的样本,如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.
解析:总体容量为6+12+18=36(人).当样本容量是n时,由题意知,系统抽样的间隔为,分层抽样的比例是,抽取工程师人数为×6=人,技术人员人数为×12=人,技工人数为×18=人,所以n应是6的倍数,36的约数,即n=6,12,18.当样本容量为(n+1)时,总体容量是35人,系统抽样的间隔为,因为必须是整数,所以n只能取6.即样本容量n=6.
7.对某单位1 000名职工进行某项专门调查,调查的项目与职工任职年限有关,人事部门提供了如下资料:
任职年限
人数
5年以下
300
5~10年
500
10年以上
200
试利用上述资料,设计一个抽样比为的抽样方法.
解析:因为抽样比为,
故只需从1 000人中抽取1 000×=100(人).
故从任职5年以下的人中抽取300×=30(人);
任职5~10年的人中抽取500×=50(人);
任职10年以上的人中抽取200×=20(人).
8.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是( )
A.8 B.6 C.3 D.30
解析:分层抽样中每个个体被抽到的可能性相等,则抽取的植物油类与果蔬类食品种数之和是×(10+20)=6.
答案:B
9.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案.使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270;使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段.如果抽得的号码有下列四种情况:
①7,34,61,88,115,142,169,196,223,250;②5,9,100,107,111,121,180,195,200,265;③11,38,65,92,119,146,173,200,227,254;④30,57,84,111,138,165,192,219,246,270.
关于上述样本的下列结论中,正确的是( )
A.②,③都不能为系统抽样
B.②,④都不能为分层抽样
C.①,④都可能为系统抽样
D.①,③都可能为分层抽样
解析:本题主要考查系统抽样及分层抽样的概念.
答案:D
10.某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是________.
解析:由分层抽样的定义可知,该抽样为按比例的抽样.
答案:分层抽样法
11.某大型超市销售的乳类商品有四种:纯奶、酸奶、婴幼儿奶粉、成人奶粉且纯奶、酸奶、婴幼儿奶粉、成人奶粉分别有30种、10种、35种、25种不同的品牌,现采用分层抽样的方法从中抽取一个容量为n的样本进行三聚氰胺安全检测,若抽取的婴儿奶粉的品牌数是7,则n=________.
答案:20
12.某校高一、高二和高三年级学生数分别为n1,n2,n3,为了解学生视力情况,现用分层抽样抽取容量为n0的样本,则在高一抽的人数占高一总人数的比例是________.
答案:
13.某单位有2 000名职工,老年、中年、青年分别在管理、技术开发、营销、生产各部门中,如下表所示:
人数
管理
技术开发
营销
生产
小计
老年
40
40
40
80
200
中年
80
120
160
240
600
青年
40
160
280
720
1 200
小计
160
320
480
1 040
2 000
(1)若要抽取40人调查身体状况,则应怎样抽取?
(2)若要开一个25人参加的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人?
(3)若要抽20人调查市民对北京奥运会筹备情况的了解,则应怎样抽取?
解析:要达到什么样的目的,就应该考虑怎样抽取样本才具有合理公正性,这就涉及如何使用恰当的抽样方法.
(1)因为身体状况主要与年龄有关,所以可以按老年、中年、青年分层抽样法进行抽样,要抽取40人,可以在老年、中年、青年职工中分别抽取4、12、24人.
(2)因为出席这样的座谈会的人员应该代表各个部门,所以可以按部门分层抽样的方法进行抽样,要抽取25人,可以在管理、技术开发、营销和生产各部门的职工中分别随机抽取2、4、6、13人.
(3)因为对北京奥运会筹备情况的了解与年龄、部门关系不大,所以可以用系统抽样或简单随机抽样的方法抽取样本.
14.中央电视台希望在春节联欢晚会播出后一周内获得当年春节联欢晚会的收视率.下面是三名同学为电视台设计的调查方案.
同学A:我把这张《春节联欢晚会收视率调查表》放在互联网上,只要上网登录该网址的人就可以看到这张表,他们填表的信息可以很快地反馈到我的电脑中.这样,我就可以很快统计出收视率了.
同学B:我给我们居民小区的每一位住户发一个是否在除夕那天晚上看过中央电视台春节联欢晚会的调查表,只要一两天就可以统计出收视率.
同学C:我在电话号码本上随机地选出一定数量的电话号码,然后逐个给他们打电话,问一下他们是否收看了中央电视台春节联欢晚会,我不出家门就可以统计出中央电视台春节联欢晚会的收视率.
请问:上述三名同学设计的调查方案能够获得比较准确的收视率吗?为什么?
解析:调查的总体是所有可能看电视的人群.
学生A的设计方案考虑的人群是:上网而且登陆某网址的人群,那些不能上网的人群,或者不登陆某网址的人群就被排除在外了.因此A方案抽取的样本的代表性差.
学生B的设计方案考虑的人群是小区内的居民,有一定的片面性.因此B方案抽取的样本的代表性差.
学生C的设计方案考虑的人群是那些有电话的人群,也有一定的片面性.因此C方案抽取的样本的代表性差.
所以,这三种调查方案都有一定的片面性,不能得到比较准确的收视率.
数学·必修3(苏教版)
第2章 统计
总体分布的估计
2.2.1 频率分布表
1.一个样本如下:
78 80 81 81 72 77 89 90 92 85
则这个样本的极差是( )
A.72 B.92 C.7 D.20
答案:D
2.一个容量为20的样本数据,将其分组如下表:
分组
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70]
数量
2
3
4
5
4
2
则样本在区间(-∞,50)上的频率为( )
A.0.5 B.0.25 C.0.6 D.0.7
答案:D
3.一个容量为100的样本,数据的分组和各组的一些相关信息如下:
分组
频数
频率
[12,15)
6
[15,18)
0.08
[18,21)
0.16
[21,24)
21
[24,27)
0.18
[27,30)
16
[30,33)
0.10
[33,36]
合计
100
1.00
完成上面的表格.
解析:补全后的频率分布表如下:
分组
频数
频率
[12,15)
6
0.06
[15,18)
8
0.08
[18,21)
16
0.16
[21,24)
21
0.21
[24,27)
18
0.18
[27,30)
16
0.16
[30,33)
10
0.10
[33,36]
5
0.05
合计
100
1.00
4.一个容量为20的样本数据,分组后,各组与其对应的频数如下:[10,20),2;[20,30),3;[30,40),4;[40,50),5;[50,60),4;[60,70],2.则样本中的区间[30,50)上的频率为________.
解析:[30,50)的频数为4+5=9,∴频率为9÷20=45%.
答案:45%
5.某中学同年级40名男生的体重数据如下(单位:千克):
61 60 59 59 59 58 58 57 57 57 57
56 56 56 56 56 56 55 55 55 55 55
54 54 54 54 53 53 52 52 52 52 52
51 51 51 50 50 49 48
列出样本的频率分布表.
.解析:(1)计算全距61-48=13;
(2)决定组距与组数,取组距为2.
∵=6,∴共分7组.
(3)决定分点,使分点比数据多一位小数,并把第1组的分点减小0.5,即分成如下7组:[47.5,49.5),[49.5,51.5),[51.5,53.5),[53.5,55.5),[55.5,57.5),[57.5,59.5),[59.5,61.5].
(4)列出频率分布表如下:
分组
频数累计
频数
频率
[47.5,49.5)
2
2
0.05
[49.5,51.5)
7
5
0.125
[51.5,53.5)
14
7
0.175
[53.5,55.5)
23
9
0.225
[55.5,57.5)
33
10
0.25
[57.5,59.5)
38
5
0.125
[59.5,61.5]
40
2
0.05
合计
40
1.00
6.5
6.一个容量为20的样本,已知某组的频率是0.25,则该组的频数为________.
7.为了估计某人的射击技术状况,在他的训练记录中抽取了50次进行检验,他的命中环数如下:
7 8 6 9 6 5 9 10 7 8
5 6 5 6 7 8 7 9 10 9
8 5 7 8 7 6 8 6 7 7
9 6 5 8 6 9 6 8 10 7
8 7 8 6 9 8 7 10 8 9
(1)作出频率分布表;
(2)估计该人命中6~8环的百分比是多少.
.解析:(1)频率分布表如下:
环数
频数
频率
5
5
0.10
6
10
0.20
7
11
0.22
8
12
0.24
9
8
0.16
10
4
0.08
(2)由频率分布表知:0.20+0.22+0.24=0.66,知该人命中6~8环的百分比为66%.
8.某电信部门执行的新的电话收费标准中,其中本地网营业区内的通话费标准是:前3分钟为0.20元(不足3分钟按3分钟计算),以后的每分钟收0.10元(不足1分钟按1分钟计算).在一次实习作业中,某同学调查了A、B、C、D、E五人某天拨打的本地网营业区内的电话通话时间情况,其原始数据如下表所示:
A
B
C
D
E
第一次通话时间
3分
3分45秒
3分55秒
3分20秒
6分
第二次通话时间
0分
4分
3分40秒
4分50秒
0分
第三次通话时间
0分
0分
5分
2分
0分
应缴话费/元
(1)在上表中填写出个人应缴的话费.
(2)设通话时间为t分钟,试根据上表完成下表的填写(即这五人在这一天内的通话情况统计表):
时间段
频数
频率
累计频率
02
0.2
0.2
345合计
(3)若该本地网营业区原来执行的电话收费标准是:每3分钟为0.20元(不足3分钟按3分钟计算).问这五人这天的实际平均通话费与原通话标准下算出的平均通话费相比,是增多了还是减少了?增或减了多少?
解析:(1)如下表:
A
B
C
D
E
第一次通话时间
3分
3分45秒
3分55秒
3分20秒
6分
第二次通话时间
0分
4分
3分40秒
4分50秒
0分
第三次通话时间
0分
0分
5分
2分
0分
应缴话费/元
0.20
0.6
1.00
0.90
0.50
(2)统计表如下:
时间段
频数
频率
累计频率
02
0.2
0.2
35
0.5
0.7
42
0.2
0.9
51
0.1
1
合计
10
1
1
(3)设这五人这天的实际平均通话费为x1元,按原收费标准算出的平均通话费为x2元,则x1=(0.2+0.6+1.00+0.9+0.5)=0.64(元),
x2=(0.2+4×0.2+6×0.2+5×0.2+2×0.2)=0.72(元),
x2-x1=0.08(元),
即这五人这天的实际平均通话费与原通话标准下算出的平均通话费相比,减少了0.08元.
数学·必修3(苏教版)
第2章 统计
总体分布的估计
频率分布直方图与折线图
1.频率分布直方图中,小长方形的面积等于( )
A.相应各组的频数
B.相应各组的频率
C.组距
D.组数
答案:B
2.某工厂对一批产品进行了抽样检测,下图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106].已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克,且小于104克的产品的个数是( )
A.90 B.75 C.60 D.45
解析:由图可知,产品净重小于100克的频率为(0.100+0.050)×2=0.3,因为产品小于100克的个数是36,所以样本容量为36÷0.3=120,又因为样本中净重大于或等于98克,且小于104克的产品的频率为(0.100+0.125+0.150)×2=0.75,所以产品个数为0.75×120=90.
答案:A
3.某市高三数学抽样考试中,对90分以上(含90分)的成绩进行统计,其频率分布图如下图所示,若130~140分分数段的人数为90人,则90~100分数段的人数为________.
解析:总人数=90÷0.05=1 800,而90~100分数段人数为:1 800×0.45=810.
答案:810
4.
从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如右图).由图中数据可知a=________.若要从身高在[ 120 , 130),[130 ,140), [140 , 150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140 ,150]内的学生中选取的人数应为________.
答案:0.030 3
5.某班一次数学测验成绩如下:
63 84 91 53 69 81 61 69 91 78 75
81 80 67 76 81 79 94 61 69 89 70
70 87 81 86 90 88 85 82 67 71 87
75 87 95 53 65 74 77
大部分同学处于哪个分数段?成绩的整体分布情况怎样?
解析:先将成绩按10分的距离分段,统计每个分数段学生出现的频数.
成绩段:49.5~59.5 59.5~69.5 69.5~79.5 79.5~89.5 89.5~99.5
人数:2 9 10 14 5
根据刚才的人数统计绘制直方图与折线图(如下图):
由图中可以看出:79.5分到89.5分这个分数段的学生人数最多,而90分以上和不及格的学生人数较少.
6.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少;
(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.
解析:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为=0.08,又因为频率=,所以样本容量===150.
(2)由图可估计该学校高一学生的达标率约为×100%=88%.
(3)由已知可得,各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.
7.为了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如下图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.
(1)求第四小组的频率.
(2)问参加这次测试的学生人数是多少?
(3)问在这次测试中,学生跳绳次数的中位数落在第几小组内?
解析:(1)第四小组的频率=1-(0.1+0.3+0.4)=0.2.
(2)n=第一小组的频数÷第一小组的频率=5÷0.1=50.
(3)因为0.1×50=5,0.3×50=15,0.4×50=20,
0.2×50=10.
即第一、第二、第三、第四小组的频数分别为5,15,20,10.
所以学生跳绳次数的中位数落在第三小组内.
8.为了了解初中学生的体能情况,从实验中学八年级学生中随机抽取若干名学生进行铅球测试,把所得数据(精确到0.1米)进行整理后,分成6组,画出频率分布直方图.如下图所示是频率分布直方图的一部分,已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30,第六小组的频数是7.
(1)请将频率分布直方图补充完整;
(2)该校参加这次铅球测试的学生有多少人?
(3)若成绩在8.0米以上(含8.0米)的为合格,试求这次铅球测试的合格率;
(4)在这次测试中,你能确定该校参加测试的学生的铅球成绩的中位数落在哪个小组内吗?
解析:(1)由频率分布直方图的意义可知,各小组频率之和为1,所以第六小组的频率是:1-(0.04+0.10+0.14+0.28+0.30)=1-0.86=0.14,与第三小组的频率相等,故补充完整的频率分布直方图如下图所示.
(2)由(1)知,第六小组的频率是0.14,已知其频数为7.所以共有=50(人);
(3)由频率分布直方图可知,第四、五、六小组的成绩在8.0米以上,其频率之和是0.28+0.30+0.14=0.72,所以这次铅球测试的合格率是72%;
(4)观察频率分布直方图可知中位数落在第四小组内.
数学·必修3(苏教版)
第2章 统计
2.2总体分布的估计
2.2.3 茎 叶 图
1.如图是甲、乙两名运动员某赛季一些场次得分的茎叶图,据图可知甲、乙两人得分最大值和为________.
答案:103
2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听说测试中的成绩(单位:分).已知甲组数据的中位数为13,乙组数据的平均数为12,则x,y的值为( )
A.12,13 B.13,12
C.13,13 D.13,14
答案:C
3.为了了解中年知识分子在知识分子中的比例,对某单位全体知识分子的年龄进行了登记,结果如下(单位:岁):
42,38,29,36,41,43,54,43,34,44,40,59,39,42,44,50,37,44,45,29,48,45,53,48,37,28,46,50,37,44,42,39,51,52,62,47,59,46,45,67,53,49,65,47,54,63,57,47,46,58.
列出样本的频率分布表及茎叶图,并计算36~52岁的知识分子所占的比例.
解析:最大值为67,最小值为28,全距为67-28=39,分为10组,组距为4,频率分布表如下:
分组
频数
频率
[28,32)
3
0.06
[32,36)
1
0.02
[36,40)
7
0.14
[40,44)
7
0.14
[44,48)
13
0.26
[48,52)
6
0.12
[52,56)
5
0.10
[56,60)
4
0.08
[60,64)
2
0.04
[64,68]
2
0.04
用茎叶图表示为:
2
8 9 9
3
4 6 7 7 7 8 9 9
4
0 1 2 2 2 3 3 4 4 4 4 5 5 5 6 6 6 7 7 7 8 8 9
5
0 0 1 2 3 3 4 4 7 8 9 9
6
2 3 5 7
从以上可以看出用频率分布表中的数据易得36~52岁的知识分子所占的比例为0.14+0.14+0.26+0.12=0.66.
4.名著《简·爱》的中英文版中,第一节部分内容每句话所含单词(字)数如下:
英文句子所含单词数:10,52,56,40,79,9,23,11,10,21,30,31;
中文句子所含字数:11,79,7,20,63,33,45,36,87,9,11,37,17,18,71,75,51.
(1)作出这些数据的茎叶图.
(2)比较茎叶图,你能得到什么结论?
解析:(1)茎叶图如下图所示.
英文句子所含单词数 中文句子所含字数
9
0
7 9
1 0 0
1
1 1 7 8
3 1
2
0
1 0
3
3 6 7
0
4
5
6 2
5
1
6
3
9
7
1 5 9
8
7
(2)从这个茎叶图看,英文句子所含单词数与中文句子所含字数都分布得比较分散,总的看来,每句话所含的字(单词)数差别较大,但因为数量较少,不能给出较有把握的结论.
5.(2014·湛江调研)某中学高二(2)班甲、乙两名同学自高中以来每场数学考试成绩情况如下(单位:分):
甲的得分:95,81,75,89,71,65,76,88,94,110,107;
乙的得分:83,86,93,99,88,103,98,114,98,79,101.
画出两人数学成绩的茎叶图,请根据茎叶图对两人的成绩进行比较.
解析:用中间的
数字表示两位同学得分的十位数字和百位数字,两边的数字分别表示两人每场数学考试成绩的个位数字.
甲、乙两人数学成绩的茎叶图如图所示,从这个茎叶图中可以看出,乙同学的得分情况大致是对称的,集中在90多分;甲同学的得分情况除一个特殊得分外,也大致对称,集中在80多分,因此乙同学发挥比较稳定,总体得分情况比甲同学好.
6.某同学每天下午打半小时篮球,她把每天进球的情况都记了下来.下面是她从2009年3月12日至4月10日每天打球时进球的记录:
23 15 18 15 17 31 21 17 31 18 14 17 16 18 13 18 41 19 19 32 17 18 41 67 52 71 61 80 81 78
请根据这批数据绘制出茎叶图来反映这30天中的进球情况.
解析:如下图所示.
1
3 4 5 5 6 7 7 7 7 8 8 8 8 8 9 9
2
1 3
3
1 1 2
4
1 1
5
2
6
1 7
7
1 8
8
0 1
7.某良种培育基地正在培育一种小麦新品种A,将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:
品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454;
品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)作出品种A、B亩产量数据的茎叶图.
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B 的亩产量及其稳定性进行比较,写出统计结论.
解析:(1)茎叶图如下图所示.
(2)用茎叶图处理现有的数据不仅可以看出数据的分布情况,而且还可以看出每组中的具体数据.
(3)通过观察茎叶图,可以发现品种A的平均亩产量为411.08千克,品种B的平均亩产量为397.8千克.由此可知,品种A的平均亩产量比品种B的平均亩产量高,但品种A的亩产量不够稳定,而品种B的亩产量比较集中在其平均亩产量附近.
数学·必修3(苏教版)
统计
2.3 总体特征数的估计
2.3.1 平均数及其估计
1.一个样本数据从小到大的顺序排列为12,15,20,x,23,28,30,50,其中位数为22,则x=( )
A.21 B.15 C.22 D.35
解析:由题意得:=22,
解得x=21.
答案:A
2.已知一组数据8,5,14,x,10,13,且这组数据的平均数是10,那么这组数据的众数是( )
A.7 B.6 C.4 D.10
解析:∵=10,
∴x=10,故众数为10.
答案:D
3.某公司5位职员的年薪如下:5万,4万,3.2万,4万,6万,则这5人的年薪的中位数是________万,平均数是________万,众数是________万.
解析:根据定义求解.
答案:4 4.44 4
4.设有两组数据x1,x2,…,xn与y1,y2,…,yn,它们的平均数分别是和,则数据3x1-4y1+1,3x2-4y2+1,…,3xn-4yn+1的平均数是________.
解析:∵=,
=
∴=3·-4·+1=3-4+1.
答案:3-4+1
5.某公司的33名人员的月工资如下:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
(元)
5 500
5 000
3 500
3 000
2 500
2 000
1 500
(1)求该公司人员月工资的平均数、中位数、众数(精确到元);
(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数、中位数、众数又是什么(精确到元)?
(3)你认为哪个统计量更能反映这个公司人员的工资水平?结合此问题谈一谈你的看法.
解析:(1)平均数是=(5 500+5 000+3 500×2+3 000+2 500×5+2 000×3+1 500×20)÷33≈2 091(元),中位数是1 500元,众数是1 500元.
(2)平均数是'=(30 000+20 000+3 500×2+3 000+2 500×5+2 000×3+1 500×20)÷33≈3 288(元),中位数是1 500元,众数是1 500元.
(3)在这个问题中,中位数和众数均能反映该公司人员的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司人员的工资水平.
6.甲、乙两人同时在同一粮店购买粮食(假设两次购买粮食的单价不相同),甲每次购买粮食100千克,乙每次购买粮食用去100元.设甲、乙两人第一次购买粮食的单价为每千克x元,第二次购买粮食的单价为每千克y元,求:
(1)甲、乙两次购买粮食的平均单价各为多少?
(2)谁两次购粮的平均单价比较低?
解析:(1)根据题意,甲两次购粮分别用去100x元、100y元,乙两次购粮的数量为千克和千克.
∴甲两次购粮的平均单价为=,
乙两次购粮的平均单价为=.
(2)-==.
∵x>0,y>0,∴x+y>0.
又由已知x≠y,
∴(x-y)2>0.∴>0.∴>.
∴乙两次购粮的平均单价比较低.
7.为了发展,某公司新开发了10个项目.其中一个项目投资为200万,另外9个项目均在2万与30万之间.经分析,中位数是20万,平均数是35万,众数是4万,你会选择哪种数字特征表示这批项目的投资?为什么?
解析:选择平均数较合适.平均数描述了数据的平均水平,定量地反映了数据的集中趋势所处的水平.从而对总投资资金更有代表性、更有说服力.
8.某次测试共3道题,每道题一分,全班得3分、2分、1分、和0分的学生所占比例分别30%,50%,10%,10%.
(1)若全班共50人,求平均分;
(2)如果该班人数未知,能求出该班的平均分吗?
解析:(1)若全班50人,则总分为:50×30%×3+50×50%×2+50×10%×1=100(分),平均分==2(分).
(2)如果该班人数未知,能求出该班的平均分.不妨设全班有m人,则总分为m×30%×3+m×50%×2+m×10%×1=2m(分),平均分==2(分).
9.某校要从甲、乙两名跳远运动员中选一名参加某项校际比赛,在最近的10次选拔赛中,他们的成绩(单位:cm)如下:
甲:585596610598612597604600613601
乙:613618580574618593590598585624
(1)他们的平均成绩分别是多少?
(2)历届比赛表明:成绩达到596 cm就很可能夺冠,你认为为了夺冠应选谁参加这项比赛?
解析:(1)x甲=600+
=601.6(cm),
x乙=600+
=599.3(cm).
(2)从10次跳远成绩看,甲有9次成绩达到596 cm,乙仅有5次,若要夺冠,选甲运动员比较适合.
数学·必修3(苏教版)
统计
2.3 总体特征数的估计
2.3.2 方差与标准差
1.一组数据的方差为s2,将这组数据扩大2倍,则新数据的方差为( )
A.s2 B.s2 C.2s2 D.4s2
解析:∵s2=[(x1-)2+(x2-)2+…+(xn-)2],=,
∴'==2.
∴s′2=[(2x1-2)2+(2x2-2)2+…+(2xn-2)2]=[(x1-)2+(x2-)2+…+(xn-)2]=4s2.
答案:D
2.设x1=4,x2=5,x3=6,则该样本的标准差为( )
A. B. C. D.
解析:∵x1=4,x2=5,x3=6,∴===5,
∴s2=[(4-5)2+(5-5)2+(6-5)2]=,
∴s=,选B.
答案:B
3.一组数据中的每一个数都加上10后,得到一组新的数据,这组数据的平均数是20,方差是12,则原来这组数据的平均数和方差分别是多少?
解析:设原来这组数据为x1,x2,…,xn,每个数据加上10后所得新数据为x1+10,x2+10,…,xn+10.则
[(x1+10)+(x2+10)+…+(xn+10)]=20.
即[(x1+x2+…+xn)+10n]=20.
(x1+x2+…+xn)+10=20.
(x1+x2+…xn)=20-10=10.
即x=10,原来这组数据的平均数为10.
因为新数据方差为12,即
{[(x1+10)-20]2+[(x2+10)-20]2+…+[(xn+10)-20]2}=[(x1-10)2+(x2-10)2+…+(xn-10)2]=12.
故原来数据的方差是12.
4.对划艇运动员甲、乙二人在相同的条件下进行了6次测试,测得他们最大速度(m/s)的数据如下:
甲:27,38,30,37,35,31;
乙:33,29,38,34,28,36.
根据以上数据,试判断他们谁更优秀.
解析:x甲=×(27+38+30+37+35+31)=33(m/s),s甲2=×[(27-33)2+(38-33)2+…+(31-33)2]≈15.7,x乙=×(33+29+38+34+28+36)=33(m/s),s乙2=×[(33-33)2+(29-33)2+…+(36-33)2]≈12.7.所以x甲=x乙,
s甲2>s乙2,说明甲、乙两人的最大速度的平均值相同,但乙比甲更稳定,故乙比甲更优秀.
5.已知甲、乙两个样本(样本容量一样大),若甲样本的方差是0.4,乙样本的方差是0.2,那么比较甲、乙两个样本的波动大小的结果是______________.
解析:一组数据其方差越大,波动就越大,方差越小,波动也就越小.
答案:甲样本的波动比乙大
6.已知x1,x2,…,xn的方差为2,则2x1+3,2x2+3,…,2xn+3的标准差为________.
解析:由方差的性质得新数据的方差为22×2=8,故其标准差为2.
答案:2
7.两名跳远运动员在10次测试中的成绩分别如下(单位:m):
甲:5.85 5.93 6.07 5.91 5.99 6.13 5.89 6.05 6.00 6.19
乙:6.11 6.08 5.83 5.92 5.84 5.81 6.18 6.17 5.85 6.21
分别计算两个样本的标准差,并根据计算结果估计哪位运动员的成绩比较稳定.
解析:甲、乙两名运动员成绩的样本标准差分别为0.104,0.156;甲运动员的成绩比较稳定.
8.(2014·武汉调研)某校拟派一名跳高运动员去参加一项校级比赛,对甲、乙两名跳高运动员去参加一项校级比赛,对甲、乙两名跳高运动员分别进行了8次选拔比赛,他们的成绩(单位:m)如下:
甲:1.70,1.65,1.68,1.69,1.72,1.73,1.68,1.67
乙:1.60,1.73,1.72,1.61,1.62,1.71,1.70,1.75
经预测,跳高高度达到1.65 m就很可能获得冠军,该校为了获得冠军,可能选哪位选手参赛?若预测跳高高度达到1.70 m方可获得冠军呢?
解析:甲的平均成绩和方差如下:
甲=(1.70+1.65+1.68+1.69+1.72+1.73+ 1.68+1.67)=1.69(m).
s甲2=[(1.70-1.69)2+(1.65-1.69)2+…+(1.67-1.69)2]=0.000 6.
乙的平均成绩和方差如下:
乙=(1.60+1.73+1.72+1.61+1.62+1.71+1.70+1.75)=1.68(m),s乙2=[(1.60-1.68)2+(1.73-1.68)2+…+(1.75-1.68)2]=0.003 15,显然,甲的平均成绩好于乙的平均成绩,而且甲的方差小于乙的方差,说明甲的成绩比乙稳定,由于甲的平均成绩高于乙,且成绩稳定,所以若跳高高度达到1.65 m就很可能获得冠军,应派甲参赛,在这8次选拔赛中乙有5次成绩在1.70 m及以上,虽然乙的平均成绩不如甲,成绩稳定性也不如甲,但是若跳高高度达到1.70 m方可获得冠军时,应派乙参加比赛.
数学·必修3(苏教版)
统计
2.4 线性回归方程
1.下列关系中,是相关关系的有( )
①学生的学习态度与学习成绩之间的关系;
②教师的执教水平与学生的学习成绩之间的关系;
③学生的身高与学生的学习成绩之间的关系;
④家庭的经济条件与学生的学习成绩之间的关系.
A.①② B.①③ C.②③ D.②④
解析:根据变量相关关系的定义,可知学生学习态度与学习成绩之间是相关关系.教师执教水平与学生学习成绩之间是相关关系.而身高与学习成绩、家庭经济条件与学习成绩之间不是相关关系,也不是函数关系.
答案:A
2.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
答案:D
3.观察下列变量x,y的散点图:
如图所示的两个变量具有相关关系的是( )
A.(2)(3) B.(1)(2)
C.(2)(4) D.(3)(4)
解析:(1)不具有相关关系;(2)具有线性相关关系;(3)是函数表示;(4)是非线性相关关系,选C.
答案:C
4.在对两个变量x,y进行线性回归分析时一般有下列步骤:①对所求的回归方程作出解释;②收集数据(xi,yi)(i=1,2,…,n);③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图,如果根据可靠性要求能够判定变量x,y具有线性相关性,则下列操作顺序正确的是( )
A.①②⑤③④ B.③②④⑤①
C.②④③①⑤ D.②⑤④③①
解析:根据线性回归分析的思想,可以对两个变量x,y进行线性回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求相关系数和线性回归方程,最后对所求的回复方程作出解释,因此选D.
答案:D
5.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下的对照表.
气温x(℃)
18
13
10
-1
用电量y(度)
24
34
38
64
由表中数据,得回归直线方程=x+,若=-2,则=________.
解析:∵==10,
==40,
∴40=-2×10+,∴=60.
答案:60
6.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到的回归直线方程y︿=bx+a,那么下面说法不正确的是________.
①直线y︿=bx+a必经过点(x,y);
②直线y︿=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点;
③直线y︿=bx+a的斜率为;
④直线y︿=bx+a与各点(x1,y1),(x2,y2),…,(xn,yn)的总偏差[yi-(bxi+a)]2是该坐标平面上所有直线与这些点的偏差中最小的直线.
解析:回归直线一定过点(x,y),但不一定要过样本点.
答案:②
7.某医院用光电比色计检查尿汞时,得尿汞含量(毫克/升)与消光系数如下表:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
(1)作散点图;
(2)如果y与x之间具有线性相关关系,求回归线直线方程;
(3)估计尿汞含量为9毫克/升时消光系数.
解析:(1)见下图.
(2)由散点图可知y与x线性相关.设回归直线方程y︿=bx+a,列表:
i
1
2
3
4
5
xi
2
4
6
8
10
yi
64
138
205
285
360
xiyi
128
552
1 230
2 280
3 600
x=6,y=210.4,
xi2=220,xiyi=7 790
∴b===36.95.
∴a=210.4-36.95×6=-11.3.
∴回归方程为y︿=36.95x-11.3.
(3)当x=9时,y︿=36.95×9-11.3=321.25≈321.
即估计原汞含量为9毫克/升时消光系数约为321.
8.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.
解析:儿子和父亲的身高列表如下:
父亲身高
173
170
176
儿子身高
170
176
182
设回归直线方程=a+bx,由表中的三组数据可求得b=1,故a=y-bx=176-173=3,故回归直线方程为=3+x,将x=182代入得孙子的身高为185 cm.
答案:185
9.某车间生产一种玩具,为了要确定加工玩具所需要的时间,进行了10次实验,数据如下:
玩具个数
2
4
6
8
10
12
14
16
18
20
加工时间
4
7
12
15
21
25
27
31
37
41
若回归方程的斜率是b,则它的截距是________.
解析:∵a=-b,而由表中数据可求得=11,=22,∴a=22-11b.
答案:22-11b
10.炼钢是一个氧化降碳的一个过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系,如果已测的炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一组数据如下表所示:
x(0.01%)
104
180
190
177
147
134
150
191
204
121
y(min)
100
200
210
185
155
135
170
205
235
125
(1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗?
(2)若x与y线性相关,求回归直线方程:
(3)预测当钢水含碳量为160(0.01%)时,应冶炼多少分钟?
解析:(1)以x轴表示含碳量,y轴表示冶炼时间,可作数点图如图所示.
从图中可以看出,各点散布在一条直线附近,即x与y线性相关.
(2)设所求回归直线方程为=bx+a.∵=159.8,=172,xiyi=287 640. xi2=265 448, ∵b=≈1.267,a=-b≈-30.47.故所求的回归直线方程为=1.267x-30.47.
(3)当x=160时,=1.267×160-30.47=172.25≈173.即大约要冶炼173分钟.
11.1971年至1980年,某城市居民的年收入金额与皮鞋销售额如下表:
年度
年收入x/亿元
皮鞋销售额y/万元
1971
32.2
25.0
1972
31.1
30.0
1973
32.9
34.0
1974
35.8
37.0
1975
37.1
39.0
1976
38.0
41.0
1977
39.0
42.0
1978
43.0
44.0
1979
44.6
48.0
1980
46.0
51.0
求y对x的回归直线方程.
解析:
序号
x
y
x2
xy
1
32.2
25
1 036.84
805.0
2
31.1
30
967.21
933.0
3
32.9
34
1 082.41
1 118.6
4
35.8
37
1 281.64
1 324.6
5
37.1
39
1 376.41
1 446.9
6
38.0
41
1 444.00
1 558.0
7
39.0
42
1 521.00
1 638.0
8
43.0
44
1 849.00
1 892.0
9
44.6
48
1 989.16
2 140.8
10
46.0
51
2 116.00
2 346.0
Σ
379.7
391
14 663.67
15 202.9
b=
=
≈1.447.
a=y-bx=39.1-1.447×37.97≈-15.842 6.
所以y对x的回归直线方程为:y︿=1.45x-15.84.
12.某5名学生的数学和化学成绩如下表:
学生
学科
A
B
C
D
E
数学成绩/x
88
76
73
66
63
化学成绩/y
78
65
71
64
61
(1)画出散点图;
(2)求化学成绩(y)对数学成绩(x)的回归直线方程.
解析:(1)散点图为:
(2)
序号
x
y
x2
xy
1
88
78
7 744
6 864
2
76
65
5 776
4 940
3
73
71
5 329
5 183
4
66
64
4 356
4 224
5
63
61
3 969
3 843
Σ
366
339
27 174
25 054
b==≈0.624 869,
a=y-bx=67.8-0.624 869×73.2≈22.059 6.
所以y对x的回归直线方程为y︿=0.62x+22.06.
13.某城市预测2010年到2014年人口总数与年份的关系如下表所示:
年份201x(年)
0
1
2
3
4
人口总数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=bx+a;
(3)据此估计2015年该城市人口的总数.
(参考数据:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30)
解析:(1)据表画出数据的散点图如下图所示.
(2)由表可知=(0+1+2+3+4)=2,=(5+7+8+11+19)=10.
∴b=
a=-b=36
14.在某种产品表面进行腐蚀性试验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:
时间t/s
5
10
15
20
30
40
50
60
70
90
120
深度y/μm
6
10
10
13
16
17
19
23
25
29
46
(1)画出散点图;
(2)试求腐蚀深度y与时间t的回归直线方程.
解析:(1)如下图
,
(2)经计算可得
t≈46.36,y≈19.45,=36 750,=13 910.
b=
=
≈0.3.
a=y-bt=19.45-0.3×46.36≈5.542.
故所求的回归直线方程为y︿=0.3t+5.542.
数学·必修3(苏教版)
某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体状况,从他们中抽取容量为36的样本,最适合抽取样本的方法是________.
解析:总体人数为28+54+81=163(人),样本容量为36.若按36∶163取样,无法得到整数解.故考虑先剔除1人,抽样比变为36∶162=2∶9,则中年人取54×=12(人);青年人取81×=18(人);先从老年人中剔除1人,老年人取27×=6(人).这样组成容量为36的样本.
答案:先从老年人中剔除1人,再用分层抽样
规律总结:根据简单随机抽样、系统抽样、分层抽样三种抽样方法的共同点、适用范围和各自特点,恰当选取抽样方法.在抽取样本时,要按照各种抽样方法的步骤进行.三种抽样方法的比较见下表:
类别
共同点
相互联系
适用范围
各自特点
简单随机抽样
(1)抽样过程中每个个体被抽到的机会相等(2)抽样过程都是不放回抽样
总体中的个数较少
从总体中逐个抽取
系统抽样
在起始部分抽样时采用简单随机抽样
总体中的个数较多
将总体均分成几部分,按事先确定的规则在各部分抽取
分层抽样
每层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
将总体分成几层,分层进行抽取
?变式训练
1.为调查小区平均每户居民的月用水量,下面是3名学生设计的方案:
学生甲:我把这个用水量调查表放在互联网上,只要登录网站的人就可以看到这张表,他们填的表可以很快地反馈到我的电脑中,这样就可以很快估算出小区平均每户居民的月用水量;
学生乙:我给我们小区居民的每一个住户发一张用水调查表,只要一两天就可以统计出小区平均每户居民的月用水量;
学生丙:我在小区的电话号码本上随机地选出一定数量的电话号码,然后逐个给这些住户打电话,问一下他们的月用水量,然后就可以估算出小区平均每户居民的月用水量.
请你分析上述3名学生设计的调查方案能够准确地获得小区平均每户居民的月用水量吗?为什么?你有何建议?
解析:学生甲的方案得到的样本不能够反映不上网的居民的月用水量情况,其所得到的样本代表性差,不能很准确地获得小区平均每户居民的月用水量;
学生乙的方案实际上是普查,花费的人力、物力、时间更多一些,但是如果统计过程不出错,可以准确地得到小区平均每户居民的月用水量;
学生丙的方案是一种随机抽样法,在所在小区的每户居民都装有电话的前提下,建议采用随机抽样法获得数据,即用学生丙的方案,既节省人力、物力、时间,又可以得到比较精确的结果.
有1个容量为100的样本,数据的分组及各组的频数如下:
[12.5,15.5)6,[15.5,18.5)16,[18.5,21.5)18,[21.5,24.5)22,[24.5,27.5)20,[27.5,30.5)10,[30.5,33.5]8.
(1)列出样本的频率分布表(含累计频率);
(2)画出频率分布直方图和累积频率分布图;
(3)根据累积频率分布估计小于30的数据约占多大百分比.
分析:按照画频率分布直方图的要求操作.
解析:(1)样本的频率分布表如下:
分组
频数
频率
累计频率
12.5~15.5
6
0.06
0.06
15.5~18.5
16
0.16
0.22
18.5~21.5
18
0.18
0.40
21.5~24.5
22
0.22
0.62
24.5~27.5
20
0.20
0.82
27.5~30.5
10
0.10
0.92
30.5~33.5
8
0.08
1.00
合计
100
1.00
(2)频率分布直方图如图(1)所示,累积频率分布图如图(2)所示.
(3)在累积频率分布图中找到横坐标为30的点,然后量出这个点的纵坐标约为0.90,这说明小于30的数据约占90%.
规律总结:(1)频率分布表列出的是各个区间内取值的频率;
(2)频率分布直方图是用矩形的面积的大小来表示各个区间内取值的机会的,可直观地看出在各个区间内机会的差异.
用样本估计总体一般分两种:一种是用样本的频率分布估计总体的分布,另一种是用样本的数字特征(如平均数、方差等)估计总体的数字特征.
用样本频率分布估计总体的分布就是利用样本的频率分布表和频率分布直方图对总体情况做出估计,有时也利用频率分布折线图和茎叶图对总体估计.直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到分布表中看不清楚的数据模式,这样根据样本的频率分布我们可以大致估计出总体的分布,但是,当总体的个体数较多时,所需抽样的样本容量也不能太小,随着样本容量的增加,频率分布折线图会越来越接近于一条光滑曲线,统计中称这条曲线为总体密度曲线,它能给我们提供更加精细的信息.在样本数据较少时,用茎叶图表示;数据的效果较好,它不但可以保留所有信息,而且可以随时记录,这给数据的记录和表示都能带来方便.
?变式训练
2.李老师为了分析期中数学考试情况,从全级1 500人中抽了50人,将分数分为5组,第一组到第三组的频数分别是10,23,11,第四组的频率是0.08,那么落在第五组90~100分的频数是多少?频率是多少?全级学生分数在90~100分的大约有多少人?
解析:第四组的频数为0.08×50=4,则第五组的频数为50-10-23-11-4=2,频率为=0.04,故全级分数在90~100的约有0.04×1 500=60(人).
甲、乙两种冬小麦试验品种连续5年的平均单位面积产量如下(单位:t/hm2):
品种
第1年
第2年
第3年
第4年
第5年
甲
9.8
9.9
10.1
10
10.2
乙
9.4
10.3
10.8
9.7
9.8
试根据这组数据估计哪一种小麦品种的产量比较稳定.
分析:与样本的稳定和波动有关的数字特征是方差.只需计算方差即可.
解析:甲品种的样本平均数为10,样本方差为
[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02,
乙品种的样本平均数也为10,样本方差为
[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]÷5=0.24>0.02.
所以,由这组数据可以认为甲种小麦的产量比较稳定.
规律总结:用样本数字特征估计总体的数字特征就是为了从整体上更好地把握总体的规律,我们还可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征做出估计.众数就是样本数据中出现最多的那个值;中位数就是把样本数据分成相同数目的两部分,其中一部分比这个数小,另一部分比这个数大的那个数;平均数就是所有样本数据的平均值;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式如下:
s=.
有时也用标准差的平方s2——方差来代替标准差,实质一样.
?
变式训练
3.在一次歌手大奖赛上,七位评委为歌手打出的分数如下:9.4,8.4,9.4,9.9,9.6,9.4,9.7.现去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为________,________.
解析:最高分是9.9,最低分是8.4,去掉后的数据为9.4,9.4,9.6,9.4,9.7,它们的平均数是:x==9.5,
方差为:s2=+
=0.016.
在10年期间,一城市居民的年收入与某种商品的销售额之间的关系有如下数据:
第n年
1
2
3
4
5
6
7
8
9
10
城市居民年收入x/亿元
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
某商品销售额y/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
(1)画出散点图;
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.
分析:两个随机变量是否具有线性相关关系有两种方法判断:一是从散点图中直观地看;二是看相关系数r=,目前以第一种方法进行判断.
解析:(1)散点图如下图:
(2)由(1)知城市居民的年收入与该商品的销售额之间存在着显著的线性相关关系.列表:
I
1
2
3
4
5
6
7
8
9
10
xi
32.3
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
yi
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
xiyi
805
933
1 118.6
1 324.6
1 446.9
1 558
1 638
1 892
2 140.8
2 346
x=37.97,y=39.1,
x=14 663.67,xiyi=15 202.9
通过计算得:
b==
=≈1.447,
a=y-bx=39.1-1.447×37.97≈-15.843,
因此所求的回归直线方程是
y︿=1.447x-15.843.
规律总结:(1)分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出回归直线方程.把样本数据表示的点在直角坐标系中作出,构成的图叫散点图.从散点图上,我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线方程叫做回归直线方程.
(2)求回归直线方程的方法及步骤.
①“表格”法的步骤:
a.先把数据制成表,从表中计算出,;
b.计算回归系数a,b.公式为:
c.写出回归直线方程y︿=bx+a.
②利用工作表软件求法的步骤:调状态→输入数据→按键得结果→写出所得方程.
(3)画样本频率分布直方图的步骤:求极差→决定组距与组数→分组→列频率分布表→画频率分布直方图.
?变式训练
4.为了研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,得如下数据:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)画出散点图;
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的线性回归方程.
解析:(1)画出散点图如下:
(2)从散点图可知,两个变量之间有线性相关关系.
此题中,n=6,计算可得
xi=105,xi2=2 275,yi=56.92,
xiyi=1 076.2,从而得x=17.5,y=9.487,
计算得b=0.183,a=6.285.
于是得到线性回归方程y︿=6.285+0.183x.
5.一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转速度而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)画散点图;
(2)如果y对x有线性相关关系,求回归方程;
(3)若实际生产中,允许每小时生产的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内(保留1位小数)?
解析:(1)散点图如下图所示:
(2)由散点图可知,两变量之间具有线性相关关系,列表,计算:
i
1
2
3
4
xi
16
14
12
8
yi
11
9
8
5
xiyi
176
126
96
40
xi2
256
196
144
64
=12.5,=8.25,=660,xiyi=438
设所求回归方程为=bx+a,则由上表可得
b====,a=-b=8.25-×12.5=-,
∴回归方程为=x-.
(3)由y≤10得x-≤10,解得x≤14.9,所以机器的运转速度应控制在14.9转/秒内.