第20章 数据的初步分析
20.1 数据的频数分布
教学目标 1.了解频数、频率和频数分布的意义. 2.能画频数直方图,能初步把数字信息、图形和语言之间相互转化,能根据统计结果做出合理的判断和预测. 3.在具体情境中感受统计图表与现实生活的密切联系,进一步树立数据分析的观念. 教学重难点 重点:制作频数直方图. 难点:决定组距和组数. 教学过程 导入新课 我们已经学习了用哪些方法来描述数据? 条形图;折线图;扇形图. 探究新知 探究一 观察数据,获取新知 问题1 某校学生在假期进行“空气质量情况调查”的课题研究时,他们从当地气象部门提供的今年上半年的资料中,随机抽取了30天的空气综合污染指数,数据如下: 30,77,127,53,98,130,57,153,83,32, 40,85,167,64,184,201,66,38,87,42, 45,90, 45,77,235,45,113,48,92,243. 根据国家环保总局公布的《空气质量级别表》: 空气污染指数0~5051~100101~150151~200201~250251~300大于300空气质量级别Ⅰ级 (优)Ⅱ级(良)Ⅲ级1(轻微污染)Ⅲ级2(轻度污染)Ⅳ级1(中度污染)Ⅳ级2(中度重污染)Ⅴ级(重度污染)
【教师活动】提出问题: 1.说说这30天的空气质量,根据国家公布的级别,各级别各占多大的比率. 2.你能估计该地今年(按365天算)空气质量达到优级别的天数吗? 3.根据上述问题的探究,说说面对大量的数据,如何获得它的整体分布情况? 【学生活动】小组内交流、总结并整理,制作统计表. 1.把数据按上述级别分为0~50,51~100,101~150,151~200,201~250共五个组,进行整理,得下表: 空气污染指数分布表 空气污染指数0~5051~100101~150151~200201~250天数912333
2.该校学生估计该地今年(按365天算)空气质量达到优级别的天数约110天.利用样本估计总体的方法得到数据. 【师生总结】问题1启示我们:面对量大的数据,要想从中获取所需信息,常常先要选择好合适的统计表、图.把相差不大的数据放在一起,进行适当分组(例如,这里按空气质量级别分组),然后统计出落在各个小组内数据的个数,并借助表格将分组结果及各组数据的个数进行整理,这样,便反映出这批数据的分布规律. 【设计意图】通过对“空气质量情况的调查”,了解把数据分组,并研究各组中数据所占多大的百分比,初步感悟“获取一组数据的分布情况”的大致步骤,为研究“直方图”做铺垫. 探究二 制作直方图 下面我们就来通过具体的事例,学习这种分析数据的分布的方法. 问题2 某校体卫组想对该校八年级全体学生一周内平均每天参加课外锻炼的时间(单位:min)有所了解,从中随机抽查了40名学生,结果如下: 40,21,35,24,40,38,23,52,35,62, 36,15,51,45,42,40,32,43,36,34, 53,38,40,39,32,45,40,50,45,40, 50,26,45,40,45,35,40,42,45,40. 为了了解这批数据反映的情况,可以对它进行怎样的分析呢 【教师活动】请同学们同桌两人一组,按以下问题对上述数据进行分组、列表和整理,进而获得整体分布情况. (1)找出该组数据中的最大值与最小值. (2)应当分几组比较合适? (3)数据正好为分点怎么办 (4)如何统计各组中数据的多少 【设计意图】①根据问题1获得的经验,接着解决问题2中的问题,使得课堂环节紧凑、思维严密,利于学生合作探究,获得新知,培养能力; ②得出“频数分布情况”的环节较多,且有一部分环节为主观认定或经验决定,从而有序得出“频数分布表和频数直方图”较为困难,因此提出4个问题,让学生经历探索、思考、合作交流的过程,既使得探究具有针对性,又提高学习的效率. 【学生活动】 (1)计算这批数据中最大数与最小数的差. 这批数据中最大数与最小数的差为62-15=47.由此可知这批数据的变动范围. (2)决定组距和组数. 组距是指每个小组的两个端点间的距离.将这批数据分组.如果每组组距相同,并取组距为8,那么 组数=≈6,即把数据分成6组. (3)决定分点. 将数据按照8 min的组距分组,从15开始,分成15~23,23~31,31~39,39~47,47~55,55~63这6组.这时,我们发现数据23,39正好落在分点上,不好决定它们究竟属于哪一组,为了避免这种情况,一般地把表示分点的数比原数据多取一位小数,并把第一组的起点定为比最小的数据稍小一点的数.如把第一组的起点定为14.5,这样所分的6个组是: 14.5~22.5,22.5~30.5,30.5~38.5, 38.5~46.5,46.5~54.5,54.5~62.5. (4)列频数分布表. 我们把一批数据中落在某个小组内数据的个数称为这个组的频数(absolute frequency).通常用选举时唱票的方法,对落在各个小组内的数据个数进行记录,算出每一个小组的频数,并制成频数分布表(table of frequency distribution).如果一批数据共有n个,而其中某一组数据是m个,那么就是该组数据在这批数据中出现的频率(relative frequency). 40名学生平均每天锻炼时间频数分布表 分组频数统计频数14.5~22.5222.5~30.5330.5~38.5正 正1038.5~46.5正 正 正 1946.5~54.5正554.5~62.51合计40
在编制频数分布表时,关键是分组,即确定分几组,组距是多少.通常要根据问题的需要而定.一般来说,数据越多,分的组数就越多.当数据在100个以内时,可分成5~12组,各组的组距可以相同,也可以彼此不同.分组时,要注意使每个数据只落在一个组内. (5)画频数直方图. 画出相互垂直的两条直线,用横轴表示分组情况,纵轴表示频数,绘出相应的长方形条,就得到了频数直方图.根据前面的“40名学生平均每天锻炼时间频数分布表”绘制的直方图如下所示:
【设计意图】得出一组数据的“频数分布”的过程是本节的难点,教学时明确目的(得出一组数据的分布情况) ,针对性设计4个问题让学生探究、思考;其次,得出一组数据的“频数分布”通常分为5个环节,教学中有序展示给学生;第三,得出一组数据的“频数分布”的环节多,有主观认定或经验决定部分,又有几个数学概念穿插介绍,所以教师要适时介绍、引导. 【教师活动】交流下列问题:
1.根据频数直方图说明这40名学生平均每天参加锻炼的时间是如何分布的? 2.如果该校八年级有500名学生,那么平均每天锻炼时间达30 min以上的人有多少人?
【学生活动】小组交流,总结答案. 1.40名学生平均每天参加锻炼的时间各组的频数依次增大,到第四组达到最大,然后再依次逐渐减少. 2.锻炼时间达30min以上的频数为10+19+5+1=35,频率为35÷40=87.5%,于是可以估计该校八年级平均每天参加课外锻炼达30 min以上的人数为500×87.5%≈438. 注意:用样本的频率估计相应总体的频率,是统计的基本思想. 例题讲解 【例】某校从七年级中任意抽取一个班,该班级学生身高 (单位:cm)的频数分布如表所示: 分组136.5~ 141.5141.5~ 146.5146.5~ 151.5151.5~ 156.5156.5~ 161.5161.5~ 166.5166.5~ 171.5171.5~ 176.5合计频数141015982150
根据所给表回答: (1)身高在161.5 cm以上的学生有多少人?占全班人数的百分之几? 估计该校七年级全体400名新生中,身高在161.5 cm以上的约有多少人
【解】(1)身高在161.5cm以上的学生有 8+2+1=11(人),占全班人数的22%.
(2)全体七年级学生中,身高在161.5 cm以上的人数约为 400×22%=88(人). 【教师活动】巡视学生做题,及时纠正做题中出现的错误. 【学生活动】独立完成解答过程,然后在小组内交流答案. 跟踪训练 为了考察某种大麦穗长的分布情况,在一块试验田里抽取了100个麦穗,量得它们的长度如下表(单位:cm): 列出样本的频数分布表,画出频数分布直方图,从图表中可以得到什么信息? 解:(1)计算最大值和最小值的差. 在样本数据中,最大值是7.4,最小值是4.0, 它们的差7.4-4.0=3.4. (2)决定组距和组数. 最大值与最小值的差是3.4, 如果取组距为0.3 cm, 那么,可以分成12组,组数合适, 于是取组距为0.3,组数为12. 决定分点. 使分点比数据多一位小数,并且把第1小组的起点稍微减小一点, 那么,所分的12个小组可以是: 3.95~4.25,4.25~4.55,4.55~4.85,4.85~5.15,5.15~5.45, 5.45~5.75,5.75~6.05,6.05~6.35,6.35~6.65,6.65~6.95, 6.95~7.25,7.25~7.55. (4)列频数分布表. 对各个小组作频数累计,然后数频数,列出频数分布表如下表所示: 分组频数3.95~4.2514.25~4.5514.55~4.8524.85~5.1555.15~5.45115.45~5.75155.75~6.05286.05~6.35136.35~6.65116.65~6.95106.95~7.2527.25~7.551合计100
(5) 画频数直方图. 【教师活动】指导学生根据频数直方图的作法,先计算最大值和最小值的差,再决定组距和组数,根据组距决定分点,列出分布表,画出分布直方图.巡视学生做题,及时纠正错误. 【学生活动】根据老师的指导,一步步完成,把不明白的问题及时记录,以便在小组内交流. 课堂练习 1.为了解某校学生今年五一期间参加社团活动时间的情况,随机抽查了其中100名学生进行统计,并绘成如图所示的频数分布直方图,已知该校共有1 000名学生.据此估计,该校五一期间参加社团活动时间在8~10小时之间的学生数大约是( ) A.280 B.240 C.300 D.260 2.如图是某班40名学生一分钟跳绳测试成绩(次数为整数)的频数分布直方图,从左起第一、二、三、四个小长方形的高的比为1∶4∶3∶2,那么该班一分钟跳绳次数在100次以上的学生有( ) A.6人 B.8人 C.16人 D.20人 3.某班将安全知识竞赛成绩整理后绘制成直方图,图中从左至右前四组的百分比分别是4%,12%,40%,28%,第五组的频数是8.则下列说法:① 该班有50名同学参赛;② 第五组的百分比为16%;③ 成绩在70~80分的人数最多;④ 80分以上的学生有14名,其中正确的有( ) A.1个 B.2个 C.3个 D.4个 4.在对七年级某班的一次数学测验成绩进行统计分析中,各分数段的人数如图所示(分数取正整数,满分100分),请观察图形,并回答下列问题. (1)该班有 名学生; (2)70~80这一组的频数是 ; (3)请你估算该班这次测验的平均成绩是 . 5.某校七年级共有400名学生,男女生人数大致相同,调查小组为调查学生的体质健康水平,开展了一次调查研究,将下面的过程补全. 收集数据:调查小组选取40名学生的体质健康测试成绩作为样本,数据如下: 77 83 80 64 86 90 75 92 83 81 85 86 88 62 65 86 97 96 82 73 86 84 89 86 92 73 57 77 87 82 91 81 86 71 53 72 90 76 68 78 整理、描述数据: 2019年七年级部分学生的体质健康测试成绩统计表 成绩50≤x<5555≤x<6060≤x<6565≤x<7070≤x<75人数11224成绩75≤x<8080≤x<8585≤x<9090≤x<9595≤x<100人数5ab52
分析数据: (1)写出表中的a,b的值; (2)分析上面的统计图、表,你认为学生的体质健康测试成绩是2018年的好还是2019年的好?说明你的理由.(至少写出两条) (3)体育老师根据2019年的统计数据,安排80分以下的学生进行体育锻炼,那么全年级大约有多少人参加? 参考答案 1.A 解析:由频数分布直方图知样本中参加社团活动时间在8~10小时之间的学生数是100-8-24-30-10=28,占抽查学生的比例为28÷100×100%=28%.采用样本估计总体的方法知该校五一期间参加社团活动时间在8~10小时之间的学生数大约是1 000×28%=280. 2.D 3.C 4.(1)44 (2)16 (3)79 5.解:(1)调查的40人中体质健康测试成绩在80≤x<85之间的有8人,85≤x<90之间的有10人. 答案为a=8,b=10. (2)去年的体质健康测试成绩比今年好.理由:去年较今年低分更少,高分更多,平均分更大. (3)400×=150(人), 答:全年级约有150名同学参加. 课堂小结 1.计算最大值与最小值的差 2.决定组数和组距 制作频数分布直方图 3.决定分点并分组 4.列频数分布表 5.绘制频数直方图 布置作业 教材第111页练习. 板书设计 20.1 数据的频数分布 频数直方图的制作步骤: (1)计算最大值与最小值的差; (2)决定组数和组距; (3)决定分点并分组; (4)列频数分布表; (5)绘制频数直方图.