微专题13 统计与成对数据的统计分析
1.分层随机抽样中的均值与方差
若将总体分为k层,第j层的样本量为nj,样本均值为j,样本方差为s,j=1,2,…,k,记n=j,则总的样本均值和样本方差s2分别为=jj,s2=njs+nj(j-)2].
2.一元线性回归模型
(1)经验回归直线=x+一定过样本点的中心(,).
(2)a,b的最小二乘估计为
(3)决定系数R2=1-越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
3.独立性检验
(1)卡方:χ2=,其中n=a+b+c+d为样本容量.
(2)基于小概率值α的检验规则:
当χ2≥xα时,推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2微点一 统计图表及数字特征的应用
例1 (1)(多选题)给定一组不全相同的样本数据x1,x2,…,xn,关于样本数据2x1-1,2x2-1,…,2xn-1的说法正确的是 ( )
A.与原数据相比,极差一定变大
B.与原数据相比,众数一定变大
C.与原数据相比,平均数一定变大
D.与原数据相比,方差一定变大
(2)(2025·滨州二模)(多选题)据网络平台数据,电影《哪吒之魔童闹海》登顶动画票房榜榜首的亚洲电影.一团队从观看该电影的所有观众中随机抽取10 000人为样本,统计他们的年龄,并绘制如图所示的频率分布直方图,则 ( )
A.a=0.019
B.观众年龄的众数估计为35
C.观众年龄的平均数估计为30.2
D.观众年龄的第70百分位数估计为38
[听课记录]____________________________________________________________
_____________________________________________________________________
利用频率分布直方图估计样本数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数.
(2)平均数:平均数的估计值等于每个小矩形的面积乘矩形底边中点横坐标之和.
训练1 (1)(2025·广东模拟)(多选题)为了丰富学生的课余生活,减轻学生的学习压力,某校提倡师生全民健身,口号为“全民健身,与奥运同行”.该校跳绳社团组织学生校内跳绳比赛,得到10名同学的跳绳数分别为:180,166,190,176,180,200,170,198,160,220(单位:个),则这组样本数据的 ( )
A.极差为60 B.平均数是184
C.方差为400 D.60%分位数是185
(2)(多选题)2020至2024年我国快递业务量及其增长速度如图所示,则 ( )
A.2020至2024年我国快递业务量逐年增长
B.2020至2024年我国快递业务量的中位数是1 106亿件
C.2020至2024年我国快递业务量增长速度的极差是19.4%
D.估计我国2019年的快递业务量大于500亿件
微点二 回归分析
例2 某电商平台统计了近七年小家电的年度广告费支出xi(万元)与年度销售量yi(万台)的数据,如表所示:
年份 2018 2019 2020 2021 2022 2023 2024
广告费 支出x 1 2 4 6 11 13 19
销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
其中iyi=279.4,=708.
(1)若用回归模型拟合y与x的关系,求出y关于x的经验回归方程;
(2)若用y=c+d模型拟合得到的经验回归方程为=1.63+0.99,经计算回归模型及该模型的R2分别为0.75和0.88,请根据R2的数值选择更好的回归模型拟合y与x的关系,进而计算出年度广告费x为何值时,利润=200y-x的预报值最大?
参考公式:
==,=-.
训练2 某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本 号i 1 2 3 4 5 6 7 8 9 10 平均值
根部 横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 a b c 0.07 0.06
材积 量yi 0.25 0.41 0.22 0.54 0.53 0.34 0.35 0.39 0.43 0.44 0.39
其中a,b,c为等差数列,并计算得:iyi=0.146,≈0.044,≈0.303.
(1)求b的值;
(2)若选取前6个样本号对应数据,判断这种树木的根部横截面积与材积量是否具有很强的线性相关性,并求该林区这种树木的根部横截面积与材积量的经验回归方程(若0.25≤|r|≤0.75,则认为两个变量的线性相关性一般;若|r|>0.75,则认为两个变量的线性相关性很强);
(3)根据经验回归方程估计a,c的值(精确到0.01).
附:样本相关系数r=,
经验回归方程=x+中,=.=-.
微点三 独立性检验
例3 (2025·重庆模拟)随机询问80名不同职业的人在购买食品时是否看营养说明,得到如下调查结果:
职业 买食品时是否看营养说明 合计
不看营养说明 看营养说明
从事与医疗相关行业 12 28 40
从事与医疗无关行业 18 22 40
合计 30 50 80
(1)从这80名受访者中随机抽出1人,已知此人在购买食品时要看营养说明,求这名受访者从事与医疗无关行业的概率;
(2)依据小概率值α=0.05的χ2独立性检验,能否推断两个群体在购买食品时是否看营养说明存在差异?
参考公式:χ2=,
χ2独立性检验中常用小概率值和相应临界值:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
独立性检验的一般步骤
(1)根据样本数据列2×2列联表.
(2)提出零假设,根据公式
χ2=,计算χ2的值.
(3)比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.训练3 (2025·河南省名校模拟)某校开设校本课程“剪纸”,为了解学生参加该课程与性别是否有关,用简单随机抽样的方法分别从男生和女生中各抽取了50名学生进行调查,得到如下2×2列联表:
性别 课程 合计
参加“剪纸”课程 不参加“剪纸”课程
男生 10
女生 30 50
合计
(1)补全列联表,并依据小概率值α=0.050的独立性检验,分析参加“剪纸”课程是否与性别有关联;
(2)以样本估计总体,且以频率估计概率,若从该校女生中随机抽取3人,记其中参加“剪纸”课程的人数为X,求X的期望.
附:χ2=,其中n=a+b+c+d.
α 0.050 0.025 0.010
xα 3.841 5.024 6.635
1.(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量 [900, 950) [950, 1 000) [1 000, 1 050) [1 050, 1 100) [1 100, 1 150) [1 150, 1 200]
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是 ( )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
2.(2024·天津高考)下列图中,线性相关系数最大的是 ( )
3.(2023·新课标Ⅰ卷)(多选题)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则 ( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
4.(2021·新课标Ⅰ卷)(多选题)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则 ( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
微专题13 统计与成对数据的统计分析
例1 (1)AD 解析 对于A,若样本数据x1,x2,…,xn中的最小的数为x1,最大的数为xn,则极差为xn-x1,则样本数据2x1-1,2x2-1,…,2xn-1的极差为(2xn-1)-(2x1-1)=2(xn-x1),因为xn-x1>0,所以2(xn-x1)>xn-x1,所以A正确;对于B,若x1,x2,…,xn的众数为x1,则2x1-1,2x2-1,…,2xn-1的众数为2x1-1,若x1=-1,则2x1-1=2×(-1)-1=-3<-1,所以B错误;对于C,若x1,x2,…,xn的平均数为,则2x1-1,2x2-1,…,2xn-1的平均数为2-1,若=0,则2-1=-1<0,所以C错误;对于D,若x1,x2,…,xn的方差为s2=[(x1-)2+(x2-)2+…+(xn-)2],而s2>0,则2x1-1,2x2-1,…,2xn-1的方差为s′2=[(2x1-1-2+1)2+(2x2-1-2+1)2+…+(2xn-1-2+1)2]=4×[(x1-)2+(x2-)2+…+(xn-)2]=4s2>s2,所以D正确.故选AD.
(2)BD 解析 由题意知(0.010+a+0.022+0.025+0.020+0.005)×10=1,解得a=0.018,故A错误;观众年龄的众数估计是=35,故B正确;估计这10 000名观众年龄的平均数为5×0.1+15×0.18+25×0.22+35×0.25+45×0.2+55×0.05=29.2,故C错误;前3组的频率之和为(0.010+0.018+0.022)×10=0.50,前4组的频率之和为0.50+0.025×10=0.75,故第70百分位数位于第4组,设其为t,则(t-30)×0.025+0.50=0.70,解得t=38,即第70百分位数为38,故D正确.故选BD.
训练1 (1)ABD 解析 将这组数据从小到大排序得160,166,170,176,180,180,190,198,200,220,这组数据的极差为220-160=60,故A正确;平均数为×(180+166+190+176+180+200+170+198+160+220)=184,故B正确;方差为×[(180-184)2+(166-184)2+(190-184)2+(176-184)2+(180-184)2+(200-184)2+(170-184)2+(198-184)2+(160-184)2+(220-184)2]=297.6,故C错误;因为10×0.6=6,所以60%分位数为=185,故D正确.故选ABD.
(2)ABD 解析 对于A中,根据统计图表,可得2020至2024年我国快递业务量逐年增长,所以A正确.对于B中,2020至2024年我国快递业务量分别为834,1 083,1 106,1 321,1 605,可得数据的中位数为1 106亿件,所以B正确;对于C中,2020至2024年我国快递业务量增长速度的极差为31.2%-2.1%=29.1%,所以C错误.对于D中,设我国2019年的快递业务量为x亿件,则(1+31.2%)x=834,可得x=>=556>500,所以D正确.故选ABD.
例2 解 (1)由题意可得:==8,==4.2,所以===0.17,=-=4.2-0.17×8=2.84,y关于x的经验回归方程为=0.17x+2.84.
(2)因为0.75<0.88,R2越大拟合效果越好,选用经验回归方程=1.63+0.99更好,=200(1.63+0.99)-x=-x+198+326=-(-99)2+10 127,当=99,即x=9 801时,利润的预报值最大.
训练2 解 (1)由a,b,c为等差数列,得2b=a+c,由表格得该树木根部横截面积的平均值为0.06,可得a+b+c=0.06×10-(0.04+0.06+0.04+0.08+0.08+0.05+0.07)=0.18,故3b=0.18,解得b=0.06.
(2)由已知得=×(0.04+0.06+0.04+0.08+0.08+0.05)≈0.058,=×(0.25+0.41+0.22+0.54+0.53+0.34)≈0.382,样本相关系数r=≈0.98>0.75,故这种树木的根部横截面积与材积量具有很强的线性相关性.所以=≈6.75,=-≈-0.009 5,所以该林区这种树木的根部横截面积与材积量的经验回归方程为=6.75x-0.009 5.
(3)由表格数据可得,根部横截面积为a,c时对应的材积量分别为0.35,0.43,代入经验回归方程分别得0.35=6.75a-0.009 5,0.43=6.75c-0.009 5,解得a≈0.05,c≈0.07.
例3 解 (1)用A表示事件“受访者在购买食品是要看营养说明”,B表示事件“受访者从事医疗无关行业”,“已知此人在购买食品时要看营养说明,求这名受访者从事与医疗无关行业”的概率就是在“在事件A发生的条件下,事件B发生”的概率,记为P(B|A),n(AB)=22,n(A)=50,所以P(B|A)==.
(2)零假设为H0:职业与看营养说明相互独立,即两个群体在购买食品时是否看营养说明无差异,根据表中数据,计算得到χ2===1.920<3.841=x0.05,根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,所以可以认为H0成立,即认为两个群体在购买食品时是否看营养说明无差异.
训练3 解 (1)2×2列联表如下:
性别 课程 合计
参加“剪纸” 课程 不参加“剪纸”课程
男生 10 40 50
女生 20 30 50
合计 30 70 100
零假设为H0:参加“剪纸”课程与性别无关联,则χ2==≈4.762>3.841=x0.050,依据小概率值α=0.050的独立性检验,我们推断H0不成立,即认为参加“剪纸”课程与性别有关联,此推断犯错误的概率不大于0.050.
(2)由表格中的数据知,从女生中抽取1人,其参加“剪纸”课程的概率为P==,X的可能取值为0,1,2,3,且X~B,所以E(X)=3×=.
真题巧用·明技法
1.C 解析 对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;对于B,100块稻田中亩产量低于1 100 kg的稻田所占比例为×100%=66%,故B不正确;对于C,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,故C正确;对于D,100块稻田亩产量的平均值为×(925×6+975×12+1 025×18+1 075×30+1 125×24+1 175×10)=1 067(kg),故D不正确.综上所述,故选C.
2.A 解析 选项A中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集中在一条直线的附近,故选项A中的线性相关系数最大,故选A.
3.BD 解析 取x1=1,x2=x3=x4=x5=2,x6=9,则x2,x3,x4,x5的平均数等于2,标准差为0,x1,x2,…,x6的平均数等于3,标准差为=,故A,C均不正确;根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,由于x1是最小值,x6是最大值,故x2,x3,x4,x5的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x1,x2,…,x6的中位数相等,故B正确;根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.综上,选BD.
4.CD 解析 A项,设=i,则=i=(xi+c)=i+c,所以=+c,因为c≠0,所以≠,所以A选项错误.B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.C项,设s=(xi-)2,s=(yi-)2,所以s=(xi+c--c)2=(xi-)2,所以s=s,所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.D项,设x1专题四 概率与统计
微专题13
统计与成对数据的统计分析
核心整合
核心整合
核心整合
核心整合
解析
解析
解析
方法提炼
解析
解析
解
解
解
样本号i 1 2 3 4 5 6 7 8 9 10 平均值
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 a b c 0.07 0.06
材积量yi 0.25 0.41 0.22 0.54 0.53 0.34 0.35 0.39 0.43 0.44 0.39
解
解
解
解
职业 买食品时是否看营养说明 合计
不看营养说明 看营养说明
从事与医疗相关行业 12 28 40
从事与医疗无关行业 18 22 40
合计 30 50 80
解
解
方法提炼
性别 课程 合计
参加“剪纸”课程 不参加“剪纸”课程
男生 10
女生 30 50
合计
解
解
α 0.050 0.025 0.010
xα 3.841 5.024 6.635
解
亩产量 [900, 950) [950, 1 000) [1 000, 1 050) [1 050, 1 100) [1 100, 1 150) [1 150,
1 200]
频数 6 12 18 30 24 10
解析
解析
解析
解析
解析微练(二十) 统计与成对数据的统计分析
班级: 姓名:
一、单项选择题
1.(2025·南京一模)某项比赛共有10个评委评分,若去掉一个最高分与一个最低分,则与原始数据相比,一定不变的是 ( )
A.极差 B.45百分位数
C.平均数 D.众数
2.(2025·张家口二模)在某次高三模拟考试后,数学老师随机抽取了6名同学第一个解答题的得分情况如下:7,9,5,8,4,1,则这组数据的平均数和极差分别为 ( )
A.,8 B.,8 C.,7 D.,7
3.(2025·广东大湾区二模)一组数据由小到大排列为2,4,5,x,11,14,15,39,41,50,已知该组数据的40%分位数是9.5,则x的值是 ( )
A.6 B.7 C.8 D.9
4.(2025·黑龙江名校协作体一模)如图是某高中学校2 000名男生的身高样本的频率分布直方图,估计该样本数据的53%分位数为 ( )
A.177 B.178 C.179 D.180
5.(2025·福建宁德模拟)由如表所示的变量x,y之间的一组数据,得x,y之间的线性回归方程为=-0.5x+10.5,则 ( )
x 6 8 10 12
y 7 t 5.5 4.5
A.点(8,t)一定在回归直线上
B.x每增加1个单位,y大约增加0.5个单位
C.t=7
D.去掉(12,4.5)这组数据后,求得的回归直线方程斜率将变大
6.商品价格与销量之间往往存在某种关系,以下是某商品价格x(单位:元)与销量y(单位:万件)的调研数据:
商品价格x/(元) 10 15 20 25 30
销量y/(万件) 54 46 40 36 32
则下面四个回归方程中最适宜作为销量y与价格x的回归方程的是 ( )
(参考数据ln 2≈0.7,ln 3≈1.1,ln 5≈1.6)
A.y=-1.4x+70 B.y=-0.7x+60
C.y=100-20ln x D.y=60-3ln x
二、多项选择题
7.(2025·湖南四市二模)有一组样本数据a,b,c,d,其中a>b>c>d,由这组数据得到的新样本数据为a-2,b-2,c+2,d+2,则 ( )
A.两组数据的极差一定相等
B.两组数据的平均数一定相等
C.两组数据的中位数可能相等
D.两组数据的方差不可能相等
8.(2025·汕头二模)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知χ2=,其中n=a+b+c+d,P(χ2≥6.635)=0.01,在被调查者中,下列说法正确的是 ( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人数多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
三、填空题
9.学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出在[40,50]元内的同学有30人,则n的值为________.
10.某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与心率f(单位:次/分钟)的对应数据(Wi,fi)(i=1,2,…,8).根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和(yi-i)2≈0.28,则决定系数R2≈________.(参考公式:决定系数R2=1-)
四、解答题
11.某景区经过提质改造后统计连续5天进入该景区参观的人数(单位:千人)如下:
日期 3月 5日 3月 6日 3月 7日 3月 8日 3月 9日
第x天 1 2 3 4 5
参观人 数y 2.2 2.6 3.1 5.2 6.9
(1)建立y关于x的回归直线方程,预测第10天进入该景区参观的人数;
(2)该景区只开放东门,西门供游客出入,游客从东门,西门进入该景区的概率分别为,,且出景区与进入景区选择相同的门的概率为,出景区与进入景区选择不同的门的概率为.假设游客从东门,西门出入景区互不影响,求甲,乙两名游客都从西门出景区的概率.
附:参考数据:iyi=72,=55,=4.
参考公式:回归直线方程=x+,其中=,=-.
12.(2025·郑州二模)近年来,儿童近视问题日益严重,已成为影响儿童健康的重要问题之一,教育部提出了一系列措施,旨在通过学校、家庭和社会的共同努力,减少儿童近视的发生率.多项研究表明,每天增加户外活动时间可以显著降低儿童近视的发生率.为研究近视是否与户外活动时长有关,某学校数学兴趣小组采用简单随机抽样的方法调查了六年级的100名学生,其中有55名同学的户外活动时间超过2小时;100名同学中近视的学生有60人,这60人中每天户外活动时间不足2小时的有35人.
(1)根据所给数据,得到成对样本数据的分类统计结果,完成以下列联表,依据小概率值α=0.005的χ2独立性检验,分析学生患近视与户外活动时间长短是否有关;
近视人数 未近视人数 合计
户外活动时间不足2小时 35
户外活动时间超过2小时 55
合计 60
(2)用频率估计概率,从已经近视的学生中采用随机抽样的方式选出1名学生,利用“物理+药物”治疗方案对该学生进行治疗.已知“物理+药物”治疗方案的治愈数据如下:在已近视的学生中,对每天户外活动时间超过2小时的学生的治愈率为,对每天户外活动时间不足2小时治愈率为,求近视学生被治愈的概率.
参考公式与数据:χ2=,其中n=a+b+c+d.
α 0.10 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
微练(二十) 统计与
成对数据的统计分析1.B 解析 对A,若每个数据都不相同,则极差一定变化,故A错误;对B,由10×0.45=4.5<5,所以将10个数据从小到大排列,45百分位数为第5个数据,从10个原始评分中去掉1个最高分、1个最低分,得到8个有效评分,8×0.45=3.6<4,所以45百分位数为8个数据从小到大排列后第4个数据,即为原来的第5个数据,故B正确;对C,去掉一个最高分一个最低分,平均数可能变化,故C错误;对D,去掉一个最高分一个最低分,众数可能变化,故D错误.故选B.
2.A 解析 根据题意,这组数据的平均数==,极差为9-1=8.故选A.
3.C 解析 因为10×40%=4,所以该组数据的40%分位数是第4、第5位数的平均数,所以=9.5,解得x=8,故选C.
4.C 解析 由题设(0.01+0.025+0.045)×10=0.8>53%>(0.01+0.025)×10=0.35,所以53%分位数在区间[175,185)内,设为x,则0.35+(x-175)×0.045=0.53,所以x=179.故选C.
5.C 解析 由题意可得=(6+8+10+12)=9,=(7+t+5.5+4.5)=(17+t),因为回归直线方程一定过样本中心点(,),所以(17+t)=-0.5×9+10.5,解得t=7,故C正确;当-0.5×8+10.5=6.5≠7,所以点(8,t)不在回归直线上,故A错误;x每增加1个单位,y大约减少0.5个单位,故B错误;当-0.5×12+10.5=4.5,所以(12,4.5)在回归直线上,故去掉点(12,4.5)不影响回归直线方程,故D错误.故选C.
6.C 解析 对于A,分别代入x=10,30,可得y=56,28,与实际值相差较大,不合题意,故A错误;对于B,分别代入x=10,30,可得y=53,39,与实际值相差较大,不合题意,故B错误;对于C,分别代入x=10,15,20,25,30,求得y的估计值与实际值完全相同,应采用,故C正确;对于D,代入x=10,可得y=60-3ln 10=60-3(ln 2+ln 5)≈53.1,代入x=30,可得y=60-3(ln 2+ln 3+ln 5)≈49.8,数据与实际值相差较大,不合题意,故D错误.故选C.
7.BC 解析 A.假设原样本数据为5,4,2,1,则新样本数据为3,2,4,3,两组数据的极差不相等,错误;B.因为a-2+b-2+c+2+d+2=a+b+c+d,所以两组数据的平均数一定相等,正确;C.由A中的数据可知两组数据的中位数可能相等,正确;D.假设原样本数据为4,3,2,1,则新样本数据为2,1,4,3,这两组数据一样,故方差可能相等,错误.故选BC.
8.BCD 解析 设男生人数为x,则女生人数为x+20,由题得x+x+20=180,解得x=80,即在被调查者中,男、女生人数分别为80,100,可得到如下2×2列联表,
性别 锻炼情况 合计
经常锻炼 不经常锻炼
男 48 32 80
女 40 60 100
合计 88 92 180
由表可知,A显然错误,男生中经常锻炼的人数比女生中经常锻炼的人数多48-40=8,B正确;在经常锻炼者中男生的频率为≈0.545 5,在不经常锻炼者中男生的频率为≈0.347 8,≈1.6,C正确;零假设H0:假期是否经常锻炼与性别无关,则χ2=≈7.115>6.635=x0.01,根据小概率值x=0.01的独立性检验,我们推断H0不成立,即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确,故选BCD.
9.100 解析 由频率分布直方图可得,支出在[40,50]元内的频率为1-(0.01+0.024+0.036)×10=0.3.根据题意得=0.3,解得n=100.
10.-0.3 0.98 解析 将=8,=5代入经验回归方程=x+7.4,得5=8+7.4,解得=-0.3.对f=cWk(c,k为参数)两边同时取对数得,ln f=ln c+kln W,令xi=ln Wi,yi=ln fi,所以k==-0.3.(yi-)2=(y1-)2+(y2-)2+…+(y8-)2=y+y+…+y-2(y1+y2+…+y8)+82=y+y+…+y-2·8+82=-82,所以R2=1-=1-≈1-=0.98.
11.解 (1)依题意,==3,而iyi=72,=55,=4,则===1.2,=4-1.2×3=0.4,因此=1.2x+0.4,当x=10时,=1.2×10+0.4=12.4,所以y关于x的回归直线方程为=1.2x+0.4,第10天进入该景区参观的人数约为12.4千人.
(2)记“甲从西门进入景区”为事件A,“甲从西门出景区”为事件B,“乙从西门出景区”为事件C,P(A)=,P()=,P(B|A)=,P(B|)=,由全概率公式得P(B)=P(B|A)P(A)+P(B|)P()=×+×=,同理P(C)=,所以甲,乙两名游客都从西门出景区的概率P(BC)=P(B)P(C)=.
12.解 (1)列联表如下:
近视人数 未近视人数 合计
户外活动时间不足2小时 35 10 45
户外活动时间超过2小时 25 30 55
合计 60 40 100
零假设为H0:学生患近视与户外活动时间长短无关.
根据列联表中的数据,经计算得到χ2==≈10.774>7.879=x0.005,根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为学生患近视与户外活动时间长短有关联,此推断犯错误的概率不大于0.005.
(2)设事件A=“使用‘物理+药物’治疗方案并且治愈”,事件B1=“该近视同学每天户外活动时间超过2小时”,B2=“该近视同学每天户外活动时间不足2小时”,则P(B1)==,P(B2)==,且P(A|B1)=,P(A|B2)=,则P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)=×+×=,所以该近视学生使用“物理+药物”治疗方案被治愈的概率为.(共34张PPT)
微练(二十) 统计与成
对数据的统计分析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
性别 锻炼情况 合计
经常锻炼 不经常锻炼
男 48 32 80
女 40 60 100
合计 88 92 180
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
解析
1
5
6
7
8
9
10
11
12
2
3
4
日期 3月 5日 3月 6日 3月 7日 3月 8日 3月
9日
第x天 1 2 3 4 5
参观人数y 2.2 2.6 3.1 5.2 6.9
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
解
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
近视人数 未近视人数 合计
户外活动时间不足2小时 35
户外活动时间超过2小时 55
合计 60
解
近视人数 未近视人数 合计
户外活动时间不足2小时 35 10 45
户外活动时间超过2小时 25 30 55
合计 60 40 100
1
5
6
7
8
9
10
11
12
2
3
4
解
1
5
6
7
8
9
10
11
12
2
3
4
1
5
6
7
8
9
10
11
12
2
3
4
α 0.10 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
5
6
7
8
9
10
11
12
2
3
4
解