(共42张PPT)
微专题3 成对数据的统计分析
大题考法1 回归分析及预测
(2025·广东一模)近年来骑行成为热门的户外运动方式之一.某同学近5次骑行期间的身体运动参数评分x与骑行距离y(单位:公里)的数据统计如下表:
身体运动参数评分x 2 4 6 8 10
骑行距离y/公里 38 37 32 33 30
(1)根据上表的样本数据,计算样本相关系数(结果保留两位小数),并推断身体运动参数评分和骑行距离的相关程度.
(3)非线性回归问题的求解关键:①转化:通过取对数、取倒数、平方(开方)等,把非线性经验回归方程转化成线性经验回归方程;②判断:通过计算样本相关系数或决定系数,判断拟合效果.
随着互联网行业与传统行业和实体经济的不断融合,互联网对社会经济发展的推动效果日益显著.某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分调查后,得到下列信息,如图所示(其中x表示开设网店数量,y表示这x个网店的年销售额总和).
(1)经判断,可利用线性回归模型拟合y与x的关系,求y关于x的经验回归方程;
大题考法2 独立性检验
(2025·全国一卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
组别 超声波检查结果 合计
正常 不正常
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
解决独立性检验相关题目的步骤
(1)分析数据:根据条件中提供的数据准确分析数据,绘制2×2列联表,并提出零假设H0.
(2)准确计算:计算χ2的值,确保计算准确.
(3)作出结论:将χ2的值与临界值xα进行对比,当χ2≥xα时,推断H0不成立,即“有关”;当χ2(2025·湛江二模)为了研究观众对某档节目的喜爱情况与性别的关联性,分别调查了该档节目男、女观众各100人,发现共有70名观众喜爱该档节目,且不喜爱该档节目的女性观众数是喜爱该档节目的男性观众数的2倍.
(1)根据题中信息,完成下面列联表;
单位:人
性别 喜爱情况
合计
喜爱 不喜爱
男
女
合计
解:设喜爱该档节目的男性观众数为x,则喜爱该档节目的女性观众数为70-x,不喜爱该档节目的女性观众数为2x,则70-x+2x=100,解得x=30.
故列联表完成如下.
单位:人
性别 喜爱情况 合计
喜爱 不喜爱
男 30 70 100
女 40 60 100
合计 70 130 200
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
大题考法3 成对数据分析与概率统计的综合
某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据图中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表)与成绩的中位数;
【解】 强化训练后的平均成绩约为55×0.04+65×0.16+75×0.2+85×0.32+95×0.28=81.4.
由于0.04+0.16+0.2=0.4,
所以设中位数为80+x,则0.032x=0.1,
解得x=3.125,所以中位数约为83.125.
(2)若规定得分80分(含80分)以上的为“优秀”,低于80分的为“非优秀”.
单位:人
强化训练 成绩
合计
优秀 非优秀
前
后
合计
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
【解】 补充完整的表格为
单位:人
强化训练 成绩 合计
优秀 非优秀
前 40 60 100
后 60 40 100
合计 100 100 200
解决成对数据分析与概率统计的综合问题的策略
(1)从已知数表中获取关键信息,厘清数据及事件之间的关系.
(2)建立适当的数学模型,将问题转化成与各种概型或随机变量的分布、回归分析、独立性检验等相关的问题.
(3)求解数学模型后再回到实际问题.
1.(2025·日照一模)某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和天数x之间的数据,列表如下:
x 1 2 3 4 5
y 75 84 93 98 100
(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和天数x之间的关系?若可用,估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若样本相关系数|r|>0.75,则认为y与x的线性相关程度很强,可以用线性回归模型拟合,r精确到0.01).
2.(2025·淄博一模)为调查某地大型水域的水质情况,设置若干站点检测水质指数(“M指数”),以这些站点所测“M指数”的平均值为依据,播报此大型水域的水质情况.下图是2024年11月份30天内该大型水域“M指数”的频率分布直方图,其中分组区间分别为[12,20),[20,28),[28,36),[36,44),[44,52),[52,60),[60,68),[68,76].
(1)规定:“M指数”不超过50为“优质水源日”,否则称为“非优质水源日”.对该地区50名到此水域郊游的市民进行调查,得到如下列联表:
单位:人
出游 性别 合计
男 女
优质水源日 12 30
非优质水源日 6
合计 50
请完成上述列联表,并根据小概率值α=0.05的独立性检验,能否认为优质水源日出游与性别有关?
解:
单位:人
出游 性别
男 女 合计
优质水源日 12 18 30
非优质水源日 14 6 20
合计 26 24 50
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828