中小学教育资源及组卷应用平台
高中数学重难点突破
专题十四 统计案例
班级_____ 姓名_____
知识归纳
1.回归分析的相关概念
(1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中,(,)称为样本点的中心.
(3)线性回归模型
线性回归模型为y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
(4)相关系数
r=,当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.
r的绝对值越接近1,表示两个变量的线性相关性越强;r的绝对值越接近0,表示两个变量的线性相关性越弱.通常当r的绝对值大于0.75时,认为两个变量具有很强的线性相关关系.
2.残差的概念
对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
3.刻画回归效果的方式
残差图 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图
残差图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
残差平方和 残差平方和为(yi-i)2,残差平方和越小,模型的拟合效果越好
相关指数R2 ,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示模型的拟合效果越好
4.分类变量及2×2列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
5.等高条形图
(1)等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
6.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2=,其中n=a+b+c+d.
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
在实际应用中,要在获取样本数据之前通过下表确定临界值:
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
典例分析
【例1】(1)对于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的,也可以是负的
C.回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
(2)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
建立的回归模型拟合效果最好的同学是( )
A.甲 B.乙
C.丙 D.丁
【变式1】(1)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能为( )
A.=0.4x+2.3 B.=2x-2.4 C.=-2x+9.5 D.=-0.3x+4.4
(2)已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为( )
x 1 2 3
y 3 5.99 12.01
A.y=3×2x-1; B.y=log2x;
C.y=4x; D.y=x2.
【例2】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图(要求:点要描粗);
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
【变式2】某种产品的广告费用支出x与销售额y(单元:百万元)之间有如下的对应数据:
x/百万元 2 4 5 6 8
y/百万元 30 40 60 50 70
(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为10百万元时的销售额.
【例3】在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不
晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航
程中,男乘客是否比女乘客更容易晕机?
【变式3】某小学在对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系?
解决一般的独立性检验问题的步骤
同步练习
午练(基本概念与基础运算)
1.如图所示的是四张残差图,其中回归模型的拟合效果最好的是( )
2.在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小 C.可能大也可能小 D.以上均错
3.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x/月份 1 2 3 4 5
y/万盒 5 5 6 6 8
若x,y线性相关,线性回归方程为=0.7x+,估计该制药厂6月份生产甲胶囊产量为( )
A.8.0万盒 B.8.1万盒 C.8.9万盒 D.8.6万盒
4.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病 无心脏病
秃发 20 300
不秃发 5 450
根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为( )
A.0.1 B.0.05 C.0.025 D.0.01
5.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差 B.回归分析 C.独立性检验 D.概率
6.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀 作文成绩一般 总计
课外阅读量较大 22 10 32
课外阅读量一般 8 20 28
总计 30 30 60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
课后作业(常考题型与解题技巧)
7.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,i yi=1 849,则y与x的线性回归方程是( )
A.=11.47+2.62x B.=-11.47+2.62x C.=2.62+11.47x D.=11.47-2.62x
8.若某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元 C.10.5亿元 D.9.5亿元
9.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1 y2
x1 10 18
x2 m 26
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9 C.14 D.19
10.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表:
甲 乙 丙 丁
散点图
残差平方和 115 106 124 103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高( )
A.甲 B.乙 C.丙 D.丁
11.为研究女大学生体重和身高的关系,从某大学随机选取8名女大学生,其身高和体重数据如下表:
身高x/cm 165 165 157 170 175 165 155 170
体重y/kg 48 57 50 54 64 61 43 59
利用最小二乘法求得身高预报体重的回归方程为=0.848x-85.632,据此可求得R2≈0.64.下列说法正确的是( )
A.两组变量的相关系数为0.64 B.R2越趋近于1,表示两纽变量的相关关系越强
C.女大学生的身高解释了64%的体重变化 D.女大学生的身高差异有64%是由体重引起的
12.以下关于独立性检验的说法中,错误的是( )
A.独立性检验依赖于小概率原理 B.独立性检验得到的结论一定准确
C.样本不同,独立性检验的结论可能有差异 D.独立性检验不是判断两事物是否相关的唯一方法
13.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是( )
14.分类变量X和Y的列联表如下,则( )
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
15.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
16.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
17.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
18.下表是关于男婴与女婴出生时间调查的列联表:
晚上 白天 总计
男婴 45 A B
女婴 E 35 C
总计 98 D 180
那么,A=________,B=________,C=________,D=________,E=________.
19.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
无效 有效 总计
男性患者 15 35 50
女性患者 6 44 50
总计 21 79 100
设H0:服用此药的效果与患者性别无关,则K2的观测值k≈________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
20.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x/个 2 3 4 5
加工的时间y/小时 2.5 3 4 4.5
(1)在给定的图坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=x+; (3)试预测加工10个零件需要多少时间?
(注:=,=-)
21.对某校小学生进行心理障碍测试得到如下列联表:
有心理障碍 没有心理障碍 总计
女生 10 30
男生 70 80
总计 20 110
将表格填写完整,试说明心理障碍与性别是否有关?
附:
P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828
22.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02) [30.02,30.06) [30.06,30.10) [30.10,30.14)
频数 12 63 86 182 92 61 4
乙厂:
分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02) [30.02,30.06) [30.06,30.10) [30.10,30.14)
频数 29 71 85 159 76 62 18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填写下面的2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”?
甲厂 乙厂 总计
优质品
非优质品
总计
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
HYPERLINK "http://21世纪教育网(www.21cnjy.com)
" 21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
高中数学重难点突破
专题十四 统计案例
班级_____ 姓名_____
知识归纳
1.回归分析的相关概念
(1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中,(,)称为样本点的中心.
(3)线性回归模型
线性回归模型为y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
(4)相关系数
r=,当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.
r的绝对值越接近1,表示两个变量的线性相关性越强;r的绝对值越接近0,表示两个变量的线性相关性越弱.通常当r的绝对值大于0.75时,认为两个变量具有很强的线性相关关系.
2.残差的概念
对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
3.刻画回归效果的方式
残差图 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图
残差图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
残差平方和 残差平方和为(yi-i)2,残差平方和越小,模型的拟合效果越好
相关指数R2 ,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示模型的拟合效果越好
4.分类变量及2×2列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
5.等高条形图
(1)等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
6.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2=,其中n=a+b+c+d.
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
在实际应用中,要在获取样本数据之前通过下表确定临界值:
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
典例分析
【例1】(1)对于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的,也可以是负的
C.回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
(2)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
建立的回归模型拟合效果最好的同学是( )
A.甲 B.乙
C.丙 D.丁
【例1】(1)D
(2)解析:选A 相关指数R2越大,表示回归模型拟合效果越好.
【变式1】(1)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能为( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
(2)已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为( )
x 1 2 3
y 3 5.99 12.01
A.y=3×2x-1; B.y=log2x;
C.y=4x; D.y=x2.
【变式1】(1)解析:选A 依题意知,相应的回归直线的斜率应为正,排除C、D.且直线必过点(3,3.5),代入A、B得A正确.
(2)观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.
【例2】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图(要求:点要描粗);
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
【例2】[解] (1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
===0.7,
=- =4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
【变式2】某种产品的广告费用支出x与销售额y(单元:百万元)之间有如下的对应数据:
x/百万元 2 4 5 6 8
y/百万元 30 40 60 50 70
(1)画出散点图;
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
【变式2】[解](1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i 1 2 3 4 5 合计
xi 2 4 5 6 8 25
yi 30 40 60 50 70 250
xiyi 60 160 300 300 560 1 380
x 4 16 25 36 64 145
所以,==5,==50,=145,eq \i\su(i=1,5,x)iyi=1 380.
于是可得===6.5,
=- =50-6.5×5=17.5.
所以所求的线性回归方程为=6.5x+17.5.
(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
【例3】在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机?
【例3】解 根据题意,列出2×2列联表如下:
晕机 不晕机 合计
男乘客 24 31 55
女乘客 8 26 34
合计 32 57 89
由公式可得
χ2=≈3.689>2.706,
故我们95%的把握认为“在天气恶劣的飞行航程中,男乘客比女乘客更容易晕机”.
【变式3】某小学在对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系?
【变式3】由题目数据列出如下列联表:
多动症 无多动症 总计
男生 98 82 180
女生 2 50 52
总计 100 132 232
由表中数据可得到:
k=≈42.117>10.828.
所以有99.9%的把握认为多动症与性别有关系.
解决一般的独立性检验问题的步骤
同步练习
午练(基本概念与基础运算)
1.如图所示的是四张残差图,其中回归模型的拟合效果最好的是( )
1、B [四张残差图中,只有选项A,B中的残差图是水平带状区域分布,且选项B中的残差点散点分布集中在更狭窄的范围内,所以选项B中回归模型的拟合效果最好.]
2.在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
2、B [∵R2=1-,∴当R2越大时,(yi-i)2越小,即残差平方和越小,故选B.]
3.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x/月份 1 2 3 4 5
y/万盒 5 5 6 6 8
若x,y线性相关,线性回归方程为=0.7x+,估计该制药厂6月份生产甲胶囊产量为( )
A.8.0万盒 B.8.1万盒
C.8.9万盒 D.8.6万盒
3、B [回归直线一定过样本点的中心.由已知数据可得=3,=6,代入线性回归方程,可得=-0.7=3.9,即线性回归方程为=0.7x+3.9.把x=6代入,可近似得=8.1,故选B.]
4.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病 无心脏病
秃发 20 300
不秃发 5 450
根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为( )
A.0.1 B.0.05
C.0.025 D.0.01
4、D [∵P(k>6.635)=0.01,故选D.]
5.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
5、C [判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.]
6.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀 作文成绩一般 总计
课外阅读量较大 22 10 32
课外阅读量一般 8 20 28
总计 30 30 60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
6、D [根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.]
课后作业(常考题型与解题技巧)
7.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,i yi=1 849,则y与x的线性回归方程是( )
A.=11.47+2.62x
B.=-11.47+2.62x
C.=2.62+11.47x
D.=11.47-2.62x
7、A [由题中数据得=6.5,=28.5,
∴===≈2.62,
=-≈28.5-2.62×6.5=11.47,
∴y与x的线性回归方程是=2.62x+11.47,故选A.]
8.若某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
8、C [=0.8×10+2+ei=10+ei,
∵|ei|<0.5,∴9.5<<10.5.]
9.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1 y2
x1 10 18
x2 m 26
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9
C.14 D.19
9、C [由10×26=18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.]
10.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表:
甲 乙 丙 丁
散点图
残差平方和 115 106 124 103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高( )
A.甲 B.乙
C.丙 D.丁
10、D [根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些,故进D.]
11.为研究女大学生体重和身高的关系,从某大学随机选取8名女大学生,其身高和体重数据如下表:
身高x/cm 165 165 157 170 175 165 155 170
体重y/kg 48 57 50 54 64 61 43 59
利用最小二乘法求得身高预报体重的回归方程为=0.848x-85.632,据此可求得R2≈0.64.下列说法正确的是( )
A.两组变量的相关系数为0.64
B.R2越趋近于1,表示两纽变量的相关关系越强
C.女大学生的身高解释了64%的体重变化
D.女大学生的身高差异有64%是由体重引起的
11、C [用最小二乘法求得身高预报体重的回归方程为=0.848x-85.632,据此可求得R2≈0.64,即女大学生的身高解释了64%的体重变化,而随机误差贡献了剩余的36%,故选C.]
12.以下关于独立性检验的说法中,错误的是( )
A.独立性检验依赖于小概率原理
B.独立性检验得到的结论一定准确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判断两事物是否相关的唯一方法
12、B [根据独立性检验的原理可知得到的结论是错误的情况是小概率事件,但并不一定是准确的.]
13.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是( )
13、D [分析四个等高条形图得选项D中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.]
14.分类变量X和Y的列联表如下,则( )
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
14、C [结合独立性检验的思想可知|ad-bc|越大,X与Y的相关性越强,从而(ad-bc)2越大,说明X与Y的相关性越强.]
15.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
15、1 [根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.]
16.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
16、=-10+6.5x [由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+6.5x.]
17.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
17、-0.29 [把x=160代入=0.85x-82.71,
得=0.85×160-82.71=53.29,
所以残差=y-=53-53.29=-0.29.]
18.下表是关于男婴与女婴出生时间调查的列联表:
晚上 白天 总计
男婴 45 A B
女婴 E 35 C
总计 98 D 180
那么,A=________,B=________,C=________,
D=________,E=________.
18、47 92 88 82 53 [由列联表知识得解得
]
19.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
无效 有效 总计
男性患者 15 35 50
女性患者 6 44 50
总计 21 79 100
设H0:服用此药的效果与患者性别无关,则K2的观测值k≈________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
19、4.882 5% [由公式计算得K2的观测值k≈4.882,
∵k>3.841,∴有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.]
20.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x/个 2 3 4 5
加工的时间y/小时 2.5 3 4 4.5
(1)在给定的图坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=x+;
(3)试预测加工10个零件需要多少时间?
(注:=,=-)
20、[解] (1)散点图如图.
(2)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
所以==0.7,
所以=-=1.05.
所以=0.7x+1.05.
(3)将x=10代入线性回归方程,得=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时.
21.对某校小学生进行心理障碍测试得到如下列联表:
有心理障碍 没有心理障碍 总计
女生 10 30
男生 70 80
总计 20 110
将表格填写完整,试说明心理障碍与性别是否有关?
附:
P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828
21、[解] 将列联表补充完整如下:
有心理障碍 没有心理障碍 总计
女生 10 20 30
男生 10 70 80
总计 20 90 110
k=≈6.366>5.024,
所以有97.5%的把握认为心理障碍与性别有关.
22.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02) [30.02,30.06) [30.06,30.10) [30.10,30.14)
频数 12 63 86 182 92 61 4
乙厂:
分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02) [30.02,30.06) [30.06,30.10) [30.10,30.14)
频数 29 71 85 159 76 62 18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填写下面的2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”?
甲厂 乙厂 总计
优质品
非优质品
总计
22、[解] (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)2×2列联表如下:
甲厂 乙厂 总计
优质品 360 320 680
非优质品 140 180 320
总计 500 500 1 000
k=≈7.353>6.635,
所以在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
HYPERLINK "http://21世纪教育网(www.21cnjy.com)
" 21世纪教育网(www.21cnjy.com)