8.1成对数据的统计相关性-【新教材】2020-2021学年人教A版(2019)高中数学选择性必修三练习(Word版含答案)

文档属性

名称 8.1成对数据的统计相关性-【新教材】2020-2021学年人教A版(2019)高中数学选择性必修三练习(Word版含答案)
格式 doc
文件大小 226.4KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2021-04-12 18:56:47

图片预览

文档简介

成对数据的统计相关性练习
一、单选题
下列说法中正确的是
A. 若回归直线方程为y=3?2x,则x与y正相关
B. 利用散点图不能直观地判断两个变量的关系是否可以用线性关系表示
C. 当相关系数r满足|r|大于0.75时,认为两个变量有很强的线性相关性
D. 散点图中点越分散,两个变量的相关性越强
对四组数据进行统计,获得以下散点图,关于其线性相关系数比较,正确的是(????)
A. r2C. r4如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(?10?,?21?),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2,则
A. ?0C. ??1甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得R2与残差平方和m如下表:




R2
0.82
0.78
0.69
0.85
m
106
115
124
103
则试验结果体现A,B两变量有更强的线性相关性的同学是(??? )
A. 甲 B. 乙 C. 丙 D. 丁
对于回归分析,下列说法错误的是(????).
A. 在残差图中,纵坐标表示残差
B. 若散点图中的一组点全部位于直线y=?3x+2的图象上,则相关系数r=1
C. 若残差平方和越小,则相关指数R2越大,
D. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定
对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v,观测数据(ui,vi)(i=1,2,…,10),得散点图(2),由这两个散点图可以判断(????)
A. 变量x与y正相关,u与v正相关 B. 变量x与y正相关,u与v负相关
C. 变量x与y负相关,u与v正相关 D. 变量x与y负相关,u与v负相关
对两个变量y和x进行回归分析,得到一组样本数据(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是(??? )
A. 由样本数据得到的回归方程y=bx+a必过点x,y
B. 残差平方和越小的模型,拟合的效果越好
C. 用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D. 若变量y和x之间的相关系数为r=?0.9362,则变量y和x之间具有线性相关关系
给出下列说法:
①回归直线y=bx+a恒过样本点的中心(x,y),且至少过一个样本点;
②两个变量相关性越强,则相关系数|r|就越接近1;
③将一组数据的每个数据都加一个相同的常数后,方差不变;
④在回归直线方程y=2?0.5x中,当解释变量x增加一个单位时,预报变量y平均减少0.5个单位.
其中说法正确的是(??? )
A. ①②④ B. ②③④ C. ①③④ D. ②④
某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(i=1,2,,20)得到下面的散点图:
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(? ? ? ?)
A. y=a+bx B. y=a+ C. y=a+ D. y=a+bx
在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=4x+1上,则这组样本数据的样本相关系数为(????)
A. 4 B. 0 C. ?1?i D. 1
某网店为增加其商品的销售利润,调查了该商品投入的广告费用x万元与销售利润y万元的统计数据如下表:
x
1
2
4
5
y
4
6
8
10
由表中数据,得回归直线l:y=bx+a.现有以下三个结论:①a>?0;②b?>?0;③l过点3,7.则正确的结论个数为(? ? )
A. 0 B. 1 C. 2 D. 3
有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法正确的是(?? )
A. 残差平方和变小
B. 相关系数r变小
C. 相关指数R2变小
D. 解释变量x与预报变量y的相关性变弱
二、单空题
下列说法:
①线性回归方程y=bx+a必过x,y;
②命题“?x≥1,x2+3≥4”的否定是“?x<1,x2+3<4”
③相关系数r越小,表明两个变量相关性越弱;
④在一个2×2列联表中,由计算得K2=8.079,则有99%的把握认为这两个变量间有关系;
其中正确的说法是__________.(把你认为正确的结论都写在横线上)
本题可参考独立性检验临界值表:
以下三个命题:①若两个变量的线性相关性越强,则它们的相关系数的值越接近于1;
②在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;
③对分类变量Χ与Y的随机变量K2的观测值k来说,k越小,判断“Χ与Y有关系”的把握越大.
其中假命题的序号为________.
在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,?4),(?1,6),则y与x的相关系数为____________.
在60分以上的全体学生中随机抽取8位,若这8位同学的数学、化学分数对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学分数x
60
65
70
75
80
85
90
95
化学分数y
67
72
76
80
84
87
90
92
则变量y与x的样本相关系数为______________.
下列说法:①线性回归方程y=bx+a必经过(x,y);②相关系数r的绝对值越接近1,表明两个变量的线性相关性越强;③标准差越大,表明样本数据越稳定;④相关系数r>0,表明两个变量正相关,r<0,表明两个变量负相关.其中正确的说法是_______.
三、解答题
为了了解空气质量指数(AQI)与参加户外健身运动的人数之间的关系,某校环保小组在暑假期间(60天)进行了一项统计活动:每天记录到体育公园参加户外健身运动的人数,并与当天AQI值(从气象部门获取)构成60组成对数据xi,yii=1,2,…,60,其中xi为当天参加户外健身运动的人数,yi为当天的AQI值,并制作了如下散点图:
连续60天参加健身运动人数与AQI散点图
(1)环保小组准备做y与x的线性回归分析,算得y与x的相关系数为γ≈?0.58,试分析y与x的线性相关关系?
PK2≥k
0.050
0.010
0.001
K
3.841
6.635
10.828
(2)环保小组还发现散点有分区聚集的特点,尝试作聚类分析.用直线x=100与y=100将散点图分成I、Ⅱ、Ⅲ、Ⅳ四个区域(如图),统计得到各区域的点数分别为5、10、10、35,并初步认定“参加户外健身运动的人数不少于100与AQI值不大于100有关联”,试分析该初步认定的犯错率是否小于1%?
附:K2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d)
某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据xi,yii=1,2,…,20,其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=120xi=60,i=120yi=1200,i=120xi?x2=80,i=120yi?y2=9000,i=120xi?xyi?y=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本xi,yii=1,2,…,20的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,2≈1.414.
答案和解析
1.【答案】C
【解答】
解:A选项,因为?2<0,所以x与y负相关,所以A错误;
B选项,利用散点图能直观地判断两个变量的关系是否可以用线性关系表示,所以B错误;
C选项,当相关系数r满足|r|越大,两个变量相关性越强,所以当相关系数r满足|r|大于0.75时,认为两个变量有很强的线性相关性,所以C正确;
D选项,散点图中的点越分散,两个变量的相关性越弱,所以D错误.
2.【答案】B
【解答】
解:当r>0时,两变量是正相关,当r<0时,两变量是负相关,
当r∈[?1,?0.75],两变量负相关很强,当r∈[0.75,1],两变量正相关很强,
当r∈(?0.75,?0.30]或r∈[0.30,0.75),相关性一般,
当r∈[?0.25,0.25],相关性很弱,
由此可得r43.【答案】D
【解答】
解:由图可知变量x,y负相关,
所以r1<0,r2<0,
剔除点(10,21)后,剩下的点的数据更具有线性相关性,r2更接近?1,
所以?1故选D.
4.【答案】D
【解答】
解:在验证两个变量之间的线性相关关系中,相关系数的绝对值越接近于1,相关性越强,
在四个选项中只有丁的相关系数最大,
残差平方和越小,相关性越强,
只有丁的残差平方和最小,
综上可知丁的试验结果体现A、B两变量有更强的线性相关性,
故选D.
5.【答案】B
【解答】
解:由题意得,对于A,在残差图中,纵坐标表示残差,正确;
对于B,若散点图中的一组点全部位于直线y=?3x+2的图象上,
则相关系数r=1,错误,应该是r=?1;
对于C,若残差平方和越小,则相关指数R2越大,正确;
对于D,在回归分析中,变量间的关系若是非确定关系,
那么因变量不能由自变量唯一确定,正确.
故选B.
6.【答案】C
7.【答案】C
【解答】
解:样本中心点在回归直线上,故A正确;
残差平方和越小的模型,拟合效果越好,故B正确;
R2越大,拟合效果越好,故C不正确;
变量?y和?x之间的相关系数?r=?0.9362,表示两个变量具有线性负相关关系,故D正确.
8.【答案】B
【解答】
解:对于?①,回归直线y=bx+a恒过样本点的中心(x,y),可以不过任一个样本点,故?①错误;
对于?②,两个变量相关性越强,则相关系数r的绝对值就越接近于1,故?②正确;
对于?③,将一组数据的每个数据都加一个相同的常数后,由方差的性质可得方差不变,故?③正确;
对于?④,在回归直线方程y=2?0.5x中,当解释变量x每增加一个单位时,预报变量y平均减少0.5个单位,故?④正确;
所以其中说法正确的是②③④,
故选B.
9.【答案】D
【解析】
解:用光滑的曲线把图中各点连接起来,由图象的走向判断,此函数应该是对数函数类型的,
故应该选用的回归方程类型为y=a+bln?x.
10.【答案】D
【解析】解:在一组样本数据的散点图中,所有样本点(xi,yi)(i=1,2,…,n)
都在一条直线y=4x+1上,
那么这组样本数据完全正相关,且相关系数为1.
11.【答案】D
【解答】
解:根据散点图可得该商品投入的广告费用x越大,销售利润y越大,
故②b>0正确?;
根据散点图可得①a>0正确;
因为x=1+2+4+54=3,y=4+6+8+104=7
故③l过点(3,7)正确.?
故选D.
12.【答案】A
【解析】
【解答】
解:从散点图可分析得出:只有D点偏离直线远,去掉D点,变量x与变量y的线性相关性变强,所以相关系数变大,相关指数变大,残差的平方和变小.
故选:A.
13.【答案】①④
【解答】
解:①线性回归方程y=bx+a必过样本中心点x,y,故①正确.
②命题“?x?1,x2+3?4”的否定是“?x?1,x2+3<4”故②错误
③相关系数r绝对值越小,表明两个变量相关性越弱,故③不正确;
④在一个2×2列联表中,由计算得K2=8.079>6.635,则有的把握认为这两个变量间有关系,故④正确.
故答案为①④.
14.【答案】①③
【解答】
解:①线性相关系数r的绝对值越接近于1,两变量的线性相关性越强,但两个变量的线性相关性越强它们的相关系数的值不一定越接近1,也有可能接近?1,故命题错误;
②在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,正确;
③显然错误.
故答案为①③.
15.【答案】?1
16.【答案】0.99
17.【答案】①②④
【解答】
解:对于①:∵线性回归方程必过样本点的中心(x,y),∴①正确;
对于②:线性相关系数r的绝对值越接近1时,两个随机变量线性相关性越强,因此②正确;
对于③:标准差越大,数据的离散程度越大,越不稳定,故③错误;(
对于④:相关系数r>0,表明两个变量正相关,r<0,表明两个变量负相关,故④正确,
综上,正确的说法是①②④
18.【答案】解:(1)γ≈?0.58,y与x的相关关系为负相关,
且γ<0.75,故线性相关性不强,所以不建议继续做线性回归分析,
得到回归方程,拟合效果也会不理想(相关指数R2≈0.3364)
(2)建立2×2列联表如下
人数<100
人数≥100
合计
AQI>100
10
5
15
AQI≤100
10
35
45
合计
20
40
60
代入公式计算得K2=60×(350?50)215×45×20×40=10???
查表知6.635<10<10.828,故犯错率在0.001与0.01之间,所以该初步认定的犯错率小于1%.
19.【答案】解:(1)由题可知,每个样区这种野生动物数量的平均数为120020=60,
所以该地区这种野生动物数量的估计值为60×200=12000.
(2)根据公式得r=i=1n(xi?x)(yi?y)i=1n(xi?x)2i=1n(yi?y)2=80080×9000=432≈0.94,
(3)由题意可知,各地块间植物覆盖面积差异很大,因此在调查时,?为了提高样本的代表性,减小抽样误差,选用分层抽样法更加合理.
动物数量的估计值;
(2)根据相关系数公式计算即可;
(3)由样本数据的特征,可采用系统抽样进行样本统计.