《成对数据的统计分析》单元测试(二)
一、选择题
1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( )
A.频率分布直方图
B.回归分析
C.独立性检验
D.用样本估计总体
2.对相关系数r来说,下列说法正确的是( )
A.≤1,越接近0,相关程度越大;越接近1,相关程度越小
B.≥1,越接近1,相关程度越大;越大,相关程度越小
C.≤1,越接近1,相关程度越大;越接近0,相关程度越小
D.≥1,越接近1,相关程度越小;越大,相关程度越大
3.对有线性相关关系的两个变量建立的回归直线方程中,回归系数( )
A.不能小于0
B.不能大于0
C.不能等于0
D.只能小于0
4.若回归直线的斜率,则相关系数r的取值范围为( )
A.(0,1]
B.[-1,0)
C.0
D.无法确定
5.下列关于的说法正确的是( )
A.在任何相互独立问题中都可以用来检验有关还是无关
B.的值越大,两个事件的相关性就越大
C.是用来判断两个分类变量是否有关系的,只对于两个分类变量适合
D.的观测值k的计算公式为=
6. 两个变量x与y的回归模型中,分别选择了四个不同模型来拟合y与x之间的关系,它们的决定系数如下,其中拟合效果最好的模型是( )
模型 1 2 3 4
0.98 0.80 0.50 0.25
A.模型1
B.模型2
C.模型3
D.模型4
7.某同学参加社会实践活动,随机调查了某小区5个家庭的年可支配收入x(单位:万元)与年家庭消费y(单位:万元)的数据,制作出如下表格.
x/万元 2.7 2.8 3.1 3.5 3.9
y/万元 1.4 1.5 1.6 1.8 2.2
由表中数据得回归直线方程为,则下列结论中正确的是( )
A.某户年可支配收入为4万元时,年家庭消费约为2.3万元
B.某户年可支配收入为4万元时,年家庭消费约为2.1万元
C.若年可支配收入每增加1万元,则年家庭消费相应平均增加0.5万元
D.若年可支配收入每增加1万元,则年家庭消费相应平均增加0.1万元
8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据.
作文成绩优秀 作文成绩一般 总计
课外阅读量较大 22 10 32
课外阅读量一般 8 20 28
总计 30 30 60
由以上数据,计算得到≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀无关
9.为了解某社区居民的家庭年收入年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表.
收入x(万元) 8.2 8.6 10.0 11.3 11.9
收入y(万元) 6.2 7.5 8.0 8.5 9.8
根据上表可得经验回归方程,其中,,据此估计,该社区一户收入为15万元时,家庭年支出为( )
A.11.4万元
B.11.8万元
C.12.0万元
D.12.2万元
10.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其经验回归直线为.已知.该班某学生的脚长为24,据此估计其身高为( )
A.160
B.163
C.166
D.170
11.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据,用最小二乘法建立的回归方程为,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
12.(2020·全国卷I)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图.
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.
B.
C.
D.
二、填空题
13.设有一个回归方程为,则变量x每增加1个单位时,y平均减少________个单位.
14.若对甲、乙、丙3组不同的数据作线性相关性检验,得到这3组数据的线性相关系数依次为0.83,0.72,-0.90,则线性相关程度最强的一组是________.
15.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数的图像附近,令u=lny,则可通过转换得到的线性回归方程为________.
16.某高校“统计专业”课程的教师随机调查了选该课的一些学生情况,具体数据如下表.
性别 非统计专业 统计专业
男 13 10
女 7 20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到随机变量.
.
因此,判定主修统计专业与性别有关系,那么这种判断出错的概率不超过________.
三、解答题
17.(2019·全国卷I)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)根据小概率值α=0.05的独立性检验,认为男、女顾客对该商场服务的评价有差异?
附:.
0.050 0.010 0.001
3.841 6.635 10.828
18.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y(单位:万件)的统计表:
月份t 1 2 3 4 5 6 7
销售量y(万件)
但其中数据污损不清,经查证.
(1)请用相关系数说明销售量y与月份代码t有很强的线性相关关系;
(2)求y关于t的经验回归方程(系数精确到0.01);
(3)公司经营期间的广告宣传费(单位:万元),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由.(毛利润等于销售金额减去广告宣传费)
参考公式及数据:,相关系数,当时认为两个变
量有很强的线性相关关系,经验回归方程中斜率和截距的最小二乘估计公式分别为:
.
19.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2022年我国生活垃圾无害化处理量.
附注:
参考数据:
参考公式:相关系数.
回归方程中斜率和截距的最小二乘估计公式分别为:.
20.(2020·全国卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数.
21.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天)
空气质量等级/锻炼人次 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的列联表,根据小概率值α=0.05的独立性检验,是否认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次400 人次>400
空气质量好
空气质量不好
附:.
0.050 0.010 0.001
3.841 6.635 10.828
22.进入12月以来,某地区为了防止出现重污染天气,坚持保民生、保蓝天,严格落实机动车限行等一系列“管控令”,该地区交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了220名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的2×2列联表.
赞同限行 不赞同限行 合计
没有私家车 90 20 110
有私家车 70 40 110
合计 160 60 220
(1)根据上面的列联表及小概念值α=0.001的独立性检验,是否认为“赞同限行与是否拥有私家车”有关;
(2)为了解限行之后是否对交通拥堵、环境污染起到改善作用,从上述调查的不赞同限行的人员中按分层抽样抽取6人,再从这6人中随机抽出2名进行电话回访,求抽到的2人中至少有1名“没有私家车”人员的概率.
附:.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
答案解析
一、选择题
1.答案:C
解析:根据题意,结合题目中的数据,列出2×2列联表,求出观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.
2.答案:C
解析:.用相关系数r可以衡量两个变量之间的相关关系的强弱,r的绝对值越接近于1,表示两个变量的线性相关性越强,r的绝对值接近于0时,表示两个变量之间几乎不存在相关关系,故“对于相关系数r来说,≤1,越接近1,相关程度越大;越接近0,相关程度越小”.
3.答案:C
解析:当时,这时不具有线性相关关系,但能大于0,也能小于0.
4.答案:A
解析:由相关系数与回归直线的斜率之间的关系可知相关系数的取值范围是05.答案:C
解析:是用来判断两个分类变量是否有关的,故A错;的值越大,只能说明有更大地把握认为二者有关系,却不能判断相关性的大小,B错;D中应为.
6.答案:A
解析:两个变量y与x的回归模型中,它们的相关指数越接近于1,这个模型的拟合效果越好,所给的四个选项中0.98是相关指数最大的值,模型1拟合效果最好.
7.答案:BC
解析:,
.
由经验回归直线经过点,得,解得.
∴y关于x的经验回归方程为.某户年可支配收入为4万元时,年家庭消费约为0.5×4+0.1=2.1(元),∴B正确,A不正确;若年可支配收入每增加1万元,则年家庭消费相应平均增加0.5万元,∴C正确,D不正确.
8.答案:D
解析:根据临界值表9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
9.答案:B
解析:由已知得(万元),(万元),
故a=8-0.76×10=0.4,所以回归直线方程为,当社区一户收入为15万元时家庭年支出为(万元).
10.答案:C
解析:因为,所以.
11.答案:D
解析:由回归方程为y=0.85x-85.71知y随x的增大而增大,所以y与x具有正的线性相关关系,由最小二乘法建立的回归方程得过程知.所以回归直线过样本点的中心,利用回归方程可以预测估计总体,所以D不正确.
12.答案:D
解析:由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是.
二、填空题
13.答案:1.5
解析:因为,所以变量x每增加1个单位时,y平均减少1.5个单位.
14.答案:丙
解析:两个变量y与x的回归模型中,它们的相关系数越接近于1,这个模型的两个变量线性相关程度就越强,在甲、乙、丙中,所给的数值中-0.90的绝对值最接近1,所以丙的线性相关程度最强.
15.答案:
解析:
由,得,即,令,则线性回归方程为.
16.答案:0.05
解析:根据>3.841,可判断在犯错误的概率不超过0.05的前提下,认为主修统计专业与性别有关系.故出错的概率不超过0.05.
三、解答题
17.答案:见解析
解析:(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为,50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为.
(2)零假设为:男、女顾客对商场服务的评价无差异.
由列联表可知.
根据小概率α=0.05的独立性检验推断不成立,即认为男、女顾客对该商场服务的评价有差异.
18.答案:见解析
解析:(1)由折线图中的数据和附注中的参考数据得
,
.
,
因为0.99>0.75,所以销售量y与月份代码t有很强的线性相关关系.
(2)由及(1)得.
.
所以y关于t的经验回归方程为
(3)当t=8时,代入回归方程得(万件)
第8个月的毛利润为(万元)
14.372<15,预测第8个月的毛利润不能突破15万元.
19.答案:见解析
解析:(1)由折线图中数据和附注中参考数据得
,
,
.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由及(1)得
,
.
所以,y关于t的回归方程为:.
将2022年对应的t=9代入回归方程得:.
所以预测2022年我国生活垃圾无害化处理量将约1.82亿吨.
20.答案:见解析
解析:(1)样区野生动物平均数为,地块数为200,该地区这种野生动物的估计值为200×60=12000
(2)样本的相关系数为
.
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
21.答案:见解析
解析:(1)由频数分布表可知,该市一天的空气质量等级为1的概率为,等级为2的概率为,等级为4的概率为,等级为4的概率为.
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
.
(3)零假设为:一天中到该公园锻炼的人次与该市当天的空气质量无关.2×2列联表如下.
人次400 人次>400 合计
空气质量好 33 37 10
空气质量不好 22 8 30
合计 55 45 100
.
因此,根据小概率值α=0.05的独立性检验,我们推断不成立,即认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
22.答案:见解析
解析:(1)零假设为:赞同限行与是否拥有私家车有关.根据列联表,计算得
.
根据小概率值α=0.001的独立性检验,我们推断不成立,即认为“赞同限行与是否拥有私家车有关”.
(2)从不赞同限行的人员中按分层抽样法抽取6人,则没有私家车的应抽取2人,有私家车的应抽取4人.随机抽出2人,总的情况数为,至少有1名“没有私家车”人员的情况数为.所以根据古典概型的公式得,所求概率.
3 / 14