专题七 第一讲 统计与统计案例
A组
1.(2017·山东卷,5)为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关^^^^
系.设其回归直线方程为y=bx+a.已知xi=225,yi=1 600,b=4.该班某学生的脚长
i=1
i=1
10
10
为24,据此估计其身高为 ( C )
A.160 C.166
10
B.163 D.170
110
[解析] ∵xi=225,∴x=xi=22.5.
10i=1
i=1110
∵yi=1 600,∴y=yi=160.
10i=1
i=1
^^^
又b=4,∴a=y-bx=160-4×22.5=70. ^
∴回归直线方程为y=4x+70.
^
将x=24代入上式得y=4×24+70=166. 故选C.
2.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为 ( C )
10
A.93 C.137
B.123 D.167
[解析] 由图可知该校女教师的人数为110×70%+150×(1-60%)=77+60=137,故选C.
3.(文)(2017·豫东、豫北十所名校联考)某厂生产A、B、C三种型号的产品,产品数量之比为3∶2∶4,现用分层抽样的方法抽取一个样本容量为180的样本,则样本中B型号
1
的产品的数量为 ( B )
A.20 C.60
B.40 D.80
2
[解析] 由分层抽样的定义知,B型号产品应抽取180×=40件.
3+2+4
(理)(2017·济南模拟)某全日制大学共有学生5600人,其中专科生有1300人,本科生有3000人,研究生1300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本为280人,则应在专科生,本科生与研究生这三类学生中分别抽取 ( A )
A.65人,150人,65人 C.93人,94人,93人 [解析]
B.30人,150人,100人 D.80人,120人,80人
280111
=,1300×=65,3000×=150,故选A. 5600202020
4.(文)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{an}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为 ( A )
A.100 C.150
B.120 D. 200
1
[解析] 设公差为d,则a1+d=2a1,∴a1=d,∴d+2d+3d+4d+5d=1,∴d=,
1511
∴面积最大的一组的频率等于×5=.
153
1
∴小长方形面积最大的一组的频数为300×=100.
3
(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x的值为 ( A )
A.0.01 C.0.03
B.0.02 D.0.04
[解析] 由题设可知(0.005+x+0.012+0.02+0.025+0.028)×10=1,解得x=0.01,选A.
2
5.等差数列x1,x2,x3,…,x9的公差为1,若以上述数据x1,x2,x3,…,x9为样本,则此样本的方差为 ( A )
20A. 3C.60
10B.
3D.30
1222
[解析] 令等差数列为1,2,3…9,则样本的平均值x=5,∴s=[(1-5)+(2-5)
960202
+…+(9-5)]==. 93
6.(文)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 销量y(件)
^
由表中数据,求得线性回归方程为y=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为 ( B )
1A. 61C. 2[解析] x=
4+5+6+7+8+913
=,
62
1
B. 32D. 3
4 90 5 84 6 83 7 80 8 75 9 68 y=
90+84+83+80+75+68
=80,
6
13
∵回归直线过点(,80),∴a=106,
2
21^
∴y=-4x+106,∴点(5,84),(9,68)在回归直线左下方,故所求概率P==.
63(理)关于统计数据的分析,有以下几个结论,其中正确的个数为 ( A )
①利用残差进行回归分析时,若残差点比较均匀地落在宽度较窄的水平带状区域内,则说明线性回归模型的拟合精度较高;
②将一组数据中的每个数据都减去同一个数后,期望与方差均没有变化;
③调查剧院中观众观后感时,从50排(每排人数相同)中任意抽取一排的人进行调查是分层抽样法;
④已知随机变量X服从正态分布N(3,1),且P(2≤X≤4)=0.682 6,则P(X>4)等于0.158 7
3
⑤某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人.为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为15人.
A.2 C.4
B.3 D.5
3507
[解析] ①④正确,②③⑤错误,⑤设样本容量为n,则=,∴n=30,故⑤错.
1500n7.(2017·石家庄质检二)将高三(1)班参加体检的36名学生,编号为:1,2,3,…,36,若采用系统抽样的方法抽取一个容量为4的样本,已知样本中含有编号为6、24、33的学生,则样本中剩余一名学生的编号是__15__.
[解析] 根据系统抽样的特点可知抽取的4名学生的编号依次成等差数列,故剩余一名学生的编号是15.
8.(2017·豫北十校联考)2015年的NBA全明星赛于北京时间2015年2月14日举行,如图是参加此次比赛的甲、乙两名篮球运动员以往几场比赛得分的茎叶图,则甲、乙两人这几场比赛得分的中位数之和是____.
[解析] 应用茎叶图的知识得,甲、乙两人这几场比赛得分的中位数分别为28,36,因此甲、乙两人这几场比赛得分的中位数之和是.
9.(2017·吉林通化月考)某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用x(万元) 销售额y(万元)
^^^^
根据上表可得回归方程y=bx+a中的b为7.据此模型预测广告费用为10万元时销售额为__73.5__万元.
^^^
[解析] 由题表可知,x=4.5,y=35,代入回归方程y=7x+a,得a=3.5,所以回^^
归方程为y=7x+3.5.所以当x=10时,y=7×10+3.5=73.5.
10.班主任为了对本班学生的考试成绩进行分析,决定从全班25位女同学,24位男同学中随机抽取一个容量为8的样本进行分析.若这8位同学的数学、物理分数对应如下表:
学生编号
3 25 4 30 5 40 6 45 1 2 3 4 5 6 7 8 4
数学分数x 物理分数y
60 72 65 77 70 80 75 84 80 88 85 90 90 93 95 95 上表数据表示变量y与x的相关关系.
(1)画出样本的散点图,并说明物理分数y与数学分数x之间是正相关还是负相关; (2)求y与x的线性回归直线方程(系数精确到0.01),并指出某学生数学83分,物理约为多少分(精确到1分)?
参考公式:回归直线的方程是:^y=^bx+^
a,
n x-
i-xy-
i-y^i=1
其中b=
,^a=-y-^b-x.
n x-
2
i-xi=1
88
参考数据:-x=77.5,-y≈85, (x-2--
i-x)=1050, (xi-x)(yi-y)≈688.i=1
i=1
[解析] (1)画样本散点图如下:
由图可知:物理分数y与数学分数x之间是正相关关系.
(2)从散点图中可以看出,这些点分布在一条直线附近,因此以用公式计算得,
8
x-
i-xy-
i-y^
i=1b==6888
1050
≈0.66, x-
2
i-xi=1由-x=77.5,-y≈85,得^a=-y-^b-
x=85-0.66×77.5≈33.85. 所以回归直线方程为^
y=0.66x+33.85. 当x=83时,^
y=0.66×83+33.85=88.63≈. 因此某学生数学83分时,物理约为分.
B组
5
1.(文)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为 ( C )
类别 老年教师 中年教师 青年教师 合计 A.90 C.180
B.100 D.300 人数 900 1 800 1 600 4 300 1 60016
[解析] 由题意,总体中青年教师与老年教师比例为=.设样本中老年教师的人
900932016
数为x,由分层抽样的性质可得总体与样本中青年教师与老年教师的比例相等,即=,
x9解得x=180.故选C.
(理)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集数据如下:
零件数x(个) 加工时间y(min) 设回归方程为y=bx+a,则点(a,b)在直线x+45y-10=0的 ( C ) A.左上方 C.右上方
B.左下方 D.右下方
10 62 20 68 30 75 40 81 50 60 95 70 102 80 108 --
[解析] ∵x=45,y=85,∴a+45b=85,
∴a+45b-10>0,故点(a,b)在直线x+45y-10=0的右上方,故选C.
2.在某次测量中得到的A样本数据如下:42,43,46,52,42,50,若B样本数据恰好是A样本数据每个都减5后所得数据,则A、B两样本的下列数字特征对应相同的是 ( B )
A.平均数 C.众数
B.标准差 D.中位数
[解析] 因为A组数据为:42,43,46,52,42,50
B组数据为:37,38,41,47,37,45.
可知平均数、众数、中位数都发生了变化,比原来A组数据对应量都减小了5,但标准差不发生变化,故选B.
3.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得
6
到如下统计数据表:
收入x(万元) 支出y(万元)
^^^^^^
根据上表可得回归直线方程y=bx+a,其中b=0.76,a=y-bx.据此估计,该社区一户年收入为15万元家庭的年支出为 ( B )
A.11.4万元 C.12.0万元 [解析] 由已知得x=
B.11.8万元 D.12.2万元
8.2+8.6+10.0+11.3+11.9
=10(万元),
5
8.2 6.2 8.6 7.5 10.0 8.0 11.3 8.5 11.9 9.8 y=
6.2+7.5+8.0+8.5+9.8
=8(万元),
5
^
故a=8-0.76×10=0.4.
^^
所以回归直线方程为y=0.76x+0.4,社区一户年收入为15万元家庭的年支出为y=0.76×15+0.4=11.8(万元),故选B.
4.(文)某养兔场引进了一批新品种,严格按照科学配方进行喂养,四个月后管理员称其体重(单位:kg),将有关数据进行整理后分为五组,并绘制频率分布直方图(如图所示).根据标准,体重超过6kg属于超重,低于5kg的不够分量.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25、0.20、0.10、0.05,第二小组的频数为400,则该批兔子的总数和体重正常的频率分别为 ( D )
A.1000,0.50 C.800,0.60
B.800,0.50 D.1000,0.60
400
=0.40
[解析] 第二组的频率为1-0.25-0.20-0.10-0.05=0.40,所以兔子总数为1000只,体重正常的频率为0.40+0.20=0.60.故选D.
(理)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗
7
效的人数为 ( C )
A.6 C.12
B.8 D.18
[解析] 第一、二两组的频率为0.24+0.16=0.4 20
∴志愿者的总人数为=50(人).
0.4第三组的人数为:50×0.36=18(人) 有疗效的人数为18-6=12(人)
5.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:试根据样本估计总体的思想,估计约有__99%__的把握认为“喜爱该节目与否和性别有关”.
喜爱 不喜爱 总计
参考附表:
女 40 20 60 男 20 30 50 总计 60 50 110 P(K2≥k0) k0
(参考公式:K=
2
0.050 3.841 0.010 6.635 0.001 10.828 a+bnad-bc2c+da+cb+d,其中n=a+b+c+d)
[解析] 分析列联表中数据,可得 110×40×30-20×20
k=
60×50×60×50
2
2
≈7.822>6.635,所以有99%的把握认为“喜爱该节目与
否和性别有关”.
6.某种产品的广告费支出x与销售额y之间有如下对应数据(单位:百万元).
8
x y
2 30 4 40 5 60 6 8 70 t ^
根据上表提供的数据,求出y关于x的线性回归方程为y=6.5x+17.5,则表中t的值为__50__.
t----^
[解析] 由题意,x=5,y=40+,且点(x,y)一定在回归直线y=6.5x+17.5上,
5
代入得40+=6.5×5+17.5,解得t=50.
5
7.为加强中学生实践、创新能力和团队精神的培养,促进教育教学改革,郑州市教育局举办了全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解成绩情况,从中选取50名学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表,解答下列问题:
分组 一 二 三 四 60.5~70.5 70.5~80.5 80.5~90.5 90.5~100.5 合计
(1)若用系统抽样的方法抽取50个样本,现将所有学生随机地编号为000,001,002,…,199,试写出第二组第一位学生的编号;
(2)求出a、b、c、d、e的值(直接写出结果),并作出频率分布直方图;
(3)若成绩在85.5~95.5分的学生为二等奖,问参赛学生中获得二等奖的学生约为多少人.
[解析] (1)004
(2)a,b,c,d,e的值分别为13,4,0.30,0.08,1. 频率分布直方图如下:
频数 频率 0.26 ta 15 18 c 0.36 b 50 d e
(3)由样本中成绩在80.5~90.5的频数为18,成绩在90.5~100.5的频数为4,可估计
9
200
成绩在85.5~95.5的人数为11人,故获得二等奖的学生约为×11=44人.
50
8.(2017·全国卷Ⅱ,19)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直
方图如下:
(1)设A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有90%的把握认为箱产量与养殖方法有关;
旧养殖法 新养殖法
箱产量<50 kg 箱产量≥50 kg (3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附: P(K2≥k) k K=
2
0.050 3.841 0.010 6.635 0.001 10.828 a+bnad-bc2c+da+cb+d.
[解析] (1)旧养殖法的箱产量低于50 kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, 因此,事件A的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg 10
旧养殖法 新养殖法 200×62×66-34×38K=
100×100×96×104
2
262 34 ≈15.705.
38 66 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
11