342 401 322 349 396 320 351 377 336 324 379 343 369 380 389 362 356 369 370 352 375 319 349 398 342 363 359 356 370 364 393 321 354 382 316 350 (1) 用SPSS对以上数据进行适当的分组,编制频率分布表。 (2) 计算出累积频数和累积频率。 (3) 绘制直方图和折线图。 解:(1)、(2)
分组 [285,300) [300,315) [315,330) [330,345) [345,360) [360,375) [375,390) [390,405) (3) 略。
4. 为评价某餐馆服务质量,随机调查了120个顾客对它的评价。评价服务质量的等级分为五种:A. 优;B. 较好;C. 中等;D. 较差;E. 极差。调查结果如下表所示: A D B D B A C B C B B A C A C A C C D C C C B C B B C D D D E C D C C E E C D D B C D B D C C A E E A B E B B D C D B A B E A B D A D C A B B E C A E A A C E C A C E C C D E B B D B E B E D D D D C B C A B D C E C B A E A B C D E A E B C E 频数 1 3 12 7 13 11 8 5 频率分布表 1/60 1/20 1/5 7/60 13/60 11/60 2/15 1/12 向下累积 1 4 16 23 36 47 55 60 向上累积 60 59 56 44 37 24 13 5 (1) 编制频率分布表;
(2) 绘制条形图,找出对该餐馆评价等级的分布。 解:(1) 频率分布表如下:
评价等级 A 频数 19 频率 19/120 B C D E (2) 略
27 32 23 19 9/40 4/15 23/120 19/120 5. 某小学对该校四年级160位学生的数学成绩分组如下: 成绩 所占比例 60分以下 9.1% 60~70 14.4% 70~80 32.2% 80~90 29.3% 90~100 15% (1) 对该校四年级学生的成绩绘制直方图; (2) 根据直方图分析四年级学生的成绩分布特点。 解:(1) 略; (2) 左偏分布。
6. 为了确定灯泡的使用寿命(单位:h),在一批灯泡中随机抽取100只进行测试,所得结果如下: 688 693 692 688 727 706 698 708 701 700 717 697 683 689 708 692 696 729 707 716 696 664 712 683 749 691 666 694 692 728 703 681 733 685 673 747 698 681 690 719 729 721 717 702 651 699 658 695 708 685 704 720 683 741 696 682 674 685 691 709 726 677 707 698 689 698 697 706 722 691 725 679 718 713 736 700 693 661 712 684 699 695 671 676 690 710 710 735 715 705 713 691 701 702 694 722 668 665 706 718 (1) 利用SPSS对上面的数据进行排序;
(2) 以10为组距进行等距分组,构建频率分布表;
(3) 根据分组数据绘制茎叶图和箱线图,说明数据分布的特点。 解:(1) 略; (2) 频率分布表如下: 分组 频数 频率 [650,660) [660,670) [670,680) [680,690) [690,700) [700,710) [710,720) [720,730) [730,740) [740,750) (3) 略。
2 5 6 14 26 18 13 10 3 3 1/50 1/20 3/50 7/50 13/50 9/50 13/100 1/10 3/100 3/100 第三章 数据特征的度量
思考题
1. 数据分布的特征可以从哪些方面进行度量和描述?
(1) 数据集中程度度量的常用方法有均值(算术平均数)、调和平均数、几何平均数、
众数、中位数。
(2) 数据离散程度的测度方法,常用的有极差、内距、标准差及离散系数。
2. 简述中位数、四分位数、十分位数的概念,并举例说明。 中位数是将顺序排列的统计数据从中间分成相等的两部分;
四分位数就是将排序后的数据4等分的三个数值,每部分包含25%的数据,其中中间的四分位数就是中位数,其余两项分别为下四分位数(Q1)和上四分位数(Q3); 十分位数和百分位数分别是将排序后的数据10等分和100等分的数值。
3. 简述众数、中位数和均值的特点和关系。 (1) 关系:
当数据呈对称分布时,均值、中位数、众数必定相等,即有x?Me?Mo; 当数据呈左偏分布时,均值小于中位数且小于众数,即有x?Me?Mo; 当数据呈右偏分布时,均值大于中位数且大于众数,即有x?Me?Mo;
(2) 特点:均值是根据所有数据计算的一般水平代表值,数据信息的提取足够充分,
特别是当用样本信息估计总体特征时,均值就更显示其良好的特征。因而在统计数据分析中均值起着很重要的作用。众数、中位数虽然数据信息利用不够充分,但当数据有极端值出现时,中位数的优势就显现了。
4. 简述内距、极差、标准差的概念,并举例说明。
(1) 内距:又称为四分位数差,是指上四分位数和下四分位数之差,通常用Qd表示; (2) 极差:也称全距,它是一组数据的最大值与最小值之差;
在组距式数列中,极差可以是最高组的上限与最低组下限之差; (3) 标准差:也称均方差,是各数据和均值离差平方平均数的平方根。
5. 什么是离散系数?为什么要计算离散系数?
(1) 常用的离散系数主要有标准差系数,也称均方差系数,它是数据的标准差与其相应
的均值之比;
(2) 原因:总体和样本的离散程度除了受变量值之间的离散程度影响外,还受变量值本身水平高低的影响,因此,在比较不同总体和样本的离散程度时,应消除由于变量值水平不同或计量单位不同带来的影响。在统计分析中,用离散系数来比较不同总体和不同样本的均值的代表性。
6. 简述偏度和峰度的概念。
偏度:偏度是对分布偏斜方向及程度的度量;
峰度:是对数据分布尖峭程度的度量,它可以衡量频数分布的集中程度。
练习题
1. 对某公司28位员工的年龄进行统计,得到数据如下(单位:周岁):
28 29 32 22 23 46 42 23 29 40 26 30 32 37 44 25 42 30 24 43 25 33 33 31 39 27
(1) 计算员工年龄的众数、中位数和平均数; (2) 计算标准差;
(3) 绘制员工年龄的茎叶图,说明员工年龄的分布特征。 解:(1) 众数:25,中位数:30,平均数:x=S28=88728=31.6786; (2) 7.2011; (3) 略。
2. 某地区7月份上半月的气温数据如下(单位:摄氏度):
35 37.5 28 32 37 39 37 36.5 33 35 37 29 27 30 31 (1) 计算该地区7月份上半月气温的众数、中位数和算术平均数; (2) 计算几何平均数; (3) 计算气温的标准差;
(4) 绘制直方图,说明气温分布的特点。 解:(1) 众数:37,中位数:35,算术平均数:x=S15=50415=33.6; (2) 几何平均数:G?1535?37.5?L?31?2.67?1011;
(3) 3.874; (4) 略。
25 27