概率与统计
一、统计
1.三种抽样方法的比较
类别 简单随机抽样 系统抽样 共同点 ①抽样过程中每个个体被抽到的可能性相等;②每次抽出个体后特点 从总体中逐个抽 取. 将总体平均分成几部分,按预先系统:在起始相互联系 适用范围 总体个数较少. 总体个数部分取样时,较多. 不再放回,即不 制定的规则在各 采用简单随放回抽样. 部分中抽取1个个体. 分层抽样 将总体分成几机抽样,其余部分等距抽。 分层:各层抽总体由差 异明显的几部分组成. 采用简层,按各层个体 样时,数之比抽取. 单随机抽样或系统抽样(层的容量大时可用系统抽样).
2.常用的统计图表:一“表”(频率分布表);两“图”(频率分布直方图和茎叶图) (1)频率分布直方图 ①小长方形的面积=组距×
频率组距=频率;
②各小长方形的面积之和等于1; ③小长方形的高=
频率组距,所有小长方形的高的和为
1组距.
【注意】直方图的纵轴(小长方形的高)一般是频率除以组距的商(而不是频率),横轴一
般是数据的大小,小长方形的面积表示频率. (2)茎叶图
在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数
数字特征 众数 样本数据 出现次数最多的数据 的横坐标 将数据按大小依次排列,处中位数 在最中间位置的一个数据(或最中间两个数据的平均数) 把频率分布直方图划分成左右两个面积相等的分界线与 x频率分布直方图 取最高的小长方形底边中点 轴交点的横坐标 每个小长方形的面积乘以小平均数 样本数据的算术平均数 长方形底边中点的横坐标之 和 (2)平均数x?方差s?21n(x1?x2?????xn).
2221n[(x1?x)?(x2?x)?????(xn?x)]. 1n标准差s?[(x1?x)?(x2?x)?????(xn?x)].
222【提醒】标准差、方差越大,数据的离散程度越大,越不稳定. 4.变量间的相关关系 知识点分析
?x?a??b?(x叫做解释变量,y叫做预报变量) 1、线性回归方程:y线性回归方程系数公式:
( 公式说明:回归直线过样本的中心点(x,y) ,也就是平均值点.) 2、相关系数公式
3、几个结论:
(1)回归直线过样本的中心点(x,y).
(2)b>0时,y与x正相关,散点图呈上升趋势;b<0时,y与x负相关,散点图呈下降趋势.
(3)斜率b的含义(举例):
如果回归方程为y=2.5x+2, 说明x增加1个单位时,y平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x增加1个单位时,y平均减少2.5个单位. (4)相关系数r表示变量的相关程度。 范围:r?1,即 ?1?r?1
,相关性越强。r?0时,y与x正相关;r?0时,y与x负相关. r越大..
1] (5)相关指数R2表示模型的拟合效果。范围:R?[0,2,拟合效果越好,(这时:残差平方和越小,残差点在带状区域内的分布比较均R越大..匀,带状区域宽度越窄,拟合精度越高).
R表示解释变量x对于预报变量y变化的贡献率。
22例如:R2?0.64,表明“x解释了64%的y变化”,或者说“y的差异有64%是由x引起的”。
(6)线性回归模型 y?bx?a?e, 其中e叫做随机误差。(y是由x和e共同确定的) 二、概率
1.概率的五个基本性质
(1)随机事件A的概率:0≤P(A)≤1. (2)必然事件的概率为1. (3)不可能事件的概率为0.
(4)如果事件A与事件B互斥(不可能同时发生),则P(A?B)?P(A)?P(B). (5)如果事件A与事件B互为对立事件(不会同时发生,但一定有一个发生),那么
P(A?B)?P(A)?P(B)?1,即P(A)?1?P(B).