• 教你做会计excel表格 > 用Excel 和SPSS 学习统计学
  • 用Excel 和SPSS 学习统计学

    免费下载 下载该文档 文档格式:PDF   更新时间:2014-09-23   下载次数:0   点击次数:1
    用Excel 和SPSS 学习统计学 前言 随着统计学的发展及其在各个领域的广泛应用, 掌握必要的统计技能早已成为对各类专 业人员的基本要求. 掌握统计软件的使用技能是将统计方法应用于现实问题的基础, 因为大 部分实际问题都会涉及到大量的数据和计算,手工计算简直无法想象. 统计软件的广泛应用使很多原本十分复杂的计算和分析过程变成了点击鼠标就能解决 的简单任务,把使用者从繁琐的计算过程中解放了出来.大部分统计软件都提供了"傻瓜" 式的菜单操作,使用起来十分方便,甚至完全通过自学就可以掌握. 然而,这类软件可能带来的问题是,一方面它们有时候使统计方法变得过于容易,从而 可能导致对统计方法的滥用和误用;另一方面,由于过分信赖软件,许多用户会简单地满足 于软件的输出结果,而对其中的错误不加注意.本书的编写目的就是为各类人员使用 Excel 和SPSS 学习统计学提供一个指南,一方面使他们能够迅速掌握使用 Excel 和SPSS 进行统 计分析的基本操作, 另一方面也试图通过大量的案例使读者在较短的时间内学会正确理解和 处理统计软件的输出结果,避免软件使用中的一些常见错误. 在众多的统计软件中我们选择 Excel 的主要原因是:虽然许多统计学家都不认为 Excel 是一个"统计软件",而且 Excel 在统计计算中也确有一些已知的缺陷,但Excel 的很多统 计功能并不比其他软件逊色.由于几乎所有的人都熟悉 Excel 的基本操作,学习起来非常易 于上手. 选择 SPSS 软件的主要原因是其易用性、 强大的统计功能以及在国内应用的广泛性. 本书的示例是以 Excel 2003 和SPSS 13.0 为基础的,可能不完全适用于其他版本. 本书涵盖了大部分常用的统计方法,包括了基本的数据处理技巧、描述统计、统计图和 统计表、概率计算、参数估计、假设检验、方差分析、回归分析、时间序列分析、统计指数 和统计质量管理等方面的内容. 为了保持内容的完整性, 书中有个别内容可能超出非统计专 业统计学原理课程的要求.这些章节都加了"*",在学习过程中可以选择使用. 本书是作为统计学课程的辅助教材编写的, 因而对涉及的统计学知识一般只做简要的概 括而不作详细解释.本书也不是 Excel 或SPSS 的使用说明书,并假设读者已经掌握了基本 的Windows 和MS Office 的操作知识,对基础的操作以及超出统计学原理范围的功能一般 未作介绍. 感谢我在中央财经大学统计学系的同事多年来对我工作的支持和帮助, 特别是李连友教 授对本书的出版工作所作的努力, 本书是李连友教授主持的统计学重点课程建设项目的成果 之一. 我也要感谢我的学生们给予我的诸多帮助, 本书是几年来在本科生中讲授统计学和统 计软件课程所积累的教学经验和成果的总结,有些案例还来自学生的作业. 由于水平有限,书中难免会有不少不当之处,恳请同行与读者批评指正.任何意见和建 议请发邮件至maobinghuan@sina.com. 毛炳寰 2005 年8月于中央财经大学 目录 第1章绪论.1 1.1 Excel的主要统计功能及其不足.1 1.1.1 Excel分析工具库的安装和调用 1 1.1.2 Excel是一个适当统计软件吗?2 1.2 常用统计软件简介 3 1.3 使用统计软件学习统计学的几点建议 4 1.3.1 我应该选择哪个软件?4 1.3.2 使用统计软件学习统计学的一些建议 4 第2章用Excel和SPSS输入和处理数据 6 2.1 用Excel输入数据.6 2.1.1 数据录入的列表格式 6 2.1.2 用Excel录入数据的基本规则.6 2.1.3 使用Excel的有效性检查防止数据输入中的错误.7 2.1.4 处理多项选择问题 9 2.2 用Excel处理数据.10 2.2.1 用Excel对数据进行排序和筛选.10 2.2.2 用Excel公式和函数生成新的变量.11 2.2.3 用Excel进行其它数据操作.13 2.3 用SPSS输入和处理数据.14 2.3.1 用SPSS输入数据.14 2.3.2 用SPSS读入外部数据.15 2.3.3 用SPSS进行数据的排序、筛选和转置.15 2.3.4 用SPSS函数计算新的变量.17 第3章用Excel和SPSS进行描述统计 19 3.1 用Excel和SPSS计算常用的描述统计指标 20 3.1.1 用Excel计算基本描述统计指标.20 3.1.2 用SPSS计算基本描述统计指标.22 3.1.3 分组资料的描述统计 23 3.2 用Excel和SPSS进行分组汇总 24 3.2.1 Excel的数据透视表 24 3.2.2 用Excel进行组距分组.28 3.2.3 用SPSS进行分组汇总.29 第四章 用Excel和SPSS制作统计图.31 4.1 用Excel和SPSS制作常用统计图 31 4.1.1 制作统计图应该注意的问题 31 4.1.2 用Excel制作常用统计图.31 4.1.3 用SPSS制作常用统计图.34 4.2 描述数据分布状况的统计图 37 4.2.1 用Excel绘制直方图.37 4.2.2 用SPSS绘制直方图.39 4.2.3 用SPSS绘制茎叶图和箱线图.40 4.3* 质量管理中的统计图.42 4.3.1 排列图.42 4.3.2 计量值控制图 43 4.3.3 计数值控制图 47 第5章概率分布与抽样分布 50 5.1 用Excel和SPSS进行概率计算 50 5.1.1 用Excel计算分布的概率或概率密度.50 5.1.2 用Excel计算分布的累积概率.51 5.1.3 用Excel计算累积概率分布的反函数.53 5.1.4 SPSS中的有关函数 53 5.2 抽样分布.53 5.2.1 样本均值抽样分布的随机模拟 54 5.2.2 样本比例抽样分布的随机模拟 55 第6章参数估计与假设检验 58 6.1 使用Excel和SPSS进行参数估计 58 6.1.1 总体均值和比例的区间估计 58 6.1.2 置信区间的随机模拟 60 6.1.3 样本容量的确定 62 6.2 使用Excel和SPSS进行假设检验 62 6.2.1 检验统计量临界值的计算 62 6.2.2 用Excel计算p-值63 6.2.3 使用Excel函数和分析工具库进行假设检验.65 6.2.4 使用SPSS进行假设检验.68 第7章方差分析.70 7.1 用Excel进行方差分析.70 7.1.1 用Excel进行单因素方差分析.70 7.1.2 用Excel进行无重复双因素方差分析.71 7.1.3 用Excel进行有重复双因素方差分析.72 7.2 用SPSS进行方差分析.73 7.2.1* 用SPSS检验数据分布的正态性 73 7.2.2 用SPSS进行单因素方差分析和多重比较.75 7.2.3 用SPSS进行双因素方差分析.77 第8章相关与回归分析 82 8.1 用Excel和SPSS进行相关分析 82 8.1.1 散点图.82 8.1.2 相关系数及其假设检验 82 8.2 用Excel和SPSS进行一元线性回归分析 84 8.2.1 回归模型的参数估计和假设检验 84 8.2.2 利用回归模型进行预测 87 8.3 多元线性回归和非线性回归.89 第9章时间序列分析与统计指数 91 9.1 时间序列的水平和速度分析 91 9.1.1 时间序列的水平和速度分析 91 9.1.2 用Excel求解累计法平均发展速度.92 9.2 时间序列的分解 93 9.2.1 用Excel计算季节指数.94 9.2.2 用Excel分析长期趋势.96 9.2.3 用Excel分析循环变动和不规则变动.97 9.2.4 用SPSS进行时间序列的分解.98 9.3 时间序列的传统预测方法 99 9.3.1 用时间序列分解的方法进行预测 100 9.3.2* 用指数平滑方法进行预测.100 9.3.3 预测结果的评价 102 9.4 统计指数.103 9.4.1 用Excel进行加权指数计算和指数体系分析.103 9.4.2 用Excel进行时间序列的价格调整.104 主要参考文献.107 第1章绪论 1.1 Excel的主要统计功能及其不足 Excel 的基本功能中包括了比较强大的数据处理功能,还提供了丰富的工作表函数,可 以完成很多类型的数据处理和分析任务. 除了工作表函数以外, Excel 还提供了一个称为 "分 析工具库"的加载宏. 1.1.1 Excel分析工具库的安装和调用 安装分析工具库可以采用以下三种方式. 1、在Office的默认安装中分析工具库并没有安装到你的计算机中,第一次使用"分析 工具库"时需要从安装盘安装.操作步骤是:单击"工具"菜单中的"加载宏"命令,在弹 出的"加载宏"对话框中选择"分析工具库",单击"确定"按钮(如图 1-1 所示) ,此时系 统要求插入Office安装盘,安装完成后,在"工具"菜单就多出了一个"数据分析"命令(图1-2)1 . "数据分析"模块提供了对数据进行描述统计、假设检验、相关和回归分析、方差 分析等分析工具.我们在以后的章节中将会逐步讲解这些方法. 图1-1 加载分析工具库的界面 图1-2 加载分析工具库后的菜单 1 在图 1.1 的对话框中是否选中"分析数据库-VBA 函数"对一般用户没有影响,这一模块是供开发人员利 用VBA 进行开发时使用的. 1 2、如果希望在第一次安装 Office 时就安装"分析工具库",则需要在安装 Office 时选 择自定义安装,再选中"选择应用程序的高级自定义"选择框,选择"下一步",会弹出一 个对话框,在Excel 的加载宏中把"分析工具库"的安装方式改为"从本机运行" (图1-3). 图1-3 自定义安装"分析工具库"的界面 3、如果你需要在一台没有安装该模块的电脑上临时使用"分析工具库",也可以采用 以下方法:在安装了"分析工具库"的电脑中找到一个名为"Analysis"的文件夹(一般情 况下路径为"C:\Program Files\Microsoft Office\OFFICE11\Library\Analysis"),把这个文件 夹复制到 U 盘上.需要使用"分析工具库"时双击运行文件夹中的 ANALYS32.XLL 就可以 了(如果系统弹出一个安全警告的对话框,单击"启用宏"). 要卸载分析工具库只需要在图 1-1 中取消选定"分析工具库",否则每次启动 Excel 时 这一模块都会自动加载. 1.1.2 Excel是一个适当统计软件吗? 由于 Excel 应用的普及性,许多人都把它作为最常用的统计软件来使用.Excel 提供的 统计功能包括数据管理、描述统计、概率计算、假设检验、方差分析和回归分析等等,对于 统计学原理所涉及的大部分内容已经足够了.然而,在学习 Excel 的统计功能以前我们有必 要先交待一下 Excel 在统计分析方面的局限性.下面是在网络、杂志和个人经验中发现的一 些值得注意的方面: 1、就统计学原理所涉及的统计方法而言,Excel没有直接提供的方法包括:箱线图 (Boxplot)、茎叶图、相关系数的p-值、无交互作用可重复的双因素方差分析、方差分析 中的多重比较、非参数检验方法、质量控制图等等1 . 2、按照优秀图形的标准,Excel 做出的很多图形都不合格.Excel 的有些图形可能适合 于普通大众,但不适合用于科学报告中.例如二维图形的三维表示,圆柱图,圆锥图等等. Excel 提供的有些图形可能永远不应该使用. 3、Excel不能很好的处理缺失值(Missing data)问题.总体来说Excel对缺失值的处理方式 远不如专门的统计软件恰当. 4、虽然大部分情况下 Excel 的计算结果都是可靠的,但在一些极端情况下 Excel 的计 算程序不够稳定和准确(特别是 Excel2003 以前的版本中);有些自动功能可能会导致意想 不到地结果. 关于这一方面的内容我们在后面的章节中还会提及, 在这里只举两个例子使你 有一点直观的印象. 练习 1: 如果自己计算, 你认为 "-5^2" 等于多少?在Excel 工作表的单元格中输入 "=-5^2" 得到的答案是多少? 1 也有一些第三方编写的 Excel 宏程序可以扩展 Excel 的统计功能, 使Excel 看起来更像一个统计软件. 2 练习 2: 在区域 B1: B3 中分别输入数字 10、 20、 30; 然后在 B5 中输入公式 "=sum(b1:b3)" . 这时 B5 的值等于多少?现在再在 B4 中输入 40,B5 的值有什么变化? 在第一个练习中 Excel 2003 得出的结果是 25,这至少与通行的数学规则不一致.在第 二个练习中 Excel 会自动将 B5 的公式改为"=sum(b1:b4)".但这种自动功能有时候并不是 我们想要的.在我们不知情的情况下对公式的修改将会直接导致计算结果的错误. 总体来说,Excel 为我们输入和管理数据、描述数据特征、制作统计表和统计图都提供 了强大的支持, 但在处理复杂的计算时有时候误差相对较大, 因而一些数据处理专家建议人 们避免采用 Excel 处理复杂的统计问题. 1.2 常用统计软件简介 常用的统计分析软件包括 SAS、SPSS、S-plus、Stata、Minitab 等等.这些软件都能完 成常用的统计方法,如描述统计、回归分析、生存分析、方差分析、多元分析等等,但不同 的软件在功能、易用性、扩展性等方面又各具特色,下面我们分别加以简要介绍. 1、SAS SAS 过去是"Statistical Analysis System"的简称,由于其功能现已远远超出了统计分析 的范围, "SAS"已经变成了一个单纯的商标.其强大的功能和可编程性使其成为一些超级 用户的首选. SAS 软件的主要特点包括:可以同时处理多个数据集;有很多模块、功能非常全面; 虽然也提供了许多菜单操作方式,但仍以编程为主,学习起来有一定困难,是最难掌握的统 计软件之一. SAS 的绘图功能可能是所有的统计软件中最强大的, 但同时也是最难掌握的: 虽然 SAS 也提供了一些交互式的制图界面,但与其他软件相比还不够方便. 2、SPSS SPSS 过去是"Statistical Package for Social Sciences"的简称,它也是最早的统计软件之 一.许多初学者都喜欢使用 SPSS,因为它非常容易使用(以及误用):用鼠标点击下拉菜 单中的命令就能完成分析工作.当然,SPSS 也提供了编程的操作方式. SPSS 的数据编辑窗口与 Excel 类似,并且可以自己定义数据的属性(数值标签、数据 类型等等) ,最多允许有 4096 个变量.但其数据管理功能相对较弱,一个 SPSS 过程只允许 同时打开一个数据文件,这对于有些分析工作来说可能不够方便.SPSS 是一个模块式的软 件,可以根据需要选择购买不同的功能模块.SPSS 在方差分析和多元统计分析方面的功能 比较突出. SPSS 也有强大的图形功能,可以做出高质量的图形,并且可以比较方便的进行编辑. 3、S-Plus 许多人认为 S-Plus 是介于 SAS 和SPSS 之间的一个软件,它也可以完成绝大部分统计 分析,具有菜单式的操作界面,同时提供了强大的编程语言.你可以很容易地把自己编写的 函数集成到 S-Plus 中去.S-Plus 的绘图能力特别出色,灵活性强. 4、R R 是一套很像 S-Plus 的免费统计软件,其语法与图形功能几乎跟 S-Plus 一模一样,大 多数的 S-Plus 程序也可在 R 上面顺利执行.R 可以在 R project 的网页免费取得,不足之处 是没有实现菜单式的图形用户界面,对于初学者来说学习起来较为困难. 3 5、Stata 经济学和社会科学领域的许多学者喜欢使用 Stata 软件.这一软件也有菜单式的操作界 面,同时提供了强大的编程能力,易学易用,扩展性强,更新速度快,很容易将自己编写或 者网上下载的程序加入到软件中. Stata 的回归分析和回归诊断部分功能非常强大,几乎能估计统计学和计量经济学中的 所有回归模型,而在多元统计分析方面的功能稍弱.Stata 可以用菜单或程序做出高质量的 图形,但完成后的图形不能再进行编辑. 6、Minitab Minitab 也是一个简单易学的统计软件,其统计功能和图形功能都比较全面,在统计学 的教学中应用广泛.这一软件突出特色是提供的质量改进分析工具非常全面易用. 1.3 使用统计软件学习统计学的几点建议 1.3.1 我应该选择哪个软件? 每个软件都有自己的优势和劣势. 就统计学原理涉及的统计方法而言几乎所有的统计软 件都可以胜任,但对于一些具体的实际问题可能有的软件会比其它软件更适合.例如,在进 行一些多元统计分析时你可能会选择 SAS,处理抽样调查数据可能会选择 Stata,做方差分 析可能会选择 SPSS,进行质量改进统计分析可能会选择 Minitab,希望进行统计应用开发时 可能会选择 SAS 或S-plus.因此,如果你需要经常进行统计分析,我们的建议是你把这些 软件都纳入到你的工具箱中. 作为入门的软件,易学易用的 SPSS 或者 Minitab 可能是较好的选择,一开始就学习复 杂的统计软件可能令人沮丧. Excel为我们处理数据和对数据进行初步的分析提供了良好的条件, 但Excel至少在 20 以前版本的部分统计函数中有一些缺陷 03 1 ,而且Excel的统计功能有限,如果你正进行的分析 工作牵涉到重大的决策、 对计算结果的准确性有很高的要求, 我们建议你采用专门的统计软 件.许多用户(包括作者)喜欢用Excel准备数据,然后用专门的统计软件进行统计分析, 有时候还会把结果转回Excel中作图. 1.3.2 使用统计软件学习统计学的一些建议 1、如果你要做统计分析的话,一定要正确的去做!使用 Excel 以及其它统计软件获得 一些分析结果易如反掌, 但要获得正确的答案并不容易, 这要求你对相应的统计方法有透彻 的理解. 2、在开始学习一种统计方法时,不要试图立即搞清楚软件的全部输出结果.即使你只 希望计算一下数据的平均值, 统计软件也可能有数页的输出结果: 搞清楚所有输出结果的努 力可能使你很沮丧,因为有些内容可能已经大大超出了你的学科范围. 3、不要试图使用你还不理解的统计方法,这很容易导致统计方法的误用;但要勇于学 习新的方法,新的方法可能更适合你所研究的问题. 1 参见"Excel 2003 和Excel 2004 for Mac 中的统计函数改进说明" ,http://support.microsoft.com/ default.aspx?kbid=828888&product=xl2003. 4 5 4、不要不加分析的把软件的全部输出结果直接复制到分析报告中,这只能说明你并没 有真正理解软件的输出结果. 可能对你研究的问题而言软件的大部分输出都是不必要的. 此外,软件生成的图表往往也需要进行一些编辑工作才能使用. 5、学习统计软件的最好方法是在应用中学习. 6、软件的帮助文件可能软件最好的使用说明书,许多软件还附有简明的例子. 7、 "Garbage in,garbage out":如果你输入的是垃圾,得到的也只能是垃圾.你要反 复检查数据的准确性,任何软件都不可能基于错误的数据得出可靠的结论. 第2章用Excel和SPSS输入和处理数据 2.1 用Excel输入数据 2.1.1 数据录入的列表格式 在绝大部分情况下统计软件都要求以"列表格式" (List format)存储数据,而不能用其 它格式存储. "列表格式"可用表 2-1 来说明,表2-2 则不是"列表格式" .可能只有 Excel 中的方差分析仍然需要使用表 2-2 的格式.在表 2-1 中,每一行称为一个观测,每一列称为 一个变量. 表2-1 以列表格式的存储的数据 序号 性别 学历 工资 1 1 1 2600 2 1 1 2700 3 1 2 4100 4 1 2 4000 5 2 1 3200 6 2 1 2500 6 2 2 5300 8 2 2 5500 表2-2 不是以列表格式的存储的数据 性别 学历 (本科) 1 (研究生) 2 1600 4100 (女) 1 1700 4000 3200 5300 (男) 2 2500 5500 2.1.2 用Excel录入数据的基本规则 为了保证其它软件能够直接读入用 Excel 录入的数据进行分析,在用 Excel 录入数据时 要尽量遵循以下规则: 1、从一次调查中得出的所有的数据要存储在一个电子表格中. 2、在数据表的第一行中输入变量名.如果你还需要借助于不能识别中文的统计软件对 数据进行分析,变量名要以字母开头,并且不超过 8 个字符;变量名中不能有空格,但可以 用下划线.这是因为很多软件都对变量名都有类似的规定(在Excel 中可以使用汉字作为变 量名,SPSS 13.0 中也允许用汉字作变量名,长度不超过 32 个汉字或 64 个字符) . 3、数据表中应避免出现其它文本行,例如标题. 4、数据中应避免出现空行. 6 5、在原始数据中设置一个标识变量(ID variable) ,例如观测的序号、问卷的编号、学 生证号、身份证号等等,以便在检查数据录入错误时易于查找原始问卷.有的分析中我们会 对数据进行排序,这会打乱原来的数据顺序.这时要查找原始问卷就只能依靠标识变量了. 6、 如果数据包含多个组, 需要设置一个变量来表示每个观测的分组 (见表 2-1 的例子) . 7、尽量使用数字编码来表示分类变量.例如我们可以用 1 来表示"党员" ,2 表示"团员" ,3 表示"群众" .如果只有两个组,将其编码为 0 和1可能会使一些分析易于进行. 8、对于缺失值(missing values) ,将相应的单元格保留为空白,这样其他统计软件才能 正确地识别缺失值. 9、Excel 允许在同一列中(对应着同一个变量)输入不同类型的数据,如数值型、字符 型、日期型等等.这虽然是给了我们一定的灵活性,但在同一列中输入不同类型的数据在分 析时会造成极大的不便,使用中应尽量避免. 10、 对数据的编码和计算过程要做好记录, 以免日后忘记了每个变量或数值对应的含义, 例如"0"是代表男性还是女性,某个新变量是如何计算得到的等等. 11、 注意 Excel 的一些限制条件. Excel 只能正确处理 1900 年1月1日以后的日期型数据; 最多允许 256 个变量,65536 行数据. 2.1.3 使用Excel的有效性检查防止数据输入中的错误 Excel 提供了一个"有效性"检查的功能,可以在我们输入数据时实时检查录入的数据 是否符合要求.如果输入的数据量很小,这种有效性检查并非必要,但如果你要输入成千上 万条数据, "有效性"检查可以帮助我们避免许多录入错误. [例2.1] 我们以一个简单的例子来说明"有效性"检查功能的使用方法.假设需要输入 的数据如表 2-3. 表2-3 需要录入的数据 编号 班级 性别 考试成绩 1 1 0 85 2 1 1 90 3 2 0 87 4 2 1 69 5 3 0 78 6 3 1 93 7 4 0 83 8 4 1 91 我们先在 Excel 数据表的第一行输入四个变量名:编号,性别,班级,考试成绩. (1)、"编号"的取值我们借助 Excel 的自动填充功能来实现:先在单元格 A2、A3 中输入 1,2.用鼠标选中区域 A2:A3,把鼠标移至该区域右下角的填充柄(其形状为黑色 的小方块) ,鼠标指针变为一个实心的黑色十字(图2-1).按住鼠标左键向下拖动至 A9 单 元格,完成数据的自动填充. (2) 、对于班级变量,我们用 1 表示统计班,2 表示经济班,3 表示金融班,4 表示会 计班(同时在另一个工作表中记录这一编码规则,以免日后遗忘) .班级的取值只有 1、2、 3、4,其他取值都是错误输入,我们可以利用 Excel 的"有效性"检查对输入的数据进行限 定. 7 图2-1 自动填充指针 具体操作步骤如下:先选中列 B,然后选择菜单栏中的"数据"?"有效性" ,会弹出 图2-2 的对话框.单击"允许"下面的下拉箭头,选择"整数" ,再在新的对话框中把最小 值设为 1,最大值设为 4.然后我们在"出错警告"选项卡的错误信息中输入"请输入 1-4 之间的整数" ,这样在输入了 1-4 以外的数值时,Excel 会弹出出错信息,并提示"请输入 1-4 之间的整数" . 图2-2 数据的有效性检查对话框 (3) 、对于取值非常有限的数据,我们还可以为变量的取值定义一个序列,如果输入的 数据不在这个序列中,即为非法输入.下面我们用性别变量(0 表示男性,1 表示女性)加 以说明.选中列 C,然后选择菜单栏中的"数据"?"有效性" ,在图 2-2 的对话框中选择 序列,在"来源"对话框中输入"1,2" (数值用英文状态下的逗号隔开) (图2-3) ,单击确 定按钮.这时,在列 C 的单元格中输入数据时,Excel 会提供一个下拉箭头使我们能够从事 先确定的序列中选择数值(当然我们也可以直接输入) (图2-4) .在输入大量数据时,使用 下拉箭头输入数据会大大影响输入速度. 8 图2-3 数据的有效性检查:定义序列 图2-4 Excel 提供的下拉框 (4)、对于考试成绩这一变量,我们只要使用"有效性"把数据限定为 0-100 之间的 整数就可以了. 注意数据的有效性检查并不能帮助我们避免其它类型的录入错误:如果你把"60"错输 成了"90",Excel 不会给你任何警告. 2.1.4 处理多项选择问题 要正确录入和分析从多项选择问题中得到的数据需要一定的技巧.下面我们以一个简单 的例子加以说明. [例2.2] 在一次对失业者的调查中有以下问题. 在以下 8 个因素中,哪些是你重新就业的重大障碍? (最多选 3 项)( ) 1、文化水平低 2、 专业不对口 3、缺少工作经验 4、缺少工作岗位 5、歧视 6、 工资水平低 7、工作条件差 8、缺少创业资金 我们的分析目的是要找出以上 8 个因素对失业者再就业的影响程度,在分析中可以分别 看作一个单独的问题.如果被调查者选中了这个选项,其值就等于 1,未选中则等于 0.也 就是说,问卷中的一个变量在分析中被处理成了 8 个二分变量. 在选项非常多,而每个被调查者只能选择少数几项时,以下方法会更有效率(以上面的 问题为例):设定 3 个变量,分别记录被调查者的第一、第二和第三选择,取值为 1-8.在 分析时,将这三个变量的对应选项合并,就能得到需要的分析结果了.例如,假设在第一个 变量中有 15 人选择了 1,在第二个变量中 20 人选择了 1,在第三个变量中 5 人选择了 1, 则选择 1 的人总共有 15+20+5=40 人.如果有些人只选择了一项或两项,则其第二和第三个 9 变量的取值可以设为空值(缺失值)或者另外给定的一个特定值(例如等于 0),在分析中 只要处理得当就能得到正确的结果. 2.2 用Excel处理数据 2.2.1 用Excel对数据进行排序和筛选 用Excel 可以方便的对数据进行排序和筛选.需要特别注意的是,如果你只对某一列进 行排序,则整个数据集都会被破坏,每一个数据行对应的不再是同一个观测的取值.因此, 使用 Excel 排序时要格外小心.下面我们通过一个例子说明用 Excel 进行排序和筛选的操作 方法. [例2.3] 将表 2-3 的数据按照考试成绩排序. 单击数据区域的任何一个单元格,使其成为活动单元格.然后选择菜单栏中的"数据" ?"排序",会弹出图 2-5 的对话框. 图2-5 排序对话框 在这个对话框中将主要关键字设为考试成绩,按降序排列.单击确定后就可以完成排序 工作了.你也可以在"选项"中定义其他的排序规则.注意在对文本进行排序时,由于排序 的规则不同,使用不同的软件得到的排序结果可能有差异. [例2.4] 从表 2-3 的数据中筛选出所有男生的资料. 单击数据区域的任何一个单元格,使其成为活动单元格.然后选择菜单栏中的"数据" ?"筛选"?"自动筛选",在每列数据的顶端会出现一个下拉箭头(图2-6). 图2-6 自动筛选的界面 单击"性别"变量的下拉箭头,选择"0" ,则Excel 2003 会筛选出所有男生的资料.当10 "性别"变量是一个有效的筛选变量时,该变量的下拉箭头是蓝色的.在此基础上还可以进 行进一步的筛选,例如筛选出成绩在 85 分以上的男生的资料.如果希望显示全部数据,则 要在下拉框中选择" (全部) " .要取消筛选,再一次选择菜单栏中的数据?筛选?自动筛选 就可以了. 自动筛选功能还可以帮助我们发现和修改数据输入中的错误.如果在变量下拉箭头打开 的下拉框中有异常值,我们可以利用自动筛选功能方便的查找和定位.从图 2-6 可以看出, 在Excel 2003 中自动筛选功能也包含了升序或降序排列的排序功能. 2.2.2 用Excel公式和函数生成新的变量 Excel 提供了大量函数,我们可以方便的使用这些函数和其他公式生成所需要的变量. 在Excel 中输入公式时可以直接输入, 也可以通过鼠标选择需要的函数以及单元格来完成输 入,一般来说后一种方法更方便而且不容易出错.关于 Excel 函数的详细说明清参见 Excel 的帮助文件,这里我们只通过一个例子说明使用 Excel 公式和函数的一些技巧. [例2.5] 已知 1996-2003 年我国一、二、三产业的 GDP 如表 2-4.试根据这些数据计算 各产业的产值比重. 表2-4 1996-2003 年我国一、二、三产业的 GDP(亿元) 年份第一产业 第二产业 第三产业 1996 13844.2 33612.9 20427.5 1997 14211.2 37222.7 23028.7 1998 14552.4 38619.3 25173.5 1999 14472.0 40557.8 27037.7 2000 14628.2 44935.3 29904.6 2001 15411.8 48750.0 33153.0 2002 16117.3 52980.2 36074.8 2003 17092.1 61274.1 38885.7 在Excel 中可以按照如下方法计算.首先计算各年的 GDP,等于各年一、二、三产业的 GDP 之和.在E2 中输入一个等号,编辑栏下面的"名称"框将变成"函数"框,如图 2-7 所示.单击"函数"按钮右侧的下拉箭头,打开函数列表框,从中选择所需的函数(SUM) , Excel 将打开"公式选项对话框"(图2-8) .将求和函数的参数改为 B2:D2(通过点击折叠按 钮 选择相应的区域来实现) ,单击"确定"按钮即可完成函数的输入, 得到 1996 年的 GDP. 然后利用 Excel 的自动填充功能在 E3-E9 中复制 E2 的公式得到各年的 GDP.注意这里各填 充单元格的公式是自动调整的,例如 E9 单元格的公式为"=SUM(B9:D9)" . 11 图2-7 函数选择框 图2-8 指定函数参数的对话框 要计算第一产业的产出比重,在F2 中输入"=" ,然后单击 B2 单元格,再输入"/" , 最后点击 E2 单元格,回车,就在 F2 中输入了公式"=B2/E2" ,F2 中显示的是 1996 年第一 产业的比重.要在 G2、H2 中计算第二、多三产业的比重,可以先把 F2 的公式先修改为 "=B2/$E2" ,然后用自动填充把这个公式复制到 G2、H2 单元格.这时 G2 中的公式为 "=C2/$E2" .由于在公式的分母中使用了"$" ,分母中的列号就不会改变了,这就是单元 格引用中的"绝对引用" . 接下来选中区域 F2:H2,把鼠标移至区域的右下角,指针变为黑色实心十字时按住鼠标 左键向下拖动至 H9,1997-2003 年的产值比重就计算出来了. 最后,还可以选中区域 F2:H9,将数据格式改为百分数.计算结果如表 2-5. 表2-5 1996-2003 年我国一、二、三产业的产值比重 年份 总产值 第一产业 比重 第二产业 比重 第三产业 比重 1996 67884.6 20.39% 49.51% 30.09% 1997 74462.6 19.09% 49.99% 30.93% 1998 78345.2 18.57% 49.29% 32.13% 1999 82067.5 17.63% 49.42% 32.95% 12 2000 89468.1 16.35% 50.22% 33.42% 2001 97314.8 15.84% 50.10% 34.07% 2002 105172.2 15.32% 50.37% 34.30% 2003 117251.9 14.58% 52.26% 33.16% 在Excel 中复制和粘贴带有公式的数据时一定要非常小心, 注意查看粘贴后的结果是否 是你希望得到的, 避免出现意外的错误. 如果你希望在原来的单元格中只保留计算结果而不 保留公式,可以使用以下方法:选中相应的单元格,单击鼠标右键,选择"复制",然后再 在同样的位置单击鼠标右键,选择"选择性粘贴",在弹出的对话框中选择"数值"(图2-9).如果希望把数值复制到新的位置,则在新的位置使用"选择性粘贴"就可以了. 图2-9 选择性粘贴选项框 2.2.3 用Excel进行其它数据操作 在各种统计软件之间传递数据时,当数据量不是很大时最简便的方法可能就是"复制" +"粘贴"了.有时候我们从其他途径得到的数据不是表格的形式,而是文本形式(.txt). 这时候要让 Excel 正确识别数据,需要使用 Excel 的分列功能. [例2.6] 假设在例 2.5 中我们最初得到的数据为纯文本格式, 数据之间是用逗号分割的 (图2-10).用Excel 对数据进行分列. 图2-10 用逗号分割的纯文本格式的数据 13 先选中 A 列,然后选择"数据"?"分列" ,在弹出的选择框中把"原始数据类型"选为"分隔符号" ,点击"下一步" ,在"分隔符号"中选中"逗号" ,这时你会在数据预览中 看到数据被正确分列了.点击"下一步" ,你还可以对每列数据的属性做一些设定.在这里 我们直接点击"确定" ,数据的分列就完成了. 另外一种常用的数据操作是转置.Excel 中的操作方法是:先选中要转置的区域,单击 鼠标右键,选择"复制",然后在新的位置单击鼠标右键,选择"选择性粘贴",在弹出的 对话框中选中"转置"(参见图 2-9). 2.3 用SPSS输入和处理数据 2.3.1 用SPSS输入数据 一般情况下,打开SPSS时会自动打开一个空的数据表(Data View)和一个变量表 (Variable View).这两个表看起来与Excel数据表很类似.如果要直接在SPSS中输入原始 数据,你只要按自己的需要定义变量、输入数据然后存盘就行了. [例2.7] 在SPSS中输入表2-3的数据. 输入数据最好先对变量进行定义.变量表是SPSS中的一个很具特色的操作界面,在这 里你可以非常方便的定义变量的各种属性.我们在第一列中依次输入"编号""班级"等 四个变量名,你会看到SPSS会自动为这些变量的其他属性赋予系统默认值.你当然可以进 行必要的修改,例如我们这里把小数位设为0.也可以为变量加上标签,以对变量的含义进 行更详细的说明.在输出结果中可以让SPSS输出变量的标签. SPSS允许我们通过定义数值标签对变量值进行定义.我们以"班级"这个变量为例加 以说明.单击"班级"变量的"Values"单元格的右侧,会弹出一个"数值标签"(Value Labels)的对话框.在定义标签对话框的中有三个小矩形框.在第一个矩形框中输入变量 值1,在第二个矩形框中输入"统计",这时"Add"按钮变亮,点击Add按钮,下面的清 单中显示1="统计".按照这种方法继续定义2="经济" ,3="金融" ,4="会计" . 变量定义好以后,就可以在数据表中依次输入数据了.对于定义了数值标签的变量,单 击工具栏中的 按钮可以显示数值标签,再单击一下则可以显示数值. 当然,我们也完全可以先在数据表中输入数据,然后再对变量属性进行必要的定义. 图2-11 在SPSS中定义数值标签 14 2.3.2 用SPSS读入外部数据 在很多应用中我们需要用 SPSS 读入其它格式的数据,如Excel 格式,文本格式等等. 完成这一任务有多种方式, 而在数据量不大的情况下最简便的方式可能是 "复制" + "粘贴" . SPSS 可以直接读取多种格式的数据.用SPSS 读取 Excel 数据的步骤是:用鼠标选择 "File? Open? Data",将文件类型改为"Excel (*.xls)",找到你要打开的文件名,单击 "打开" . 在随后的对话框中选择要打开的数据表 (因为 Excel 文件中可能包含多个数据表) , 需要的话再给定数据区域.如果数据表中不包含变量名的话取消选定"Read variable names from the first row of data ",单击确定就可以了. 注意如果 Excel 中的数据格式不够规范,SPSS 可能无法正确读取数据,在用 SPSS 读入 数据后要仔细审查数据是否正确. 用SPSS 读取纯文本文件的过程与用 Excel 对文本文件进行分列的过程有些类似,在这 里我们就不详细介绍了. SPSS可以把数据存储为多种格式,SPSS格式的数据文件扩展名为".sav".当把SPSS 数据文件存储为其它格式时,大部分情况下变量标签、数值标签定义会丢失. 2.3.3 用SPSS进行数据的排序、筛选和转置 [例2.8]用SPSS对数据例2.7输入的数据进行排序和筛选. 用鼠标选择"Data?Sort Cases",会弹出以下对话框(图2-12 ).选中"考试成绩", 单击中间的黑三角, 把这个变量移至右面的矩形框中 (这个过程也可以通过双击 "考试成绩" 完成).再选择排序方式(升序或降序),点击"OK"就可以了. 图2-12 SPSS 对数据进行排序的对话框 在数据分析中我们常常需要对数据的一个子集进行分析. 这时需要首先从数据集中筛选 出符合条件的数据. 假设我们需要筛选出成绩在85分以上的女生进行分析,选择Data ?Select Cases,进入 Select Cases 对话框(图2-13).选择If condition is satisfied,然后单击If按钮进入If 对话框 (图2-14),在该对话框中的条件表达式栏中输入"考试成绩>85 & 性别=1"的条件表达 式,单击Continue 按钮,在Select Cases 对话框中单击OK 按钮.筛选的结果见图2-15:未 被选中的观测的行号被打上了反斜杠(注意SPSS自动生成一个了筛选变量).这样,在随 后的分析中就会只对选中的观测进行分析了.如果想再次选中全部观测,再次打开图2-13 的对话框,选择"All cases"就可以了. 在图2-13的对话框中如果把"Unselected cases are "的选项改为"Deleted",SPSS 会删除未被选中的观测,但删除的观测是无法恢复的.SPSS还可以用其他方法筛选数据, 例如从数据集中按一定比例随机选择数据,选择一定区域的数据等. 15 图2-13 用SPSS筛选数据的对话框 图2-14 SPSS中定义筛选条件的对话框 图2-15 SPSS筛选的结果 SPSS进行数据转置的命令是Data?Transpose,选定需要转置的变量,点击"OK"就可 以了,SPSS会产生一个新的数据文件,自动定义新的变量名和新变量的属性. 16 虽然SPSS也可以完成合并两个数据集的操作,但由于一个SPSS过程只能同时打开一个 数据文件,SPSS在多数据集操作方面的功能比较有限.要同时打开多个SPSS数据文件,只 能同时打开多个SPSS过程(再一次从Windows的开始菜单打开SPSS). 2.3.4 用SPSS函数计算新的变量 [例2.9] 用SPSS计算我国的产业比重. 单击SPSS Transform菜单的Compute命令会弹出图2-16的对话框.通过这个对话框可以 以现有的变量为基础,利用SPSS丰富的函数计算出新的变量. 图2-16 使用SPSS函数计算新变量的对话框 如果我们需要根据第一二三产业的产出计算一个新的变量GDP,在Target Variable的矩 形框中输入新变量名GDP,在右面的函数类型中选择"Statistical",在右下方的函数中选择 "Sum"函数,然后从左侧的变量表中把第一产业、第二产业、第三产业三个变量选到函数 的参数中,用逗号隔开.点击"OK",新的变量就计算出来了.三次产业的产值比重也可 以用类似的步骤计算得到. [例2.10] 使用SPSS对考试成绩的数据进行重新编码. Transform菜单中的Recode命令也经常用到.这个命令可以对已有的数据进行重新编码. 假设我们要把百分制的成绩换算为九级制的成绩(0-59=1,F;60-64=2,D;65-69=3,D+; 70-74=4,C;75-79=5,C+;80-84=6,B;85-89=7,B+;90-74=8,A;95-99=9,A+). 单击Transform?Recode?into different variables,会得到图2-17的对话框.把左侧考试成绩 变量选入中间的矩形框,在右侧的矩形框中输入变量名"九级制",单击下面的"Change", 这时中间的矩形框中会出现以下对应关系:考试成绩?九级制. 17 图2-17 对数据重新编码的对话框 接下来单击"Old and News Values"按钮,会弹出图2-18的对话框.我们可以用这个对 话框来定义新旧数值的对应关系.在Old Value栏中首先选择"Range: Lowest through"的选 项,在矩形框中输入59,在New Value中输入1.这时Add按钮变亮,单击这个按钮,在右下 方的矩形框中出现了Lowest through 59?1的对应关系.接下来在左侧选择并输入区间60 through64, 在右侧输入新变量值2, 依次类推. 最后一个区间可以输入为 95 through Highest. 定义好这些对应关系以后,单击Continue,再单击图2-17中的"OK"按钮,就可以完成重新 编码的过程了. 图2-18 定义新旧数值的对应关系 最后,用前面讲过的方法为新变量"九级制"加上数值标签:1="F",2="D",……, 9="A+".整个重新编码过程就完成了.计算结果如入2-19所示. 图2-19 用SPSS重编码得到的新变量 18 第3章用Excel和SPSS进行描述统计 在某学期的统计学教学中,教师在教学中使用了英文教材,并采用了案例教学的方法. 在学期结束时,采用以下问卷对 35 名学生进行了调查.调查问卷如下: 1、你的性别: ( ) 0=男, 1=女2、你的年龄为______周岁. 3、写出对于以下三种说法的观点(1=完全不同意,2=比较不同意,3=无所谓,4=比较 同意,5=完全同意) (1)"我对统计学很感兴趣" ( ) (2)"英文原版教材的使用对我的学习帮助很大" ( ) (3)"案例对我掌握相关知识非常重要"( ) 4、你概率论课程的考试成绩是______. 5、你上个月的生活费支出为 ( )元. 1=300 以下,2=300-400,3=400-500,4=500-600, 5=600-700,6=700-800,7=800-900,8=900 以上 6、你的身高=_______cm, 体重=kg. 在考试结束后在调查数据又增加了学生的统计学考试成绩,最后得到的数据如表 3-1. 在本书接下来的章节中我们将这次调查称为"学生调查" ,并对调查结果进行相关的统计分 析. 表3-1 学生调查得到的数据表 编号 性别 年龄 兴趣 英文 教材 案例 教学 概率 成绩 统计 成绩 月 支出 身高 体重 1 0 21 5 4 5 74 83 4 172 80 2 0 20 2 5 5 82 78 6 173 62 3 0 22 1 2 1 49 38 5 183 67 4 1 21 4 1 2 80 87 8 162 49 5 1 20 5 4 5 90 91 3 159 49 6 1 22 4 3 4 71 78 6 161 45 7 1 21 2 5 5 92 97 3 166 51 8 0 20 2 3 3 67 60 2 174 74 9 1 22 3 2 5 63 65 8 165 52 10 1 20 4 2 4 78 83 3 163 54 11 1 21 4 2 5 90 89 4 160 50 12 0 22 1 5 5 78 69 5 168 55 13 0 21 2 2 4 68 55 2 173 65 14 0 20 2 3 5 87 82 3 172 60 15 1 22 2 2 3 91 89 5 165 52 16 0 21 3 3 5 78 70 1 170 53 17 0 20 2 1 5 72 68 1 164 60 18 1 21 5 4 5 88 85 6 158 52 19 19 1 21 3 1 5 87 81 4 163 48 20 1 21 2 4 4 86 88 7 159 53 21 0 22 5 5 5 74 80 7 175 78 22 1 20 1 2 4 73 75 6 162 42 23 1 21 3 3 5 68 65 5 165 49 24 1 22 4 2 5 76 78 5 164 53 25 1 21 5 4 5 85 92 4 161 51 26 1 22 4 3 4 71 69 3 163 49 27 1 21 4 2 5 75 65 5 158 55 28 1 22 1 4 5 64 55 6 165 50 29 0 22 3 2 5 62 64 1 169 51 30 0 20 5 5 5 77 68 2 180 75 31 0 21 3 5 4 78 80 2 171 62 32 1 21 2 4 5 87 88 3 161 50 33 0 20 4 2 4 66 68 1 167 70 34 0 22 5 5 5 79 83 2 178 65 35 0 21 3 4 5 75 77 5 168 62 3.1 用Excel和SPSS计算常用的描述统计指标 在描述统计中我们常用的统计指标主要包括均值、方差、标准差、中位数、众数、峰度 系数、偏态系数等等.使用统计软件可以非常方便的得到这些结果. 3.1.1 用Excel计算基本描述统计指标 可以使用Excel提供的统计函数来获得常用统计量.例如AVERAGE(平均值) 、STDEV (样本标准差) 、VAR(样本方差)1 、KURT(峰度系数) 、SKEW(偏度系数) 、MEDIAN (中位数) 、MODE(众数)等.但最方便快捷的方法是利用Excel提供的"描述统计"工具, 它可以给出一组数据的许多常用统计量. [例3.1] 下面我们来计算学生调查中"统计成绩"的描述统计指标. 打开学生调查的数据表,选择"工具"?"数据分析"2 ,会弹出图 3-1 的对话框.在 这个对话框中选择"描述统计" ,然后单击"确定" ,会弹出"描述统计"的对话框(图3-2) . 在"描述统计"的对话框中,单击"输入区域"右侧的折叠按钮 ,选中需要分析的 数据.数据区域可以包括变量名,这时要选中"标志位于第一行"的复选框.我们可以根据 需要指定存放结果的位置:可以指定输出到当前工作表的某个单元格区域,这时需在"输出 区域"框键入输出单元格区域的左上角单元格地址;也可以指定输出到"新工作表组" ;还 可以指定输出到"新工作簿" .我们这里指定输出到"新工作表组" .在需要计算的统计指标 的选项中,我们只选中"汇总统计"复选框,显示描述统计结果.单击"确定" ,得到的计 算结果如表 3-2. 1 注意在 Excel 2003 以前的版本中涉及到离差平方和的计算时总是这样计算的: n x x i i / ) ( 2 2 ? ? ? ,这一公 式与 ? ? 2 ) ( x x 相比可能有较大的舍入误差.Excel 2003 采用了后一公式. 2 如果"工具"菜单中没有"数据分析" ,则需要通过加载"分析工具库"调出这一功能模块. 20 图3-1 Excel 的"数据分析"选择框 图3-2 描述统计对话框 表3-2 描述统计的分析结果 统计成绩 平均 75.51 标准误差 2.13 中位数 78 众数 83 标准差 12.62 方差 159.14 峰度 0.82 偏度 -0.77 区域 59 最小值 38 最大值 97 求和 2643 观测数 35 21 根据表 3-2,统计考试成绩的均值等于 75.51,中位数(Excel2003 以前的版本中显示为 "中值" ) 等于 78, 众数 (Excel2003 以前的版本中显示为 "模式" ) 等于 83, 方差等于 159.14, 标准差=12.62,最小值等于 38,最大值等于 97,全距(显示为"区域" )=59. 统计考试成绩的偏态系数等于-0.77 小于 0,说明数据的分布是略微左偏的.峰度系数 0.82 大于 0,说明的分布比正态分布尖锐一些.注意 Excel 中计算峰度系数的公式是 ) 3 )( 2 ( ) 1 ( 3 ) ( ) 3 )( 2 )( 1 ( ) 1 ( 2 4 4 ? ? ? ? ? ? ? ? ? ? ? n n n s x x n n n n n d i 计算结果应该与 0 进行比较以判断分布的形状是尖顶峰还是平顶峰. 表3-2 中"标准误差"的含义将在以后的章节中进行解释. 3.1.2 用SPSS计算基本描述统计指标 SPSS的许多模块都可以完成描述性分析,其中最常用的几个模块则集中在Descriptive Statistics 菜单中,Frequencies 过程的特色是可以产生频数表,Descriptives 过程可以进行一 般性的统计描述, 该过程还有个特殊功能就是可将原始数据转换成标准正态数据并以变量的 形式存入数据库供以后分析使用(方法是在Descriptives 过程的对话框中选中"save standardize values as variables"复选框1 ).Explore过程除了产生描述统计指标以外还可以输 出一些统计图和一些统计检验.不同的命令可以计算的统计指标略有差异. [例3.2] 用SPSS的Descriptives过程计算统计成绩的有关描述统计指标, 并与Excel的计算 结果进行对比. 在菜单栏中选择Analyze ? Descriptive Statistics? Frequencies,进入Frequencies 对话 框.将"统计成绩"选入Variables 框,单击Statistics按钮进入Statistics对话框,选中需要的 统计指标(图3-3,其中quartile是四分位数),单击Continue 按钮返回Frequencies 对话框, 单击OK可得到计算结果(表3-3). 图3-3 Frequencies 对话框 表3-3 统计成绩的描述统计指标 Valid 35 N Missing 0 1 在Excel 中可以使用 STANDARDIZE 函数计算数据的标准化数值. 22 Mean(均值) 75.51 Median(中位数) 78.00 Mode(众数) 65a Std. Deviation(标准差) 12.615 Variance (方差) 159.139 Skewness(偏态系数) -.771 Std. Error of Skewness .398 Kurtosis(峰度系数) .816 Std. Error of Kurtosis .778 Range(极差) 59 Minimum(最小值) 38 Maximum(最大值) 97 Sum(合计值) 2643 25 68.00 50 78.00 Percentiles( 百分位数) 75 85.00 a Multiple modes exist. The smallest value is shown 比较表 3-3 和表 3-2,我们发现二者计算的众数结果不一致.SPSS 正确地指出数据中存 在多个众数,并且给出了最小的一个,而Excel 则在没有任何提示的情况下给出了最大的一 个(从SPSS 输出的频数分布表可知,65,68,78,83 都出现了 3 次). 用Excel函数也可以计算四分位数.对统计成绩这一变量,在一个空单元各种输入公式 "=QUARTILE(G2:G36,3)",可得Q3=84.这一结果与SPSS计算的85也不一致.这是因为 在Excel中三个四分位数的位置分别是(n+3)/4,(n+1)/2,(3n+1)/4.而在主流教科书中的三个 四分位数的位置分别是(n+1)/4,(n+1)/2,(3n+3)/41 . 3.1.3 分组资料的描述统计 [例3.3] 有些情况下我们只能得到分组以后的数据资料.例如,根据学生调查的结果可 以得到表 3-4 的频数分布表(得到这一表格的具体过程以后讲解) .如何根据表 3-4 计算常 用的描述统计指标呢? 表3-4 学生支出的频数分布 月支出 人数 以下 300 4 300-400 5 400-500 6 500-600 4 600-700 7 700-800 5 800-900 2 以上 900 2 在Excel 中没有现成的函数处理分组数据, 相关计算需要根据相应的计算公式逐步完成. 在SPSS 中可以直接对分组数据进行计算.首先在 SPSS 中输入表 3-5 的数据,月支出用各 1 计算分位数有多种方法,Excel 的计算公式也是正确的.S-Plus 也采用了同样的公式. 23 组的组中值代替(即250,350,……,950) . 然后,从菜单中选择 Data?Weight cases,在弹出的对话框中选择"Weight cases by" ,并 用人数做权数.接下来在菜单栏中选择 Analyze ? Descriptive Statistics? Frequencies,进入 Frequencies 对话框.单击 Statistics 按钮进入 Statistics 对话框,选中需要的统计指标,同时 选中"Values are group midpoints"复选框,告诉 SPSS 分析的数据是分组数据的组中值.单击Continue 按钮返回 Frequencies 对话框,单击 OK 可得到计算结果(表3-5).从表中可 以看出学生的月生活费支出平均为 559 元. 表3-5 学生月支出的描述统计 N Valid 35 Missing 0 Mean 558.5714 Median 559.0909a Mode 650.00 Std. Deviation 202.00674 Variance 40806.723 Sum 19550.00 Percentiles 25 390.9091b 50 559.0909 75 712.5000 a Calculated from grouped data. b Percentiles are calculated from grouped data. 3.2 用Excel和SPSS进行分组汇总 在数据处理中我们常常需要对数据进行分组和相应的汇总计算. 例如, 我们可能希望得 到生对统计学的兴趣程度的频数分布表, 并计算不同组别的平均成绩以了解兴趣对成绩的影 响程度.在进行统计分组时,有时候是单变量值分组,有时候则需要进行组距分组. 3.2.1 Excel的数据透视表 Excel 的数据透视表(pivot tables)为我们制作多维统计表并进行描述统计分析提供了 功能强大的工具. 数据透视表可以根据列表形式的数据或者数据库产生一维、 二维或三维的 汇总表,并进行多种汇总计算.许多人都认为数据透视表是 Excel 独具特色的功能,这一功 能比许多专门的统计软件都要强大. 要根据列表格式的数据创建一个数据透视表, 先单击数据表的任何一个单元格, 然后点 击菜单中的"数据"?"数据透视表和数据透视图" ,按照向导的提示完成创建过程.在第 一步中使用默认的选项(根据 Excel 数据列表创建数据透视表) ,单击下一步,Excel 会自动 找到需要的数据(你也可以修改数据区域) ,单击下一步,选择在新工作表中创建数据透视 表(默认选项) ,单击完成.接下来 Excel 会先新建一个工作表,并显示类似图 3-4 的界面, 变量名出现在一个单独的列表中,同时显示一个数据透视表工具栏. 将相应的变量名拖到行、列和页字段区域,把需要分析的数据拖到数据区域,可以创建 出一维、二维或三维统计表.注意用来定义统计表结构的变量应该是离散的定性变量(分类 变量) ,否则得到的表格可能毫无意义.需要分析的数据通常是定量变量(也可以根据分析 目的使用定性变量) . 24 图3-4 数据透视表对话框 [例3.4] 使用数据透计表分析分析学生消费支出的分布状况. 在需要统计各个组别的人数时, 可以把任何一个不包含缺失值的变量拖放到数据区. 在图3-4 的界面中把月支出变量拖至行字段处,把编号拖放到数据区,得到的结果如图 3-5. 图3-5 学生月支出的汇总结果 Excel 默认的汇总计算是求和.双击"求和项:编号" ,或者在汇总栏中的任意单元格单 击鼠标右键,选择字段设置按钮 ,会弹出字段设置对话框(图3-6) .在对话框中把汇总 方式改为计数(也可以更改字段显示的名称) ,就可以得到需要的汇总结果了(图3-7) . 图3-6 数据透视表的字段设置对话框 25 图3-7 学生支出的分布 还可以修改数据透视表中数据的显示方式.例如,在字段设置对话框中单击"选项" , 点击"数据显示方式"下面的下拉菜单(图3-8) ,选择"占总和的百分比" ,可以得到图 3-9 的计算结果. 图3-8 数据透视表字段设置:显示方式的调整 26 图3-9 学生支出的频率分布 如果要同时显示一个变量的不同汇总指标, 可以把这个变量多次拖入数据透视表的数据 区,每次要求不同的汇总指标.例如,要同时显示各组的人数和百分比,可以被"编号变量" 再次拖入数据区,选择"计数"汇总指标,可以得到图 3-10 的结果. 图3-10 数据透视表:同时显示频数和频率 对数据透视表可以进行灵活的修改, 例如可以修改数据的格式 (选中需要修改的数据区 域点击右键, 选择 "设置单元格格式" ) ; 选择是否显示合计项 (点击右键, 选择 "表格选项" , 选中或不选"列总计"和"行总计" ) ;更改表格样式(从数据透视表工具栏中选择设置报告 格式按钮 ) .对图 的输出结果进行修改,可以很容易地得到图 的结果.当然, 3-10 3-11 如果要对数据表的格式进行较大的修改, 最好先把数据透视表的结果通过选择性粘贴的方式 把数值粘贴到新的位置,然后就可以像普通表格一样进行修改了. 图3-11 调整格式后的数据透视表 3.5] 下面我们再来做一个复杂一些的二维表:计算分性别和兴趣的平均考试成绩. [例27 要保存前一个数据透视表的结果可以用选择性粘贴的方式把数值结果保存在新的位置. 然后 统计 成绩 ,把前一个数据透视表的字段都拖回到变量表中,使数据透视表恢复初始状态. 把性别变量拖到行字段中,兴趣变量拖到列变量中,把统计成绩拖到数据区,并把 的汇总方式改为平均值,可以得到相应的计算结果(图3-12) . 图3-12 分性别和学习兴趣的统计成绩 数据透视表中,行和列都可以根据需要进行复合分组.例如,把性别、年龄拖至行字 段中 在 ,把平均身高作为汇总变量,可以得到图 3-13 的汇总结果. 图3-13 分性别和年龄的平均身高 数据透视表中,双击任何一个汇总数据的单元格(包括合计项) ,Excel 都会把与这个 单元 据以后, 数据透视表中结果不会自动更 新, .2.2 用Excel进行组距分组 定量变量进行组距分组. 例如, 假设我们现在要求对 "统 计成 的方式可能是使用 FREQUENCY 函数.这个函数有两个参数,第一个参数是要 进行分组的数据所在的区域,第二个参数是各组界限所在的区域.要实现前面所说的分组, 在 格有关的所有观测复制到一个新的数据表中. 使用数据透视表时需要注意, 当你更改了原始数 要更新数据透视表中的数据需要手动刷新:在数据透视表中单击鼠标右键,选择"刷新 数据" . 3 [例3.6] 有时候我们需要根据 绩"这个变量按照 60 以下、60-69、70-79、80-89、90 以上进行分组,在Excel 中如何 实现呢? 最方便 在各组界限的区域内要依次输入 59,69,79,89.这时 Excel 会依次统计成绩小于等于 59 的人数、大于 59 小于等于 69 的人数、大于 69 小于等于 79 的人数、大于 79 小于等于 89 的人数,以及大于 89 的人数.注意 Excel 在统计人数时给出的各组上限值是分在这个组中 的, 这与统计学中的习惯做法不一致. 在给定组限时可以多取一位小数使各组界限更加明确. 需要注意的另外一点是 FREQUENCY 函数的返回结果总比给出的组限多一个,多出来的数 值表示超出最后一个组限的数值个数. 28 由于函数 FREQUENCY 返回一个数组, 所以必须以数组公式的形式输入. 具体操作方 式是:选定区域 C2:C6,输入一个等号,从函数库中选择 FREQUENCY 函数,输入函数的 两个参数,最后再按 Ctrl+Shift+Enter(图3-14) . 图3-14 FREQUENCY 函数的参数设定 计算结果如表 3-6.当然,在最后的分析报告中各组的界限需要调整为传统的方式.要 修改数组函数的输出结果有时需要先把其公式通过选择性粘贴改为数值. 表3-6 FREQUENCY 函数的计算结果 成绩 人数 59 3 69 10 79 6 89 13 3 在分组组数不太多的情况下也可以用嵌套的 IF 函数对原始数据重新编码,生成一个新 的变量,然后对新的变量进行汇总:IF(A2<60,1,IF(A2<70,2,IF(A2<80,3,IF(A2<90,4,5)))).使 用分析工具库中的直方图工具也可以完成组距分组,其原理与使用 FREQUENCY 函数是一 样的. 3.2.3 用SPSS进行分组汇总 SPSS 的Means 过程和 Explore 过程都可以完成分组计算,当然也可以使用统计表来完 成计算.SPSS 的统计表功能非常强大,提供了多个过程和灵活的定义方式,可以完成很复 杂的统计表.这里我们只讲两个简单的例子. [例3.7] 用SPSS的Means过程进行分组汇总. 选择Analyze ?Compare Means ?Means,把统计成绩选入"Dependent List"框中,把 性别选入"Independent List"框中,单击"Option"选择需要计算的统计指标,得到的计算 结果如表3-7.从表中可以看出女成的考试成绩明显好于男生. 29 表3-7 分性别的考试成绩 性别 Mean N Std. Deviation Kurtosis Skewness 0 70.19 16 12.090 2.059 -1.278 1 80.00 19 11.504 -.466 -.664 Total 75.51 35 12.615 .816 -.771 [例3.8] 用SPSS 计算分年龄和性别的平均身高. 单击菜单栏中的 Analyze?Tables?Basic Tables,可以得到图 3-15 的对话框.把需要分 析的变量(身高)放到"Summaries"下面的矩形框中,行分类变量(性别)放到"Down" 下面的矩形框中,把列分类变量(年龄)放到"Across"下面的矩形框中,点击"Statistics" 按钮,从中选择需要计算的统计指标(均值) ,点击"Total"按钮选中"Table-margin Totals" 复选框, 可以得到表 3-8 的汇总结果. 如果在分组时采用多个行分类变量或列分类变量, SPSS 可以轻松实现复合分组. 图3-15 SPSS 统计表的对话框 表3-8 分年龄和性别的平均身高 Mean 20 21 22 Table Total 男172 171 175 172 女161 161 164 162 Table Total 168 164 169 167 如果需要用 SPSS 进行组距分组,可以使用 RECODE 命令对数据进行重新编码.当然, 如果分组的目的是为了绘制直方图以观察数据的分布状况,则不必要进行手工的组距分组, 绘制直方图时 SPSS 可以自动对数据进行分组. 30 第四章 用Excel和SPSS制作统计图 4.1 用Excel和SPSS制作常用统计图 4.1.1 制作统计图应该注意的问题 一般来说统计图能够更有效地向读者传达信息.然而,一幅拙劣的图形却可能使读者不 知所云,甚至传达出错误的信息.总体说来,要得到一幅科学的统计图形应该注意以下几个 方面的问题: 1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的 信息,而不是歪曲事实.例如,不恰当的三维效果常常会引起误解. 2、图形要尽量简明.图形应该突出所要传达的信息,不必要的标签、背景、网格线、 等会分散读者的注意力.图形越简单,读者就越能够迅速理解你要传达的信息. 3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的 变量、资料来源等等. 4、反复加工和修改是获得优秀统计图形的重要步骤.统计软件给出的统计图形没有多 少可以不加修改而直接应用. 要得到一个图形很容易, 但要使图形符合要求往往还需要耐心 地修改,就像一篇论文需要反复修改一样. 4.1.2 用Excel制作常用统计图 Excel 提供了强大的图形编辑能力, 可以完成非常优秀的统计图形. 然而, 未经修改 Excel 图形甚至可能是错误的.我们这一节只介绍三种最常用的图形:线图、条形图和饼图的绘制 方法. 使用Excel作图时需要特别注意:在有些图形中你可以用鼠标移动图形中的数据点, Excel会根据新的位置修改原始数据!一定要避免这一方面的误操作. 1、 线图(Line Plot) .线图常用于描绘连续的数据,有助于观察现象发展的长期趋势. [例4.1] 表4-1 是我国 1991-2003 年的就业人数.根据数据绘制线形图. 表4-1 是我国 1991-2003 年的就业人数 年份 就业人数(万人) 年份 就业人数(万人) 1991 65491 1998 70637 1992 66152 1999 71394 1993 66808 2000 72085 1994 67455 2001 73025 1995 68065 2002 73740 1996 68950 2003 74432 1997 69820 单击工具栏中的 ,或者使用菜单栏中的"插入"?"图表" ,会弹出 Excel 的图表向 导.从中选择"折线图" ,在下一步中把就业人数的区域(包括变量名)指定为数据区域, 31 单击"完成" ,就可以得到图 4-1. 很多情况下 Excel 会自动识别数据区域,但自动识别数据区域时最容易出现的错误是不 能正确识别用于分类轴的数据,而把它作为"系列"数据使用.这时需要从"系列"数据中 删除分类序列,并为图形指定分类序列. 就业人数 60000 62000 64000 66000 68000 70000 72000 74000 76000 1 2 3 4 5 6 7 8 9 10 11 12 13 就业人数 图4-1 Excel 默认格式下的线图 图4-1 显然不是一个理想的图表.由于只有一个变量,图例和图表标题是不必要的;背 景使图形不够鲜明,网格线使图形显得比较凌乱;横坐标没有显示相应的年份;纵坐标从 60000 万人开始可能不够合理,而且没有标出单位. 下面我们来对图4-1进行修改.在图表区单击右键,选择"源数据" ,在弹出的对话框中 指定"分类(X)轴标志"对应的数据区域(不要包含变量名) .这样横轴就可以显示年份 了.仔细观察图3-15,你会发现横轴的刻度线与Y的值不是垂直对应的,Y的值处于刻度之 间.要改变这种显示方式,在图形的横轴上双击鼠标左键,在弹出的对话框中选择"刻度" 选项卡,取消选中"数值(Y)轴至于分类之间"的复选框.你还可以在这个对话框中进一 步设定横轴的字体、对齐方式等等.在字体设定中最好取消选定"自动缩放"的复选框,这 会使字体随着图形大小的调整而变化.删除图例和图形内的标题,去掉图形的外框,修改图 形背景以及网格线的格式,最后把纵轴的刻度改为从0开始,为纵轴加上单位,调整后的图 形如图4-2.要熟练掌握图表属性的修改方法最重要的就是多练习,具体操作方法可以参见 Excel的帮助文件. 对比图 4-1 和4-2,你会发现虽然在数学意义上两个图形都没有错的,但纵坐标起始值 的调整对图形的形状有较大影响, 原始的图形可能给人以就业人数迅速增加的错误印象. 我 们这里着重强调的一点是统计软件自动确定的坐标轴的刻度不一定是最恰当的. 在实际应用 中坐标轴从 0 开始标注也不一定是最好的选择. 32 0 10000 20000 30000 40000 50000 60000 70000 80000 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 万人 图4-2 1991 年-2003 年我国的就业人数(年底数) 2、条形图(Bar Chart) .本书所说的条形图指的是 Excel 中所说的"柱形图" . [例4.2] 根据学生调查的结果, 学生对使用英文教材的态度如表 4-2. 根据数据绘制条形 图. 表4-2 学生对使用英文教材的态度 对使用英文教材的态度 百分比 非常不好 8.57% 不太好 31.43% 无所谓 17.14% 比较好 22.86% 非常好 20.00% 用Excel 绘制条形图,经过调整后的结果如图 4-3. 0% 5% 10% 15% 20% 25% 30% 35% 非常不好 不太好 无所谓 比较好 非常好 图4-3 学生对使用英文教材的态度 使用Excel图形需要注意的一个问题是,虽然Excel中的大部分图形都可以使用三维效果 (图4-4是一个条形图的例子) , 但许多数据处理专家都反对这类图形. 在图4-4中第三维 (深度)并不是依据有意义的数据绘制的,而且根据这类图形很难准确读出图形所表现的数值. 根据图4-4,你能正确判断对是否使用英文教材"无所谓"的学生占17.14%吗?看起来像不 像15%或20%?由于类似的原因,Excel提供的圆锥图、圆柱图和棱锥图也不应用于学术报告 33 中.当然,如果你3个数轴都代表了有实质意义的变量,使用真正意义上的三维图形是必要 的. 非常不好 不太好 无所谓 比较好 非常好 0% 5% 10% 15% 20% 25% 30% 35% 图4-4 对使用英文教材的态度:三维效果 3、 饼图(Pie Chart) . 饼图常常用于显示相对比例或者对整体的贡献. 这种图形只能使用一个数据系列, 对于 显示很少的几个数据点很有效, 但数据量太大时则很难说明问题. 通常饼图中的数据点不应 多于6个.有学者指出,饼图不过是用极坐标表示的条形图而已,当数据点过多时饼图不如 条形图清晰. 例如,表4-2的数据就可以用图4-5饼图来显示.只要在Excel的条形图中单击鼠标右键选 择"图表类型" ,把图表类型改为饼图,在对图形的边框、数据标志、字体等做必要的修改 就可以了. 不太 好, 31.43% 无所 谓, 17.14% 比较 好, 22.86% 非常 好, 20.00% 非常不 好, 8.57% 图4-5 学生对使用英文教材的态度饼图 4.1.3 用SPSS制作常用统计图 SPSS具有很强的制图功能,可以绘制多种统计图形.这些图形可以由各种统计分析过 程产生,也可以直接由菜单Graphs 图形菜单产生.SPSS 图形的制作可分为三个过程:建 立数据文件;生成图形;修饰生成的图形. 1、线图. [例4.3] 以表3-9的数据为例用SPSS制作线图. 选择Graphs ? Line 进入Line Chart 对话框(图4-6).有3种线图可选:Simple为单一 线图,Multiple 为多条线图,Drop-line 为落点线图.本例选单一线图. 在定义选项框的下方有一数据类型栏,提供了3种数据类型:Summaries for groups of cases 以分组数据的汇总结果为数据点绘图;Summaries of separate variables 以变量的汇总 结果为数据点绘图; Values of individual cases 以各个观测的观察值为数据点绘图. 本例中选 择第三种情况. 34 单击define按钮, 把就业人数选为需要绘制的变量, 把年份定义为分类变量, 单击 "OK" 后就可以得到一个图形了.在SPSS中双击该图形可以对图形的各个元素进行修改,修改后 的图形见图4-7. 图4-6 线图类型的选择框 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 年份 80000 60000 40000 20000 0 就业人数(万人)图4-7 我国就业人数的线图 2、条形图. [例4.4] 用SPSS做一个分组的条形图,比较学生调查中男生和女生对统计学的兴趣. 选择Graphs?Bar,在Bar Chart对话框中把条形图的类型选为Clustered(复式条形图), 将数据类型选择为Summaries for groups of cases.接下来,在定义条形图的对话框(图4-8) 中选择分类变量为"兴趣",每一类别中的分组变量为"性别",用条形代表观测数的百分 比,点击"OK"后就可以得到分组条形图了.对图形进行进一步的修改后得到的图形如图 4-9. 35 图4-8 条形图的定义框 非常喜欢 比较喜欢 无所谓 不太喜欢 很不喜欢 兴趣 40. 0% 30. 0% 20. 0% 10. 0% 0. 0% Percent 女男性别 图4-9 对统计学兴趣的性别差异 3、 饼图. [例4.5] 作出学生对统计学兴趣百分比的饼图. 选择Graphs?Pie,在Pie Chart选项框中选择Summaries for Groups of Cases,在接下来的 对话框中,在"Slices Represent"选项中选择% of cases,在"define slices by"框中选择变 量"兴趣",点击OK按钮完成图形,然后对图形进行必要的修改,可以得到图4-10的结果. 36 很不喜欢 11. 43% 无所谓 20. 0% 非常喜欢 20. 0% 比较喜欢 22. 86% 不太喜欢 25. 71% 图4-10 学生对统计学课程的兴趣 4.2 描述数据分布状况的统计图 直方图、 箱线图、 茎叶图等都可以用来描述数据的分布状况, 其中最为常用的是直方图. 4.2.1 用Excel绘制直方图 虽然Excel的分析工具库提供了绘制直方图(Histogram)的功能,但Excel所绘制的直方 图实际上就先对数据进行分组, 然后根据分组资料绘制的条形图, 而不是统计意义上的直方 图.因此,如果你有其他的软件可用,我们不建议你用Excel的直方图功能.如果要用Excel 绘制的直方图,一定要对Excel给出的图形进行必要的调整. [例4.6] 用Excel来绘制学生调查中"概率成绩"的直方图.使用直方图工具与使用 FREQENCY函数类似, 需要指定分组界限 (做直方图时也可以不指定分组界限, 但注意Excel 完成的直方图是无法调整分组界限的). 单击工具?数据分析?直方图,会弹出直方图对话框(图4-11).定义了输入区域(数 据区域)、接受区域(分组界限)后,将输出选项定义为当前表格的中的一个单元格,选中 "图表输出"复选框, "确定"后Excel会给出相应的频数分布表(表4-3)和"直方图" (图4-12).概率成绩的最低分为49分,最高分为92分,我们以40-50,50-60,60-70,70-80, 80-90,90-100来进行分组:在Excel表格中输入49、59、69、79、89,将这个区域作为接受 区域. 注意在表4-3,Excel所说的"频率"实际上是频数(次数).另外一点是Excel在对数据 进行分组时总会增加一组(大于接收区域最后一个组限的数据个数),即使这个组中没有数 据. 图4-12实际上就是根据表4-3作的条形图.要把这个条形图调整成直方图的形式至少需 要做以下两方面的修改: 一是各条形之间不应该有间隔; 二是横轴标注的刻度应该是连续的 区间.首先,双击图中的条形区域,在弹出的数据系列格式对话框的"选项"选项卡中把分 类间距调整为0,这样各个条形之间就是连续的了.其次,双击图形的横轴,把横轴的字体 颜色改为白色,字体背景色改为透明,把原来的横轴数值隐藏起来,然后在图形中添加一个 文本框,在横轴的对应位置标出相应的数值.对图形再进行一些细微调整,最后得到的直方 37 图如图4-12. 图4-11 Excel的直方图对话框 表4-3 Excel生成的次数分布表 接收 频率 49 1 59 0 69 7 79 15 89 8 其他 4 直方图 0 10 20 49 59 69 79 89 其他 接收 频率 频率 图4-12 Excel生成的"直方图" 38 0 2 4 6 8 10 12 14 16 49 59 69 79 89 其他 40 50 60 70 80 90 100 考试成绩 人数图4-13 调整后的直方图 4.2.2 用SPSS绘制直方图 1、根据原始数据绘制直方图. [例4.7] 用SPSS制作统计成绩的直方图. 调用Graphs 菜单的Histogram 过程可绘制直方图.在Histogram对话框中把"概率成绩" 变量选入Variable 框,再点击OK钮就完成了,SPSS会自动确定分组界限.如果对SPSS确定 的分组界限不满意,可以用以下方法进行修改:双击直方图进入编辑状态,然后双击条形, 会弹出图4-13所示的属性对话框,在Histogram Options选项卡中,把Anchor First bin改为 Custom value for anchor,其值取为45;把Bin Size改为Custom,指定区间长度为5.你还可以 要求在图形中添加一条正态曲线进行对比(图4-14).对图形的其他特性再作进一步修改, 最后得到的直方图如图4-15. 图4-14 SPSS的直方图修改对话框 39 100 90 80 70 60 50 40 概率成绩 10 8 6 4 2 0 Frequency M ean = 76. 6 S t d.D ev.= 9. 79 N = 35 图4-15 SPSS绘制的直方图 2、根据分组数据绘制直方图. [例4.8] 用SPSS根据分组资料绘制直方图. 如果需要根据分组数据绘制直方图,首先要正确输入数据(参见3.1.3节),为数据指定 相应的权数,然后再使用Histogram 过程作图.使用3.1.3节的数据对学生月支出的情况作直 方图,结果如图4-16所示. 1000 900 800 700 600 500 400 300 200 月支出 7. 00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0. 00 Frequency 图4-16 SPSS根据分组数据绘制的直方图 4.2.3 用SPSS绘制茎叶图和箱线图 1、茎叶图. 在数据数量不太多时, 茎叶图可以很好的反映数据的分布状况, 并且能够保留原始数据 的信息.Excel没有提供创建茎叶图的功能. [例4.9] 用SPSS创建茎叶图. 在SPSS中选择Analyze?Descriptive Statistics ? Explore过程可以完成茎叶图的绘制.在Explore对话框中,单击Plots按钮,选中"Stem-and-leaf"复选框(这是默认选项),在输出 结果中就会看到茎叶图.对学生调查中的身高数据作茎叶图,结果如图4-17. 在茎叶图的输出中,第一组的茎为15,叶分别为8,8,9,9,茎的宽度为10(Stem width: 10),说明这一组的实际数值分别为15.8*10=158、158、159、159,共有4个数据.从茎叶 图可以看出身高的中位数和众数都等于165厘米.SPSS在作茎叶图时如果发现数据中有极端 40 值会单独作为一组标出,而不作为茎叶图的一部分;如果数据位数很多,可能会舍弃后面数 据位的数值. 身高 Stem-and-Leaf Plot Frequency Stem & Leaf 4.00 15 . 8899 11.00 16 . 01112233344 9.00 16 . 555567889 7.00 17 . 0122334 2.00 17 . 58 2.00 18 . 03 Stem width: 10 Each leaf: 1 case(s) 图4-17 茎叶图 2、箱线图(Box plot). Excel没有提供直接绘制箱线图的功能. [例4.10] 用SPSS绘制箱线图. 在SPSS中可以通过Graphs?Boxplot调出绘制箱线图的对话框(图4-18).在这个对话 框中选择"Simple"、并选择"Summaries for groups of cases",在接下来的对话框中把"统 计成绩"作为分析变量,把性别作为分类变量,得到的箱线图如图4-19. SPSS中的箱线图是这样绘制的:先根据三个四分位数(Q1、Q2、Q3)画出中间的盒子. 盒子的长度Q3-Q1称为四分位距(interquartile range,IQR) .然后,由Q3至Q3+1.5*IQR区间 内的最大值向盒子的顶端连线; 如果数据处于Q3+1.5*IQR至Q3+3*IQR的范围内用圆圈标出, 超出了Q3+3*IQR的用星号标出.在Q1一侧也用类似的方法绘制:由Q1至Q1-1.5*IQR区间内 的最小值向盒子的底部连线;Q1-1.5*IQR至Q1-3*IQR的范围内用圆圈标出,小于Q1-3*IQR 的用星号标出. 在图3-33中我们可以看出,有一个男生的统计成绩在Q1-1.5*IQR至Q1-3*IQR的范围内, 这个人的观测号是3(圆圈旁边的数字"3"表示观测号). 图4-18 SPSS的箱线图对话框 41 女男性别 100 90 80 70 60 50 40 30 统计成绩3图4-19 箱线图 4.3* 质量管理中的统计图 统计图形是现代质量管理的重要手段之一.这一节我们首先介绍简单的排列图(Pareto Chart,也称帕雷托图) ,然后分别介绍几种常用的控制图.Excel 没有直接提供这些图形功 能,以下案例都是由 SPSS 完成的.我们这里主要侧重讲解图形的软件实现,对于其中涉及 的专业知识请进一步参考有关参考书. 4.3.1 排列图 排列图是用来寻找影响产品质量的主要因素的一种方法,由此可以确定质量改进的方 向.在现实中很多问题通常是由少数主要原因引起的,其基本原理是区分"关键的少数"和 "次要的多数" ,这样有助于抓关键因素.为直观起见用图形表示出来,这一图形便是排列 图. [例4.11] 你工作的电脑公司为客户提供上门电脑维修服务.最近顾客要求上门维修的 次数有所上升,为了找出导致问题的主要原因,你调查了最近的 80 次维修记录,发现导致 电脑故障的主要原因如表 4-4.试根据表中的数据作 Pareto 图以找出导致问题的主要原因. 表4-4 电脑故障的原因分类 问题类别 出现次数 硬盘故障 5 显示器故障 8 主板故障 10 光驱故障 19 软件和病毒问题 35 其他问题 3 在SPSS中建立数据文件,定义变量名为原因(字符型)和次数(数值型),输入相应 的数据.然后选Graphs?Pareto,SPSS会弹出Pareto Chart 定义选项框,选"Simple"和Data in Charts are "Counts or sums of groups of cases"(都是默认选项),然后点击Define 按钮弹 出Define对话框,把变量"次数"选入Sums of variable 框,"原因"选入Category Axis 框, 如图4-20.再点击OK钮即完成定义过程,结果如图4-21所示.这个图形实际就是一个条形 42 图和一个累计频率折线图的复合图形,x轴要先从大到小进行排序.从图4-21可以看出,造 成电脑故障的主要原因是软件和光驱问题,减少电脑故障应首先从这两个方面着手. 图4-20 定义Pareto图的对话框 其他问题 硬盘故障 显示器故 障 主板故障 光驱故障 软件和病 毒问题 原因 80 60 40 20 0 次数100% 80% 60% 40% 20% 0% Percent 图4-21 Pareto图4.3.2 计量值控制图 控制图是进行统计过程控制的重要手段, 可以帮助我们及时发现过程中出现的异常波动 并采取措施加以消除,以保持质量的稳定.控制图可以分为两类:用于连续数据(计量值) 的控制图和用于属性数据(计数值)的控制图.这一小节我们先来看计量值控制图. 1、均值-极差控制图以及均值-标准差控制图. 均值控制图( x 图)主要用来判断过程的均值是否处于受控状态; 极差控制图(R图)和标准 差控制图(s图)主要用来统计过程的波动是否处于受控状态. x 图一般与R图或s图组合在 一起出现, 这样可以同时了解统计过程的波动和均值的特性. 通常当样本容量大于 5 时使用 s图,样本容量小于等于 5 时使用R图1 . [例4.12] 某食品厂生产的薯条每包的标准重量为 150 克, 每包的重量在 145-155 克为合 格.现每隔一小时从生产线上抽取 5 包进行称重,共抽取了 25 个样本,数据如表 4-5.根 据数据制作均值-极差控制图并计算过程能力指数. 表4-5 薯条重量的抽样数据 样本序号 X1 X2 X3 X4 X5 1 148 149 150 151 151 2 150 150 146 148 150 1 MINITAB User's Guide 2: Data Analysis and Quality Tools, Minitab Inc.,2000. 43 3 150 149 150 149 148 4 151 149 149 149 149 5 148 151 150 148 150 6 154 151 149 148 151 7 149 150 148 150 151 8 149 148 148 151 149 9 149 148 149 152 151 10 150 149 150 151 150 11 153 150 150 152 150 12 151 150 152 150 148 13 151 151 153 150 151 14 148 150 150 149 150 15 152 152 149 152 151 16 151 151 148 147 151 17 149 148 152 151 148 18 153 150 149 151 148 19 150 150 150 151 151 20 154 150 150 151 152 21 150 149 146 150 150 22 150 148 151 152 149 23 148 151 153 148 149 24 147 151 148 150 153 25 151 151 148 149 152 在SPSS中建立数据文件,选择Graphs?Control,在弹出的Control Charts选项框选择 X-bar,R,s图形,数据类型选择后一种"Cases are subgroups"(数据表中的每一行是一个样 本)(图4-22).如果所有的变量值都存储在一个变量中,另有一个变量记录变量值的样本 序号,则数据类型是前面一种("Cases are unit").点击Define按钮,弹出控制图的定义 菜单. 把x1-x5 选入Samples框, 图形类型选择默认的X-Bar and range (图4-23) . 点击Statistics 按钮,在弹出的对话框中输入规格要求:上限为155,下限为145,目标值为150.要求输出 过程能力指数CpK.在这个对话框中你可以指定过程标准差的计算方法.我们这里采用默认 方法(根据R-Bar估计)(图4-24).返回主菜单,点击"OK"就可以得到需要的控制图了. 经过编辑修改的图形如图4-25和图4-26. 均值和极差控制图说明过程处于统计控制状态.根据我们设定的参数SPSS计算的 Cpk=1.089,过程能力尚可. 44 图4-22 控制图的选择框 图4-23 X-bar,R,s 图的定义框 图4-24 X-bar,R,s 图的统计指标对话框 45 25 21 17 13 9 5 1 156 154 152 150 148 146 144 Mean 155 145 U C L=1. 9744 LC L=147. 9136 149. 9440 图4-25 X-Bar 图25 21 17 13 9 5 1 8 6 4 2 0 Range U C L=7. 443 3. 52 图4-26 R 图2、单值-移动极差控制图. 当利用平均值进行过程控制不切实际时 (例如获得观测值的费用很高, 短时间内的输出 结果相似等等) ,可以使用单值控制图. 由于在这种情况下不可能计算每个个体值对应的标准差或极差, 与单值控制图配合使用的是 移动极差控制图,移动极差 k i x x R i i i ,...... 3 , 2 , 1 ? ? ? ? . [例4.13] 在薯条的例子中假设每次抽样时只取一包薯条进行称重(假设都为第一个样 品x1) ,根据数据作单值-移动极差控制图. 选择Graphs?Control,在弹出的Control Charts选项框选择Individuals, Moving Range图形,在控制图的定义菜单中把x1选入Process Measurement框,点击"OK"就可以得到需要 的控制图了.经过编辑修改的图形如图4-27和图4-28. 单值控制图和移动极差控制图都处于受控状态. 46 25 21 17 13 9 5 1 158 156 154 152 150 148 146 144 U C L=156. 3328 LC L=144. 1472 150. 24 图4-27 单值控制图 25 21 17 13 9 5 1 8 6 4 2 0 Moving Range of 2 U C L=7. 4858 2. 2917 图4-28 移动极差图 4.3.3 计数值控制图 1、不合格品率控制图和不合格品数控制图. 不合格品率控制图(p 图)是评价过程不合格品率的统计工具,不合格品数控制图(np 图)是用于评价不合格品数的统计工具.在每个样本的样本容量不同时只能使用 p 图,样本 容量相同时可以使用 p 图或 np 图. [例4.14] 某超市长期从一供应商处购进苹果.在每批进货中检验人员都随机抽取 4 箱 进行检验,记录擦伤的苹果数.每箱苹果的重量为 10 公斤,大约 25-30 只苹果.连续 25 批 产品的检验结果如表 4-6.试作 p 图. 表4-6 苹果的抽样数据 批次 苹果数 擦伤数 批次 苹果数 擦伤数 1 120 4 14 104 9 2 119 4 15 105 1 3 108 5 16 114 3 4 116 9 17 103 4 5 103 3 18 112 6 47 6 104 3 19 115 7 7 105 4 20 103 5 8 111 7 21 109 2 9 101 1 22 117 6 10 114 3 23 109 3 11 104 4 24 104 6 12 101 4 25 106 4 13 105 8 在SPSS中建立数据文件,选择Graphs?Control,选择p, np图,数据类型选择"Cases are subgroups".在控制图的定义菜单中把"擦伤数"选入Number of nonconforming框,把变 量"样本容量"选入"Sample size" 框中,选择默认的p图,点击"OK"就可以得到需要 的控制图了.经过修改的图形如图4-29,图形表明不合格率处于受控状态. 25 21 17 13 9 5 1 0. 12 0. 10 0. 08 0. 06 0. 04 0. 02 0. 00 Proportion Nonconforming U C L . 0424 图4-29 苹果擦伤数的p图2、单位缺陷数控制图和缺陷数控制图 单位缺陷数控制图(u 图)用于判断生产过程的单位产品缺陷数是否保持在所要求的水 平.在每次抽样单位数相同时也可以使用缺陷数控制图(c 图) . [例4.15] 某纺织厂生产的布匹要求每 100 平方米不能超过 10 个疵点,否则销售商有 权退货. 在每次检验中检查 100 平方米布匹, 记录疵点个数. 连续 30 次的检验结果如表 4-7. 根据数据制作 c 图. 表4-7 布匹疵点的抽样结果 序号 疵点数 序号 疵点数 1 4 16 2 2 1 17 4 3 4 18 3 4 5 19 2 5 2 20 3 6 3 21 5 7 2 22 4 8 4 23 4 48 9 3 24 2 10 5 25 6 11 1 26 4 12 3 27 2 13 2 28 2 14 4 29 3 15 3 30 1 在SPSS中建立数据文件,选择Graphs?Control,选择c, u图,数据类型选择"Cases are subgroups" . 在控制图的定义菜单中把 "疵点数" 选入Number of nonconforming框, "Sample size" 设为常数100,图表类型选择为的c图,点击"OK"就可以得到控制图了.经过修改 的图形如图4-30,图形表明过程处于受控状态. 29 25 21 17 13 9 5 1 10 8 6 4 2 0 Nonconformities U C L=8. 3820 3. 1 图4-30 缺陷数控制图(c图) 49 第5章概率分布与抽样分布 在Excel和SPSS中都有丰富的概率函数,可以帮助我们进行各种类型的概率计算,进行 各种类型的随机模拟试验来学习统计学原理.统计软件中与概率分布有关的函数可以分为4 类: (1)计算分布的概率或概率密度的函数(PDF); (2)计算分布的累积概率的函数(CDF); (3)计算分布的累积概率函数的反函数(IDF); (4)随机模拟服从某种分布的数据. Excel可以计算大部分常用理论分布的PDF、CDF和IDF(但没有直接提供F分布和t分布 的密度函数),并且可以模拟产生服从大部分常用理论分布的数据.但是,同一类型的Excel 函数对参数的要求以及输出结果的定义方式很不一致,对我们使用这些函数造成了一定困 难,要求我们在使用Excel概率函数时一定要真正理解Excel的概率函数,避免对概率函数的 误用.如果能够正确使用,Excel可以成为非常强大的学习工具. SPSS提供的概率函数比Excel要丰富,使用也很方便.就计算的准确性而言,有研究表 明至少在Excel 2003以前的版本中的随机数发生器和一些分布函数的计算结果不如专门的统 计软件精确. 本章我们通过一些例子来说明使用Excel和SPSS进行概率计算和随机模拟的方法.由于 在Excel和SPSS中这些函数的使用方法非常类似,本章的讲解我们以Excel为主进行讲解, SPSS的相应功能只作简单的介绍. 5.1 用Excel和SPSS进行概率计算 5.1.1 用Excel计算分布的概率或概率密度 对于离散分布如二项分布或泊松分布,Excel可以计算出x取特定值的概率值.而对于连 续分布,我们可以通过密度函数对概率分布有直观的了解.在常用的连续分布中,Excel可 以计算正态分布的密度函数,但没有直接提供t分布、F分布、χ2 分布的密度函数,SPSS提供 了所有常用函数的密度函数. [例5.1] 用Excel计算正态分布的密度函数并绘制正态分布的图形. 计算中需要使用的函数是:NORMDIST(x,mean,standard_dev,cumulative).该函数有四 个参数,第一个参数是x的值,第二、三个参数是正态分布的均值和标准差,最后一个参数 为一逻辑值,指明函数的形式.如果 cumulative 为TRUE(或非零实数) ,函数 NORMDIST 返回累积分布函数;如果为 FALSE(或0) ,返回概率密度函数. 打开一个新的工作表,在第一行输入变量名,A2单元格输入数值-3.5.接下来,单击A2 单元格使其成为活动单元格,单击菜单"编辑"?"填充"?"序列",在弹出的对话框中 选择序列产生在列,类型为等差序列,步长值为0.1,终止值为3.5,可以在构造一个由-3.5 至3.5的等差序列(图5-1). 50 图5-1 构造-3.5 -3.5 的等差序列 在B2单元格输入"=",从统计函数中选择函数NORMDIST,设定函数的参数为 NORMDIST(A2,0,1,0),B2单元格就会计算出相应的密度函数.然后用拖动的方法在B3:B72 复制公式,就可以得到所有的密度函数值了. 用生成的数据作XY散点图(选择无数据点平滑线散点图) ,对图形作必要的修改后得到 的正态分布图形如图5-2.散点图就是用X、Y的取值作为横坐标和纵坐标,在图形上描点获 得的图形,主要用于表现两个变量之间的相互关系. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 -4 -3 -2 -1 0 1 2 3 4 图5-2 标准正态分布的密度曲线 5.1.2 用Excel计算分布的累积概率 我们经常需要利用分布的累积概率来进行有关的各种计算, 在传统的统计学教学中这些 概率都需要通过查表来获得. 我们这里通过一些例子来说明使用不同的分布进行有关计算时 需要注意的问题. 1、二项分布. [例5.2] 假设每天有5个由北京飞往上海的航班,每次航班晚点的概率等于0.2.请问今 天恰好有两个航班晚点的概率是多少?最多有两个航班晚点的概率是多少? 每天晚点的航班数服从二项分布.相应的概率可以使用Excel二项分布函数来计算.该 函数的形式为:BINOMDIST(number_s,trials,probability_s,cumulative).参数Number_s为试验 成功的次数,Trials为独立试验的次数,Probability_s为每次试验中成功的概率.Cumulative 为一逻辑值,用于确定函数的形式.如果cumulative 为TRUE,函数 BINOMDIST返回累 积分布函数,即至多 number_s 次成功的概率;如果为 FALSE,返回概率密度函数,即number_s 次成功的概率. 因此对第一个问题,在单元格中输入公式 "=BINOMDIST(2,5,0.2,0)" .得到的答案为 0.2048.对第二个问题,在单元格中输入公式 "=BINOMDIST(2,5,0.2,1)" .得到的答案为 51 0.94208. 2、正态分布. 对于给定的x值,NORMDIST函数在计算累积概率时返回的是从负无穷到x的积分,即图4-3中阴影部分的面积.注意Excel可以直接计算x为负值时的累积概率. -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 图5-3 正态分布累计函数的返回值为阴影面积 [例5.3] 已知学生的统计考试成绩服从均值为72,标准差等于8的正态分布,求学生成 绩不及格的概率和处于65-80之间的概率. 学生成绩不及格的概率可以使用公式"=NORMDIST(60,72,8,1)"计算,计算结果为 0.066807. 公式"=NORMDIST(65,72,8,1)"的结果为0.190787,公式"=NORMDIST(80,72,8,1)" 的计算结果为0.841345,二者之差0.650558即为成绩处于65-80之间的概率. 3、t分布. Excel中计算t分布累计概率的函数为TDIST(x,degrees_freedom,tails).X为需要计算分布 的数字,Degrees_freedom为自由度,Tails指明返回的分布函数是单尾概率还是双尾概率. tails=1时函数TDIST返回单尾概率,tails =2时返回双尾概率. 计算双尾概率时TDIST的返回值为P(|X| > x),即图4-4中阴影的面积;计算单尾概率时 TDIST的返回值为P( X>x ),即图5-4中右侧阴影的面积.这一点与正态分布很不一致.t累 积分布函数与正态分布的另一点不同是t分布要求输入的x为正值. -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 图5-4 计算双尾概率时t累积分布函数的返回值为阴影面积 [例5.4] 已知随机变量X服从自由度为10的t分布,计算P(|X| ≤2). P(|X| ≤2)=1- P(|X| >2).在单元格中输入公式"1- TDIST(2,10,2)" ,可知相应的概率等 52 于0.926612. 4、F分布. FDIST(x,degrees_freedom1,degrees_freedom2)的三个参数分别为x的值,分子的自由度和 分母的自由度.F分布的返回值为FDIST=P( F>x ),即图4-5所示的面积. 1 2 3 4 5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 1 2 3 4 5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 图5-5 F累积分布函数的返回值为阴影面积 5.1.3 用Excel计算累积概率分布的反函数 已知一定的概率值求概率分布中相应的x值是另外一种重要的统计计算.这种计算是累 积分布函数逆运算. 1、对正态分布,相应的函数为NORMINV(probability,mean,standard_dev),其中要求的 概率参数为从负无穷到x的积分,即图5-3中阴影的面积. 2、对t分布,相应的函数为TINV(probability,degrees_freedom),其中要求的概率参数为 双尾概率,即图5-4中阴影的面积,这一点在使用这一函数时应特别注意. 例如,公式"=TINV(0.05,10)"的返回值为2.228,说明x=2.228时图4-4中左右两个阴影 的面积等于0.05. 3、对F分布,相应的函数为FINV(probability,degrees_freedom1,degrees_freedom2),其中 要求的概率参数为图5-5中阴影的面积. 5.1.4 SPSS中的有关函数 在SPSS的函数中,计算概率(离散分布)和概率密度(连续分布)的函数在"PDF & Noncentral PDF"一类中,有关函数都是以Pdf开头的;计算累计概率的函数在"CDF & Noncentral CDF"一类中,有关函数都是以Cdf开头的;累计概率函数的反函数在 "Inverse DF"一类中,有关函数都是以Idf开头的.使用这些函数时需要仔细查看函数对参数的要求, 以免误用. 5.2 抽样分布 统计量的分布称为抽样分布, 它是统计学中的核心概念之一, 正确理解这一概念对于理 解参数估计和假设检验中的有关方法至关重要. 统计软件提供的随机数发生器可以使我们对 抽样分布进行计算机模拟,对抽样分布有更加直观的理解. Excel的分析工具库中有一个"随机数发生器"模块,可以产生服从大部分常用分布的 53 模拟数据,但没有提供直接产生随机数的函数.在SPSS中产生随机数的函数在"Random numbers"类别中,相应的函数都是以Rv开头的. 5.2.1 样本均值抽样分布的随机模拟 假总体的均值为μ,标准差为σ,则统计理论表明,不论总体的分布如何,只要样本容 量n足够大,样本均值的分布总会趋向于正态分布,且均值为μ,标准差为 n / ? . [例5.5] 假设总体为均匀分布,模拟样本均值的抽样分布. 假设总体的分布为0-1区间上的均匀分布,则总体的均值为0.5,方差等于1/12,标准差 等于0.288675.现在,我们从总体中抽取1000个样本容量为2的样本(有放回抽样),计算 每个样本的样本均值,然后观察样本均值的分布状况. 新建一个Excel工作簿,单击"工具"?"数据分析"?"随机数发生器",在弹出的 对话框中把变量个数设为2,随机数个数为1000,选择0-1区间的均匀分布,结果放在新工作 表中(图5-6).把输出结果的每一行看作一个容量为2的样本,共有1000个样本.在C列中 计算每个样本的均值.接下来我们就可以分析这1000个样本均值的分布状况了.由于SPSS 的直方图工具更为方便,我们把相应的数据复制到SPSS中作直方图,结果如图5-7,抽样分 布的均值为0.5097,标准差为0.20345,理论值等于0.288675/ 2 =0.20412,两者差异不大. 图5-6 随机数发生器对话框 1. 00 0. 80 0. 60 0. 40 0. 20 0. 00 n_eq_2 70 60 50 40 30 20 10 0 Frequency M ean = 0. 5097 S t d.D ev.= 0. 20345 N = 1, 000 图5-7 样本均值的抽样分布,样本容量=2 54 用类似的方法模拟样本容量等于10和30时样本均值的抽样分布, 得到的直方图分别为图 4-8和图4-9.样本容量为10时抽样分布的均值为0.4992,标准差为0.09326;样本容量为30时 抽样分布的均值为0.4993, 标准差为0.05368. 抽样分布的标准差与总体标准差的理论关系都 近似成立. 读者也可以用随机数发生器检验总体为其他分布时样本均值的抽样分布. 1. 00 0. 80 0. 60 0. 40 0. 20 0. 00 n_eq_10 80 60 40 20 0 Frequency M ean = 0. 4992 S t d.D ev.= 0. 09326 N = 1, 000 图5-8 样本均值的抽样分布,样本容量=10 1. 00 0. 90 0. 80 0. 70 0. 60 0. 50 0. 40 0. 30 0. 20 0. 10 0. 00 n_eq_30 100 80 60 40 20 0 Frequency M ean = 0. 4993 S t d.D ev.= 0. 05368 N = 1, 000 图5-9 样本均值的抽样分布,样本容量=30 5.2.2 样本比例抽样分布的随机模拟 样本比例实质上就是指标数值只能取0和1时的样本均值. 由于在这种情况下总体的分布 为0-1分布,因此在重复抽样的条件下样本均值抽样分布的理论分布是二项分布.中心极限 定理表明当样本用量足够大(能够保证np≥5,nq≥5)时二项分布可以用正态分布来近似. 假设总体中发生某种事件(取值为1)的概率为p,用 表示样本比例,则有 , p ? p p E ? ) ? ( n pq p / ? ? ? . [例5.6] 假设有大批零件,不合格率p为0.2.随机模拟从总体中抽取样本容量分别为5, 55 20,50的2000个样本,分析样本比例 的抽样分布. p ? 新建一个工作表,在单元格中输入图5-10左上角所示的信息作为总体:总体中取值为1 (不合格)的概率为0.2,取值为0(合格)的概率为0.8. 图5-10 二项分布的随机模拟 使用Excel的随机数发生器,在分布中选择"离散",数值与概率区域选为$A$1:$B$2, 变量个数设为5,随机数设为2000(图5-10).在输出数据中,把每一行看作一个随机样本, 计算样本比例(均值).在SPSS中作样本比例抽样分布的直方图,如图5-11. 0. 80 0. 60 0. 40 0. 20 0. 00 n_eq_5 1, 000 800 600 400 200 0 Frequency M ean = 0. 1992 S t d.D ev.= 0. 18071 N = 2, 000 图5-11 样本比例的抽样分布,样本容量=5 用类似的方法模拟n=20和n=50的情况,得到的直方图如图5-12和5-13.从模拟结果可以 看出,随着样本容量的逐渐增大,样本比例的抽样分布是趋向于正态分布的.请读者自行验 证分布的标准差与总体标准差的关系与理论推导是否一致. 56 0. 80 0. 60 0. 40 0. 20 0. 00 n_eq_20 500 400 300 200 100 0 Frequency M ean = 0. 1983 S t d.D ev.= 0. 0888 N = 2, 000 图5-12 样本比例的抽样分布,样本容量=20 0. 80 0. 60 0. 40 0. 20 0. 00 n_eq_50 300 250 200 150 100 50 0 Frequency M ean = 0. 2011 S t d.D ev.= 0. 05757 N = 2, 000 图5-13 样本比例的抽样分布,样本容量=50 57 第6章参数估计与假设检验 6.1 使用Excel和SPSS进行参数估计 6.1.1 总体均值和比例的区间估计 参数估计所要解决的问题是根据样本数据对总体的参数进行点估计和区间估计. 根据样本对总体的均值、比例或方差进行点估计,就是计算样本的均值、比例或方差. 有关计算在Excel或SPSS中的实现我们前面已经讲解过了. 根据样本对总体的均值区间估计时,根据条件的不同可以选择t分布或正态分布;对总 体比例进行区间估计则要求是大样本,使用的分布是正态分布. 1、利用正态分布计算均值的置信区间. 正态总体、方差已知,或者非正态总体、大样本、方差已知的情况下均值的置信区间为 n z x ? ? ? ? 2 / ;大样本、方差未知时,不管总体是否为正态分布,均值的置信区间均可按以下 公式计算: n s z x ? ? 2 / ? . 公式中的样本均值、样本方差可以由软件计算出来(或者总体标准差已知), 可以 根据正态分布的累积分布的反函数计算出来,因此相应得置信区间很容易计算. 2 / ? z [例6.1] CJW公司每个月都要进行顾客满意度调查. 最近一次调查中调查了100名顾客, 顾客的平均满意度为82分.已知总体的标准差为20,试计算顾客满意度的95%的置信区间. 在Excel单元格中输入公式"=82-NORMINV(0.975,0,1)*20/10",可知置信下限为78.08, 用公式"=82+NORMINV(0.975,0,1)*20/10"可知置信上限为85.92. 如果把公式中的0.975改为0.995, 可以求出顾客满意度99%的置信区间. 注意NORMINV 的概率参数与显著性水平α的关系. 在Excel中也可以利用CONFIDENCE(alpha,standard_dev,size)函数来计算正态总体方差 已知情况下的置信区间:该函数的返回值等于 n z ? ? ? 2 / ,相当于置信区间长度的一半,根据 这一结果很容易计算相应的置信区间.例如在这个例子中,"=CONFIDENCE(0.05,20,100)" 的计算结果为3.919928. 2、利用t分布计算均值的置信区间. 正态总体、方差未知时均值的置信区间为 n s t x n ? ? ?1 , 2 / ? .大样本时这一置信区间也成 立,不过大样本时可以用正态分布的z值来代替t值. 如果是样本均值、样本标准差已知,可以直接在Excel中输入相应的公式来计算置信区 间. [例6.2] 出租汽车公司随机调查了40位乘客的乘车行驶里程, 发现他们的平均行驶里程 为7.7公里, 样本标准差为2.93公里. 假设总体为正态分布, 试计算出租汽车平均行驶里程95% 的置信区间. 58 在Excel单元格中输入公式"=7.7-TINV(0.05,39)*2.93/40^0.5",可知置信下限为6.76公里,用公式"=7.7+TINV(0.05,39)*2.93/40^0.5"可知置信上限为8.64公里. 由于样本容量较大, 这个题目也可以用正态分布来做. 在Excel单元格中输入公式 "=7.7- NORMINV(0.975,0,1)*2.93/40^0.5",可知置信下限为6.79公里,用公式"=7.7+ NORMINV(0.975,0,1)*2.93/40^0.5"可知置信上限为8.61公里. [例6.3] 根据学生调查的身高数据计算总体平均身高的置信区间. 如果是根据原始数据对总体均值进行区间估计,则可利用Excel分析工具库中的描述统 计模块来进行区间估计.在描述统计的对话框中选中"平均数置信度"复选框,并输入要求 的置信度(图6-1),输出结果中包含有表6-1所示的信息. 图6-1 用描述统计模块计算置信区间 表6-1 描述统计的输出结果 身高 平均 166.7714286 标准误差 1.080838232 标准差 6.394325215 观测数 35 置信度(95.0%) 2.196527551 在表6-1中,"标准误差"(即通常所说的抽样分布的标准误)计算的是 n s 的值,"置 信度(95.0%)" 计算的是 n s t n ? ?1 , 2 / ? 的值. 因此学生平均身高95%的置信区间为166.77±2.20, 即[164.57,169.97]. 在SPSS中根据原始数据计算置信区间十分方便, 在Descriptive Statistics?Explore过程的 输出结果中包括了因变量95%的置信区间(可以在statistics对话框中设定不同的置信度). 3、比例的区间估计. 当样本用量足够大(能够保证np≥5,nq≥5)时,样本比例的抽样分布用正态分布来近 似.这时总体比例的置信区间为: n q p z p ? ? ? 2 / ? ? . 59 因此,如果已经计算出了样本比例,则先用Excel函数计算 的值,代入置信区间的 公式就可以了.如果是根据原始数据对比例进行估计,则需要先计算样本比例,然后利用正 态分布求解置信区间. 2 / ? z [例6.4] 对于学生调查的数据,假设样本是随机的,试根据样本估计全校学生中女生的 比例99%的置信区间. 使用分析工具库的描述统计模块对性别变量进行分析可知 =0.542857.因此总体比例 的置信下限为"=0.542857-NORMINV(0.995,0,1)*(0.542857*0.457143/35)^0.5",计算结 果为0.3259609.相应的置信上限为0.7597531. p ? 6.1.2 置信区间的随机模拟 在前面的例子中我们曾求得学生平均身高95%的置信区间为[164.57, 169.97]. 对于这一 置信区间比较准确的说法区间[164.57, 169.97]有95%的可能性包含总体的真实值. 如果解释 为总体的真实值有95%的可能性落在[164.57,169.97]这一区间内,则有可能引起误解,认为 总体的真实值是一个随机变量, 而区间是确定的. 实际的情况是, 置信区间是一个随机区间, 而总体的真实值是一个确定的数. [例6.5] 为了对置信区间的含义有一个直观的理解,我们下面来做一个随机模拟试验. 假设一个正态总体的均值为100, 标准差等于10. 现在从总体中随机抽取100个容量为25的随 机样本,计算每个样本的95%的置信区间(计算置信区间时假设总体方差未知),看看有多 少个区间不包含总体的真实值. 在一个新的工作表中调用Excel的随机数发生器,将分布设为正态分布,变量个数设为 25,随机数个数设为100,分布的均值设为100,标准差为10. 在生成的数据表中,将每一行看作一个容量为25的随机样本,共有100个样本.用Excel 函数计算每个样本的均值、标准差,然后计算样本均值抽样分布的标准误(等于样本标准差 除以 n ),计算结果保存在依次数据表后面的各列中.在随后一列中保存计算置信区间需 要的t值"=TINV(0.05,24)".最后,在随后的两列中计算并保存置信区间的下限和上限(图6-3).你可以使用Excel的逻辑函数判断一个区间是否包含总体的真实值100. 图6-2 产生正态分布随机数的对话框 60 图6-3样本均值置信区间的计算过程 在一次随机试验中得到的100个点估计值如图6-4.从图中我们可以看出,就一次试验的 结果而言,可能与总体的真实值非常接近,也可能有较大差异.由于在实践中总体的真实值 一般是未知的,在点估计中我们无法衡量估计结果的准确性. 85 90 95 100 105 110 115 1 9 17 25 33 41 49 57 65 73 81 89 97 图6-4 100个样本的样本均值 图6-5是一次随机实验中100个置信区间的图形.在Excel中用股价图很容易获得类似的 图形.为了突出显示不包含总体真实值的区间,可以对置信区间的数据进行一定的转换,用 线图或散点图作图.图6-5是通过为线图添加误差线得到的.注意由于我们在试验中是用样 本方差来估计总体方差的,区间的长度并不相同. 从图6-5我们可以看出,在100个随机区间中,有4个不包含总体的真实值.由于试验的 随机性,如果重新进行试验可能会有不同的结果.但是,在总体真实值未知的情况下,统计 理论可以保证,在所有的置信区间中只有5%不包含总体的真实值. 85 90 95 100 105 110 115 1 9 17 25 33 41 49 57 65 73 81 89 97 61 图6-5 100个随机样本得到的总体均值的置信区间 6.1.3 样本容量的确定 在简单随机抽样的情况下,如果给定了最大允许误差E (maximum allowable error)以及 总体方差的估计值,可以推导出必要样本容量的计算公式. 在重复抽样的条件下,估计总体均值的必要样本容量为: 2 2 2 2 / E z n ? ? ? 估计总体比例的必要样本容量为: 2 2 2 / ) 1 ( E z p p n ? ? ? 公式中的 可以用统计软件计算出来, 其他的量都是已知的, 因此必要样本容量很容 易计算. 2 / ? z [例6.6] 一名学习公共管理的学生希望估计某城市公务员的平均工资. 在95%的置信水 平下允许的最大抽样误差为100元. 此前有研究表明公务员工资的标准差为800元. 试求在简 单重复抽样条件下的必要样本容量. 根据相应的公式,在单元格中输入公式"=NORMSINV(0.975)^2*800^2/100^2",计算 结果为245.8534,因此必要样本容量为246.Excel的CEILING函数可以对小数向上取整.公 式中使用的函数NORMSINV是用来计算标准正态分布累计分布反函数的,比NORMINV要 求的参数少一些,计算结果是相同的. 6.2 使用Excel和SPSS进行假设检验 在假设检验中最常用的检验规则是计算检验统计量的实际值和临界值, 通过实际值和临 界值的对比得出检验结论;或者计算统计量实际值的p-值,通过p-值和显著性水平α的对比 得出结论. 假设检验中使用的数据可以分为两种情况: 一是经过统计汇总的数据, 已经得到了样本 均值和标准差(或者总方差已知);二是原始数据.在前一种情况下需要解决的计算问题是 计算统计量的临界值,或者根据统计量的实际值计算p-值;在后一种情况下则可以使用统计 软件直接得出统计量的临界值和检验的p-值. 6.2.1 检验统计量临界值的计算 在已知样本的均值、标准差(或者总方差已知)时,可直接计算出检验统计量的值,然 后使用Excel或其他软件计算统计量的临界值,通过实际值与临界值的对比得出检验结论. 用Excel计算统计量的临界值时需要特别注意两个方面的问题.一是检验的类型:是双 侧检验、 左侧检验还是右侧检验?双侧检验和单侧检验计算临界值时对显著性水平处理方式 不同, 双侧检验要求每一侧的尾部面积为α/2, 而单侧检验要求在拒绝域一侧的尾部面积为α. 二是在Excel中正态分布、t分布和F分布累积分布反函数中对概率参数的要求不同,注意分 清楚这个参数与显著性水平的关系. [例6.7] 某机器制造的产品厚度应为5厘米.为了了解机器的性能是否良好,从产品中 随机抽取10件,样本均值为5.3厘米,样本标准差为0.3厘米.已知总体服从正态分布,试以 0.05和0.01的显著性水平总体均值是否等于5厘米. 62 根据题意这里应该使用t统计量.检验统计量等于 16 . 3 10 / 3 . 0 5 3 . 5 ? ? ? t . 在这个例子中应该使用双侧检验,95%的临界值在Excel中应该使用公式 "=TINV(0.05,9)"计算,结果为2.2622.99%的临界值为"=TINV(0.01,9)"等于3.2498.因此,检验的结论是,在0.05显著性水平下拒绝零假设,在0.01的显著性水平不能拒绝零假设. [例6.8] 一手机厂商声称其某种型号的手机在完全充电的情况下待机时间在150小时以 上.为了对此进行检验,经销商随机选择了20部手机进行测试,发现平均待机时间为148小时,样本标准差为3小时.试检验在5%的显著性水平下厂商的说法可靠吗? 对于这个问题,检验的零假和备择假设应设为: 150 : 0 ? ? H , 150 : 1 ? ? H .检验统计量 98 . 2 20 / 3 150 148 ? ? ? ? t .检验的临界值为"=-TINV(0.10,19)" ,等于-1.729.由于实际值小于临界 值,拒绝零假设,检验的结论手机的待机时间小于150小时(图6-6) . -4 -2 2 4 0.1 0.2 0.3 0.4 -4 -2 2 4 0.1 0.2 0.3 0.4 -2.98 图6-6 左侧检验中t检验的实际值和临界值 6.2.2 用Excel计算p-值 在统计软件中最常用的假设检验方法是根据检验统计量的观测值计算p-值,然后将p-值与α比较得出检验结论,当α>p-值时拒绝零假设. p-值得计算方法取决于检验的种类(双侧检验、左侧检验还是右侧检验)以及分布的类 型.对于t分布,用tobs表示t统计量的观测值,在双侧检验时p-值=P(|t|≥|tobs|);在右侧检验时 p-值=P(t≥tobs);左侧检验时p-值=P(t≤tobs). 正态分布时p-值的计算与t分布类似,只是将t统计量换成z统计量1 . p-值的含义可以用以下三个图形来说明.假设统计量的样本观测值等于2,在双侧检验 时的p-值如图6-7;右侧检验时的p-值如图6-8,左侧检验时的p-值如图6-9. 1 由于 F 分布和 χ2 分布是非对称的,在双侧检验时 p-值的计算公式有所不同(等于统计量的观测值向 0 或 正无穷积分,其中较小的面积的两倍),在单侧检验时 p-值的计算方式与 t 分布类似. 63 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 图6-7 tobs=2,双侧检验时的p-值等于阴影部分的面积 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 图6-8 tobs=2,右侧检验时的p-值等于阴影部分的面积 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 图6-9 tobs=2,左侧检验时的p-值等于阴影部分的面积 例如对于前面机器性能的例子,tobs=3.16.因此在双侧检验时p-值等于P(|t|≥3.16),写成 Excel的公式为"=TDIST(3.16,9,2)",结果为0.01155.显然,在α=0.05时可以拒绝零假设, α=0.01时不能拒绝. 如果这是一个右侧检验问题,则p-值等于P(t≥3.16),写成Excel的公式为 64 "=TDIST(3.16,9,1)",结果为0.005775.如果这个问题是一个左侧检验问题,则p-值等于P(t ≤3.16)=1- P(t>3.16)= 1-0.005775 = 0.994225. 6.2.3 使用Excel函数和分析工具库进行假设检验 在实际应用中, 我们更希望根据样本数据直接得到检验结果, 而不经过前面所说的复杂 步骤.Excel提供的一些函数和模块可以帮助我们完成这些任务. 1、利用ZTEST函数进行单样本z检验. 如前所述,在总体方差已知,或者大样本的情况下可以用z统计量对总体的均值进行假 设检验.Excel的ZTEST函数可以帮助我们完成这一检验. 这一函数的形式为:ZTEST(array,μ0,sigma).array用来输入数据序列,μ0为假设的总体 均值,Sigma为总体已知的标准差,如果省略,则使用样本标准差. 特别注意ZTEST的返回值为从统计量的样本观测值向正无穷积分的面积, 等于右侧检验 时的p值. 双侧检验的p-值=2 * MIN(ZTEST(array,μ0,sigma), 1 - ZTEST(array,μ0,sigma)). 左侧检验的p-值=1 - ZTEST(array,μ0,sigma). [例6.9] 对于学生调查中的身高数据,用正态分布检验能否认为总体的平均身高等于 169厘米. 在Excel的单元格中输入公式"=ZTEST(J2:J36,169)",得到的概率为0.980391.因此检 双侧检验的p-值等于2*(1-0.980391)=0.039218.在5%的显著性水平下应该拒绝零假设. 2、用分析工具库进行双样本均值的z检验. 在比较两个已知方差的正态总体的均值是否相等时使用的是正态分布.Excel分析工具 库中的"z-检验:双样本平均差检验"可以完成这类检验. [例6.10] 对学生调查中男女生的身高进行假设检验,假设已知男生身高的方差为25, 女生身高的方差等于9.把数据整理成图6-10的形式,调用"z-检验:双样本平均差检验" 模块,在相应的位置输入数据区域和已知的方差,得到的结果见图6-10.从分析结果看,双 侧检验的p-值为8.47766*10-13 ,检验的结论显然是拒绝零假设. 图6-10 用Excel进行双样本均值的z检验 、利用分析工具库进行单样本和配对样本的t检验. 我们需要进行单样本的t检验, 3 Excel的提供的t检验模块提供了成对样本的t检验.如果 65 只需 9厘米. 本分析" , 设置 要在成对样本t检验中把第二个序列设为单样本检验中的常数μ0就可以了,因为成对样 本的t检验本质上就是对两个样本对应数值之差进行的单样本的t检验. [例6.11] 对学生身高的数据,检验能否认为学生的平均身高等于16 像图6-11那样输入数据, 然后调用分析工具库中的 "t-检验: 平均值的成对双样 必要的参数(图6-11),得到结果如表6-2.输出结果中"P(T<=t) 双尾"对应的概率 0.046928,这是双侧检验时的p-值.与前面按正态分布求解的结果相比p-值0.039218稍大了 一些.注意单侧检验时的p-值根据具体情况会有所不同,不一定等于0.023464. 6-11 表6-2 成对样本t检验的输出结果 图t-检验 成对双样本均值分析 : 变量 1 变量 2 平均 166.7714 3 系数 #DIV/0! 3 at -2.061 单尾 t) 169 方差 40.88739 0 观测值 35 5 泊松相关 假设平均差 0 df 4 t St 89 P(T<= 0.023464 单尾临界 t 1.690924 双尾 P(T<=t) 0.046928 双尾临界 t 2.032244 、利用分析工具库进行两个独立样本的t检验. 分为两种情况:方差相等和方差不 等. 方差时t分布的标准差 4 在总体方差未知时对两个独立样本均值的假设检验 在这两种情况下虽然使用的都是t统计量,但t分布的方差和自由度的计算公式不同.等)11(21nnssp??,其中 2 ) 1 ( ) 1 ( 2 1 2 2 2 2 1 1 ? ? ? ? ? ? n n s n s n sp , 自由度等于 ; 2 2 1 ? ? n n 66 不等方差时t分布的标准差 2 2 2 1 2 1 n s n s s ? ? ,自由度等于 ) 1 /( ) / ( ) 1 /( ) / ( ) / / ( 2 2 2 2 2 2 1 2 1 2 1 2 2 2 1 2 1 ? ? ? ? n n s n s . [例6.12] 前面我们曾用双样本的z检验比较过男女生的身高. 现在我们用不等方差的独 调用"t-检验:双样本异方差假设"模块,输入相应的数据区域,检验结果如表6-3.由于p- n n s n s 立样本t检验进行分析. 值非常小,检验的结论也是不能认为男女生的身高相等. 表6-3 双样本异方差假设时t检验的输出结果 t-检验: 双样本异方差假设 男女平均 6667 6.432749 观测值 16 19 均差 0 7.4485763 1.26885E-0 尾临界 1.7207428 t) 双尾 172.3125 162.1053 方差 24.6291 假设平 df 21 t Stat 86 P(T<=t) 单尾 7 t 单71 P(T<= 2.53771E-07 t 双尾临界 2.079613837 5、利用分析工具库进行双样本方差的F 在总体方差未知的独立双样本的t检验中需要事先知道两个总体的方差是否相等.这一 问题可以用分析工具库中的"F检验:双样本方差"来进行. 以调用"F 检验:双样本方差"模块, 定义 4041033=0.008082066.由于 p-值 检验. 例如对男女生身高的方差是否相等进行检验,可 相应的数据区域 (图6-12) , 检验结果见表 6-4. 一定注意双侧检验时的 p-值等于 "P(F<=f) 单尾"对应概率的两倍.在这个例子中相应的 p-值等于 2*0.00 很小,因此检验的结论是男女生身高的方差不相等. 图6-12 双样本方差F检验的对话框 表6-4 双样本方差F检验的输出结果 F-检验 双样本方差分析 67 变量 1 变量 2 平均 2632 32748538 观测值 16 19 单尾 0.0040410 尾临界 2.2686221 172.3125 162.105 方差 24.62916667 6.4 df 15 18 F 3.828715909 P(F<=f) 33 单F92 6.2.4 使用SPSS 、用SPSS进行单样本t检验. [例6.13] 以95%的置信度检验能否认为总体中学生的平均体重等于60公斤. 据),Analyze ?Compare Means ?One-Sample T Test, 在弹出的对话框中将体重变量作为检验变量,栏中填入60,其余使用系统默认值,输出结果 如表 进行假设检验 1 打开相应的数据文件(或输入数 6-5. 表6-5 单样本t检验 Test Value = 60 95% Confidence Interval of the Difference t df Sig. (2-tailed) Mean Difference Lower Upper -1.872 34 .070 -3.057 -6.38 .26 体重 注意通常 况 验时的 这里p-值=0 此检验的 结论是不能拒绝总体均值等于 这 论也可以根据 给出的置信区间得出: 如果置信区间包含0,则不能拒绝零假设. 一种减肥方案,减肥前后的体重如表6-6.根据 实验结果,在5%的显著性水平下能否认为减肥方案有效? 方案的试验数据 情 下软件给出的概率值都是双侧检 p-值. .07, 因60的零假设. 一结 SPSS 2、用SPSS进行配对样本的t检验. [例6.14] 随机选择了8名肥胖儿童试验 表6-6 一种减肥 减肥前 45 55 54 48 56 53 62 49 减肥后 43 48 50 47 50 47 59 46 把数据输入SPSS 选择 n e are Means ? aired-Sample T Test,在弹 出的对话框中将两个变 一组 据为析-7. 表6-7 成对样本t检验的输出结果 数据表, A alyz ?Comp P 量作为 数选分变量,输出结果如表6 Paired Differences t df Sig. (2-tailed) Mean 标准差 均值标准误 95% 置信区间 VAR1-VAR2 4.000 2.13809 .75593 2.2125 5.7875 5.292 7 .001 根 本题的题意 的为据,将假设检验 零假设设 0 2 1 ? ? ? ? ,备择假设设为 0 2 1 ? ? ? ? .如果 拒绝零 根据表6-7检验的t统计量等于5.292,双侧检验的p-值为0.01,因此右侧检验的p-值为 假设则说明减肥方案有效. 68 69 0.00 择Analyze ?Compare Means ? Indepentdent-Samples T Test,弹出的对话框如图6-13. 把身 量.然后单击"Define Groups"按钮来设置分组 规则 单击"OK" 就可 05.在5%的显著性水平下显然应拒绝零假设,结论是减肥方案有效. 3、用SPSS进行独立双样本的t检验. [例6.15] 用SPSS来检验在5%的显著性水平下男女生的身高是否相等. 选 高变量作为分析变量,性别作为分组变 ,这里在两个矩形框中分别输入0和1,单击"Continue"返回主对话框, 以了.输出结果如表6-7. 图6-13 注意表6-8中包含了等方差的检验、等方差时的t检验和异方差时的t检验结果.读这个表 时先看等方差的检验的结果(前两栏),这 使用的是Levene检验,这种检验不需要 正态性的假设条件,比F检验更稳健.如果p-值小于显著性水平(如5%),则认为总体是异 方差 里SPSS 的,接下来在t检验中要使用方差不等时的检验结果;如果方差检验中认为两个总体是 等方差的,则在t检验中使用方差相等时的检验结果.在这个例子中,方差检验的p-值等于 0.049<0.05, 因此认为男女生身高的方差不等. 接下来的t检验中使用方差不等的检验结果 (下 面的一行),检验的p-值等于<0.000,因此认为总体中男女生的身高均值不相等.SPSS计算 的t检验值7.449和Excel是一致的. 表6-8 SPSS两个独立样本均值t检验的输出结果 Levene's t-test for Equality of Means 等方差检验 F Sig. t 均值之差95%的 显著性 均值之 均值之差 df (双尾) 差 置信区间 的标准误 .000 10.207 1.301 假设等 4.195 .049 7.845 33 7.56 方差 12.85 假设不 等方差 7.449 21.46 .000 10.207 1.370 7.36 13.05 第7章方差分析 方差分析可以用来检验来多个均值之间差异的显著性, 可以看成是两样本t检验的扩展. 统计学原理中涉及的方差分析主要包括单因素方差分析、 两因素无交互作用的方差分析和两 因素有交互作用的方差分析三种情况.虽然Excel可以进行这三种类型的方差分析,但对数 据有一些限制条件, 例如不能有缺失值, 在两因素方差分析中各个处理要有相等的重复次数 等;功能上也有一些不足,例如不能进行多重比较.而在方差分析方面SPSS的功能特别强 大,很多输出结果已经超出了统计学原理的范围. 7.1 用Excel进行方差分析 7.1.1 用Excel进行单因素方差分析 用Excel进行方差分析时对数据格式有特殊的要求, 不能使用我们前面讲过的列表格式, 而应使用一种特殊的表格形式: 在单因素方差分析中因素的不同水平作为表格的列 (或行) , 在不同水平下的重复次数作为行(或列);在双因素方差分析时以一个因素的不同水平作为 列,以另一个因素以及试验的重复次数作为行.这种设计使得Excel最多只能进行两个因素 的方差分析. [例7.1] 根据学生调查的结果,试用方差分析的方法比较在5%的显著性水平下能否认 为学生的学习兴趣对他们的统计成绩有显著影响. 在Excel中,先对数据按学习兴趣排序,然后把统计成绩整理成表7-1的形式.从分组的 结果看, 在不同的因素水平下的观测个数并不相同. 这种情况下的方差分析与等重复的方差 分析原理完全相同, 只是计算公式上稍有不同. 当然使用统计软件进行计算时完全看不出这 种影响. 表7-1 按不同兴趣分组的考试成绩 兴趣 序号 1 2 3 4 5 1 38 78 65 87 83 2 69 97 70 78 91 3 75 60 81 83 85 4 55 55 65 89 80 5 82 64 78 92 6 89 80 69 68 7 68 77 65 83 8 88 68 9 88 在Excel的分析工具库中选择"方差分析:单因素方差分析",指定相应的数据区域和 显著性水平,点击"确定"后的输出结果如表7-2和7-3. 70 表7-2 单因素方差分析的汇总表 组 观测 均 方差 数 求和 平列14237 59.25 270.92 列29705 78.33 206.25 列37502 71.71 55.90 列48617 77.13 81.55 列57582 83.14 63.81 表7-2是各组数据的描述统计指标.从各组的均值看,最低的为59.25分,最高的为83.14 分.从各组的方差看最小的为55.90,最大的等于270.92.判断数据是否符合同方差假设的一 个经验方法是:如果各组之中最大的方差与最小方差之间的比值不超过4,就可以认为是同 方差的.在这个例子中比值为4. 设. 表7-3 单因素方差分析的方差分析表 MS F P-value F crit 846,可能违背了同方差的假 差异源 SS df 组间 1658.83 4 414.71 3.32 0.0231 2.69 组内 3751.91 30 125.06 总计 5410.74 34 在这个例子中如果假设数据是同方差的,则方差分析的中得出的p-值等于0.0231小于 0.05 下面我们来看一个简 从三个专业毕业两年的 毕业生中, 毕业时的平均学习成 6个)选择一名学生 调查结果 如表7-4.显α=0.01.试分析不同专业毕业生的收入有显著差异吗?学习成绩对收 入有显著影响吗? 不同专 业生的月 入(百元 平均成绩 会计 营销 经济 ,因此应拒绝零假设,检验的结论是学习兴趣对成绩有显著影响.注意在方差分析中的 F检验是右侧检验,软件给出的p-值是单侧检验的p-值. 7.1.2 用Excel进行无重复双因素方差分析 无重复的双因素方差分析可以同时分析两个因素对因变量的影响. 单的例子. [例7.2] 为了比较三个不同专业毕业生的收入设计了以下实验: 按绩(分为 等级 各 进行调查, 著性水平 7-4 业毕 收)A+ 51 45 41 A B+ B C+ 31 C 25 23 45 38 36 31 33 29 27 35 32 26 32 27 在Excel表格中输入相应的数据,从"数据分析"中选择"方差分析:无重复双因素分 析" ,在对话框中输入数据区域、显著性水平和输出方式,得到方差分析表如表7-5.从分析 结果可以看出,行因素(成绩)的p-值为6.89E-06,列因素(专业)的p-值为0.003628,都71 远远小于0.01,可见两个因素对毕业后的收入都有显著影响. 无重 素方 表源SS MS F ue 表7-5 复双因 差分析 差异 df P-val F crit 行854.94 170.9 74 -06 5 9 32. 6.89E 3.33 列108.44 54.22 10.38 28 52.22 10 5.2 1015.611 2 0.0036 4.10 误差 2 总计 17 7.3] 一家保险公司在A、B、C、D四个地区销售汽车、健康和财产三种保险.为了 比较不同地区三类专业销售人员 6) .假设数据是正态的 和等方差的.试在 显著 水平 分析 素的是否显著. 表 入数 (百元 区7.1.3 用Excel进行有重复双因素方差分析 与无重复的双因素方差分析不同, 有重复的双因素方差分析可以分为有交互作用和无交 互作用两种情况.Excel只能分析有交互作用的情况. [例 的收入,随机收集了一组数据(表7- α=0.05的性下各因 及其交互作用 影响 7-6 保险销售人员的月收 据)地ABCD39.3 41.6 38.8 42.9 37.7 42.7 37.2 39.3 1 40.6 38.9 39.1 40.5 41.5 38.4 40.2 38.9 39.7 37.7 41.1 38.1 2 1 40.9 39.2 38.4 40. 40.6 40.3 37.2 43.6 39.8 38.8 38.4 42.1 产品 3 类型 41.3 39.6 37.0 44.5 在Excel表格中输入相应的数据,从"数据分析"中选择"方差分析:有重复双因素分析", 在对话框中输入数据区域、显著性水平和输出方式,并指明每种处理重复的次数(这里为3 次) (图7-1) . 注意在有重复双 分组状况, 否则Excel 会报错.最后得到的方差分析表如表7-7 析结果可以看出,样本因素(行因素,即产 品类型)的p-值为0.34, 售的保险类 销售人 平均收 有显著差异;产品列 因素(专业)的p-值为0. 28,都远远小 ,可见两个因素对毕业后的收入都有显著 影响;列因素(地区)的为0.011<0.05 明地区因素对收入有显著影响;两个因素的 交互作用的p-值为0.0004 5,说明二者的交互作用对销售人员的平均收入有显著影响. 因素分析的"输入区域"中要包括行和列的 .从分 说明销 型对 员的 入没 0036 于0.01 p-值 ,说 <0.0 72 图7-1 有重复双因素方差分析的对话框 表 差异源 SS df MS P-value F crit 7-7 有重复双因素方差分析表 F 样本 3.38 2 1.69 13 0.34 3.40 1. 1122 列20.6 6.88 8 0.0 3.0 交互 57.0 9.51 4 0.0 2.5 内部 36.00 1.50 总计 117.0 3 3 4.5 11274 1 7 6 6.3 00423 1 24 8 35 7. PSS进行方差分析 选中"Histogram"复选框和"Normality plots with Test",单击"Continue"按钮,在单击 主对话框中的"OK",可以得到分类别的描述统计信息.从数据的茎叶图、直方图和箱线 图都可以对数据分布的正态性做出判断, 由于这些内容前面已经做过讲解, 这里就不再进一 步说明了. 2 用S 7.2.1* 用SPSS检验数据分布的正态性 方差分析需要以下三个假设条件: (1) 、在各个总体中因变量都服从正态分布; (2) 、在 各个总体中因变量的方差都相等; (3) 、各个观测值之间是相互独立的. 在SPSS中我们很方便地对前两个条件进行假设检验.同方差性检验一般与方差分析一 起进行,这一小节我们只讨论正态性的检验问题. [例7.4] 检验生兴趣对考试成绩的影响的例子中各组数据的正态性. 在SPSS中输入数据(或打开数据文件) ,选择Analyze?Descriptive Statistics?Explore, 在Explore对话框中将统计成绩作为因变量,兴趣作为分类变量(Fator),单击Plots按钮, 73 图7-2 用Expore过程进行正态性检验 性的一种常用图形. 这类图形大致是这样绘制 的: (类似于累积分布的函数值, 取值在0-1之间) ; 然后 以实际值为横坐标, 的数纵作点图 点大致在一条直线 上则说明数据服从正 布.图 不太 的成Q-Q图,从图中可 以判断数据并没有严重背离正态分布. 输出结果中的Q-Q图是观察数据分布正态 计算数据在样本中对应的经验分布函数值 计算标准正态分布 (或者均值、 方差相同的正态分布) 对应于经验分布函数值的分位数. 正态分布 分位 为 坐标 散,如果图形中的 态分 7-3是 喜欢统计学 学生统计 绩的 100 90 80 70 60 50 1. 5 0 0. 5 0. 0 -0. 5 -1. 0 1. f Expected Normal -1. 5 Observed Value o 不rQlof 统 成绩 irnov检验和 Shapir r兴趣= 太喜欢 No mal -Q P ot 计图7-3 Q-Q图表7-8是对数据进行正态性检验的结果.SPSS中采用的是Kolmogorov-Sm o-Wilk检验.这两种检验方法都属于非参数统计的内容,统计量的计算方法可以参考 有关书籍.我们可以根据软件给出的p-值对数据是否服从正态分布进行检验:由于表7-8中的p-值都大于0.05,因而我们不能拒绝零假设,也就是说没有证据表明各组的数据不服从正 态分布(检验中的零假设是数据服从正态分布). 74 表7-8 正态性检验的结果 Kolmogorov-Smirnova Shapiro-Wilk 兴趣 Statistic df Sig. Statistic df Sig. .223 4 . .948 4 .704 1 很不喜欢 .194 9 .200* .924 9 .425 2 不太喜欢 3 无所谓 .244 7 .200* .845 7 .110 4 比较喜欢 .191 8 .200* .925 8 .474 统计 成绩 .207 7 .200* .901 7 .335 5 非常喜欢 * This is a lower bound of the true significance. a Lilliefors Significance Correction 7.2.2 用SPSS进行单因素方差分析和多重比较 SPSS的One-Way ANOVA 多重比较. 7.5] 对不同兴趣的学生的统计成绩进行多重比较. 过程可以进行单因素方差分析和均值的 [例 单击Analyze?mpare Means ?One-Way ANOVA,在对话框中将变量"统计成绩"选入 Dependent List框,将变量"兴趣"移入Factor栏,如图7-4.单击对话框中的"Options"按钮,在弹出的对话框中选中"Discriptive(描述统计) " 、 "Homogeneity of variance test(同方 差检验"和"Means plot(均值的图形) "复选框(图7-5) .单击主对话框中的"Post Hoc(事 后多重比较) " ,选中"LSD(最小显著差异方法) "复选框.单击主对话框中的"OK"按钮, 就可以得到相应的分析结果了. 图7-4 单因素方差分析对话框 75 图7-5 单因素方差分析的选项设定 在SPSS的输出结果中,表7-9是对同方差性的检验.SPSS采用的是Levene检验,这是一 种非 性假设,比F检验更稳健.从检验结果 看, 参数检验方法,与F检验类似,但不依赖于正态 在5%的显著性水平下不能认为个总体的方差不相等. 表7-9 同方差性检验 Levene Statistic df1 df2 Sig. 2.112 4 30 .104 表7-10是SPSS生成的方差分析表, 与Excel的计算结果完全一致. 表7-11是用LSD法进行 多重比较的结果.在表-11中的均值差(Mean Difference)一栏中加有星号的值是在5%的显 著性水平下显著不等于零的值. 例如, 很不喜欢统计学的学生的考试成绩与不太喜欢的学生 的平均成绩相差19.083分,这一差异在5%的显著性水平下是显著的.在加有星号的行中, 相应的置信区间没有包含"0"值. 表7-10 SPSS输出的方差分析表 Sum of Squares df Mean Square F Sig. Between Groups 1658.832 4 414.708 3.316 .023 Within Groups 3751.911 30 125.064 Total 5410.743 34 表7-11 LSD法多重比较的结果 Mean Difference 95% Confidence (I) 兴趣 (J) 兴趣 (I-J) Std. Error Sig. Interval -19.083* 6.720 .008 -32.81 -5.36 1 很不喜欢 2 不太喜欢 -12.464 7.009 .086 -26.78 1.85 3 无所谓 -17.875* 6.848 .014 -31.86 -3.89 4 比较喜欢 -23.893* 7.009 .002 -38.21 -9.58 5 非常喜欢 19.083* 6.720 .008 5.36 32.81 2 不太喜欢 1 很不喜欢 6.619 5.636 .249 -4.89 18.13 3 无所谓 76 1.208 5.434 .826 -9.89 12.31 4 比较喜欢 -4.810 5.636 .400 -16.32 6.70 5 非常喜欢 12.464 7.009 .086 -1.85 26.78 3 无所谓 1 很不喜欢 -6.619 5.636 .249 -18.13 4.89 2 不太喜欢 -5.411 5.788 .357 -17.23 6.41 4 比较喜欢 -11.429 5.978 .065 -23.64 .78 5 非常喜欢 17.875* 6.848 .014 3.89 31.86 4 比较喜欢 1 很不喜欢 -1.208 5.434 .826 -12.31 9.89 2 不太喜欢 5.411 5.788 .357 -6.41 17.23 3 无所谓 -6.018 5.788 .307 -17.84 5.80 5 非常喜欢 23.893* 7.009 .002 9.58 38.21 5 非常喜欢 1 很不喜欢 2 不太喜欢 4.810 5.636 .400 -6.70 16.32 11.429 5.978 .065 -.78 23.64 3 无所谓 4 比较喜欢 6.018 5.788 .307 -5.80 17.84 * The mean difference is significant at the .05 level. 图7-6是以因素水平为横轴,以各组平均考试成绩为纵轴绘制的散点图可看出各组均数 的分布状况.从图中可以看出,总体来说学生的学习兴趣越大平均考试成绩越好,但"不太 喜欢"统计学的一组是个例外. 非常喜欢 比较喜欢 无所谓 不太喜欢 很不喜欢 兴趣 85 80 75 70 65 60 55 Mean of 统计成绩图7-6 不同学 7.2.3 用SPSS进行双因素方差 SPS Model中iate过程可以用来进行单因素或多因素方差分 析,检验不同因素以及因素之间的交互作用对均值的影响是否显著. [例在S 行双因 交用分析 要用 SS处理表 需要先将 理成列 (表S立数据表以后,选择An ral L del?Univaria 主 中将 入"放入Depen t Variable 地区 险种" i acto 框7-7). SPSS 数据格 编号 区 收入 编号 收 习兴趣学生的平均考试成绩 分析 的Univar S的General Linear 7.6] 7.1.3小节的数据为例 PSS中进 素无 互作 的方差 . SP 7-6的数据 数据整 表的形式 7-12) .在PSS中建 alyze?Gene inear Mo te,在 对话框 "收den 矩形框,将" "和" 放入F xed F r(s)矩形 中(图表7-12 需要的 式 险种 地 险种 地区 入77 1 1 39. 19 3 1 3 2 40.2 2 1 37. 20 3 1 7 2 41.1 3 1 40 21 3 1 .6 2 40.9 4 2 41. 22 4 1 6 2 38.9 5 2 42. 23 4 1 7 2 38.1 6 2 3 24 4 1 8.9 2 39.2 7 1 3 3 25 1 8.8 3 40.6 8 3 37. 26 1 1 2 3 39.8 9 3 39. 27 1 1 1 3 41.3 10 4 42. 28 2 1 9 3 40.3 11 1 4 3 29 2 9.3 3 38.8 12 4 40. 30 2 1 5 3 39.6 13 1 41 31 3 2 .5 3 37.2 14 1 39. 32 3 2 7 3 38.4 15 2 1 38.4 33 3 3 37 16 2 2 38.4 34 3 4 43.6 17 2 2 37.7 35 3 4 42.1 18 2 2 40.1 36 3 4 44.5 图7-7 Univariate主对话框 在主对话框中点击Model按钮进入Model对话框, 选择Custom, 在效应下拉框中选择Main effec 到无交互作用的双因 素方 t,把"险种"和"地区"变量选入右边的模型框中,单击Continue 返回主对话框(图7-8).其它选项采用默认值,单击主对话框中的"OK"按钮,可以得 差分析结果,分析结果见表7-13.这一模型在Excel中是不能直接分析的. 78 图7-8 U iate过程的模型定义对话框 -13 S S输出的有重复双因素、无交互作用的方差分析表 nivar 表7 PS Source Type III Sum uares of Sq df Me Square an F Sig. Corrected Model 24.002(a) 5 4.800 1.547 .205 Intercept 57280.444 1 57280.444 18463.004 .000 险种 3.376 2 1.688 .544 .586 地区 20.627 3 6.876 2.216 .107 Error 93.073 30 3.102 Total 57397.520 36 Corrected Total 117.076 35 根据表7-13的分析结果,在无交互作用的双因素方差分析模型中,险种和地区因素对保 险销售人员的收入都没有显著影响:险种因素的p-值等于0.586,地区因素的p-值等于0.107. 表中的Corrected Total是我们常用的"总离差平方和" , "Total"是总平方和(与0的离差平方 和) . 然而, 如果地区和险种因素的交互作用对收入有显著影响, 而我们在模型中忽略了二者 的交互作用, 我们所作的双因素方差分析就是错误的. 下面我们来作有交互作用的方差分析. [例7.7] 使用例7.5中的数据进行双因素有交互作用的方差分析. 调用Univariate过程,变量的设置保持不变,在模型设置对话框中选择 ustom,在效应 下拉框中选择Interaction,同时选中 击中间的右箭头, 右面Model 下面的矩形框中会出现入 "险种*地区" 这一变量, 这表示模型中包含了二者的交互作用 (图7-9) 按钮就可以 得到有交互作用的双因素方差分析结果了. C "险种" 和 "地区" 变量, 点.返回主对话框, 单击Plots按钮, 在弹出的对话框中把 "地区" 变量指定为Horizontal Axis, 把"险种"指定为Spearate Lines,点击下面的Add按钮,表示我们需要做一个以地区为横轴, 每个险种按险种的平均值为一条线的图形(图7-10).返回主对话框,在options对话框中选 中"Homogeneity test(同方差检验)"复选框.最后单击主对话框中的"OK" 79 图7-9 有交互作用的双因素模型设定 图7-10 要求SPSS输出均值图形的设定 表7-14是同方差性检验的结果,检验的p-值等于0.358,表明没有证据表明各个总体的方 差不相等. 表7-14 同方差性的Levene检验a F df1 df2 Sig. 1.168 11 24 .358 零假设是各组中的因变量误差的方差都相等. a Design: Intercept+险种+地区+险种 * 地区 表7-15是SPSS输出的方差分析表.表中关于险种、地区因素以及二者交互作用的F检验 值和p-值与Excel的计算结果是一致的,检验的结论同样是在5%的显著性水平下险种因素的 影响不显著,地区的影响以及二者的交互作用影响显著. 80 81 表7-15 SPSS输出的双因素方差分析模型 Type III Sum Source of Squares df Mean Square F Sig. Corrected Model 81.076(a) 11 7.371 4.914 .001 Intercept 57280.444 1 57280.444 38186.963 .000 3.376 2 1.688 1.125 .341 险种 20.627 3 6.876 4.584 .011 地区 57.073 6 9.512 6.341 .000 险种 * 地区 Error 36.000 24 1.500 Total 57397.520 36 Corrected Total 117.076 35 图7-11反映了地区和险种 以看出,在第4个地区 不同险种之间的差异较大,但在第一个地区差异很小.三条线并非平行线,说明地区和险种 因素之间存在交互影响.从图形可以看出,在第1和第4个地区第3种保险的销售人员收入最 高, 在第2个地区第1种保险的销售人员收入最高, 而在第3个地区第2种保险的销售人员收入 最高. 的保险销售人员的平均收入.从图中可 4 3 2 1 44. 0 43. 0 42. 0 41. 0 40. 0 39. 0 38. 0 37. 0 险种3 Estimated Marginal Means 险种1 地区 险种2 Estimated Marginal Means of 收入 图7-11 分地区和险种的平均收入 章 相关 回归分析 回归分析是统计分析中的常用方法之一, 这类方法不仅可以提供变量之间相互关系的数 学表达式, 还可以利用统计理 种关系进行统计检验 一步利 的公 预 测和决 数的估计值并对参 程的显著 进行假设 回归分析 基本任务 章中我们将介绍使用Excel和 并根据检验 结果不断对最初的模型进行修正. 例如, 线性回归模型的基本假设条件是保证最小二乘估计 量优 8.1 用Excel和SPSS进行相关分析 8.1.1 散点图 散点图常用于表现两个变量之间的关系. 在进行回归分析之前先通过图形观察变量之间 的关系是一种良好的习惯. [例8.1] 绘制学生调查中概率成绩和统计成绩的散点图. 在Excel的图表向导中选择XY散点图,使用学生调查中的概率成绩和统计成绩可以得到 图8-1.从图中可以看出二者之间有比较明显的正相关关系. 第8与论对这 , 并进 用所得 式进行 策. 得出参 数和方 性 检验是 的.这一 SPSS进行相关和回归分析的基本方法. 在实际应用中要得到一个可靠的回归模型还需要做大量的其他诊断和检验, 良性质的基础. 对这些假设条件的检验也是回归分析的重要内容. 由于这些内容已经超 出了统计学原理的范围, 本章中我们不对这些内容进行讲解, 感兴趣的读者请参考有关书籍. 统计成绩 30 40 50 60 70 80 90 100 40 50 60 70 80 90 100 概率成绩 图8-1 散点图 8.1.2 相关系数及其假设检验 衡量两个定量变量之间线性相关程度的最主要的指标是相关系数.在Excel中,如果一 次只计算两个变量之间的相关系数可以使用CORREL函数; 一次计算多个变量之间的相关系 数时可以使用分析工具库中的"相关系数"模块. [例8.2] 用Excel的"相关系数"模块计算学生调查中的概率成绩、统计成绩和体重三 82 个变量之间两两的相关系数. 输出结果见表8-1.从表中我们可以看出,统计成绩和概率成绩是高度正相关的;体重 似乎与概率成绩和统计成绩有弱相关关系. 表8-1 Excel 计算的相关系数 概率成绩 统计成绩 体重 概率成绩 1 统计成绩 0.890767 1 体重 -0.28695 -0.26712 1 在数据个数非常少时我们需要对相关系数进行假设检验: 并不是在任何情况下相关系数 等于0.8都意味着高度相关.检验中的零假设为总体的相关系数等于0;备择假设是总体的相 关系数不等于0,使用的统计量是t统计量: 2 1 2 r n r t ? ? ? .该统计量的自由度为n-2. [例8.3] 对统计成绩和概率成绩、体重和统计成绩之间的相关系数进行假设检验. 统计成绩和概率成绩之间的相关系数为0.890767,n=35,因此相应的t统计量为: t= ) 890767 . 0 1 /( 33 * 890767 . 0 2 ? =11.26,相应的p-值显然是一个非常小的数值,因而统计成绩和 概率成绩之间的相关系数是显著的. 成绩之间的相关系数等于-0.26712,计算可知t值等于-1.59235.相应的p- 值" 算变量之间的两辆Pearson相 关系数,以及相应的假设检验的p-值(表8-2). 而体重和统计 =TDIST(1.59235,33,2)"=0.12084,因而双侧检验时即使在10%的显著性水平下二者的 相关系数也是不显著的. [例8.4] 用SPSS计算相关系数并进行假设检验. 在SPSS中选择Analyze? Correlate? Bivariate,打开相关分析的主对话框,把需要分析 的变量选入Variables框,其余采用默认值(图8-2),就可以计 图8-2 SPSS计算相关系数的对话框 计算的相关系数和p-值表8-2 SPSS 概率成绩 体重 统计成绩 概率成绩 Pearson Correlation 1 .891** -.287 Sig. (2-tailed) .000 .095 N 35 35 35 统计成绩 Pearson Correlation .891** 1 -.267 83 Sig. (2-tailed) .000 .121 N 35 35 35 体重 Pearson Correlation -.287 -.267 1 Sig. (2-tailed) .095 .121 N 35 35 35 ** Correlation is an lev 用Exce 行 回归分析 signific t at the 0.01 el (2-tailed). 8.2 l和SPSS进 一元线性 8.2.1 回归模型的参数估计和假设检验 假设总体回归模型为 t t t x y ? ? ? ? ? ? 1 0 , 样本回归直线为 t t x y 1 0 ? ? ? ? ? ? ? . 一元线性回归分析 的基本任务就是计算 0 ? ? 和1??的值,检验参数 0 ? 和1?的显著性,并对模型的拟合效果进行评 价. [例8.5] 从散点图中获得 的值,可以通过为散点图增加趋势线的方法得到.以 选择"线性"(默认值),在"添加趋势线"对话框的"选项" 选项 8-3),单击确定,结果如图8-4, 从图中我们可以得到所需的回归方程和方程的判定系数 回归方程. 在Excel中如果只需要计算 0 ? ? 和1??统计成绩和概率成绩的散点图为例,在散点图中选中图形中的数据点,单击右键选择"添加 趋势线",在趋势线类型中 卡中选中"显示公式"和"显示R平方值"复选框(图(coefficient of determination, 也称决 定系数或可决系数). 图8-3 为散点图添加趋势线的对话框 84 统0计成绩 - 12.412 = 0.7935 30 50 60 80 90 10 40 50 60 70 80 90 100 概率成绩 图8-4 从散点图中获得回归直线的估计方程 l的析在回归分析的对话框中输入自变量和因变量的区域(图8-5),单击"确定"后得到的 算结果如下1 . y = 1.1479x R2 70 40 [例8.6] 使用Exce 分 工具库的"回归"模块进行回归. 主要计 图8-5 回归分析的对话框 表8-3中的输出结果主要与方程的整体拟合效果有关.R Square就是方程的决定系数; Multiple R是决定系数正的平方根, 在多元回归中用来反映因变量与自变量的整体相关程度; Adjusted R Square是修正的R2 ,在多元回归中可以用来比较自变量个数不同的方程的拟合效 果. "标准误差"在统计学中一般称为"估计标准误",是对随机误差项? 的标准差的估计, 也可以用来衡量方程的整体拟合效果,在一元回归中其计算公式为 2 ) ? ( 2 ? ? ? n y y s . 回归统计 ? 表8-3 回归分析中的回归统计结果 Multiple R 0.890767124 1 你也可以通过对话框要求输出残差、残差图等.残差序列对于对模型的进一步计量经济检验非常重要. 注意 Excel 回归模块中的"正态概率图"可能造成严重的误导,在计量经济检验中我们需要的是残差的正 态概率图,而Excel 给出的是 y 值的正态概率图,这个图形对模型的检验没有什么帮助. 85 R Square 0.793466069 Adjusted R Square 0.787207465 标准误差 5.819252244 观测值 35 表8-4 是回归分析结果中常见的方差分析表,这个表格中的F统计量及其p-值(Significance F)是对方程整体拟合效果的假设检验,在一元回归中其零假设为 0 1 ? ? .如 果不能拒绝这个零假设,则说明方程中的自变量x对y缺乏解释能力. 表8-4 回归分析中的方差分析表 df SS MS F Significance F 回归分析 1 4293.241 4293.241 126.7800414 7.65266E-13 残差 3 总计 34 5410.743 3 1117.502 33.8637 表8-5是回归系数和t检验的结果.根据表8-5,回归方程的截距项等于-12.41,斜率等于 1.15.截距项t检验的p-值为0.1243,说明在总体回归方程中截距项为0的可能性较大(注意 在回归分析中统计软件给出的概率值一般是双侧检验的p-值).然而,由于去掉常数项可能 对回归方程有其他不利影响, 而且不包含常数项的回归方程还有一些特殊的性质, 因而即使 常数项在方程中不显著,在大部分情况下人们仍然会在方程中保留常数项1 .在"概率成绩" 这一变量的t检验中p-值<0.0000,说明总体中这一变量的参数显著不等于零,也就是说概率 成绩对统计成绩有显著影响. 输出结果中的置信区间也可以用来进行假设检验: 如果参数的 置信区间包括了零值, 说明在相应的显著性水平下参数是不显著的. 注意在一元回归中对方 程的F检验和自变量的t检验是等价的,二者的p-值是相同的.表中有关统计量的计算公式请 参考有关书籍. 在SPSS中进行回归分析的步骤我们在下一小节介绍. 表8-5 回归系数和t检验的计算结果 Coefficients 标准误差 ower 95% Upper 95% t Stat P-value L Intercept -12.412 -1.58 0.1243 -28.43 3.60 7.87 概率成绩 1.148 0.10 11.26 0.0000 0.94 1.36 在比较正式的研究报告中一般不会把统计软件输出的表格直接复制过来, 一元回归方程 的回归结果通常会写成如下形式: 1 如果方程中没有常数项,在有些情况下按通常方法计算的判定系数会出现负值.在专门的统计软件中,没 有截距项的回归方程的判定系数一般会按照另外的公式来计算.在Excel2003 以前的版本中并没有对无截 统计成绩= -12.41 + 1.15概率成绩 括号内为 t 检验值.方程的 R 2 =0.7935,估计标准误=5.82. (-1.58) (11.26) 距项的回归方程进行专门处理,在Excel2003 中虽然采用了正确的计算公式,但却没有在输出结果中进行 任何说明, 因而很容易引起误用. 感兴趣的读者可以比较一下 Excel2002 和Excel2003 对无截距回归方程的 输出结果. 86 8.2.2 利用回归模型进 预测是建立回归模型的重要目的之一.如果是进行点预测,只要把需要预测的x的值代 入回归方程进行计算就可以 el中还提供了一 数来帮助我们实现这一过 程:为这个函数指定需要预 以及建立回归方程需要的Y 和X值的区域,Excel就可 以给出预测结果了. 预测值的 如,在用学生的概率成绩预测其统计成绩时,我们可能有不同的目的:一种情况是, 我们想预测对于所有概率成绩为 少?这种情况是我们所说 的"均值预测"; 种 况是 果我们 张三的概 成绩等 成绩将是 多少?这种情况被称为"个值预测". 在这两种情况下点估计的结果都是一样的:统计成绩= -12.41 +1.148*90=90.90.然而 在"均值预测"和"个值预测"时的置信区间是不同的. 设对于未知的x , y 的预测值为 , 那么均值预测就是用 来预测 . 可以证明, 行预测 了.在Exc 个Forecast函 测的x值值就像在参数估计中我们可以采用区间估计一样, 在预测时我们也希望需要计算 置信区间. 在进行预测时, 专门的统计软件中一般会给出两个不同的置信区间: 一个称为 "均 值的置信区间",一个称为"个值的置信区间". 例90分的学生, 其平均统计成绩为多 另一 情 ,如 知道 率于90,他的统计 2 假pppp)(pyEpy?的标准差为 y ? y ? ? ? ? ? ? 2 2 ? ) ( ) ( 1 x x x x n s s i p y p ,其中s为方程的估计标准误. ) ( p y E 的置信区间就 等于 p y n p s t y ? 2 , 2 / * ? ? ? ? . 要计算个值预测的置信区间,我们要知道用 p y ? 来估计单个y值时的方差.这一方差包括 两个部分: 一是在x= xp时y值围绕 ) ( 的波动程度, 这一方差的估计值就是s2 ; 二是用 ? 来pyEpy)(pyE时的方差,就是 2 s .可以证明个值预测的方差为 估计 ? p y ) .从而个 ) ( ? ? ? x x n p ) ( 1 2 2 ? ? x x sind 值间虽然以上计算公式十分复杂, 但在 相 算可以由 软件完 们只 要在使用中搞清楚这两种置信区间的区别就可以了.在Excel中没有计算预测区间的现成模 块, 统计成绩的置信区间和预测区间. 在概率成绩和统计成绩的例子中我们的观测数为35. 如果我们要用SPSS来预测x=90时y 的值,需要在数据 .这时y的第36个值为空值(缺 失值).在建立模 数据建立模型,但可以预测第 36个观测的y 择Analyze? Regression?Linear,打开线性回归主对话框,把变量"统计成绩"作为 因变量选入Dependent栏中,把变量"概率成绩"作为自变量选入Independent(s)栏中.单击 "save"按钮,在弹出的对话框中,在Predicted Values栏中选中"Unstandardized"复1(2?s p 2 2 ? 2 ? ? s s y i 预测的置信区 为pty?/??ind n s * 2 ? . , 2 实际应用中 应的计 统计 成, 我 下面我们来看SPSS中的进行回归和预测的方法. [例8.7] 计算概率成绩等于90时 表中把"90"作为x的第36个值输入数据表 型时SPSS会进行自动调整,只使用前35组值. 选 对话框中的 选框(这样可以得到预测值),在"Prediction Intervals"栏中选中"Means"(均值预测置信区 间)和"Individual"(个值预测置信区间),单击"Continue"返回主对话框,其它选项采用默 认值,"确定"后就可以得到回归方程和预测结果了(图8-6). 87 根据以上设置,SPSS会把因变量的预测值和相应的置信区间保存在数据表中.根据输 出结果我们可以用Excel得到图8-7.图中较窄的置信区间是均值预测的置信区间,较宽的区 间是个值预测的置信区间.从图中我们可以看出,当x= x 时预测的置信区间最小,预测结果 最可靠;x的值与 x 差别越大,置信区间就越大,预测结果就越不可靠.由于这个原因,我 们在用回归模型进行外推预测时应该十分小心.在我们的模型中,当x的值90时SPSS估计的 y值为90.89566,均值预测95%的置信区间为[87.47087,94.32046],个值预测95%的置信区 间为[78.57091,103.22042]. 图8-6 线性回归的Save选项框 25 45 50 55 60 65 70 75 80 85 90 95 65 75 85 105 35 45 55 95 x=x均值时 均值预测置信区间 置信区间最小 个值预测置信区间 y=-12.412+1.148*x 图8-7 均值预测和个值预测的置信区间 通过对SPSS回归分析对话框一些设定还可以对模型进行多种计量经济学检验和诊断. 由于对相关结果的结果的解释涉及大量的计量经济学知识我们在这里就不进行分析了. 88 8.3 多元线性回归和非线性回归 多元回归分析的思想与一元回归分析类似, 只是相关计算要复杂一些. 需要特别注意的 有两点:一是与一元回归不同,在多元回归我们更常用修正的R2 来描述方程的拟合优度;二 是在多元回归中F检验和t检验不再是等价的,二者的检验结果有时候并不一致.假设总体回 归模型为 t t t x x y t kt kx ? ? ? ? ? ? ? 0 2 1 ? ? ? ? ? ? ? 2 2 1 1 0 ,样本回归直线为 ,这时F检 验的零假设为 kt k t t x x y ? ? ? ? ? ? ? 1 1 0 ? ? ? ? ? ? ? k ? ? ? ? ,备择假设为 1 ? 至 如果模型中的因变量和自变量之间是非线性的关系, 大部分情况下我们都可以通过对自 变量和因变量进行特定的变量代换转化为线性模型. 这时新的模型就可以按照一元或多元线 性回归模型进行估计了. [例8.8] 1989-2003年我国城镇居民家庭人均可支配收入指数(1978=100)的数据如表 8-6.试以时间t为自变量拟合线性模型、二次曲线和三次曲线模型,对三个模型的结果进行 比较,从中选择一个模型预测2004年和2005年的数值并给95%的预测区间. 表8-6我国城镇居民家庭人均可支配收入指数(1978=100) 年份 收入指数 t t2 t3 k ? 至少有一个不为零. 1989 182.5 1 1 1 1990 198.1 2 4 8 1991 212.4 3 9 27 1992 232.9 4 16 1993 125 1994 276.8 6 36 216 1995 290.3 7 49 343 1996 301.6 8 64 512 1997 311.9 9 81 729 1998 329.9 10 100 1000 1999 360.6 11 121 1331 2000 383.7 12 144 1728 2001 416.3 13 169 2197 2002 472.1 14 196 2744 2003 514.6 15 225 3375 64 255.1 5 25 我们使用Excel来估计并比较三个模型. 在Excel中进行多元回归与一元回归的方法类似, 只是在给定x的数据区域时要指定包含 多个自变量的区域(注意自变量所在的区域应该是连续的区域)1 .Excel估计的三个回归方 程如下. 1)线性方程: ( y=143.4714+21.5561t (12.27) ( 16.76) 1 注意Excel不能正确处理完全多重共线性的情况:如果一个自变量可以用模型中的其它自变量和常 数项线性表示,Excel2003以前的版本中会给出错误的结果,Excel2003可以给出正确的回归结果,但方差分 析表是错误的. 89 90 括号内为 t 检验值.方程修正的 0.95. (2)抛物线: ( )三次曲线: y= +33.6247t -3.1977t 的. 从三个方程修 样的结论. 我们还可以通过图 观地比 个模型的 合效果(图8-8) .这散点图添加三条不同的趋 得到的 R2 =0.9524,估计标准误=21.52,F=28 y=187.21765 +6.1163t+0.9650t2 (15.60) ( 1.77) (4.60) 括号内为 t 检验值.方程修正的 R2 =0.9813,估计标准误=13.47,F=368.89. 3 144.7581 2 +0.1734t3 (16.59) ( 7.36) (-4.90) (6.45) 括号内为 t 检验值.方程修正的 R2 =0.9957,估计标准误=6.43,F=1092.39. 在参数的 t 检验中,判断参数是否显著的一个经验方法是看 t 的绝对值是否大于 2,大于2时就可认为该参数是显著的.根据这一规则,在线性方程中 t 的一次项是显著的;在抛 物线方程中 t 的一次项不显著,但平方项显著;在三次方程中 t、t 的平方和三次方都是显著 正的 R2 来看,三次方程的拟合效果最好,根据估计标准误也可以得出同 形直 较三 拟 个图形是通过为 势线 . 150 200 250 300 350 400 450 500 550 600 650 0 4 8 12 16 线性方程 三 曲线 抛物线 次图8-8 三条不同趋势线的拟合效果,图中的小方块为实际值 .注意要事先给出2004年和2005年t、t2、t3的值才能用SPSS进行预测. 用于外推预测时,预测的时期越长三个模型的预测结果差别越大. 就三 短期预测时可能取得理想的效果, 但可以预见用于长期预测的误 差一定会相当大,因为模型反映的增长趋势不可能长期持续下去. 使用SPSS建立三次曲线模型并进行预测,2004年的预测值为574.57421,95%的置信区 间为[550.71055,598.43787];2005年的预测值为644.37971,置信区间为[611.16290, 677.59651] 从图8-8可以看出, 次曲线而言, 尽管用于 第9章时间序列分析与统计指数 时间序列分析的基本内容.由于这部分内容涉及的统计计算比较简 单, [例9.1] 已知我国1993-2003年的人均GDP如表9-1. 根据数据计算1994-2003年我国人均 GDP 表9-1 1993-2003 年我国的人均 GDP,元,2000 年价格 年9.1 时间序列的水平和速度分析 水平和速度分析是 这里我们只举两个例子加以说明. 9.1.1 时间序列的水平和速度分析 的逐期增长量、累计增长量、平均增长量、环比发展速度、环比增长速度、平均发展速 度和平均增长速度. 份1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 人均GDP 4101 4567 4993 5412 5833 6228 6612 7086 7561 8135 8844 在Excel中输入数据(图9-1),在C、D、E、F列存储需要计算的各个指标.在C3单元 格输入公式"=B3-B2"可以计算出逐期增长量;在D3单元格输入公式"=B3-$B$2"可以计 算出累计增长量;在E3单元格输入公式"=B3/B2"可以计算出环比发展速度;在F3单元格 输入公式"=E3-1"可以计算出环比增长速度.选中区域C3:F3,用填充柄复制公式至区域 C4:F12,可以计算出1995年-2003年的相应指标.在单元格C13中输入公式 "=Average(C3:C12)"可以计算出平均增长量,在单元格E13中输入公式 "=GEMOMEAN(E3:E12)"可以计算出各年环比发展速度的几何平均值,也就是平均发展 速度;这时Excel2003会自动在F13中计算出平均增长速度.计算结果见表9-2. 图9-1 用Excel计算时间序列水平和速度指标的过程 表9-2 例9.1的计算结果 91 年份 人均GDP 逐期 增长量 累计 增长量 环比 发展速度 环比 增长速度 1993 41 - 01 - - - 1994 4567 466 466 111.36% 11.36% 1995 4993 426 892 109.33% 9.33% 1996 54 8.39% 1997 5833 421 1732 107.78% 7.78% 4 2511 106.17% 6.17% 4 2985 107.17% 7.17% 2001 75 475 3460 106.70% 6.7 474 107.99% 7.99% 12 419 1311 108.39% 1998 6228 395 2127 106.77% 6.77% 1999 6612 38 2000 7086 47 61 0% 2002 8135 574 4034 107.59% 7.59% 2003 8844 709 4743 108.72% 8.72% 平均值 9.1.2 用E 解法发度在有些情况下需要使用累计法来计算平均发展速度或平均增长速度. 高."规划求解"加载宏的安装与"分析工具库"的安装过程类似,加载"规划求解"宏程序后 在工 xcel求 累计 平均 展速 这时会涉及到一元 相应的平 次方程的求解问题.Excel的"规划求解"加载宏可以帮助我们计算 均发展速度 具菜单中可以看到"规划求解"选项. [例9.2] 2003年北京的造林面积为47168公顷.假设北京市计划在2004-2008年5年期间 完成造林总面积30万公顷,每年造林面积的平均增长速度应该达到多少? 这个问题适合用累计法来计算平均发展速度,然后再求平均增长速度. 相应的计算公式为 0 / ) ( 0 5 4 3 2 ? ? ? ? ? ? ? a a g g g g g .其中g为平均发展速度, 47168 0 ? a . 在Excel的A2单元格中输入公式"=B2+B2^2+B2^3+B2^4+B2^5-300000/4716 300000 ? ?a , 8",然后 点击"工具"?"规划求解",在弹出的对话框中作如下设置(图9-2):在"设置目标单 元格"中输入A2,指定单元格的目标值为0;在可变单元格中输入被A2引用的单元格"B2" (单击"推测"按钮可以自动完成输入).单击"求解"后Excel会在B2单元格中给出计算 结果(图9-3). 从图9-3可知,当年平均发展速度等于108.13%,即年平均增长速度等于8.13%时,可以 完成5年造林30万公顷的目标.这时A2中公式的计算结果为5.98*10-7 ,是一个非常接近于0 的值. 92 图9- 划数2规求解参 的设定 图9-3 规划求解的结果 9.2 时间序列的分解 S、循环变动 C 和不 式.这一节我 们以乘法模型为例说明使用 Excel 和SPSS 进行时 [例9.3] 表9-3 和图9-4 是我国 1998-2003 年我国流通中现金总量(月末数) .试对序 列进行时间序列分解. 按传统的统计学理论,时间序列通常可以分解为长期趋势 T、季节变动 规则变动 I 四个组成成分.这四个成分可以写成乘法模型或加法模型的形 间序列分解的方法. 表9-3 1998-2003年我国流通中现金总量,月末数(单位:亿元) 1998 1999 2000 2001 2002 2003 月113108 11997 16094 17019 16726 21245 月210886 12784 13983 14910 16642 17937 月310201 11342 13235 14362 15545 17107 月69720 10881 13006 13943 15097 16957 月710037 11199 13157 14072 15358 17362 月810129 11395 13379 14370 15712 17607 月910528 12255 13895 15065 16234 18306 月10 10501 12154 13590 14484 16015 18251 月11 10671 12483 13878 14780 16346 18440 月12 11204 13455 14653 15689 17278 19746 月410173 11225 13676 14623 15864 17441 月59984 10889 13076 13942 15281 17115 在乘法模型中对季节性的时间序列进行分解的一般步骤是先计算季节指数; 用剔除季节 因素的序列拟合趋势方程分解出长期趋势; 通过对剔除季节成分和长期趋势的序列进行移动 93 平均获得循环变动;剔除前三个因素后的序列就是不规则变动. 8500 10500 12500 14500 16500 18500 20500 22500 1998 1999 2000 2001 2002 2003 图9-4 1998-2003年我国流通中现金总量 9.2.1 用Excel计算季节指数 对于有长期趋势的序列, 计算季节指数时需要先对序列进行移动平均 (由于移动的项数 为偶数,还需要进行第二次的项数为2的移动平均).接下来用原序列除以移动平均序列得 到剔除长期趋势和循环变动的序列,然后根据新序列计算季节指数. 对于流通中现金总量的例子,我们先要进行 2期的 移动平均.把数据整理成图9-5的形式,在单元格C8中输入公式"=AVERAGE(B2:B13)" ,然 后通过拖动填充柄在区域C9:C68种复制这个公式,这样就完成了第一次长度为12的移动平 均. 12期的移动平均,然后对新序列进行 在单元格D8种输入公式"=AVERAGE(C8:C9)" ,并在区域D9:D67中复制这个公式完成 "移正"的移动平均.注意移动平均的结果与原数据位置的对应关系.进行了两次移动平均 以后,新序列的首尾都比原序列少了6个数. 接下来在E8中输入公式"=B8/D8"并把这个公式复制到E9:E67,得到剔除了长期趋势 和循环变动的序列. 图9-5 算均季节指数的计 过程:移动平 把得到的E序列整理成图9-6的形式,计算每行中5个数据的算术平均数得到H列的12个 季节指数.由于这12个季节指数之和等于11.9889,在I2中输入公式"=H2*12/$H$14"可以 94 得到调整后的季节指数.在H列中复制这个公式可以得到其他季节指数.调整后的季节指数 之和等于1200%. 图9-6 季节指数的计算过程:指数计算 劳动节和国庆节的因 素的 根据得到的12个季节指数可是得到图9-7.从图中可以看出,由于春节和元旦影响,每年1月、 2月和12月的现金流通量高于趋势值(100%), 4月底和9月底由于 影响现金流通量接近趋势值,其它月份都比较明显地低于趋势值.可见,现金流通量受 节假日的影响非常明显. 90% 95% 100% 105% 110% 115% 120% 1 2 3 4 5 6 7 8 9 10 11 12 图9-7 现金流通量的季节指数 用原始数据除以相应的季节指数得到的序列称为季节调整后的序列(图9-8).一般来 说对长期趋势和循环变动的分析都是以季节调整后的序列为基础的. 95 8500 10500 12500 14500 16500 18500 20500 22500 1998 1999 2000 2001 2002 2003 实际值 季节调整后 图9-8 季节调整后的序列 9.2.2 用Excel分析长期趋势 长期趋势一般是根据季节调整后序列的趋势方程得到.在Excel中建立一个新的序列作 为趋势方程中的t,取值为1至 后的序列对t作回归, 得到的趋势方程如下: 要根据趋势方程得到相应的趋势值,在F2中输入公式"=FORECAST(E2,$D$2:$D$73, $E$2:$E$73)",然后在F列的其余单元格中复制该公式.用趋势值乘以相应的季节指数可以 得到对原序列的拟合值(图9-9中的G列),计算结果见图9-10. 72.使用Excel的分析工具库用季节调整 y=9747.057+122.0164t (95.53) (50.23) 括号内为t检验值,方程的判定系数等于0.973. 图9-9 趋势值的计算过程 96 8500 10500 12500 14500 16500 18500 20500 22500 1998 1999 2000 2001 2002 2003 长期趋势 实际值 拟合值 图9-10 实际值、趋势值和拟合值 序列进行3项的移动平均消除不规则变动就可以得到循环变动(C) 了. 得到不规则变动序列I.相应的计算过程可参考图9-11. ,从图形中可以看出在1998-2003年期间现金流通量大致 出现 是不规则变动的图形.相对于长期 趋势和季节变动而言,时间序列的循环变动和不规则变动成分的应用相对要少一些. 9.2.3 用Excel分析循环变动和不规则变动 用原始数据除以季节指数和长期趋势值可以得到一个只包含循环变动和不规则变动的 新序列(CI).对这个新 用CI序列除以C序列就可以 图9-12是循环变动成分的图形 了1998-1999以及2000-2003年两个周期波动.图9-13 图9-11 循环变动和不规则变动的计算过程 0.90 0.95 1.00 1.05 1.10 1.15 1998 1999 2000 2001 2002 2003 循环变动C CI 图9-12 现金流通量的循环变动成分 97 0.90 0.92 0.94 0.96 0.98 1.00 1.02 1.04 1.06 1.08 1998 1999 2000 2001 2002 2003 图的月度 对话 框.指定变量M0作为分析变量,选择乘法模型(默认),在"Moving Average Weight"选 择框中选择"Endpoints weighted by .5".这一选项的计算结果相当于先进行一次12期的移 动平均,再进行一次2项的移动平均.单击"OK"后SPSS会把季节指数、趋势-循环和不规 则变动三个组成成分,以及季节调整后的序列存储到数据表中.SPSS中使用的分解方法是 比例移动平均法(ratio-to-moving-average method,Census Method I) ,计算结果与传统统计 方法并不完全一致,但一般差别不大. 9-13 现金流通量的不规则变动成分 9.2.4 用SPSS进行时间序列的分解 与传统的统计方法不同,由于长期趋势和循环变动成分不容易进行准确的定义和区分, 统计软件中一般把时间序列分解为趋势-循环、季节成分和不规则变动三个组成部分. 在SPSS中要进行时间序列分析首先要定义一个时间变量.具体操作是:在读入了M0 数据以后,单击菜单中的Data?Define Dates,在弹出的对话框中指定时间序列的特性 和起始时间(图9-14).单击"OK"后SPSS会自动生成三个变量:年份、月份和日期. 在菜单中选择"Analyze?Time series?Seasonal Decomposition",会弹出图9-15的图9-14 在SPSS中定义时间变量 98 图9-15 时间序列分解的对话框 SPSS计算的季节指数见表9-4,计算结果与我们前面的计算结果差别不大. 给出的 不规则变动成分与我们前面的 PSS计算的季节指数 月份 季节指数 月份 季节指数 SPSS 计算结果也比较类似(图9-16) . 表9-4 S 1 117.06% 7 95.11% 2 105.71% 8 95.91% 3 99.36% 9 99.00% 4 100.19% 10 96.66% .76% 5 95 11 97.96% 6 94.54% 12 102.74% 0.90 0.92 0.94 0.96 0.98 1.00 1.02 1.04 1.06 1.08 1998 1999 2000 2001 2002 2003 Excel SPSS 图9-16 SPSS计算的不规则变动 9.3 时间序列的传统预测方法 虽然在时间序列分析领域已经发展起了许多更为先进的预测方法,但传统的预测方法, 例如移动平均法、 时间序列分解的预测方法、 指数平滑方法等在特定的场合仍然有其应用价 值.这一节我们来看用传统时间序列分析方法进行预测的例子. 99 简单移动平均法的基本思想是用前几期的平均值作为下一时期的预测值, 这一方法仅适 合于没有长期趋势的数据1 .由于这一方法比较简单,我们这里就不再举例了. 9.3.1 用时间序列分解的方法进行预测 把时间序列的各个组成成分分解出来, 然后对每个组成成分进行预测, 在把各个组成成 分的预测结果组合起来就可以得到对原序列的预测结果.在时间序列的4个组成成分中,不 规则变动和循环变动一般是不可预测的,在乘法模型中其取值一般设为1.在传统方法中同 一月份的季节比率也是不变的,不需要进行预测.因此,用时间序列分解的方法进行预测时 预测值一般等于长期趋势的预测值乘以相应的季节比率. 在实际应用中,由于这种方法把原来预测一个变量的任务转化成了对4 变量的预测, 而对各个组成成分的预测也不容易,因此时间序列的分解在预测中的应用已经越来越少了. [例9.4] 用时间序列的分解的方法预测2004 各月我国的现金流通量. 图9-17,预测结果见表9-5. 个年要预测2004年各月的数值, 可以根据趋势方程y= 9747.057 + 122.0164t预测趋势值 (2004 年各月的t值为73-84),再用预测值乘以季节指数.计算过程参见 图9-17 时间序列分解预测的计算过程 9.3.2* 用指数平滑方法进行预测 指数平滑也是一类常用的传统预测方法,主要包括单参数指数平滑(简单指数平滑)、 双参数指数平滑(Holt方法)和三参数指数平滑(Winters方法). 这三种平滑方法分别适用于不同的场合. 简单指数平滑适用于不包含长期趋势和季节成 分的数据;Holt方法适合于包含长期趋势但不包含季节成分的数据;Winters方法适合于包含 季节成分(以及长期趋势)的数据.关于这三种指数平滑方法的原理请参考专门的统计预测 书籍,我们这里仅以现金流通量的数据为例说明用SPSS中实现指数平滑预测的步骤(Excel 的分析工具库只能进行单参数指数平滑,实际应用价值不大). [例9.5] 用指数平滑方法预测2004年各月我国的现金流通量. 由于我们要预测的数据为季 法进行预测(SPSS中采 用的是乘法模型).从菜单中选择"Analyze?Time series?Exponential Smoothing,在弹出 的对话框中指定M0为分析变量,方法选择为Winters(图9-18).然后点击Parameters按钮, 在参数对话框中将参数Alpha( 和Delta (季节指数的平滑系数)设为从0到1之间以步长0.05搜索最优的参数值,其它选项采用默认 值( 节性数据,需要使用Winters平滑方 截距项的平滑系数)、Gamma(趋势项的平滑系数) 图9-19). 1 对有长期趋势的序列可以使用二次移动平均的方法. 100 图9-18 指数平滑对话框 图9-19 指数平滑的参数设定对话框 回到主对话框,点击Sav 选择Predict through, 时间设为2004年12月(图9-20).返回主对话框,单击"OK"后SPSS就可以给出预测结果 了. e按钮,在Save对话框的Predict Cases框中 图9-20 指数平滑预测的参数设定 SPSS得出的最终平滑系数分别是:Alpha=0.35,Gamma=0,Delta=0;2004年各月的预 测值见表9-5.为了便于比较,我们还用单参数和双参数指数平滑方法预测了2004年的数值, 同时将2004年的实际值列在了表9-5中. 101 表9-5 2004年现金流通量的预测结果 实际值 分解预测 指数平滑 Simple Holt Winters 04.01 22287 21777 19613 19593 22431 04.02 19893 20104 19613 19687 20402 04.03 19297 18770 19613 19780 19283 04.04 19878 19023 19613 19874 19573 04.05 19048 18306 19613 19967 18826 04.06 19018 18151 19613 20061 18708 04.07 19048 4 18915 04.08 19518 18651 19613 20248 19227 04.09 20524 19475 19613 20341 19976 04.10 20078 19093 19613 20435 19620 04.11 20209 19446 19613 20528 19983 04.12 21468 20569 19613 20622 21090 18381 19613 2015 9.3.3 预测结果的评价 我们先通过图9-21来比较一下各种预测方法的预测效果.从图中可以看出,时间序列的 分解预测方法和Winters指数平滑方法可以正确地反映时间序列的季节特征,但显然分解预 测的方法中对长期趋势的预测值偏低,导致了预测值系统地小于实际值.Holt指数平滑和简 单指数平滑方法都不能反映序列的季节特点,但Holt方法较好地预测了序列的增长趋势.根 据这些结果,如果用Holt方法预测季节调整后序列的长期趋势,然后再乘以季节指数应该能 够取得较好的预测效果. 为了衡量各种预测方法误 种衡量预测效果的指标, 如平均绝对误差(MAE)、均方根误差(RMSE)平均绝对百分误差(MAPE)等.在Excel中 使用 式时能获得正确的结果);计算绝对百分误差的公式类似于"=ABS(G101- $F101) / $F101)".根据表9-6中MAPE、RMSE和MAE的计算结果,Winters指数平滑方法的预测结 果都是最好的. 差的大小, 我们可以根据表9-5计算各 简单的公式就可以计算出这些指标. 在Excel中计算绝对误差的公式类似于 "=ABS(G101 - $F101)",其中单元格G101中是预测值,单元格F101中是实际值(使用$符号是为了保证 复制公 18000 1月 2月 3月 4月 19000 20000 21000 22000 23000 5月 6月 7月 8月 9月10月11月12月 实际值 分解预测 Simple Holt Winters 图9-21 不同预测方法预测结果的比较 102 表9-6 各种预测方法的平均绝对百分误差、均方根误差和平均绝对误差 评价指标 预mple lt Winters 分解 测Si Ho MA 3. % 3 1.47% PE 73 .69% 3.64% RMSE 77 1 0 332 MA 45. 7 40.9 294.8 8 050 10 8 E 7 2 65.1 7 9.4 统计指 统计指数在经 理重用涉计算一般比较简 单,我们这里只列 个 计算 数子9.4.1 用Excel进指和[例9.6] 一个家 年消如表中还列出了同 期肉类的市场平均价格.试根据表中的数据分析:这个家庭用于肉类消费的支出2005年比 2004年增加多少?其中多少是由于消费数量的变化引起的?多少是由于价格变动引起的? 表9-7 一个家庭春节期间的肉类消费情况 数 济和管 学领域有 要的应 . 由于这一领域 及的统计 举了几 用Excel 加权指 和价格调整的例 . 行加权 数计算 指数体系分析 庭2004年和2005 春节期间的肉类 费情况 表9-7. 价格 元 公斤 ( / ) 数量 公斤 ( ) 2004 2005 2004 2005 猪肉 13.57 14.33 6 8 牛肉 16.94 18.28 3 3 羊肉 17.05 18.75 5 6 鸡肉 10.33 11.51 3 5 计算过程参见图9-22.在F3单元格中输入公式"=B3*D3",并把公式复制到F4:F6,在 单元格F7中输入公式"=SUM(F3:F6)",可以计算出2004年的总支出.用类似的方法在单元 格G7中计算p0q1的合计值,在单元格H7中计算2005年的总支出. 在F8单元格中输入公式"=H7/F7*100",在F9单元格中输入公式"=H7-F7",可以得 到2004-2005年消费支出变动的相对数和绝对数;在G8单元格中输入公式"=G7/F7*100"可 以得到消费数量的加权指数(拉氏指数),在F9单元格中输入公式"=G7-F7"可以得到消 费数量变化引起的消费额变动绝对数;在H8单元格中输入公式"=H7/G7*100"可以得到加 权价格指数(帕氏指数),在F9单元格中输入公式"=H7-G7",可以得到价格变化引起的 消费额变动绝对数. 图9-22 加权指数的计算过程 相应的计算结果为:136.64% 26.10%*108.36;91.05 =64.85 +26.20.总支出增加了 =1 103 36.64%,91 .36% 增加支出26.2 9.4.2 用Ex 时间序列的价 整 指数理论在经济学领域的最重要的应用之一就是根据现价 (当年价格) 数据计算可比价 数据.在很多情况下我们直接得到的宏观经济总量数据,如GDP、总消费、总投资等等都是 以当年价格计算的, 而我们在经济分析中需要首先剔除价格因素的影响, 这时就需要用相应 的价格指数来"缩减"(deflate)现价指标.在宏观经济分析中的一个重要误区就是直接把 总值 数如表9-8.根据数 据计 .05元,其中由于消费数量增加了26.1% 增加支出64.85元,由于价格上涨8 0元. cel进行 格调 指标中作为物量指标来分析,而忽略了其中包含的价格因素的影响. [例9.7] 1990-2003年我国的总消费(当年价格)和居民消费价格指 算以2000年价格衡量的总消费. 表9-8 1990-2003年我国的总消费(当年价格)和居民消费价格指数 年份 最终消费 消费价格指数 年份 最终消费 消费价格指数 亿元,当年价格 (上年=100) 亿元,当年价格 (上年=100) 1990 11365.2 103.1 1997 43579.4 102.8 1991 13145.9 103.4 1998 46405.9 99.2 1992 15952.1 98.6 1993 20182.1 00 54 100.4 1994 26796 589 4 100.7 1995 33635 627 5 99.2 1996 40003.9 674 5 101.2 106.4 114.7 1 20 999 49722.7 600.9 124.1 2001 27. 117.1 2002 98. 108.3 2003 42. 完成要求的任务需要计算以2000年价格为100的定基价格指数.为了计算方便,我们 先计 样得到的序列是以1990 年为 要 算以序列的第一年(即1990年)为100的定基价格指数,然后再把基期调整为2000年. 具体的计算过程参见图9-23.先在单元格D2中输入数值100,然后再单元格D3中输入公 式"=C3*D2/100" , 再通过拖动填充柄把公式复制到区域D3:D15. 这 基期的不变价序列. 在E2中输入公式 "=D2/$D$12*100" , 再把公式复制到区域E3:E15, 就得到了以2000年为基期的不变价序列.最后,在F2中输入公式"=B2/E2*100",再把公 式复制到区域F3:F15,就得到了以2000年价格计算的各年的总消费.计算结果如图9-24.从 图中可以看出, 由于1997年以前各年的通货膨胀率较高, 现价总消费与不变价总消费的差异 较大.1997年及以后各年的现价与可比价总消费的差别不大. 104 图9-23 不变价总消费的计算过程 0 10000 20 30 4 5 6 7 2000年 总消 当年价格总消费 000 000 0000 0000 0000 0000 80000 不变价 费1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 图9-24 不变价与现价总消费的比较 [例9.8] GDP缩减指数是衡量一个国家通货膨胀程度的指标之一, 等于现价GDP除以用 上一年价格计值的当年的GDP.根据《中国统计年鉴2004》我国1991-2003年的现价GDP和GDP指数(上年=100,可比价)的资料如表9-9. 表9-9我国1991-2003年的现价GDP和GDP指数(上年=100,可比价) 年份 GDP(亿元) GDP 环比指数 年份 GDP(亿元) GDP 环比指数 1991 21617.8 109.2 1998 78345.2 107.8 1992 26638.1 114.2 1999 82067.5 107.1 1993 34634.4 113.5 2000 89468.1 108 1994 46759.4 112.6 2001 97314.8 107.5 1995 58478.1 110.5 2002 105172.3 108.3 1996 67884.6 109.6 2003 117251.9 109.3 1997 74462.6 108.8 计算过程可参见图9-25.在单元格D3中输入公式"=B3/B2*100"并把公式复制到区域 D4:D14,可以得到GDP的总值指数.根据统计指数之间的关系,在E列中用GDP总值指数除 105 106 以环比指数(实物量指数)得到的指数就是GDP缩减指数.计算结果与消费价格指数的比较 见图9-26. 图9-25 GDP缩减指数的计算过程 95 100 105 110 115 120 125 1992 93 94 95 96 97 98 99 00 01 02 03 19 19 19 19 19 19 19 20 20 20 20 GDP缩减指数 消费价格指数 图9-26 GDP缩减指数与消费价格指数的比较 主要参考文献 1、李连友主编, 《商务与经济活动中的统计学》 ,中国财政经济出版社,2005. 2、于洪彦主编, 《Excel统计分析与决策》 ,北京:高等教育出版社,2001. 3、三味工作室编写, 《世界优秀统计软件SPSS v10.0 for Windows 实用基础教程》 ,北京希 望电子出版社,2001.2. 4、 (美)沃肯巴齐, 《Excel图表宝典》 ,北京:电子工业出版社,2003.6. 5、(美)布莱克,埃尔德雷奇, 《以Excel为决策工具的商务与经济统计》 ,北京:机械工业出 版社,2003.9. 6、 (美)派兹德克,六西格玛(6σ)手册:绿带、黑带和各级经济指南,北京:清华大学出 版社,2002 7、 (美)林德,马克,梅森,商务与经济统计技术,北京:中信出版社.2002.5 8、Kenneth N. Berk,Partrick Carey,Data Analysis with Microsoft Excel,Bro /Cole,2004. 9、MINITAB User's Guide 2: Data b Inc.,2000. 10、Hanke,Reitsh,Wichern,商业预测(第 ,清华大学出版社2001.9. 11、"Excel 2003 和Excel 2004 for Mac 中的统计函数改进说明", http://support.microsoft.com/ default.aspx?kbid=828888&product=xl2003. 12、Dennis R. Helsel, "Is Microsoft Excel an Adequate Statistics Package?", http://www.practicalstats.com/News/Fall02.pdf. 13、Phillip I. Good,James W. Hardin,Common Erroes in Statistics (and How to Avoid Them), John Wiley & Sons, 2003. 14、Jonathan D. Cryer, Problems With Using Microsoft Excel for Statistics, http://www.stat.uiowa.edu/~jcryer/JSMTalk2001.pdf. 15、 Patrick Burns, Spreadsheet Addiction, http://www.burns-stat.com/pages/Tutor/ spreadsheet_ addiction.html. oks Analysis and Quality Tools,Minita 7版) 107
  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • excel会计做内帐表格  用excel表格做会计账  excel会计表格  会计做账excel表格  会计excel常用表格  会计流水账excel表格  会计表格大全excel  会计账目excel表格  excel会计表格下载  会计明细账excel表格