统计学精品课程:第一章 统计与统计软件

来源:    发布时间:2006-03-06

打印本页

分享到:

第一节 什么是统计

    一、统计学是什么? 

    1 、统计学是否与数学一样,是“上帝”的宠儿?

    2 、统计学是人类的智慧吗?

    3 、我们身边的统计。

    结论:统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。

    二、统计学有什么用?

    1 、人类发现了统计,统计改变了这个世界;

    2 、统计的具体作用:认识的作用、管理的工具。

第二节 统计基本概念回顾

    一、现实中的随机性和规律性,概率和机会。

    从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。

    比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的 (randomness) 。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。

    [ 讲授提示 ]

    从“ ‘ 上帝 ' 会掷骰子吗?”说起,谈如何从“混沌”走向“秩序”,引至把握科学和人生的“命运”:在可能性中寻找机会。

    二、概率和机会

   1 、概率描述了某件事情发生的机会

    你可能经常听到概率( probability )这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在 0 和 1 之间的一个数,说明某事件发生的机会有多大。因此,从某种意义说来,概率描述了某件事情发生的机会。

    2 、有些概率是无法精确推断的

    比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。

    3 、有些概率是可以估计的

    比如掷骰子。只要没有人在骰子上做手脚,你得到 6 点的概率应该是六分之一。得到其他点的概率也是一样。得到 6 点的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷 1000 次骰子,那么,大约有六分之一的可能会得到 6 ;这也是随机性呈现有规律的一个体现。

    4 、得到概率的几种途径

    利用等可能事件   : 如果一个骰子是公平的,那么掷一次骰子会以等可能得到 1 至 6 点的中的每一个点。这是因为共有 n=6 种可能,而每一种的概率都是一样的,即 1/n=1/6 。

    根据长期相对频数   : 观察它在大量重复试验中出现的频率来估计它出现的概率。它约等于事件出现的频数 k 除以重复试验的次数 n ,这个比值 k/n 称为相对频数( relative frequency )。当 n 趋于无穷时,可以说这个相对频数确定了这个事件发生的概率。

    主观概率 : 根据经验、常识或其他相关因素来判断出的概率 。

    三、变量和数据

    1 、变量:我们给所要研究的事物起的名字

    比如一个班上注册的学生有 200 人,这是一个固定的数目,称为常数( constant )或者常量。

    但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,将会来上课的人数是个变量 (variable) 。另外对于某项政策同意与否的回答,也有 “ 同意 ” 、 “ 不同意 ” 或者 “ 不知道 ” 三种可能值;这也是变量。

    当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量( quantitative variable );因为是随机的,也称为随机变量( random variable )。而象性别,观点之类的取非数量值的变量就称为定性变量、属性变量或分类变量( qualitative variable , categorical variable )。这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人 数的比例等等。

    只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。

    2 、数据:数据是关于变量的观测值

    拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得 1 至 6 点中任意点数的概率它在理论上都是六分之一(如果骰子公平)。而在实际掷骰子过程中,如果掷 100 次,会得到 100 个由 1 至 6 点组成的数字串;再掷 100 次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。

    通过数据可以验证有关的理论或假定。

    比如,对于顾客是否喜欢某种饮品的调查不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在问了 1000 人之后,可能有 364 人说喜欢,而 480 人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料。这些数目就是数据。虽然,它仅仅反映了 1000 个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的。

    四、统计计算与软件——统计软件 SPSS 的使用说明

    1 、统计计算与计算机

    最初的计算机仅仅是为科学计算而建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。计算机的使用,也从过去必须学会计算机语言到只需要 “ 傻瓜式 ” 地点击鼠标。

    2 、统计软件

    只要你输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。

    你可能会问,是否傻瓜式的统计软件使用可以代替统计课程了?

    当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。实际中遇到的问题通常是,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。另外需要注意的是,只要数据格式无误、方法不矛盾而且不用零作为除数统计软件就一定给你结果,甚至是没有任何意义的结果,而且没有任何警告。

    3 、统计软件的种类

    SPSS : 这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。

    Excel : 它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有 Microsoft Office 的计算机,基本上都装有 Excel 。但要注意,有时在装 Office 时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析, Excel 还算方便,但随着问题的深入, Excel 就不那么 “ 傻瓜 ” ,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。

    SAS : 这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量 “ 傻瓜化 ” ,仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。

    S-plus : 这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行 “ 傻瓜化 ” 以争取顾客。但仍然以编程方便为顾客所青睐。

    Minitab : 这个软件是很方便的功能强大而又齐全的软件,也已经 “ 傻瓜化 ” ,在我国用的不如 SPSS 与 SAS 那么普遍。

    Statistica : 也是功能强大而齐全的 “ 傻瓜化 ” 的软件,在我国用的也不如 SAS 与 SPSS 那么普遍。

    Eviews : 这是一个主要处理回归和时间序列的软件。

 

思考题:

   1. 举出你所知道的统计应用例子。

   2. 举出日常生活中随机性和规律性的例子

   3. 掷出一个骰子,掷 100 次,记录下结果,并用此来解释随机性和规律性以及概率的概率的概念。

   4 .你使用过统计软件或者利用过其他软件中的统计功能吗?

   5 .举出有若干定性变量的例子,举出有若干定量变量的例子。

[来源于:首都经济贸易大学网站]