加入收藏  || English Version 
 
《信息统计分析》教学大纲

  发布日期:2015-03-11  浏览量:701


 

《信息统计分析》是数学科学学院信息与计算科学系和概率统计系的一门重要专业基础课程.本课程以MATLABFORTRAN90为计算和算法研究的工具,以自主开发的《统计专家》软件作为辅助教学和计算软件,系统介绍分布函数的计算、伪随机数的产生和检验、方差分析模型原理、主成分分析和因子分析、聚类分析、典型相关分析和回归分析模型的计算与应用.教学的目的为:掌握常用统计模型的计算方法,并具有初步开发统计软件的能力,同时具备统计模型的应用能力.以《统计专家》为桥梁具备使用国际通用的商业统计软件如SPSSSAS的初步能力.为以后的后继专业课程如《信息论》、《计算的复杂性》、《数值分析》、《智能计算》打下坚实的基础.

先修课程要求数学分析,代数,概率论与数理统计,MATLAB对象编程等.

本课程计划90学时,周3+24学分

选用教材:曾建军等编著,信息统计分析,自编教材,安徽大学出版社,2005

教学手段课堂多媒体讲授,上机实习,习题为实验报告.

考核方法:闭卷书面考试和技能测试.

 

 

 

 

 

 

 

 

教学进程安排表

周次

学时数

教学主要内容

教学环节

周次

1

3+2

第一章  MATLAB工具箱介绍   分布函数的计算命令、随机数发生器命令、多元分析命令等.

大课、上机

1

2

3+2

统计推断命令、回归分析命令、实验设计命令、统计作图命令等.

大课、上机

2

3

3+2

第二章 分布函数的计算  分布函数计算的基本理论和方法.

大课、上机

3

4

3+2

各类分布函数的计算、各类分布的分位点计算.

大课、上机

4

5

3+2

第三章 随机数产生原理 各类随机数与均匀分布随机数关系的基本定理,均匀分布随机数产生

大课、上机

5

6

3+2

均匀分布随机数的一系列检验,其他各种随机数的产生方法.

大课、上机

6

7

3+2

第四章 方差分析及其模型  单因素方差分析、多因素方差分析

大课、上机

7

9

3+2

第五章 主成分分析与因子分析  主成分分析的方法与主成分的提取.

大课、上机

9

10

3+2

因子分析的概念与主成分分析的联系.主成分分析和因子分析的计算机上的实现

大课、上机

10

11

3+2

第六章 聚类分析   点与点的距离概念、类与类之间距离概念、系统聚类方法.

大课、上机

11

12

3+2

第七章 典型相关分析  模型介绍、算法实现与案例分析.

大课、上机

12

13

3+2

第八章  回归分析  回归的直观解释与最小二乘估计的发展.

大课、上机

13

14

3+2

回归诊断、拟合优度检验.

大课、上机

14

15

3+2

逐步回归、及其计算机实现.

大课、上机

15

16

3+2

岭回归、岭回归的计算机实现

大课、上机

16

17

3+2

稳健回归、复习

大课、上机

17

18

4

考试

 

18

周次

学时数

教学主要内容

教学环节

周次

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第一章  MATLAB入门

一、学习目的

本章将向大家介绍使用MATLAB的基本方法,以及如何获得MATLAB的在线帮助,如何搜索我们需要的知识点及其应用.本章还着重介绍可视化界面的开发和编程,使得学习者可以结合某章的统计模型开发出一个实验界面,从而可以研究统计模型的性质、统计量的作用并可以解决实际的问题.

二、课程内容

§11 MATLAB简介

介绍计算机语言的发展历程,从FORTRANMATLAB过渡的必然性和必要性.当前科学研究的最热门软件,及在科学教育中的地位.

§12 MATLAB的安装与使用

MATLAB7.0的运行与安装方法,MATLAB 的启动界面、帮助系统介绍,MATLAB系统的路径等等.

三、重点、难点提示和教学手段

(一)重点、难点

1、了解MATLAB的发展历程,才能体会MATLAB语言在科学研究中的重要地位.

2、使用帮助系统的难点在于,必须用英文来阅读所有的帮助信息和命令的使用方法和例题.

3、数学建模的强有力工具.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

1、启动MATLABDEMO 模块,即演示模块,浏览用MATLAB语言编写的大量例题从而了解MATLAB的强大功能.

2、通过notebook命令的帮助信息,自己解决MATLABWORD软件的的无缝连接,这样可以利用字处理软件直接用MATLAB进行计算,并撰写实验报告.

 

 

第二章  统计工具箱statistics toolbox

一、学习目的

统计工具箱statistics toolbox包括了概率统计中的大部分内容,如分布函数的计算、随机数发生器、数字特征的计算、多元统计分析、线性模型、时间序列分析等等.统计工具箱还包括一些辅助计算模块,如数据读入命令、用于数据分析的典型数据集,这些数据大部分都是来自国外著名统计教科书的案例.

本章较为详细地介绍统计工具箱的基本内容和知识查询方法,为后面的章节大下基础.

二、课程内容

§21 统计工具箱简介

介绍统计工具箱的各个模块功能,以及覆盖统计学科的范围.

§22 工具箱中的数据模块

工具箱中包括了大量有价值的案例数据,这些数据来自世界各著名统计教科书中的内容,具有重要的价值.本课程的所有案例数据大部分使用这些数据.

§23 数据处理和输入输出

统计分析方法分析的对象是数据,在进行统计分析之前必须对数据进行预处理,这里介绍数据处理的基本概念和方法,同时作为数据处理的程序,数据的输入和输出是统计分析的重要步骤.

三、重点、难点提示和教学手段

(一)重点、难点

1、了解工具箱各模块的内容.

2、使用帮助系统的难点在于,必须用英文来阅读所有的帮助信息和命令的使用方法和例题.

3、数据的读入和输出编程.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

第三章  分布函数的计算

一、学习目的

分布函数的计算是数理统计中常用功能之一,任何统计模型都有有关的统计量,这些统计量是对模型好坏的一种度量.知道统计量的分布后我们就可以对模型的性质进行统计推断.在统计或数理统计的教科书上我们都可以使用统计用表,这些表的产生也都是使用了分布函数的计算.

分布函数的计算实际是积分计算,本章将以一定的篇幅介绍积分的计算方法,然后讨论各种随机变量密度函数的积分问题.在了解了积分的计算方法后,将介绍如何用MATLAB的统计工具箱(Statistics Toolbox)中有关密度函数Probability density function (pdf)和分布函数 Cumulative distribution function (cdf)命令,以及分布函数的逆命令 Inverse of the cumulative distribution function  计算各类分位点的下侧概率和给定概率计算相应的分位点.利用MATLAB中可视化编程方法开发分布函数的应用程序,可以用来计算各种分布的计算和密度函数以及分布函数的图形显示.

二、课程内容

§31 分布函数计算的知识点搜索

介绍统计工具箱中的分布函数模块,包括密度函数pdf、分布函数cdf和分位点计算模块.

§32 分布函数的一般计算方法

从理论上介绍随机变量分布函数的计算方法,并介绍各种分布随机变量的计算.

§33 各种分布函数命令介绍

如何利用该模块进行各种分布的计算并作图.

§34 统计推断原理介绍

在知道某随机变量的分布函数后任何进行统计推断.

 

三、重点、难点提示和教学手段

(一)重点、难点

1、了解分布函数计算模块的内容.

2、能够利用该模块对任意分布的随机变量进行概率和分位点计算和作图.

3、了解分布函数的一般计算方法和原理.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

第四章  随机数产生原理和检验

一、学习目的

本章将介绍如何利用算法产生随机数,均匀分布随机数和一般随机数之间关系的基本定理.着重讨论均匀分布随机数产生的常用方法如混合同余法、乘同余法和加同法.产生高质量均匀分布随机数的理论基础,均匀分布随机数检验的基本原理、各类统计量的构造及其对均匀分布随机数的参数和行为进行统计推断.最后介绍其他分布随机数的产生方法.

二、课程内容

§41 伪随机数产生原理

介绍一个有关(01)均匀分布随机数和其他随机数关系的重要定理.

§42 01)均匀分布随机数的产生方法

介绍常用的产生(01)均匀分布随机数的计算方法,如何产生周期最大的随机数的理论和方法.

§43 其他随机数产生的方法

介绍产生其他分布随机数的方法,包括利用中心极限定理方法、变换方法和抽样方法等.

§44 随机数的检验

着重介绍(01)均匀分布随机数的各种检验,包括参数检验、分布拟合优度检验、独立性检验和组合性检验并制作检验实验界面.

三、重点、难点提示和教学手段

(一)重点、难点

1、理解本节基本定理的重要意义.

2、随机数产生原理.

3、随机数的检验和任何构造统计量进行随机数各种特征的检验.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

第五章  方差分析

一、学习目的

方差分析是一类特殊的线性模型,由于其应用的广泛性和特殊性这里单独介绍方差分析中重要的概念是系统误差和随机误差,对于给定的数据要将总的误差分离成系统误差和随机误差,并建立F统计量.对这两个误差的大小进行统计推断,并决定不同水平数是否对数据有显著性的影响.方差分析包括单因素方差分析和多因素方差分析,这里介绍方差分析的模型及计算方法.

二、课程内容

§51 单因素方差分析

介绍单因素方差分析模型,数据准备以及anova命令的使用和结果分析.

§52 多因素方差分析

介绍多因素方差分析模型,数据准备以及anovan命令的使用和结果分析.

三、重点、难点提示和教学手段

(一)重点、难点

1、方差分析模型的理解和应用范围.

2、各类方差分析的灵活使用和数据分析.

3、调查数据并进行案例分析.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

第六章  主成分分析和因子分析

一、学习目的

在统计方法中研究的一个重要方面就是对数据进行简化.对于冗余度很大的数据在计算方法上会产生很大的影响,例如高度线性相关的列向量数据,对其协方差矩阵的逆矩阵计算将带来不稳定性,从而影响最小二乘估计的计算.利用数学的方法对给定数据进行变换,获得性质简单的另一组数据,即列向量不相关并且将原数据所带的信息尽量向新数据的前几列集中,这样即达到了好的计算性质又简化了数据的目的.主成分分析和因子分析即是这样一种统计模型.本章将介绍该类模型的计算方法和应用.

二、课程内容

§61 主成分分析

介绍数据简化的背景知识,如何对给定的二维数据提取主成分分析,以案例形式介绍主成分分析的应用.

§62 因子分析

介绍因子分析方法,如何提取因子,提取因子的不同方法,因子旋转等.

§63 开发主成分分析和因子分析实验软件

利用学习过的主成分分析和因子分析知识以及统计工具箱的命令,结合MATLAB的界面设计,尝试开发一个数据简化的实验界面并能对不同大小的数据进行计算和结果输出.

 

三、重点、难点提示和教学手段

(一)重点、难点

1、主成分分析模型及提取方法.

2、因子分析模型及提取方法.

3、开发主成分分析和因子分析软件.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

第七章  聚类分析

一、学习目的

对数据进行条理化处理的统计方法即是聚类分析的内容,聚类分析的应用十分的广泛,如对企业的分类、对国家经济实力的分类等等.将变量或样本看成是空间的点群,定义点与点的距离,再定义类和类之间的距离.然后介绍系统聚类法,并以案例进行教学.对该模型在计算机上建立算法.

二、课程内容

§71 一个具体实例的聚类分析

48个应征者数据进行指标的聚类分析实例讲解.

§72 系统聚类分析方法

介绍计算机上使用的系统聚类分析方法,内容有样本聚类和指标聚类分析,点点距离定义,类类距离定义,最小距离法、最大距离法等等.

§73 具体数据的聚类分析和软件开发

利用学习过的聚类分析知识以及统计工具箱的命令,结合MATLAB的界面设计,尝试开发一个数据简化的实验界面并能对不同大小的数据进行计算和结果输出.

 

三、重点、难点提示和教学手段

(一)重点、难点

1、样本聚类和指标聚类分析.

2、点点距离的定义,类类距离的定义.

3、系统聚类分析的方法步骤

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

 

第八章  典型相关分析

一、学习目的

典型相关分析要找出一组随机变量和另一组随机变量的相关关系,典型相关分析的模型较为复杂,但应用性强.例如在生产的投入和产出、原料与产品的质量之间找出统计相关关系等.

二、课程内容

§81 典型相关分析模型

介绍如何对给定的数据进行典型变量的提取,如何构造M1M2矩阵,证明该两矩阵具有相同的特征根.

§82 典型相关分析的具体实例

对给定的数据进行典型相关分析,如何对计算结果进行分析并得出正确的结果.

§83 具体数据的典型相关分析和软件开发

利用学习过的典型相关分析知识以及统计工具箱的命令,结合MATLAB的界面设计,尝试开发一个数据简化的实验界面并能对不同大小的数据进行计算和结果输出.

 

三、重点、难点提示和教学手段

(一)重点、难点

1、典型相关模型的推导过程理解,典型相关系数的意义.

2、每队典型变量中各系数的含义和分析.

3、典型相关分析中的一些理论结果.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

 

第九章  回归分析

一、学习目的

本章内容较多,包括回归的直观解释和模型、回归诊断、逐步回归模型、岭回归、稳健回归等.这里介绍了随计算机的发展而产生的现代回归诊断技术,利用MATLAB模拟各种回归现象,并进而导出其他回归方法,如岭回归、稳健回归等等.利用MATLAB中的演示程序直观说明稳健回归和最小二乘估计之间的不同效果.学生将对不同的回归模型开发出不同的回归应用程序.

二、课程内容

§91 回归分析模型

介绍多元线性回归模型的基本概念,最小二乘估计方法,统计工具箱中的各类回归模块,并对一些案例进行演示.

§92 回归诊断方法

介绍参数诊断、残差分析、最优模型选择及多元共线性诊断.

§93 逐步回归方法

剔除或进入回归模型的标准,利用MATLAB逐步回归命令解决多元共线性问题.

§94 岭回归

狭义岭回归和广义岭回归的模型和计算方法,最优岭脊的搜索.开发广义岭回归的计算程序

§95 稳健回归

稳健回归模型介绍,模估计方法,影响函数的产生、迭代最小二乘估计.利用MATLAB的稳健估计界面展示稳健估计和最小二乘估计的行为,直观地理解稳健估计方法.

 

三、重点、难点提示和教学手段

(一)重点、难点

1、正规方程、正则条件、最小二乘估计.

2、回归诊断、最优模型选择、多元共线性诊断.

3、逐步回归方法.

4、岭回归方法、PRESS统计量、最优岭脊选择.

5、模估计,稳健估计和迭代最小二乘估计.

(二)教学手段

自制的多媒体课件,结合安装好的MATLAB系统现场演示相结合

四、思考与练习

见教材相应部分的练习.

 

阅读书目(或参考文献)

[1] 曾建军等著,信息统计分析,自编教材 安徽大学出版社.2006

[2] 曾建军等著, MATLAB语言与数学建模,安徽大学出版社,2006

[3] 陈希孺,王松桂著,近代回归分析,科学出版社,1988.

[4] 张尧庭,方开泰著,多元分析,科学出版社,1978.

[5 ][] M. 肯德尔著 多元分析,科学出版社,1979.

[6 ][] 约翰. 内特著 应用线性回归分析 中国统计出版社,1990.

[7 ]Raymond. h. Ryes著,Classical and Modern Regression with ApplicationDuxbury Press1986

[8 ] A. Thisted著,Elements of Statistical ComputingChapmen and Hall1988

打印此页】【顶部】【关闭
   
版权所有 © 2007-2017 安徽大学数学科学学院 All rights reserved 皖ICP备05018241号
地址:安徽省合肥市九龙路111号安徽大学磬苑校区理工楼H楼 邮编:230601 E-mail:math@ahu.edu.cn
访问统计:自2013年9月1日以来总访问:1000  后台管理