课程安排和考核

课程安排

Table 1: 课程时间表
日期 安排
第1周 20250904 第1章 课程介绍和R操作回顾
第2周 20250911 第4章 聚类分析 I
第3周 20250918 第4章 聚类分析 II
第4周 20250925 第5章 判别分析 案例讨论I
第5周 20251002 国庆放假
第6周 20251009 第6章 主成分分析
第7周 20251015 第4-6章 习题讲评 测验及讲评 (上机开卷)
第8周 20251023 第7章 因子分析I 案例讨论II
第9周 20251030 第8章 对应分析
第10周 20251106 第9章 典型相关分析 案例讨论III
第11周 20251113 复习答疑
第12周 20251120 小组作业汇报

See Table 1.

课程考核

  • 平时成绩:50%

    • 个人作业:15%

    • 小组作业(案例分析):20%

    • 测验:10%

    • 考勤: 5%

  • 期末考查:课程论文 50%

课程论文

  • 每位同学独立撰写,选题不能与小组作业雷同

  • 提交:将下述文件发至lizongzhang9@qq.com

    • R项目文件(R代码, 数据文件等), 项目文件用学号命名,压缩成”学号.zip”

      • R代码文件:将所有的R代码写在一个代码文件中,按运用的方法对代码分节
    • 课程论文的PDF, , 课程论文用“学号+姓名+多元统计.pdf”命名

  • 提交时限:第14周周日2025-12-7-20:00

课程论文框架

封面

题目 班级 学号 姓名

1 前言

研究背景、选题动机、研究目标、要研究的问题

  • 研究背景:简要说明研究所关注的现象或对象在现实中的意义,说明选题的重要性。

  • 选题动机:结合个人经验、兴趣或课程要求说明为什么选择这个主题,说明“我为什么选这个题目”,写出真实感受,避免空话

  • 研究目标:具体化, 例如: 将研究对象划分为若干典型群体; 找出区分不同群体的关键变量及判别规则; 对高维变量进行降维并提取公共因子; 揭示两组变量之间的深层关联结构。

  • 研究问题:明确列出3-5个本研究要回答的核心问题,例如: 研究对象可以划分为哪几种典型类型?哪些变量最能有效区分不同群体?高维变量背后是否存在少数几个潜在公共因子?两组变量之间是否存在显著的相关性?

2 数据概况

介绍数据来源、数据收集过程、解释变量的含义

  • 数据来源:说明数据的出处,如来自公共数据库,应注明来源平台及下载时间。

  • 数据收集:解释数据是如何收集的,异常值、缺失值的处理等

  • 用表格呈现所有变量的:变量名、含义、类型(定性/定量)、单位、均值、中位数、标准差、最小值、最大值。

数据要求

  • 截面数据

  • 样本容量建议 ≥ 60, 最好超过100

  • 至少8个以上定量变量

  • 至少3个以上定性变量

  • 不可使用虚拟数据

运用聚类/判别/主成分/因子/对应/典型相关分析方法,至少运用4种方法

3 聚类分析

3.1 分析目的

  • 明确聚类的意图:划分群体、发现模式

3.2 方法选择

  • 系统聚类或K-means聚类

  • 说明选择理由(样本量、可解释性)

3.3 分析过程

  • 是否对变量进行了标准化处理?(你的处理方式的理由)

  • 聚类方法和距离度量(欧氏距离、最短距离法等)

  • 聚类数目确定依据(树状图、拐点法)

3.4 结果与解释

  • 用树状图等展示结果

  • 描述每类的特征(平均值, 分布差异, 分组直方图)

4 判别分析

4.1 分析目的

  • 根据已知分组建立判别函数,用于分类

4.2 方法选择

  • Fisher判别或逐步判别法

  • 判别变量选择标准(Wilks’ Lambda)

4.3 分析过程

  • 建立判别函数,给出系数

  • 交叉验证或留一法评价判别正确率

4.4 结果与解释

  • 判别准确率表格

  • 分析哪些群体容易误判、误判原因(变量重叠、样本量不平衡等)

5 主成分分析

5.1 分析目的

  • 降维、提取主要信息

5.2 分析过程

  • 相关矩阵/协方差矩阵

  • 特征值>1原则、累计贡献率≥85%

  • 碎石图展示拐点

  • 可视化工(如主成分得分散点图,Correlation Circle等)

5.3 结果解释

  • 主成分载荷矩阵

  • 对每个主成分进行命名

  • 写出主成分得分函数

6 因子分析

6.1 分析目的

  • 探索潜在因子,简化变量结构

6.2 分析过程

  • KMO和Bartlett检验结果

  • 因子提取方法:主成分法、最大似然法

  • 因子是否旋转

6.3 结果解释

  • 因子载荷表(隐藏<0.4的载荷)

  • 对每个公共因子命名并解释其现实意义

  • 计算因子得分

7 对应分析

7.1 分析目的

  • 探索两个定性变量的关联关系,将列联表降维至二维空间,用图形直观展示类别间的亲疏关系。

7.2 分析过程

  • 构建列联表,进行卡方独立性检验(报告χ²值、p值);

  • 若显著,进行对应分析,提取前两维;

  • 绘制对应图展示行、列类别的位置关系。

7.3 结果解释

  • 对应图中点距离越近,说明该类别组合越常出现

  • 可识别相似类别的聚集和差异

8 典型相关分析

8.1 分析目的

  • 研究两组连续变量之间的整体相关性,提取相关性最强的线性组合。

8.2 分析过程

  • 将变量划分为两组,明确哪几个变量属于组1、哪几个属于组2,计算协方差矩阵

  • 报告每一对典型变量之间的相关系数,及其显著性检验结果

  • 绘制典型变量u1和典型变量v1的散点图

  • 绘制helio plot放射状图展示典型变量与原始变量的关系。

8.3 结果解释

  • 报告第一对典型变量的系数和载荷

  • 解读两组变量的关系,解释现实意义

9 结论和展望

  • 总结主要发现

  • 研究不足

  • 展望未来研究方向

  • 课程感想

测验

答题要求

  • 项目命名: 文件夹及压缩包统一命名为:学号姓名(无空格),例如:20210008张三;提交压缩包为 20210008张三.zip。

  • R代码文件,按题号分节。每题先写实现该小题的R代码,每小题代码下方用文字简要回答题目要求。

  • 提交说明: 将整个项目文件夹压缩为 学号姓名.zip。 通过电子邮件发送压缩包到指定提交邮箱lizongzhang9@qq.com。 邮件主题:多元统计测验 学号姓名

第1题

第1题

Download icon 点击下载数据文件: 第1题: metro16.xlsx

第2题

第2题

Download icon 点击下载数据文件: 第2题: bankloan.xlsx

第3题

第3题

答案

Solutions

往年期末试卷

往年期末试卷

往年期末试卷