小组任务

Author

Li Zongzhang

Published

2026-04-03

提交分组信息：https://www.wjx.top/vm/rXASrvi.aspx#

组队原则与管理

组队标准

标准规模：每组原则上由 4 位同学组成。
人数调节：若班级总人数无法被 4 完全整除，允许出现个别 3人组 或 5人组。
工作量对等原则：
- 3 人组：需完成与标准组一致的要求，建议由综合能力较强的同学组成。
- 5 人组：为抵消人力优势，该组需增加50%的有效样本量。

填报与随机分配

填报限期：请各组长于 第 2 周下课前 完成本问卷的组员名单填报。
逾期后果：逾期（第 2 周下课后）仍未提交名单的同学，将视为放弃自主组队权利。
强制指派：届时，老师将根据剩余名单进行随机分配或合并，确保每位同学都有组归属并能按时开展小组作业。

合作伙伴守则

共识建立：请同学们在组队时充分沟通，确保组员在学习态度和任务分配上达成共识。
剔除机制：若组内出现成员经多次沟通仍严重不配合的行为，小组可提交沟通记录并向老师申请剔除该组员。
申请限期：剔除申请截止于 第 10 周。
独立惩罚：被剔除的成员需独立完成小组作业及实验报告。

小组作业要求

目的

实践应用：运用经济计量方法分析现实问题。
过程体验：完整体验从提出观点、建立模型、验证观点的经济计量分析全过程。
最终产出：提交演示文件、汇报展示、实验报告。

最好的学习方法： “The best way to learn is to do; the worst way to teach is to talk.” —— Paul Halmos (1916-2006)

选题

从“想做”到“能做”

具体 (Specific)

因果逻辑明确：选题必须明确为 变量 X 如何影响变量 Y 的实证分析框架。
观测单元清晰：拒绝宏大叙事，必须明确数据中的每一行代表什么（例如：一个学生、一架航班、或是一个城市。

有趣 (Interesting)

好奇心驱动：选题应源于对现实生活的观察与好奇。
价值探索：通过实证分析得出具有探索意义、能为他人提供参考价值的结论。

新颖 (Novel)

时效性：鼓励使用 2024-2025年的最新数据，分析如电竞酒店、新能源车等新兴细分市场。

可行 (Feasible)

核心前提：必须确保能够采集到不少于60 个有效样本的截面数据。
可量化：变量设计必须满足课程要求的硬性维度，确保模型能够有效运行。
参考选题：
- 新媒体分析：小红书帖文/B站视频互动量（Y）影响因素分析。
- 二手车市场：二手新能源车价格（Y）与行驶里程、购车年限及品牌类型之间的关系。
- 消费生活：校园周边奶茶定价（Y）与产品热量、配料数及品牌连锁性质的相关性。
- 二手电子产品：iPad 二手价格（Y）受存储容量、已激活时长及配件完整度影响。
- 游戏研究：数字游戏定价（Y）与好评率、安装包大小及是否支持中文的相关性。
- 即时配送服务：外卖配送费（Y）如何随配送距离、订单金额及天气状况波动。
- 品牌扩张策略：连锁店门店数（Y）与区域商务氛围、竞品密度及城市等级的关系。
- 机票价格分析：特定航线（国际/国内）的价格影响因素。
- 客房价格分析：连锁酒店、星级酒店、民宿的价格研究。
- 不限于经济类话题：CET4成绩影响因素、跑步配速分析等。

选题“负面清单”（禁止选择）

陈旧同质化：大学生每月生活费影响因素分析、食堂就餐满意度影响因素分析
选题宏大：全球各国通货膨胀率与经济增长的关系研究、“一带一路”对全球贸易格局的影响、互联网技术对人类文明进化的作用
数据类型错误：中国房地产市场的波动逻辑分析、人民币汇率波动影响因素、城乡收入分配不平等分析
数据无法获取：某知名快消品牌内部营销成本与利润分析、外卖骑手实际时薪影响因素

数据要求与来源

数据类型：必须使用截面数据，严禁使用时间序列或面板数据。
样本容量：有效个案数量不得低于 60 个（若是5人组，有效个案数量不得低于90）。

📌 有效样本指经过清洗（缺失值、异常值处理等）后，实际用于回归模型估计的观测数量。

💡 为了保证最终回归模型能使用足够的有效样本，建议在数据收集时不要刚好卡在最低门槛，而是预留一定的“缓冲量”。

💡 推荐实际收集目标：70–80 个（个人） / 100–110 个（5人组）。在最低要求的基础上多收集 10–20%（约多10–20个观测），以应对数据清洗过程中可能出现的缺失值或异常值导致的样本量减少。

❗重要提示：请勿选择以“省级行政区划”为观测单元的选题（如各省居民消费分析），我国省级行政区总数为 34 个（23 个省、5 个自治区、4 个直辖市和 2 个特别行政区）
变量要求（数据收集阶段）：
- 定量变量（Continuous/Quantitative Variables）：至少4 个（确保 1 个作为被解释变量后，仍有充足的候选解释变量）。
- 定性变量（Categorical/Qualitative Variables）：至少 2 个。
模型设定要求（实证分析阶段）：
- 被解释变量\(Y\)：必须为定量变量
- 解释变量构成：最终进入回归模型的变量应至少包含 2 个定量变量和 1个定性变量
数据收集渠道：网页数据、数据库、问卷调查、APP等。

🚫 拒绝“常量”变量：请务必检查你的数据。确保定量变量是有波动的，如果所有个案的数值都完全一样（例如：所有人的“受教育年限”都是 16），该变量将无法进入回归模型。

🧩 定性变量精简化：分类不宜过细。建议将定性变量的类别控制在 2-4 个之间。如果分类太多（如：具体省份），请在分析前按逻辑进行归并。

📦 建立“变量备用库”：建议在数据收集阶段多准备几个备选变量。这样万一核心变量不显著，你可以立即调用备选变量进行调整，无需再次辛苦收集数据。

🚩选题常见错误

请各小组对照下表，核实你们的选题是否存在以下逻辑或格式问题。存在下述任何一种情况的申请，将被要求重选。

错误类型	典型错误示例	为什么不行？
观测单元错误	以“年份”为单元（如：2000-2024年我国GDP分析）	本次任务严格要求使用截面数据，禁止使用时间序列数据。
样本量不足	以“省级行政区”为单元（如：31个省的消费分析）	样本量极小（N=31），统计效力严重不足，无法支持稳健的回归分析。
变量类型错位	被解释变量 \(Y\) 是“是否就业”（0=否, 1=是）	被解释变量必须为定量变量，定性变量作为 \(Y\) 需使用特殊模型。
解释变量单一	仅收集了 1 个定量变量和 1 个定性变量	无法满足模型设定要求（必须包含 \(\ge\) 2个定量和 \(\ge\) 1个定性解释变量）。
数据逻辑自循环	\(Y\) 是“考试总分”，\(X\) 是“数学分”、“语文分”	变量间存在数学恒等关系而非因果统计关系，回归系数无意义。

✅ 检查 1. 有效样本量是否达到要求（60个/五人组90个）？ 2. 你的数据是否确保每一行代表一个观测个体（如：人、公司）？ 3. 你的因变量 \(Y\) 是否可以进行求平均值等数值运算？

阶段评估说明

本小组实证研究任务是贯穿整个学期的系统性工程，与课程教学进度同步推进。请各组注意，最终成绩评定不仅取决于期末汇报和实验报告，以下过程指标也是小组作业和实验课成绩评定的重要依据 ：

同步推进：是否在规定教学周期内完成对应的实证阶段。
讨论过程：小组成员在课堂讨论课中的参与度与协作表现。
工作态度：数据采集的真实性、变量选取的严谨性以及文档准备的完整度。
反馈改进：是否认真听取老师在讨论课中给出的指导意见，并根据建议作出实质性的修正与改进 。

讨论与汇报

第1轮讨论课 (第3-6周)：选题论证和数据收集

任务1: 提交选题信息问卷

https://v.wjx.cn/vm/rXTAiul.aspx#

点击展开

核心任务：确立选题方向，通过初步数据探索验证模型逻辑的可行性。
学生准备事项（需提交/展示）：
- 填写选题信息问卷(请在讨论课前完成)：https://v.wjx.cn/vm/rXTAiul.aspx#
- 数据文件：展示已获取的数据概况，确保截面数据有效样本 \(n \ge 60\)（5人组 \(n \ge 90\)）。
- 数据清洗：
  - 变量命名的规范化 (Variable Naming)
    - 全英文/拼音：变量名必须以英文字母开头。严禁使用中文、空格或特殊符号。
    - 禁用字符：不能包含中划线/短横线（-）、小圆点（.）。
    - 蛇形命名（snake_case）：所有字母小写，单词之间用下划线（_）连接（如 laptop_price）。
    - 见名知意：严禁使用 \(X1, Y\) 等无意义符号，确保代码可读性。用 wage 而不是Y，用 edu 而不是 X1。
  - 异常值处理
    - 可视化检查：对定量变量绘制直方图或箱线图。
    - 优先采用 \(3 \times IQR\) 规则剔除极端值，以保留更多信息；若数据依然分布极度不均，再考虑 \(1.5 \times IQR\)。 (注：剔除数值大于 \(Q3 + 3 \times IQR\) 或小于 \(Q1 - 3 \times IQR\) 的个案)。
    - 逻辑检查：务必剔除如“价格为0”、“年龄为负”等逻辑错误的个案。
  - 定性变量分类优化：
    - 合并原则：若某个分类下的个案数量少于 10 个，建议合并。合并后建议每组样本数 \(> 20\)。
    - 逻辑合并：合并应基于逻辑相似性（如：将“硕士”和“博士”合并为“研究生”）。
  - 初步相关性分析：
    - 报告 \(Y\) 与各定量解释变量 \(X\) 之间的相关系数矩阵。
    - 核心解释变量与 \(Y\) 的相关系数绝对值 \(|r| > 0.2-0.3\)。
    - 确保变量间存在基本关联，避免后期回归模型因相关性太弱导致“全盘不显著”。
    - 估计全变量的回归模型，若 \(p\) 值普遍较大且 \(R^2\) 极低。需要重新考虑定量变量的测度，重新选取样本。

任务2: 数据预处理和初步回归

点击展开

任务目标

在本阶段，各小组需完成原始数据的清洗、变量规范化命名及初步的描述性统计分析。这不仅是为了确保后续回归模型的稳健性，更是为了培养专业的数据处理习惯。

1 样本量基本要求

根据小组成员人数，有效样本量（剔除异常与错误后）需满足： - 常规小组（≤ 4人）： \(n \ge 60\) - 5人小组： \(n \ge 90\)

2 数据清洗标准 (Data Cleaning)

2.1 变量命名规范化 (Variable Naming)

为了确保分析软件（Stata/R/Python/EViews）的兼容性，所有变量名必须遵循： - 命名格式： 采用 蛇形命名法（snake_case），所有字母小写，单词之间用下划线 _ 连接。 - 字符限制： 严禁使用中文、空格或特殊符号。必须以英文字母开头。 - 禁用符号： 严禁包含中划线/短横线 - 或小圆点 .。 - 语义化命名： 确保“见名知意”。严禁使用 \(X1, X2, Y\) 等代号。例如：用 wage 而不是 y，用 edu_years 而不是 x1。

2.2 异常值处理与逻辑检查

可视化检查： 对所有定量变量绘制直方图或箱线图。
IQR 规则： - 优先采用 \(3 \times IQR\) 规则剔除极端值：
- \(Value > Q3 + 3 \times IQR\) 或 \(Value < Q1 - 3 \times IQR\)。
- 若数据依然极度不均，可考虑 \(1.5 \times IQR\) 规则。
逻辑校验： 强制剔除逻辑错误的个案（如价格 \(\le 0\)、年龄为负等）。

2.3 定性变量分类优化

合并原则： 若某个分类下的个案数量 少于 10 个，必须进行合并。合并后建议每组样本数 \(> 20\)。
逻辑合并： 合并应基于逻辑相似性。例如：将“硕士”和“博士”合并为“研究生”。

3 初步统计分析

3.1 相关性自查 - 报告被解释变量 \(Y\) 与各定量解释变量 \(X\) 之间的 Pearson 相关系数矩阵。 - 核心解释变量与 \(Y\) 的相关系数绝对值 \(|r|\) 建议在 \(0.2 - 0.3\) 以上。

3.2 回归质量预警进行全变量 OLS 初步回归，若出现以下情况，需重新考虑变量测度或重新抽样： - \(p\) 值普遍较大且模型 \(R^2\) 极低（例如 \(< 0.01\)）。

4 提交物要求

请提交一个名为 组号_组长姓名_研究主题.xlsx 的 Excel 文件。该文件必须严格包含以下四个命名的表单（Sheet）：

表单名称	内容要求	包含指标
`data`	清洗后的有效数据	表头为规范化的英文变量名
`desc`	描述性统计分析	均值、中位数、标准差、最小值、最大值、定量变量的直方图
`col`	相关系数矩阵	\(Y\) 与定量 \(X\) 的 Pearson 相关系数
`reg`	初步回归结果	系数、标准误、\(t\) 值、\(p\) 值、\(R^2\)、调整后 \(R^2\)

Note

注意：严禁合并表单或随意更改 Sheet 名称。

第2轮讨论课 (第7-9周)：基础建模

点击展开

应用方法：运用教材 第 4、5、6 章 的分析方法。
需准备的文件：
1. 清洗后的数据文件(Excel文件格式)。
2. 汇报内容：
  - 数据来源：详细说明采集渠道。
  - 变量含义：每个 \(X\) 变量的含义、单位。
  - 估计结果：尝试不同回归方程的估计结果截图。
  - 模型择优：对比不同函数形式，阐述哪个模型最好及理由。
  - 主要结论：汇报初步发现的结论。

第3轮讨论课 (第 10-13 周)：模型诊断与完善

点击展开

应用方法：运用教材 第 7、8、9 章 的方法。
需准备的文件：
1. EViews Workfile：包含所有诊断检验过程的最新版本。
2. PPT 汇报演示：
  - 诊断与改进：汇报针对初始模型的优化路径。
  - 设定误差检验：是否存在遗漏变量或函数形式设定错误。
  - 多重共线性：VIF 检验及处理方案。
  - 异方差诊断：White 检验/BP 检验及加权最小二乘法等改进措施。
  - 最终结论：基于稳健模型得到的最终实证结论 [cite: 2026-01-31]。