第1章

第1章 导论课程简介与R操作回顾

Chap 1 讲义

R Introduction

R中的常用统计分析工具

课堂练习

讨论题1

阅读下述推文

微信公众号狗熊会>案例图书>精品案例>No.1探索性数据分析: 谁在看直播——基于RFM的粉丝聚类

微信公众号狗熊会>案例图书>精品案例>No4.机器学习:基于KNN的B站“哈尔滨旅游”视频热度分析

1.1 数据来源?

1.2 样本容量?

1.3 研究中使用了哪些变量?

1.4 使用了哪些统计方法?

1.5 得出哪些有价值的结论?

本章习题

数据集:mtcars

要求:

1.1 用select()函数从mtcars提取5个变量⽣成新的数据框。

1.2 用mutate()函数在数据框中追加新的变量,将油耗变量mpg(miles per gallon)转换成转公里/升(kilometers per liter)的油耗指标。

1.3 任选mpg中的某个变量,用if_else()函数对该变量的数值进⾏条件转换。

1.4 设置2个筛选条件,用filter()函数从mpg筛选个案⽣成新的数据框。

1.5 报告disp, hp, drat, wt, qsec的相关系数矩阵,并对相关系数矩阵进行可视化呈现。

1.6 任选两个定量变量,用ggplot绘制散点图,设置散点图的颜色、形状、大小,并添加一条回归线。

1.7 将32辆汽车按VS分成两组(Engine (0 = V-shaped, 1 = straight)),绘制分组散点图,用ggplot绘制散点图,设置散点图的颜色、形状、大小,并添加一条回归线。

习题答案

习题代码

数据收集渠道

CSMAR 国泰安经济金融数据库 http://www.gtarsc.com/Home

中国家庭追踪调查 CFPS http://www.isss.pku.edu.cn/cfps/

中国家庭金融调查数据 CHFS https://chfs.swufe.edu.cn

中国健康与养老数据追踪调查数据CHARLS http://charls.pku.edu.cn

暨南大学社会调查中心 https://sdc-iesr.jnu.edu.cn

Kaggle https://www.kaggle.com/datasets

R教学视频

讲义R Studio 主界面

讲义如何安装R扩展包

讲义RStudio如何导入EXCEL文件

讲义R Studio中的Project–如何高效管理数据、代码、图形

讲义如何利用AI自动写R代码? RStudio中的Github Copilot

讲义R语言代码风格:如何写出易读且美观的代码?

拓展资源

学习素材

狗熊会(微信公众号) https://www.xiong99.com.cn/

UCLA Data Analysis Examples https://stats.oarc.ucla.edu/other/dae/

The Data And Story Library https://dasl.datadescription.com/

数据库

CSMAR 国泰安经济金融数据库 http://www.gtarsc.com/Home

中国家庭追踪调查 CFPS http://www.isss.pku.edu.cn/cfps/

中国家庭金融调查数据 CHFS https://chfs.swufe.edu.cn

中国健康与养老数据追踪调查数据CHARLS http://charls.pku.edu.cn

暨南大学社会调查中心 https://sdc-iesr.jnu.edu.cn

Kaggle https://www.kaggle.com/

R相关

CRAN Task Views https://cran.r-project.org/web/views/

Most Downloaded R Packages https://www.r-pkg.org/

RStudio Cloud https://rstudio.cloud/