library(tidyr) library(knitr) opts_chunk$set(echo = TRUE, fig.align = "center")
load("brfss2013.RData")
描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可归纳性/因果关系)的影响。http://www.cdc.gov/brfss/,以及下面的“有关数据的更多信息”部分。python
“ BRFSS是一项横断面电话调查,州卫生部门每个月经过座机和电话进行调查,并得到标准化问卷和CDC的技术和方法支持。在进行BRFSS座机电话调查时,访问员从一个家庭中随机选择的成年人那里收集数据。在进行BRFSS问卷的电话版本时,访问员从成年人中收集数据。”面试
推论范围(广泛性/因果关系):算法
广泛性:调查数据是从50个州和美国领土收集的,这使得数据看起来足够随机样本,从而能够将其推广到整个美国人口。动画
因果关系:因为全部参与者均未接受指定的治疗和对照组的治疗-没法假设因果关系-只能测量相关性。spa
方法论,偏见和须要改进的方面的问题:经过电话调查,有可能低估了几种类型的我的:code
1.没有座机或手机的我的orm
2.拒绝回答或参加电话调查的我的。视频
3.在进行调查时没法经过电话联系/没法联系到调查的我的。rem
采访问题的答案还没有经过验证,这意味着受访者能够经过如下方式修改其回答:get
1.过分报告理想的行为和/或特征。
2.漏报不良行为。
3.夸大或歪曲某些特征,例如身高,学历或收入。
4.错误地提供关键信息。
5.参与的机构之间的面试作法和问题集可能不一致。
供之后参考,若是数据集包含有关每一个访谈的详细信息,例如收集数据的时间和访谈的持续时间,将颇有用。
研究问题1:体重指数(BMI)是否与受访者本身的健康见解相关?
这个问题探讨了BMI“正常”的人是否对本身的健康情况有更好的认识。虽然BMI并非完美的健康指标,但仍被公认为健康的初始指标。
使用的总变量:2
genhlth-通常健康
X_bmi5cat-将BMI分为4类(体重太轻,正常,超重,肥胖)的计算变量
————-
研究问题2:一我的的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?
这是一个有趣的问题,由于常常吹嘘睡眠是维持良好整体健康的重要组成部分。研究代表,那些睡眠时间少于5小时的人甚至更容易患慢性或严重疾病。
使用的总变量:3
sleptim1-报告的睡眠时间
qlhlth2-在过去30天中,有几天被报告为“尽心尽力”
性别-报告的生物性别
————-
研究问题3:整体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?
这个问题将试图看看整体生活满意度和我的受教育程度之间是否存在任何关联。一些研究代表,与受教育程度较低的人相比,受教育程度较高的人较少出现婚姻问题,而且可能享有更好的健康情况。它将进一步探讨男性和女性之间是否存在任何差别。
使用的总变量:3
满意-总体生活满意度
教育-教育水平
性别-我的的生物性别
研究问题1:体重指数(BMI)是否与受访者自身健康的见解相关?
load("brfss2013.RData") dim(brfss2013)
## \[1\] 491775 330
`````` q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit() dim(q1)
`````` ## \[1\] 463275 2
拥有460,000多个观察值,经过表格进行观察更容易,以下所示:
prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
## ## Underweight Normal weight Overweight Obese ## Excellent 0.19987805 0.26019496 0.17373887 0.07933813 ## Very good 0.26402439 0.35069868 0.35401238 0.26824837 ## Good 0.26146341 0.24667514 0.30698451 0.37088006 ## Fair 0.15829268 0.09751640 0.11943759 0.19913468 ## Poor 0.11634146 0.04491484 0.04582665 0.08239876
表中 有大量的数据。
g1 <- ggplot(q1) + aes(x=X\_bmi5cat,fill=genhlth) + geom\_bar(position = "fill") g1
每列表明4种BMI类别(体重太轻,正常,超重,肥胖)和描述本身健康情况的受访者比例。
能够得出结论,在必定程度上,对这一问题的回答是“是”。个体的BMI与他或她本身对健康的见解之间彷佛存在关联。
研究问题2:一我的的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?
## qlhlth2 sex sleptim1 ## Min. : 0.00 Male :162 Min. : 2.000 ## 1st Qu.: 2.00 Female:287 1st Qu.: 6.000 ## Median :15.00 Median : 7.000 ## Mean :15.56 Mean : 7.013 ## 3rd Qu.:28.00 3rd Qu.: 8.000 ## Max. :30.00 Max. :12.000 ## Warning: Removed 12 rows containing non-finite values (stat_smooth). ## Warning: Removed 12 rows containing missing values (geom_point).
睡眠时间和充满能量的天数之间彷佛整体上呈正相关。女性的相关性彷佛比男性略强,由于男性的数据分布更普遍。
++++++++++++++++++++++++
研究问题3:整体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?
## # A tibble: 4 x 2 ## lsatisfy count ## <fct> <int> ## 1 Very satisfied 5378 ## 2 Satisfied 5506 ## 3 Dissatisfied 598 ## 4 Very dissatisfied 161
q3 %>% group_by(educa) %>% summarise(count=n())
## # A tibble: 6 x 2 ## educa count ## <fct> <int> ## 1 Never attended school or only kindergarten 10 ## 2 Grades 1 through 8 (Elementary) 496 ## 3 Grades 9 though 11 (Some high school) 1078 ## 4 Grade 12 or GED (High school graduate) 3708 ## 5 College 1 year to 3 years (Some college or technical school) 3055 ## 6 College 4 years or more (College graduate) 3296
q3 %>% group_by(sex) %>% summarise(count=n())
## # A tibble: 2 x 2 ## sex count ## <fct> <int> ## 1 Male 4078 ## 2 Female 7565
男性和女性的教育水平和整体生活满意度之间彷佛整体上呈正相关。至少完成了高中(或同等学历)的人的满意度彷佛更高。数据中还存在某些异常值,其中一些反馈者在没有受过教育的状况下会“满意”或“很是满意”。因为大多数人口至少已从高中毕业,所以该数据彷佛准确地表明了受访者的分布。
最受欢迎的看法
3.Python数据可视化-seaborn Iris鸢尾花数据
7.R语言动态可视化:制做历史全球平均温度的累积动态折线图动画gif视频图