函数
前面分享了单个文件中的select列,filter行,列拆分等,实际中常常是多个数据表,综合使用才能回答你所感兴趣的问题。 atom
spa
library(tidyverse)
x <- tribble(
~key, ~val_x,
1, "x1",
2, "x2",
3, "x3"
)
y <- tribble(
~key, ~val_y,
1, "y1",
2, "y2",
4, "y3"
)
向数据框中加入新变量,新变量的值是另外一个数据框中的匹配观测。 .net
inner_join
内链接是最简单的一种链接,只要两个观测的键是相等的,便可匹配。3d
注释:匹配在实际的链接操做中是用圆点表示的。圆点的数量 = 匹配的数量 = 结果中行的数量。下同code
x %>%
inner_join(y, by = "key")
# A tibble: 2 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
内链接最重要的性质是,没有匹配的行不会包含在结果中。容易丢失观测,慎用。blog
外链接则保留至少存在于一个表中的观测。外链接有 3 种类型: • 左链接 left_join
:保留 x 中的全部观测。 • 右链接 right_join
:保留 y 中的全部观测 • 全链接 full_join
:保留 x 和 y 中的全部观测。 get
x %>%
left_join(y, by = "key")
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
x %>%
right_join(y, by = "key")
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 4 <NA> y3
x %>%
full_join(y, by = "key")
# A tibble: 4 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
4 4 <NA> y3
以上均假设键具备惟一性,但状况并不是老是如此。string
x1 <- tribble(
~key, ~val_x,
1, "x1",
2, "x2",
2, "x3",
1, "x4"
)
y1 <- tribble(
~key, ~val_y,
1, "y1",
2, "y2"
)
left_join(x1, y1, by = "key")
# A tibble: 4 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 2 x3 y2
4 1 x4 y1
1) 默认值 by = NULL
it
使用存在于两个表中的全部变量,这种方式称为天然链接。
left_join(x, y)
Joining, by = "key"
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
2) 定义匹配键 by = c("a" = "b")
匹配 x 表中的 a 变量和 y 表中的 b 变量,输出结果中使用的是 x 表中的变量。
y_1 <- tribble(
~key2, ~val_y,
1, "y1",
2, "y2"
)
left_join(x, y_1, by = c("key" = "key2"))
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
3) 多个匹配键
x2 <- tribble(
~key,~key1, ~val_x,
1, 2018,"x1",
2, 2019,"x2",
3, 2019,"x3"
)
y2 <- tribble(
~key, ~key1,~val_y,
1, 2018,"y1",
2, 2018,"y2",
4, 2019,"y3"
)
inner_join(x2,y2,by = c("key","key1"))
# A tibble: 1 x 4
key key1 val_x val_y
<dbl> <dbl> <chr> <chr>
1 1 2018 x1 y1
筛选链接匹配观测的方式与合并链接相同,但前者影响的是观测,而不是变量。筛选链接 有两种类型。
保留 x 表中与 y 表中的观测相匹配的全部观测
semi_join(x, y, by = "key")
# A tibble: 2 x 2
key val_x
<dbl> <chr>
1 1 x1
2 2 x2
丢弃 x 表中与 y 表中的观测相匹配的全部观测。
anti_join(x, y, by = "key")
# A tibble: 1 x 2
key val_x
<dbl> <chr>
1 3 x3
《R数据科学》
【以为不错,右下角点个“在看”,期待您的转发,谢谢!】