如何在v提供两种data.frames合并到一起，参照查找表

https://stackoverflow.com/questions/2352813

23-09-2019
|

题

我试图合并两个data.frames在一起，根据他们每个人的所谓series_id一个共同的列名。这里是我的MERGE语句：

merge(test_growth_series_LUT,  test_growth_series, by = intersect(series_id, series_id))

我得到的错误是

在as.vector
错误（Y）：对象 'series_id' 未找到

在帮助给出了这样的描述，但我不明白为什么它不能找到series_id。实施例的数据如下。

### S3 method for class 'data.frame':
   #merge(x, y, by = intersect(names(x), names(y)),
   #      by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,
   #      sort = TRUE, suffixes = c(".x",".y"), ...)



# Create a long data.frame to store data...
test_growth_series = data.frame ("read_day" = c(0, 3, 9, 0, 3, 9, 0, 2, 8), 
"series_id" = c("p1s1", "p1s1", "p1s1", "p1s2", "p1s2", "p1s2", "p3s4", "p3s4", "p3s4"),
"mean_od" = c(0.6, 0.9, 1.3, 0.3, 0.6, 1.0, 0.2, 0.5, 1.2),
"sd_od" = c(0.1, 0.2, 0.2, 0.1, 0.1, 0.3, 0.04, 0.1, 0.3),
"n_in_stat" = c(8, 8, 8, 8, 7, 5, 8, 7, 2)
)

# Create a name LUT
test_growth_series_LUT = data.frame ("series_id" = c("p1s1", "p1s2", "p3s4", "p4s2", "p5s2", "p6s2", "p7s4", "p8s4", "p9s4"),"description" = c("blah1", "blah2", "blah3", "blah4", "blah5", "blah6", "blah7", "blah8", "blah9")
)

> test_growth_series
  read_day series_id mean_od sd_od n_in_stat
1        0      p1s1     0.6  0.10         8
2        3      p1s1     0.9  0.20         8
3        9      p1s1     1.3  0.20         8
4        0      p1s2     0.3  0.10         8
5        3      p1s2     0.6  0.10         7
6        9      p1s2     1.0  0.30         5
7        0      p3s4     0.2  0.04         8
8        2      p3s4     0.5  0.10         7
9        8      p3s4     1.2  0.30         2
> test_growth_series_LUT
  series_id description
1      p1s1       blah1
2      p1s2       blah2
3      p3s4       blah3
4      p4s2       blah4
5      p5s2       blah5
6      p6s2       blah6
7      p7s4       blah7
8      p8s4       blah8
9      p9s4       blah9
> 



this is what I'm trying to achieve:  
> new_test_growth_series
  read_day series_id mean_od sd_od n_in_stat        description
1        0      p1s1     0.6  0.10         8        blah1
2        3      p1s1     0.9  0.20         8        blah1
3        9      p1s1     1.3  0.20         8        blah1
4        0      p1s2     0.3  0.10         8        blah2
5        3      p1s2     0.6  0.10         7        blah2
6        9      p1s2     1.0  0.30         5        blah2
7        0      p3s4     0.2  0.04         8        blah3
8        2      p3s4     0.5  0.10         7        blah3
9        8      p3s4     1.2  0.30         2        blah3

解决方案

您可以只是这样做：

merge(test_growth_series_LUT, test_growth_series)

它会自动匹配的名称。如果你需要指定列，你做这样的：

merge(test_growth_series_LUT, test_growth_series, by = "series_id")

或者，如果你需要指定两侧（仅如果他们有不同的名称，你想匹配的需要）是这样的：

merge(test_growth_series_LUT, test_growth_series, by.x = "series_id", by.y = "series_id")

我建议通过转到帮助合并（?merge）或致电example("merge", "base")（实际上通过它走自己用处不大看的例子（并通过他们行走）。

两个附注：

您绝不会需要在这里使用交叉功能。使用c()明确指定多个列名。或者使用all，all.x和all.y参数来样加入你想要指定哪些。
您会使用引号在大多数情况下指定列名，除非你有附加数据。否则，它会抱怨不能够找到的名称。特别是，当你不使用引号的名称必须是在搜索路径。

其他提示

我得到的误差是 “在as.vector错误（Y）：对象 'series_id' 未找到”

test_growth_series$series_id，它返回series_id的的矢量：

在您的data.frame A柱可以这样表示。这样做的交叉是不必要的，但将被正确地写入这样的：

intersect(test_growth_series$series_id, test_growth_series_LUT$series_id)

要稍微更正确，你可能想要做一个左连接使用all.x=TRUE。这包括你的情况下，从test_growth_series一个series_id不会出现在你的查询表。没有它，你可能最终在结果中缺少某些行。

merge(test_growth_series, test_growth_series_LUT, by = "series_id", all.x=TRUE)

此主题也在讨论如何加入的数据帧中的R（内，外，左，右）？

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow