R：「Group by」オペレーションをスピードアップします

https://stackoverflow.com/questions/3685492

02-10-2019
|

質問

巨大な集計を備えたシミュレーションがあり、真ん中にステップを組み合わせています。私は、PlyrのDdply（）関数を使用してこのプロセスをプロトタイプしました。しかし、10Kシミュレーションを実行する必要があるため、この集約ステップをより速くする必要があります。私はすでにシミュレーションを並行してスケーリングしていますが、この1つのステップがより速い場合、必要なノードの数を大幅に減らすことができます。

これが私がやろうとしていることの合理的な単純化です。

library(Hmisc)

# Set up some example data
year <-    sample(1970:2008, 1e6, rep=T)
state <-   sample(1:50, 1e6, rep=T)
group1 <-  sample(1:6, 1e6, rep=T)
group2 <-  sample(1:3, 1e6, rep=T)
myFact <-  rnorm(100, 15, 1e6)
weights <- rnorm(1e6)
myDF <- data.frame(year, state, group1, group2, myFact, weights)

# this is the step I want to make faster
system.time(aggregateDF <- ddply(myDF, c("year", "state", "group1", "group2"),
                     function(df) wtd.mean(df$myFact, weights=df$weights)
                                 )
           )

すべてのヒントや提案をいただければ幸いです！

解決

通常のRデータフレームの代わりに、サブセットのときにポインターを元のものに返す不変のデータフレームを使用できます。

idf <- idata.frame(myDF)
system.time(aggregateDF <- ddply(idf, c("year", "state", "group1", "group2"),
   function(df) wtd.mean(df$myFact, weights=df$weights)))

#    user  system elapsed 
# 18.032   0.416  19.250

私がこの状況に正確にカスタマイズされたPLYR関数を書くなら、私は次のようなことをします：

system.time({
  ids <- id(myDF[c("year", "state", "group1", "group2")], drop = TRUE)
  data <- as.matrix(myDF[c("myFact", "weights")])
  indices <- plyr:::split_indices(seq_len(nrow(data)), ids, n = attr(ids, "n"))

  fun <- function(rows) {
    weighted.mean(data[rows, 1], data[rows, 2])
  }
  values <- vapply(indices, fun, numeric(1))

  labels <- myDF[match(seq_len(attr(ids, "n")), ids), 
    c("year", "state", "group1", "group2")]
  aggregateDF <- cbind(labels, values)
})

# user  system elapsed 
# 2.04    0.29    2.33

データのコピーを避け、計算時に各計算に必要なサブセットを抽出するだけではるかに高速です。マトリックスサブセットはデータフレームサブセットよりもはるかに高速であるため、データをマトリックスフォームに切り替えると別の速度が向上します。

他のヒント

さらに2倍のスピードアップとより簡潔なコード：

library(data.table)
dtb <- data.table(myDF, key="year,state,group1,group2")
system.time( 
  res <- dtb[, weighted.mean(myFact, weights), by=list(year, state, group1, group2)] 
)
#   user  system elapsed 
#  0.950   0.050   1.007

私の最初の投稿なので、いいですね;）

から data.table v1.9.2、 setDT 関数がエクスポートされ、変換されます data.frame に data.table 参照により （に合わせて data.table パルランス - すべて set* 関数は参照によってオブジェクトを変更します）。これは、不必要なコピーがないことを意味し、したがって高速です。あなたはそれを計算することができますが、それは怠慢です。

require(data.table)
system.time({
  setDT(myDF)
  res <- myDF[, weighted.mean(myFact, weights), 
             by=list(year, state, group1, group2)] 
})
#   user  system elapsed 
#  0.970   0.024   1.015

これは、上記のOPのソリューションで1.264秒とは対照的です。 data.table(.) 作成に使用されます dtb.

ベースrでプロファイルします

g <- with(myDF, paste(year, state, group1, group2))
x <- with(myDF, c(tapply(weights * myFact, g, sum) / tapply(weights, g, sum)))
aggregateDF <- myDF[match(names(x), g), c("year", "state", "group1", "group2")]
aggregateDF$V1 <- x

私のマシンでは、元のコードを使用した67秒と比較して5秒かかります。

編集別のスピードアップを見つけました rowsum 関数：

g <- with(myDF, paste(year, state, group1, group2))
X <- with(myDF, rowsum(data.frame(a=weights*myFact, b=weights), g))
x <- X$a/X$b
aggregateDF2 <- myDF[match(rownames(X), g), c("year", "state", "group1", "group2")]
aggregateDF2$V1 <- x

3秒かかります！

Plyrの最新バージョンを使用していますか（注：これはまだすべてのCRANミラーに到達していません）？もしそうなら、これを並行して実行することができます。

これがLLPLYの例ですが、同じことがDDPlyにも当てはまるはずです。

  x <- seq_len(20)
  wait <- function(i) Sys.sleep(0.1)
  system.time(llply(x, wait))
  #  user  system elapsed 
  # 0.007   0.005   2.005 

  library(doMC)
  registerDoMC(2) 
  system.time(llply(x, wait, .parallel = TRUE))
  #  user  system elapsed 
  # 0.020   0.011   1.038

編集：

まあ、他のループアプローチはさらに悪いので、これにはおそらく（a）C/C ++コードまたは（b）あなたがそれをどのように行うかについてのより基本的な再考が必要です。私も使ってみませんでした by() それは私の経験が非常に遅いからです。

groups <- unique(myDF[,c("year", "state", "group1", "group2")])
system.time(
aggregateDF <- do.call("rbind", lapply(1:nrow(groups), function(i) {
   df.tmp <- myDF[myDF$year==groups[i,"year"] & myDF$state==groups[i,"state"] & myDF$group1==groups[i,"group1"] & myDF$group2==groups[i,"group2"],]
   cbind(groups[i,], wtd.mean(df.tmp$myFact, weights=df.tmp$weights))
}))
)

aggregateDF <- data.frame()
system.time(
for(i in 1:nrow(groups)) {
   df.tmp <- myDF[myDF$year==groups[i,"year"] & myDF$state==groups[i,"state"] & myDF$group1==groups[i,"group1"] & myDF$group2==groups[i,"group2"],]
   aggregateDF <- rbind(aggregateDF, data.frame(cbind(groups[i,], wtd.mean(df.tmp$myFact, weights=df.tmp$weights))))
}
)

私は通常、適用されている関数に複数のベクトルargを持っている場合、タップラでインデックスベクトルを使用します。

system.time(tapply(1:nrow(myDF), myDF[c('year', 'state', 'group1', 'group2')], function(s) weighted.mean(myDF$myFact[s], myDF$weights[s])))
# user  system elapsed 
# 1.36    0.08    1.44

私は同等のシンプルなラッパーを使用しますが、混乱を隠します。

tmapply(list(myDF$myFact, myDF$weights), myDF[c('year', 'state', 'group1', 'group2')], weighted.mean)

以下のコメントのためにtmapplyを含めるように編集：

tmapply = function(XS, INDEX, FUN, ..., simplify=T) {
  FUN = match.fun(FUN)
  if (!is.list(XS))
    XS = list(XS)
  tapply(1:length(XS[[1L]]), INDEX, function(s, ...)
    do.call(FUN, c(lapply(XS, `[`, s), list(...))), ..., simplify=simplify)
}

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow