Невозможно выяснить, что Ninputplane в SpatialConvolution в факеле?

https://datascience.stackexchange.com/questions/14329

16-10-2019
|

Вопрос

Документация для пространственной свертки определяет его как

module = nn.SpatialConvolution(nInputPlane, nOutputPlane, kW, kH, [dW], [dH], [padW], [padH])

Ninputplane: количество ожидаемых входных плоскостей на изображении, приведенном в Forward ().

noutputplane: количество выходных плоскостей, которые будет производить слой свертки.

У меня нет опыта с факелом, но я думаю, я использовал аналогичную функцию в керасе

Convolution2D(64, 3, 3, border_mode='same', input_shape=(3, 256, 256))

который принимает входную форму изображения, которое составляет 256*256 в RGB.

Я прочитал использование пространственной свертки в Torch, как показано ниже, но не смог выяснить, что соответствует параметру Ninplane и Noutputplane?

local convLayer = nn.SpatialConvolutionMM(384, 384, 1, 1, 1, 1, 0, 0)

В приведенном выше коде, что представляют эти 384 384?

Решение

Девятнадцатая плана - это глубина или количество слоев входного изображения. В случае изображений RGB это должно быть 3, что соответствует первому числу в input_shape=(3, 256, 256).

Noutputplane - это количество слоев объема, которое будет создавать шаг свертки, который также является количеством фильтров/ядер, применяемых к входу. По соглашению существует выходной слой для каждого фильтра. Это соответствует первым аргументам Convolution2D функция

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange