Невозможно выяснить, что Ninputplane в SpatialConvolution в факеле?
Вопрос
Документация для пространственной свертки определяет его как
module = nn.SpatialConvolution(nInputPlane, nOutputPlane, kW, kH, [dW], [dH], [padW], [padH])
Ninputplane: количество ожидаемых входных плоскостей на изображении, приведенном в Forward ().
noutputplane: количество выходных плоскостей, которые будет производить слой свертки.
У меня нет опыта с факелом, но я думаю, я использовал аналогичную функцию в керасе
Convolution2D(64, 3, 3, border_mode='same', input_shape=(3, 256, 256))
который принимает входную форму изображения, которое составляет 256*256 в RGB.
Я прочитал использование пространственной свертки в Torch, как показано ниже, но не смог выяснить, что соответствует параметру Ninplane и Noutputplane?
local convLayer = nn.SpatialConvolutionMM(384, 384, 1, 1, 1, 1, 0, 0)
В приведенном выше коде, что представляют эти 384 384?
Решение
Девятнадцатая плана - это глубина или количество слоев входного изображения. В случае изображений RGB это должно быть 3, что соответствует первому числу в input_shape=(3, 256, 256)
.
Noutputplane - это количество слоев объема, которое будет создавать шаг свертки, который также является количеством фильтров/ядер, применяемых к входу. По соглашению существует выходной слой для каждого фильтра. Это соответствует первым аргументам Convolution2D
функция