首先明确一个概念:

感受野:特征地图中的一个像素是从几幅原画上的像素得到的?

然后,VGG的网络结构如下:

ccpccpccpcccpccccpccccpccpff

c:卷积层

p:点环层

f:全连接层

如下图的d网络所示。

deeplab系列详解(deepfacelab训练模型)-冯金伟博客园

d型号的VGG-16是我们使用的型号

VGG论文: https://WWW.Robots.OX.AC.UK/~ VGG/Publications/2015/Simonyan 15/Simonyan 15.PDF

deeplab系列详解(deepfacelab训练模型)-冯金伟博客园

VGG-16、d型号

deeplab系列详解(deepfacelab训练模型)-冯金伟博客园

深度实验室v1模型

感受野计算公式:

其中,层,

为了步幅,

为了感受蔬菜

第n层的感受野

:第n层的kernel_size

那么我们来按照上述公式,计算一下VGG16的感受野:

卷积化的VGG

c,k=3,s=1

1

1(3-1) *1=3

c,k=3,s=1

1

3(3-1) *1=5

p,k=2,s=2

2

5(2-1) *1=6

c,k=3,s=1

2

6(3-1) *2=10

c,k=3,s=1

2

10(3-1) *2=14

p,k=2,s=2

4

14(2-1) *2=16

c,k=3,s=1

4

16(3-1) *4=24

c,k=3,s=1

4

24(3-1) *4=32

c,k=3,s=1

4

32(3-1) *4=40

p,k=2,s=2

8

40(2-1) *4=44

c,k=3,s=1

8

44(3-1) *8=60

c,k=3,s=1

8

60(3-1) *8=76

c,k=3,s=1

8

76(3-1) *8=92

p,k=2,s=2

16

92(2-1) *8=100

c,k=3,s=1

16

100 2*16=132

c,k=3,s=1

16

132 2*16=164

c,k=3,s=1

16

164 2*16=196

p,k=2,s=2

32

196 1*16=212

f,k=7,s=1

32

212(7-1) *32=404

f,k=1,s=1

32

404(1-1) *32=404

f,k=1,s=1

32

404(1-1) *32=404

那么我们来按照上述公式,计算一下由VGG16改动的到的DeepLabV1的感受野:

迪EPLABV 1

c,k=3,s=1

1

1(3-1) *1=3

c,k=3,s=1

1

3(3-1) *1=5

p,k=2,s=2

2

5(2-1) *1=6

c,k=3,s=1

2

6(3-1) *2=10

c,k=3,s=1

2

10(3-1) *2=14

p,k=2,s=2

4

14(2-1) *2=16

c,k=3,s=1

4

16(3-1) *4=24

c,k=3,s=1

4

24(3-1) *4=32

c,k=3,s=1

4

32(3-1) *4=40

p,k=2,s=2

8

40(2-1) *4=44

c,k=3,s=1

8

44(3-1) *8=60

c,k=3,s=1

8

60(3-1) *8=76

c,k=3,s=1

8

76(3-1) *8=92

p,k=2,s=1

8

92(2-1) *8=100

c,k=3,s=1,dilate_rate=2

8

100(5-1) *8=132,等效卷积核为5

c,k=3,s=1,dilate_rate=2

8

132(5-1) *8=164,等效卷积核为5

c,k=3,s=1,dilate_rate=2

8

164(5-1) *8=196,等效卷积核为5

p,k=3,s=1

8

196 2*8=212,

f,k=7,s=1,删除速率=4

8

212(25-1 ) *8=404,等效卷积核为25

f,k=1,s=1

8

404(1-1) *8=404

f,k=1,s=1

8

404(1-1) *8=404

请注意,最后一个轮询层有所更改。 原kernel为2,其细胞核改为3,其感受野与VGG严格一致。


c,k=3,s=1

4

32(3-1) *4=40

p,k=2,s=2

8

40(2-1) *4=44

c,k=3,s=1

8

44(3-1) *8=60

c,k=3,s=1

8

60(3-1) *8=76

c,k=3,s=1

8

76(3-1) *8=92

p,k=2,s=1

8

92(2-1) *8=100

c,k=3,s=1,dilate_rate=2

8

100(5-1) *8=132,等效卷积核为5

c,k=3,s=1,dilate_rate=2

8

132(5-1) *8=164,等效卷积核为5

c,k=3,s=1,dilate_rate=2

8

164(5-1) *8=196,等效卷积核为5

p,k=3,s=1

8

196 2*8=212,

f,k=7,s=1,删除速率=4

8

212(25-1 ) *8=404,等效卷积核为25

f,k=1,s=1

8

404(1-1) *8=404

f,k=1,s=1

8

404(1-1) *8=404

请注意,最后一个轮询层有所更改。 原kernel为2,其细胞核改为3,其感受野与VGG严格一致。

deeplab系列详解(deepfacelab训练模型)-冯金伟博客园

max pooling在VGG论文中的描述

在gg论文中,其max-pooling为2×2,这么说来,与本层的map-pooing以前的特征对应的感受野的情况相同。

VGG论文: https://WWW.Robots.OX.AC.UK/~ VGG/Publications/2015/Simonyan 15/Simonyan 15.PDF

或者,为了更多层的等价,我们有两种方法。 1将最后一个轮询的核修改为3,将vgg的所有核修改为3。

轮询层的修正方法中,具体哪个比较好,还是实验比较好。