“NIMA: Neural Image Assessment” 是图像质量评估领域的经典之作,最近在做视频质量评估相关的项目,该文也是必读论文。论文链接就不放了,网上有比较多的下载资源,按照惯例,先放上该论文的引用信息:
Talebi H, Milanfar P. NIMA: Neural image assessment[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3998-4011.
与笔者之前的一篇博文图像质量评估(IQA)——“KonCept512” 论文解读一样,该论文也发表于图像处理顶刊TIP。发表至今有两百多次的引用,因为是小众领域,所以已经算是高引了。以下以论文方法为重点,对核心内容进行解读。
1. 论文贡献及创新点
本文提出了一种用于图像质量评估和艺术评分的方法。揭示了同样构造的CNN,即使训练集不同,也可以做到 state-of-the-art 效果。本文的方法并不是预测分数,而是预测分数的分布,换句话说,与常规回归方法不同的是,本文是分类的思想,所以网络将输出一个 histogram 而不是单个值。最后,作者采用 EMD loss 作为损失函数, 能够得到更准确的平均评分。
2. 数据集
本文对三个广泛使用的用于图像质量评估的数据集进行了介绍,分别是 AVA、TID2013和 LIVE。
2.1 AVA(A Large-Scale Database for Aesthetic Visual Analysis)
AVA 数据集共有255000张图片,每一张都平均被200个熟练的摄影师评分标注过。每张图片都与某个比赛主题相关联(一共900个主题),评分区间范围是 [1, 10],分值越大艺术美感越好。
2.2 TID2013(Tampere Image Database 2013)
TID2013 数据集共有3000张(25245)图片,其中25张原始图片,每张图片有24种失真版本,每张失真图片有5个强度等级。图片的 label 是平均分和标准差。
2.3 LIVE(LIVE In the Wild Image Quality Challenge Database)
LIVE 数据集包含从移动设备收集来的1162张图片,每张图片平均被175个独立用户主观标注过。图片的 label 是平均分和标准差,并且被标准化到 [1, 10]区间。
3. 提出的方法 3.1 模型结构
本文提出的图像质量和艺术美学评估方法是基于图像分类的网络结构。作者分别使用 VGG-16、Inception-v2 和 MobileNet 作为 baseline CNN,将最后一层全连接层修改为10个神经元输出,然后接 softmax。这些 CNN 先在 ImageNet 数据集上进行预训练,然后在本文使用的数据集中进行训练。
原 CNN 在 ImageNet 训练中使用的是 256X256 的图片,然后随机裁剪 224X224 大小输入到网络中。但本文认为在迁移学习的时候随机裁剪并没有用,因为图片的艺术评分包括了取景的评分,如果使用随机裁剪,则会改变图片的取景,本文使用对图像水平翻转的方式进行数据提升。
本文的目的是预测图片评分的分布,即最后一层全连接层10个unit分别输出得分1~10分的概率,平均值和标准差计算方式如下:
μ = ∑ 1 n s i × p s i μ=\sum_1^ns_i\times p_{si} μ=1∑nsi×psi
σ = ( ∑ i = 1 N ( s i − μ ) 2 × p s i ) σ=\sqrt{(\sum_{i=1}^N(s_i-μ)^2\times p_{si})} σ=(i=1∑N(si−μ)2×psi)
3.2 损失函数
在有序类的情况下(例如美学和质量评估),分类问题中常用的交叉熵损失缺少得分区间之间的内部关系,对类之间具有内在排序关系的数据集进行训练可以从基于 EMD 损失中受益。
E M D ( p , p ^ ) = ( 1 N ∑ k = 1 N ∣ C D F p ( k ) − C D F p ^ ( k ) ∣ r ) r EMD(p,\hat{p})=\sqrt[r]{(\frac{1}{N}\sum_{k=1}^N|CDF_p(k)-CDF_{\hat{p}}(k)|^r)} EMD(p,p^)=r(N1k=1∑N∣CDFp(k)−CDFp^(k)∣r)
其中, C D F p ( k ) = ∑ i = 1 k P s i CDF_p(k)=\sum_{i=1}^kP_{si} CDFp(k)=∑i=1kPsi就是预测评分概率的累加值,而不是独立的预测获得每一个评分的概率,以此代替分布。
本文针对 NIMA 的核心方法进行解读,关于该论文的结果分析,这里不作描述,有兴趣可以阅读原文进一步了解。关于该论文的实现细节,可以参考NIMA:Neural Image Assessment。
总体来说,该论文在方法上没有特别创新的地方,全文核心思想就是将预测一个值改为预测分布,同时 loss 从交叉熵换成 EMD,但不失为一篇较好的偏应用类的论文。