评价指标
约 857 字大约 3 分钟
2024-08-11
生成模型的几种评价指标
PSNR
PSNR (Peak Signal-to-Noise Ratio) 峰值信噪比。
给定一个大小为 m×n 的干净图像 I 和噪声图像 K,均方误差(MSE)定义为:
MSE=mn1i=0∑m−1j=0∑n−1[I(i,j)−K(i,j)]2
然后 PSNR(dB) 就定义为:
PSNR=10⋅log10(MSEMAXI2)
其中MAXI2为图片可能的最大像素值
SSIM
SSIM (Structural SIMilarity) 结构相似性。
基于样本 x 和 y 之间的三个比较衡量:亮度 (luminance)、对比度 (contrast) 和结构 (structure)。
l(x,y)c(x,y)s(x,y)=μx2+μy2+c12μxμy+c1=σx2+σy2+c22σxσy+c2=σxσy+c3σxy+c3
一般取 c3=c2/2
μx 为 x 的均值
μy 为 y 的均值
σx2 为 x 的方差
σy2 为 y 的方差
σxy 为 x 和 y 的协方差
c1=(k1L)2,c2=(k2L)2 为两个常数,避免除零
L 为像素值的范围,2B−1
k1=0.01,k2=0.03 为默认值
SSIM(x,y)=[l(x,y)α⋅c(x,y)β⋅s(x,y)γ]
Inception Score
Inception Score使用图片类别分类器来评估生成图片的质量。其中使用的图片类别分类器为Inception Net-V3。
直观感受,IS是对生成图片清晰度和多样性的衡量,IS值越大越好。具体公式如下:
IS(G)=exp(Ex∼pgDKL(p(y∣x)∣∣p(y)))
Ex∼pg:遍历所有的生成样本,求平均值。
DKL:KL散度,DKL(P∣∣Q)用于衡量分布 P 和 Q 之间的近似程度。
p(y∣x):对于图片x,属于所有类别的概率分布。对于给定图片x,表示为一个1000维数向量。
p(y):边缘概率,具体实现为对所有的验证图片x,计算得到p(y∣x),再求所有向量平均值。
Inception Score的问题 (1)数据集问题 (2)Inception Score敏感性问题 (3)Inception Score高的图片不一定真实 (4)Inception Score低的图片不一定差 (6)Inception Score的多样性检验有局限性 (6)Inception Score不能反映过拟合
总结:Inception Score得分过于依赖分类器,是一种间接的对图片质量评估的方法,没有考虑真实数据与生成数据的具体差异。Inception Score是基于ImageNet得到的,在IS看来,凡是不像ImageNet的数据,都是不真实的。
Fréchet Inception Distance
直接考虑生成数据和真实数据在feature层次的距离,不再额外的借助分类器。因此来衡量生成图片和真实图片的距离。
FID=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)1/2)
- μr:真实图片的特征均值
- μg:生成图片的特征均值
- Σr:真实图片的协方差矩阵
- Σg:生成图片的协方差矩阵
- Tr:迹
优点:
- 生成模型的训练集可以和 Inception Net-V3 不同
- 刷分不会导致生成图片的质量变差
缺点:
- FID是衡量多元正态分布,直接按的距离。但是提取的图片特征不一定是符合多元正态分布的。
- 无法解决过拟合问题,如果生成模型只能生成和训练集一模一样的数据无法检测。