Have a Question?
FID | Fréchet Inception Distance
1. 定义
Fréchet Inception Distance (FID) 是一种用于评估生成模型质量的重要指标,特别是在图像生成任务中。它由 Martin Heusel 等人在 2017 年提出,主要用于衡量生成图像与真实图像之间的相似度。如果FID值越小,则相似程度越高。最好情况即是 \text{FID}=0,两个图像相同。
FID 的数学定义如下:
\text{FID} = \|\mu_r - \mu_g\|^2 + \text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})\tag{1}其中:
- \mu_r 和 \mu_g 分别是真实图像和生成图像在特征空间中的均值向量
- \Sigma_r 和 \Sigma_g 分别是真实图像和生成图像在特征空间中的协方差矩阵
- \text{Tr}(\cdot) 表示矩阵的迹运算
2. 物理含义
FID 的物理含义可以从以下几个方面理解:
- 分布距离: FID 本质上测量了两个多元高斯分布之间的 Fréchet 距离(也称为 Wasserstein-2 距离)。它反映了真实图像分布和生成图像分布在高维特征空间中的相似程度。
- 特征空间: FID 在预训练的 Inception 网络的特征空间中计算,而不是直接在像素空间计算。这意味着它捕捉了图像的高级语义特征。
- 质量和多样性: FID 同时考虑了生成图像的质量和多样性。较低的 FID 分数表示生成的图像不仅在视觉质量上接近真实图像,而且在多样性上也与真实图像分布相似。
3. 说明
FID 的公式基于多元高斯分布之间的 Fréchet 距离。主要步骤如下:
- 多元高斯分布假设: 假设真实图像和生成图像在 Inception 网络的特征空间中遵循多元高斯分布。真实图像分布为 N(\mu_r, \Sigma_r),生成图像分布为 N(\mu_g, \Sigma_g)。
- Fréchet 距离定义: 对于两个多元高斯分布,Fréchet 距离的平方定义为:
W_2^2(N_1, N_2) = \|\mu_1 - \mu_2\|^2 + \text{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1\Sigma_2)^{1/2})\tag{2}
- 应用到图像分布: 将上述定义应用到真实图像分布和生成图像分布,得到 FID 的表达式:
\text{FID} = W_2^2(N_r, N_g) = \|\mu_r - \mu_g\|^2 + \text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})\tag{3}
Fréchet Inception Distance (FID) 是评估生成模型性能的强大工具,特别是在图像生成任务中。通过测量真实图像和生成图像在高维特征空间中的统计差异,FID 提供了一个综合的质量度量。尽管存在一些局限性,FID 仍然是当前最广泛使用的生成模型评估指标之一,为改进和比较不同生成模型提供了参考。
参考文献
- Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., & Hochreiter, S. (2017). GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. In Advances in Neural Information Processing Systems (pp. 6626-6637).
- Borji, A. (2019). Pros and cons of GAN evaluation measures. Computer Vision and Image Understanding, 179, 41-65.