GAN: ¿Cómo medir el rendimiento de GAN?

Foto de Dawid Małecki

En las GAN, la función objetivo para el generador y el discriminador generalmente mide qué tan bien lo están haciendo en relación con el oponente. Por ejemplo, medimos qué tan bien el generador está engañando al discriminador. No es una buena métrica para medir la calidad de la imagen o su diversidad. Como parte de la serie GAN, analizamos el puntaje de inicio y la distancia de inicio de Fréchet sobre cómo comparar los resultados de diferentes modelos de GAN.

Puntaje de inicio (IS)

IS utiliza dos criterios para medir el rendimiento de GAN:

  • La calidad de las imágenes generadas, y
  • su diversidad

La entropía se puede ver como aleatoriedad. Si el valor de una variable aleatoria x es altamente predecible, tiene baja entropía. Por el contrario, si es altamente impredecible, la entropía es alta. Por ejemplo, en la figura a continuación, tenemos dos distribuciones de probabilidad p (x). p2 tiene una entropía más alta que p1 porque p2 tiene una distribución más uniforme y, por lo tanto, menos predecible sobre lo que es x.

En GAN, queremos que la probabilidad condicional P (y | x) sea altamente predecible (baja entropía). es decir, dada una imagen, debemos conocer el tipo de objeto fácilmente. Por lo tanto, utilizamos una red de inicio para clasificar las imágenes generadas y predecir P (y | x), donde y es la etiqueta y x son los datos generados. Esto refleja la calidad de las imágenes. Luego necesitamos medir la diversidad de imágenes.

P (y) es la probabilidad marginal calculada como:

Si las imágenes generadas son diversas, la distribución de datos para y debería ser uniforme (alta entropía).

La siguiente figura visualiza este concepto.

Para combinar estos dos criterios, calculamos su divergencia KL y utilizamos la siguiente ecuación para calcular IS.

Una deficiencia para IS es que puede tergiversar el rendimiento si solo genera una imagen por clase. p (y) seguirá siendo uniforme aunque la diversidad sea baja.

Distancia de inicio de Fréchet (FID)

En FID, usamos la red Inception para extraer características de una capa intermedia. Luego modelamos la distribución de datos para estas características usando una distribución gaussiana multivariada con media µ y covarianza Σ. El FID entre las imágenes reales x y las imágenes generadas g se calcula como:

donde Tr resume todos los elementos diagonales.

Los valores FID más bajos significan una mejor calidad de imagen y diversidad.

El FID es sensible al colapso del modo. Como se muestra a continuación, la distancia aumenta con los modos faltantes simulados.

Fuente Una puntuación FID más baja identifica un modelo mejor.

FID es más robusto al ruido que IS. Si el modelo solo genera una imagen por clase, la distancia será alta. Entonces FID es una mejor medida para la diversidad de imágenes. El FID tiene un sesgo bastante alto pero una varianza baja. Al calcular el FID entre un conjunto de datos de entrenamiento y un conjunto de datos de prueba, debemos esperar que el FID sea cero ya que ambos son imágenes reales. Sin embargo, ejecutar la prueba con diferentes lotes de muestra de entrenamiento no muestra ningún FID cero.

Fuente

Además, tanto FID como IS se basan en la extracción de características (la presencia o ausencia de características). ¿Tendrá un generador la misma puntuación si no se mantiene la relación espacial?

Precisión, recuperación y puntaje F1

Si las imágenes generadas son similares a las imágenes reales en promedio, la precisión es alta. La alta recuperación implica que el generador puede generar cualquier muestra encontrada en el conjunto de datos de entrenamiento. Un puntaje F1 es el promedio armónico de precisión y recuperación.

En el trabajo de investigación de Google Brain "¿Se crean las GAN iguales?", Se crea un experimento de juguete con un conjunto de datos de triángulos para medir la precisión y la recuperación de diferentes modelos de GAN.

Fuente

Este conjunto de datos de juguetes puede medir el rendimiento de diferentes modelos de GAN. Podemos usarlo para medir el mérito de diferentes funciones de costos. Por ejemplo, ¿la nueva función será buena para producir triángulos de alta calidad con una buena cobertura?

Referencia

Técnicas mejoradas para la formación de GAN

¿Son iguales las GAN? Un estudio a gran escala

Las GAN formadas por una regla de actualización de dos escalas de tiempo convergen a un equilibrio local de Nash