
Google AI опубликовала библиотеку disentanglement_lib, которая содержит 10800 вариационных автоэнкодеров, обученных на семи датасетах. Эта библиотека призвана помочь исследователям по всему миру решить одну из главных проблем глубокого обучения — неспособность использовать многомерные данные для генерации полезных представлений методами без учителя. Один из подходов, позволяющий решить эту проблему, называется распутывание представлений. Он заключается в том, чтобы путем обучения модели построить вектор независимых параметров, где каждый из них означает отдельный фактор (положение, размер, угол вращения, цвет и т.д.)

Цель реализации библиотеки — проведение крупномасштабного эмперического исследования нескольких моделей вариационных автоенкодеров, предложенных сообществом для распутывания представлений без учителя. Это позволило оценить модели единым образом.
Содержимое библиотеки
Модели, включенные в исследование:
- BetaVAE
- FactorVAE
- BetaTCVAE
- DIP-VAE I / II
- AnnealedVAE
Датасеты, на которых обучались модели:
- dSprites
- Color-dSprites
- Noisy-dSprites
- Scream-dSprites
- SmallNORB
- Cars3D
- Shapes3D

Также результаты оценивались разными метриками: BetaVAE score, FactorVAE score, Mutual Information Gap, SAP score, DCI и MCE.
Выводы
Основные выводы исследования, сформулированные исследователями:
- Нет каких-либо эмпирических доказательств того, что рассматриваемые модели могут использоваться для надежного изучения распутанных представлений без учителя, поскольку случайные начальные числа и гиперпараметры имеют большее значение, чем выбор модели.

- Для рассматриваемых моделей и датасетов нет возможности проверить предположение, что распутывание полезно для последующих задач. Например, что с распутанными представлениями можно обучаться на меньшем количестве размеченных наблюдений.
В Google AI подсчитали, что воспроизведение обучения всех моделей в исследовании потребует вычислительных затрат приблизительно в 2,5 года работы GPU. Таким образом, исследование сильно облегчило задачу для сообщества.