В настоящее время языковые модели зарекомендовали себя как гибкий инструмент, применяемый в различных областях. Однако, не смотря на всю свою мощь, большинство существующих языковых моделей имеют ограничения в выполнении задач, связанных с визуальным мышлением и обоснованием, а также не способны создавать иллюстрированные образы. Подобные препятствия мешают пользователям использовать одну модель для своих задач и зачастую им приходится дополнительно искать модели, специализирующиеся на визуальном контексте.
В 2023 году исследователи из университета Карнеги‑Меллона смогли создать первую языковую мультимодальную модель FROMAGe, имеющую визуальные и языковые возможности, такие как мультимодальный диалог, генерация и контекстуальный поиск изображений из разговоров. При помощи данной модели пользователи могут в режиме диалога решать любые свои проблемы и для более точного ответа модель будет часто иллюстрировать свои текстовые ответы.