多模态大模型能够同时处理文本、图像、音频等多种数据类型。本文对比GPT-4V、Gemini Pro Vision、Qwen-VL等模型在视觉问答、图像描述、图文生成等任务的表现。