<Image: 🐱>, <Text: "一只猫">
任务:让图像向量与文本向量距离变近。
User: <Image: 🐱> 这只猫在干嘛?Assistant: 它在睡觉。
任务:根据图像和问题生成回答。