展会信息港展会大全

贾佳亚团队推出Mini-Gemini:进一步挖掘VLM的潜力
来源:互联网   发布日期:2024-04-01   浏览:324次  

导读:香港中文大学贾佳亚团队提出了 Mini-Gemini,这是一个简单有效的框架,可增强多模态视觉语言模型(VLM)。尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步,但与 GPT-4 和 Gemini 等模型相比,性能差距依然存在。该团队试图从高分辨率视觉 ......

香港中文大学贾佳亚团队提出了 Mini-Gemini,这是一个简单有效的框架,可增强多模态视觉语言模型(VLM)。尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步,但与 GPT-4 和 Gemini 等模型相比,性能差距依然存在。该团队试图从高分辨率视觉 token、高质量数据和 VLM 引导生成三方面挖掘 VLM 的潜力,来提高模型性能和实现任意对任意的工作流程,从而缩小差距。

为了增强视觉 token,他们建议在不增加视觉 token 数量的情况下,利用额外的视觉编码器进行高分辨率细化。他们还进一步构建了一个高质量的数据集,来促进精确的图像理解和基于推理的生成,从而扩大当前 VLM 的操作范围。总体而言,Mini-Gemini 进一步挖掘了 VLM 的潜力,并同时增强了当前框架在图像理解、推理和生成方面的能力。Mini-Gemini 支持从 2B 到 34B 的一系列稠密和 MoE 大型语言模型。事实证明,它在多个零样本基准测试中取得了领先的性能,甚至超过了已开发的私有模型。

论文链接:https://arxiv.org/abs/2403.18814项目地址:https://mini-gemini.github.io/

赞助本站

人工智能实验室

相关热词:

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港