贾佳亚团队推出Mini-Gemini：进一步挖掘VLM的潜力-IT新闻-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

贾佳亚团队推出Mini-Gemini：进一步挖掘VLM的潜力

来源：互联网发布日期：2024-04-01 浏览：324次

导读：香港中文大学贾佳亚团队提出了 Mini-Gemini，这是一个简单有效的框架，可增强多模态视觉语言模型（VLM）。尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步，但与 GPT-4 和 Gemini 等模型相比，性能差距依然存在。该团队试图从高分辨率视觉 ......

香港中文大学贾佳亚团队提出了 Mini-Gemini，这是一个简单有效的框架，可增强多模态视觉语言模型（VLM）。尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步，但与 GPT-4 和 Gemini 等模型相比，性能差距依然存在。该团队试图从高分辨率视觉 token、高质量数据和 VLM 引导生成三方面挖掘 VLM 的潜力，来提高模型性能和实现任意对任意的工作流程，从而缩小差距。

为了增强视觉 token，他们建议在不增加视觉 token 数量的情况下，利用额外的视觉编码器进行高分辨率细化。他们还进一步构建了一个高质量的数据集，来促进精确的图像理解和基于推理的生成，从而扩大当前 VLM 的操作范围。总体而言，Mini-Gemini 进一步挖掘了 VLM 的潜力，并同时增强了当前框架在图像理解、推理和生成方面的能力。Mini-Gemini 支持从 2B 到 34B 的一系列稠密和 MoE 大型语言模型。事实证明，它在多个零样本基准测试中取得了领先的性能，甚至超过了已开发的私有模型。

论文链接：https://arxiv.org/abs/2403.18814项目地址：https://mini-gemini.github.io/

相关热词：

贾佳亚团队推出Mini-Gemini：进一步挖掘VLM的潜力
来源：互联网发布日期：2024-04-01 浏览：324次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

贾佳亚团队推出Mini-Gemini：进一步挖掘VLM的潜力 来源：互联网 发布日期：2024-04-01 浏览：324次