华中科技大学开源多模态大模型“Monkey”，支持看图说话-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

华中科技大学开源多模态大模型“Monkey”，支持看图说话

来源：互联网发布日期：2023-12-14 17:59:51 浏览：8398次

导读：IT之家 12 月 14 日消息，据华中科技大学消息，近日，华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 Monkey。该模型号称能够实现对世界的观察，对图片进行深入的问答交流和精确描述。 ▲ 图源 Monkey 项目的 GitHub 页面 IT之家注：多...

IT之家 12 月 14 日消息，据华中科技大学消息，近日，华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 “Monkey”。该模型号称能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。

华中科技大学开源多模态大模型“Monkey”，支持看图说话

▲ 图源 Monkey 项目的 GitHub 页面

IT之家注：多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的 AI 架构。

据介绍，Monkey 模型在 18 个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外，Monkey 在文本密集的问答任务中显示出“显著的优势”，甚至在某些样本上超越了业界公认的领先者 OpenAI 的多模态大模型 GPT-4V。

华中科技大学开源多模态大模型“Monkey”，支持看图说话

Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中，Monkey 展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中，Monkey 正确地将其识别为埃菲尔铁塔的绘画，并提供了构图和配色方案的详细描述。而对左下角的文字，只有 Monkey 和 GPT-4V 能将其准确地识别为作者名。

华中科技大学开源多模态大模型“Monkey”，支持看图说话

Monkey 号称能够利用现有的工具构建一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，此举可以充分结合不同工具的特性，提升描述的准确性和丰富程度。

华中科技大学开源多模态大模型“Monkey”，支持看图说话

“一个个工具就好比不同的零件，合理的排列组合才能使其发挥最大作用，”白翔教授说，“我们团队从 2003 年开始便从事图像识别研究，去年我们又从海外引进了专攻多模态大模型的青年人才，Monkey 的最终方案是大家一起反复讨论，尝试了 10 余种方案后最终确定的。”白翔教授说。

Monkey 的另一亮点是能够处理分辨率最高 1344×896 像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的 6 倍，这意味着 Monkey 能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

Monkey多模态大模型代码目前已在 GitHub 开源，IT之家附开源地址：

相关热词： 华中科技大学开源模态大模型 Monkey 支持看

华中科技大学开源多模态大模型“Monkey”，支持看图说话
来源：互联网发布日期：2023-12-14 17:59:51 浏览：8398次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

华中科技大学开源多模态大模型“Monkey”，支持看图说话 来源：互联网 发布日期：2023-12-14 17:59:51 浏览：8398次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

华中科技大学开源多模态大模型“Monkey”，支持看图说话
来源：互联网发布日期：2023-12-14 17:59:51 浏览：8398次