展会信息港展会大全

当前位置：人工智能实验室> 人工智能应用 > 用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人
来源：互联网发布日期：2021-01-29 06:27:28 浏览：10611次

导读：金磊发自凹非寺量子位报道 | 公众号 QbitAI 别再怕图片搜索结果牛头不对马嘴了，你可以试试这个精准图片搜索，来自OpenAI最新的技术CLIP。只需一句大白话描述，便能给出想要的图片。例如输入： The word love written on the wall 就会得到这样的结果...

金磊发自凹非寺

量子位报道 | 公众号 QbitAI

别再怕图片搜索结果牛头不对马嘴了，你可以试试这个精准图片搜索，来自OpenAI最新的技术CLIP。

只需一句“大白话”描述，便能给出想要的图片。

例如输入：

The word love written on the wall

就会得到这样的结果：

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

可以说是相当的精准了！这就是今天在Reddit上爆火的一个项目。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

这个项目利用到的，便是OpenAI前不久频频刷屏的DALLE中的核心模块CLIP，一个负责重排序（rerank）的模型。

这个项目使用谷歌Colab Notebook，而且在线、免费，包含200万图片数据集，最重要的是效果还非常的精准。

不禁引得网友直呼“Amazing”。

简单几步，“大白话”在线精准搜图

这个项目之所以如此火爆，操作简单是很重要的一个原因之一。

首先要做的，就是点开该项目在Colab Notebook中的地址（见文末链接），登陆自己的账号。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

至于环境配置、包或库的调用，这个项目非常贴心的已经做好了，只需要依次点击cell左侧的小三角，等待运行完成即可。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

最后，来到包含如下代码的cell：

search_query = “Two dogs playing in the snow”

点击运行这个cell，便可得到搜索图片的结果，例如：

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

当然，这个程序似乎很懂人，若是输入“当你的代码跑通时的情绪”：

The feeling when your program finally works

得到的结果，和正常人想象中的应该是一致的：

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

为什么CLIP搜图能如此精准？

OpenAI前不久推出的DALLE，主要能实现的功能就是可以按照文字描述、生成对应图片。

而其呈现给我们的最终作品，其实是它生成大量图片中的一部分。

在中间过程中，其实也有排名、打分的帅选过程。

这部分的任务，便是由CLIP来完成：

越是它看得懂、匹配度最高的作品，分数就会越高，排名也会越靠前。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

这种结构，有点像是利用生成对抗文本，以合成图像的GAN。

不过，相比于利用GAN扩大图像分辨率、匹配图像-文本特征等方法，CLIP则选择了直接对输出进行排名。

据研究人员表示，CLIP网络的最大意义在于，它缓解了深度学习在视觉任务中，最大的两个问题。

首先，它降低了深度学习需要的数据标注量。

相比于手动在ImageNet上，用文字描述1400万张图像，CLIP直接从网上已有的“文字描述图像”数据中进行学习。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

此外，CLIP还能“身兼多职”，在各种数据集上的表现都很好（包括没见过的数据集）。

但此前的大部分视觉神经网络，只能在训练的数据集上有不错的表现。

例如，CLIP与ResNet101相比，在各项数据集上都有不错的检测精度，然而ResNet101在除了ImageNet以外的检测精度上，表现都不太好。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

具体来说，CLIP用到了零样本学习（zero-shot learning）、自然语言理解和多模态学习等技术，来完成图像的理解。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

例如，描述一只斑马，可以用“马的轮廓+虎的皮毛+熊猫的黑白”。这样，网络就能从没见过的数据中，找出“斑马”的图像。

最后，CLIP将文本和图像理解结合起来，预测哪些图像，与数据集中的哪些文本能完成最好的配对。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

网友：机器人（bot）可能不太高兴

在惊叹CLIP用“大白话”搜索图片效果之余，一位Reddit网友还发现了一个比较有意思的搜索结果。

他在文本描述的代码部分输入：

What image best represents how you feel right now？

这句话在我们人类眼中，应当是询问AI的语气了，然后出来的图片结果是这样的：

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

还有这样的：

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人

嗯，看来是被“玩多了”，AI宝宝有点小脾气了。

相关热词： 大白话精准搜图 OpenAI CLIP 惊艳所有人金

上一篇：推荐7本2020年上线的AI书籍

下一篇：成瘾性人工智能推荐算法就像毒品一样？人大代表疾呼：立刻监管！

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

不被“机器狗之父”看好的人形机器人，未来要如何发展？

阅读量：72838

国产版达芬奇手术机器人价格跳水，是价格战要来了吗？

阅读量：67706

借势智元机器人，富临精工跨界入局人形机器人，准备好了吗？

阅读量：43616

实探全球首个核电灯塔工厂，这里有各式各样的机器人 | 碳访

阅读量：41897

傅盛：我不看好双足机器人的商业化

阅读量：13266

英伟达利用苹果Vision Pro加速人形机器人开发

阅读量：11268

推荐内容

展开

热门栏目HotCates

关于我们

人工智能实验室（AiLab：Artificial Intelligence Laboratory）中国人工智能领域的专业媒体平台，始于2010年的中国AI创业先行者，专注人工智能、机器人、无人驾驶、可穿戴、模式识别、物联网、云计算等新兴技术信息资讯，是人工智能爱好者学习和交流平台，是一群梦想者与实践者的网络家园！

版权声明

本站部分文章来源于互联网以及网友投稿，本站只负责对文章进行整理、排版、编辑，是出于知识传递之目的，并不意味着赞同其观点或证实其内容的真实性。如果您有什么意见或建议，请联系E-mail：kefu#ailab.cn(将#换成@)！

Copyright © 2010-2024 AiLab Team. 人工智能实验室版权所有关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港