看看本周新进展
本周带来的9个SOTA模型分别用于聊天对话、3D语义场景补全、3D人体重建、单目深度估计、文本引导的图像编辑、新视图合成;1个新思路关于ChatGPT历史和潜在价值的探讨。
ChatGPT开放ChatGPT API,调用成本相比GPT-3.5直降10倍
ChatGPT 因其高超的对话能力,引爆 AI 业界乃至社会公众的关注。近日 OpenAI 宣布开放 ChatGPT API,以供开发者将模型集成于自己的应用程序和产品,这进一步解决了 ChatGPT 在商业场景中的应用问题。此次 ChatGPT API 接入的模型名为 gpt-3.5-turbo,性能上相比 GPT- 3.5 更快、更准确、更强大,调用成本上相比 GPT-3.5 直降 10 倍,仅需 0.002 美元 / 千 token。
获取资源:
https://sota.jiqizhixin.com/project/chatgpt
快手等提出SpikeGPT,使用脉冲神经网络来减少计算开销和能源消耗
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
随着大型语言模型规模不断扩大,它所需的计算资源也在不断增加。脉冲神经网络(SNNs)已经成为深度学习的一种节能方法,它利用稀疏和事件驱动的激活来减少与模型推理相关的计算开销。该研究提出 SpikeGPT,使用直接 SNN 训练进行语言生成,实现了与 ANN 相当的性能,同时保持了基于脉冲的计算能效。初步实验表明,SpikeGPT 在测试基准上与非脉冲模型相比仍然具有竞争力,而在可以利用稀疏的事件驱动激活的神经形态硬件上处理时,能耗保持在 5 倍以下。
获取资源:
https://sota.jiqizhixin.com/project/spikegpt
纽约大学等提出VoxFormer,用于从2D图像中生成完整的3D场景
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion
人类可以很容易地想象被遮挡物体和场景的完整 3D 几何结构,为了在 AI 系统中实现这种功能,该研究提出了 VoxFormer,一种基于 Transformer 的语义场景补全框架,可从 2D 图像输出完整的 3D 体积语义。其关键思想是,2D 图像上的视觉特征仅对应于可见的场景结构,而不是被遮挡或空白的空间。SemanticKITTI 上的实验表明,VoxFormer 在几何和语义方面的相对改改进分别达到 20.0% 和 18.1%,优于现有技术,并在训练期间将 GPU 内存减少约 45%,降至 16GB 以下。
获取资源:
https://sota.jiqizhixin.com/project/voxformer
苏黎世理工提出Vid2Avatar,用于从真实场景单目视频重建详细而稳健的3D人体几何
Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene Decomposition
该研究提出 Vid2Avatar,用于从真实场景单目视频重建详细的 3D 化身,无需真实数据监督或外部分割模块。从单眼野外视频中重建自然移动的人类,需要准确将人类从任意背景中分离出来,以及需要从短的视频序列中重建详细的三维表面。针对这些难点,Vid2Avatar 对场景中的人和背景进行联合建模,通过两个独立的神经场进行参数化,直接在 3D 中解决场景分解和表面重建的任务。并引入用于体绘制和新目标的从粗到精的采样策略,以干净地分离动态人体和静态背景,从而产生详细而稳健的 3D 人体几何重建。
获取资源:
https://sota.jiqizhixin.com/project/vid2avatar
KAUST等提出ZoeDepth,保持度量尺度的同时具有卓越泛化性能
ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth
现有从单一图像进行深度估计的工作,要么专注于泛化性能即相对深度估计,要么专注于特定数据集的最先进结果即度量深度估计。该研究提出 ZoeDepth,结合了相对深度和度量深度的方法,在保持度量尺度的同时,产生具有出色泛化性能。ZoeDepth 是首个可以在多个数据集 (NYU Depth v2 和 KITTI) 上联合训练而性能不明显下降的模型,在室内和室外域的 8 个未见过的数据集上实现了前所未有的零试泛化性能。
获取资源:
https://sota.jiqizhixin.com/project/zoedepth
中国科学院大学提出Region-Aware Diffusion,可自动定位图像编辑区域
Region-Aware Diffusion for Zero-shot Text-driven Image Editing
文本引导的图像编辑最近受到了广泛的关注。与当前基于掩码的图像编辑方法不同,该研究为实体级图像编辑提出一种新型区域感知扩散模型 (RDM),它可以自动定位感兴趣的区域,并根据给定的文本提示进行替换。为在图像保真度和推理速度之间取得平衡,该研究通过结合潜在空间扩散和增强方向引导来设计密集扩散管道。结果表明,RDM 在视觉质量、整体协调性、非编辑区域内容保留和文本图像语义一致性方面优于以前的方法。
获取资源:
https://sota.jiqizhixin.com/project/region-aware-diffusion
旷视提出OccDepth,利用图像的深度信息更好地重建3D场景
OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion
3D 语义场景补全(SSC)提供密集的几何和语义场景表示,可应用于自动驾驶和机器人系统领域。仅从视觉图像估计场景的完整几何和语义具有挑战性,准确的深度信息对于恢复 3D 几何至关重要。该研究借鉴了 “人类使用双眼能比单眼更好地感知 3D 世界中的深度信息” 的思想,提出名为 OccDepth 的语义场景补全法。它分别显式和隐式地利图像中含有的深度信息,以帮助重建良好的 3D 几何机构。在 SemanticKITTI 和 NYUv2 等数据集上的量实验表明,OccDepth 均达到了 SOTA。同时可视化结果表明 OccDepth 可以更好地重建出近处和远处的何结构。
获取资源:
https://sota.jiqizhixin.com/project/occdepth
Niantic提出DiffusioNeRF,用去噪扩散模型对NeRF正则化,改善3D重建和新视图合成
DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion Models
神经辐射场(NeRFs)在新的视图合成任务中显示出良好结果,NeRF 通过最小化场景的训练视图和可区分渲染之间的光度差异来学习场景的颜色和密度常然而,场景几何体和颜色场受到严重的约束,尤其是在使用很少的输入视图进行训练时会导致瑕疵。该研究使用去噪扩散模型(DDM)学习了先验的场景几何和颜色,在合成 Hypersim 数据集的 RGBD 块上训练的,可以用于预测颜色和深度块的联合概率分布的对数梯度。对 LLFF 的评估表明,该方法学习的先验在重建的几何体中实现了质量改进,并改进了对新视图的泛化能力。对 DTU 的评估表明,NeRF 方法中的重建质量有所提高。
获取资源:
https://sota.jiqizhixin.com/project/diffusionerf
哈工大提出基于学习的编码器ELITE,用于快速和准确的定制文本到图像的合成
ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation
文本到图像模型在想象力创造方面展示出前所未有的突破,但对于定制概念的表达仍有进一步提高的空间。先前工作主要基于优化来学习这些概念,但该方法会带来过多的计算或内存负担。该研究提出新型的基于学习的编码器 ELITE,用于快速和准确的定制文本到图像的合成,它由全局和局部映射网络组成。与现有基于优化的方法相比,ELITE 直接将视觉概念编码为文本嵌入,大大减少了学习新概念的计算和记忆负担。在将学习到的概念编辑到新的场景中时,ELITE 表现出卓越的灵活性,同时保留了图像的特定细节,使其成为个性化文本到图像生成的宝贵工具。
获取资源:
https://sota.jiqizhixin.com/project/elite
复旦联合清华探讨ChatGPT潜力、前景和局限
Trieste: Efficiently Exploring The Depths of Black-box Functions with TensorFlow
OpenAI 发布的生成式对话预训练语言模型 ChatGPT,吸引了工业界和学术界的广泛关注。这是首次在大型语言模型(large language model, LLM)很好地解决如此多样的开放任务。ChatGPT 成为历史上增长最快的用户应用程序,因其高超的对话能力,已引爆社会关注。为了更好地理解 ChatGPT,该研究简要地介绍了它的历史,讨论了它的优点和缺点,并指出了几个潜在的应用。最后分析了它对可信的人工智能、对话式搜索引擎和人工通用智能发展的影响。
以上项目相关论文、评估数据、训练数据、实现代码、模型文件等开源资源
均可通过机器之心SOTA!模型平台获取