智东西(公众号:zhidxcom)
编 | 韦世玮
导语:近日,以色列的AI研究人员开发出了一种深度学习算法,让系统在毫无图片编辑经验的情况下,对图片的元素进行分离和优化。
智东西7月11日消息,近日,以色列魏茨曼科学研究所的研究人员开发出了一项名为Double-DIP的新技术,该技术能让系统在没有大量训练数据的情况下,通过深度学习来对图像进行编辑,分离人们在图片中想要的和不想要的部分。
该研究基于一项名为DIP(Deep Image Prior)的混合图像恢复技术,因此研究人员将他们开发的新分离图像方法称为Double-DIP。
DIP技术的研究成果已于美国时间2018年7月18日提交在arxiv上,名为《图像恢复的混合稀疏先验学习:深度学习与稀疏编码的结合(Learning Hypid Sparsity Prior for Image Restoration: Where Deep Learning Meets Sparse Coding)》。
魏茨曼科学研究所的Double-DIP研究成果则被收录在IEEE计算机视觉和模式识别会议(CVPR 2019)中。
一、从零计算的深度内部学习算法
想象一下,通过店面的窗户拍摄一张照片给以前从未睁开眼睛的人看,并要求他指出玻璃的倒影里和商店里都有些什么。但对这个人而言,照片里的一切都是混乱的。
一般来说,计算机能够执行图像分离的操作,但如果要做得更出色,它们通常需要人们手动制定算法规则,或是为系统提供更多明确的演示,例如,告诉系统这是一幅图像,以及图像的组成部分是什么。
通常情况下,系统在机器学习中的许多任务都需要大量的训练数据,但这些数据并不总是可利用的。
因此,魏茨曼科学研究所的研究人员们研究了一种新的机器学习算法,该系统无需大量训练数据,仅凭一张图片就能将人们想要的和不想要的图片元素分离。同时,他们将这个能让软件从零开始计算单个图像内部结构的深度学习算法,称为“深度内部学习”。
二、Deep Image Prior:多层次修复混合图像
Deep Image Prior(DIP)是一种涉及多层神经网络的技术,该技术使用的也是深度学习算法,它主要让系统通过训练以恢复特定的混合图像。
首先,研究人员向网络随机输入一个数据,并输出一个混杂的像素图。其次,网络将自己输出的图像与研究人员给定的图像进行比较,并调整自己的内部参数,以便下次生成出更接近目标图像的内容。
对于同一个目标图像,系统需要将该过程重复数百次。
其中的关键是,DIP使用了一种反映大脑处理视觉信息方式的神经网络,能从边缘、角落到四肢、动物各方面来寻找图像中具有重复特征的层次结构。
这种结构能充当一种先验的预期。简单理解为,如果给定的图象有什么问题,例如存在灰尘或空白,网络就会加强自己的预期,以覆盖目标的缺陷,并在适当的条件下生成更真实的东西。
最终,生成图像的斑点消失,并且空白也被填补,变成了一个更好看的图像版本。
三、Double-DIP:双DIP结合,轻易分离图像
Double-DIP结合了两个DIP。这两个DIP都能将随机输入的数据转换成一张图像,并将两张图像叠加在一起。
系统将组合的图像与目标图像进行比较时,DIP能独立地调整它们的参数,使它们输出的参数相加能更接近目标图像。
最后,每个DIP会聚焦在一组内部相似的视觉特征或补丁上,并与其他DIP的视觉特征或补丁相辅相成,生成两个不同的图像,但两幅图像能组合在一起形成目标图像。
对此,魏茨曼科学研究所的计算机科学家、该研究论文的资深作者Michal Irani表示,她对两个网络能轻易将补丁分开感到很惊讶,网络就像奥卡姆剃刀(Occam’s razor,即两种解释中较简单的那个更有可能是真的)一样学会了最简单的解释。
四、多种图像分离方式
有趣的是,在Double-DIP进行图像分离的过程中,有一些旋钮可以精确地指导它如何分离图像。
算法可以将画面的前景和背景分开。例如,画面中的草地上有一只斑马,系统会生成一只斑马和一片空旷的草地。在不同的设置下,算法能将人们通过玻璃拍摄的图像,分离成反射图像和玻璃后面的图像。
当转动另一个旋钮时,算法会生成一个模糊的图像,并将画面中的霾和城市天际线分离。
该算法除了能利用许多图像训练系统之外,它还能在没有经过训练的情况下删除照片水樱
莫斯科Skolkovo科学技术研究所的计算机科学家、原始DIP论文的主要作者Dmitry Ulyanov表示,他和团队设计DIP是为了研究网络架构的重要性,而不是创造实际应用。
但他认为,在魏茨曼科学研究所的Double-DIP研究中,该研究所提出了4到5个应用,且应用的实验也很神奇,这是对DIP的一次非常好的扩展。
在魏茨曼科学研究所方面,Irani还认为,零次学习(Zero-shot Learning)和小样本学习(Few-shot Learning)是人工智能的一个重要组成部分。
目前,她的团队正在计划将Double-DIP进一步应用到“鸡尾酒派对问题(Cocktail-Party Problem)”上,通过使用Double-DIP将多个混合声音分成两个或多个录音。
鸡尾酒派对问题又称鸡尾酒会效应,指人的一种听力选择的能力。在这种情况下,人们可以将注意力集中在某个人的谈话中,而忽略背景中其他的声音。
结语:将给人们的视觉体验带来更多精彩和便利
魏茨曼科学研究所研发的Double-DIP算法用途非常广泛,除了能通过训练不断地调整参数,以更好地实现图像分离外,还可以在无需大量数据训练的前提下去除图片水樱
在未来,当这一技术真正成熟落地后,它也许能更好地应用于涉及法医学、野生动物观察和艺术照片增强等计算机视觉领域,给人们的视觉体验带来更多精彩和便利。
文章来源:IEEE