谭畅使用AI工具生成
看不见电极、导线,亦无操纵杆,坐在轮椅上的人通过移动头部、眼球以及眨眼,便能自如地操控轮椅向四周移动。
这样的轮椅已经在实验室里诞生。2024年12月13日,位于广州市海珠区的琶洲实验室内,一位工作人员戴上特制头环,坐在一张电动轮椅上向南方周末记者演示。
15年前,华南理工大学自动化科学与工程学院教授李远清到新加坡做访问研究,接触到脑机接口领域。多年来,他的研究取得相当进展,成果之一便是以脑机接口技术为基础的电动轮椅。
然而,这款通过头动及眼动方式操控的轮椅,在使用与推广中仍有一大阻碍:受限于技术,每一台轮椅都是定制化的,用户要操控它,需单独采集数据并建模。
直到AI全面爆发。2022年前后,这个问题有了解决之道使用AI建立公共模型。至此,任何人经过短时间的设备调试后,都可以使用同一台轮椅,残障者出行将变得更便利。
历经无数次升级迭代,如今,搭载AI技术的设备正逐渐成为视障者的眼、听损者的耳、肢体残障者的腿和手……虽然技术与设备还处于初级阶段,但未来,AI或许能帮助更多残障人士和弱势群体重新连接世界。
需要“明眼人”帮助
2024年12月18日,在自家按摩店里,45岁的盲人按摩师王安平来回穿梭,取号码牌、招呼来客。如果将他在按摩行业中的沉浮绘制成一条曲线,大致能看出曲折上升的态势:20岁那年,他学了盲人按摩手艺,此后几十年在广西老家、广东数地奔波,以按摩为生,一双手历经揉搓,拇指关节处都变了形,如同鼓了大包。2013年,他在深圳开了家按摩店,当上小老板,结束了漂泊。
但对于眼前的世界而言,王安平经历的,则是一条下滑曲线。他出身农家,先天视障,但年轻时,在白天,他还能看见10米远的物体残影,放牛也不在话下。随着年岁渐长,王安平的视力逐步恶化,最终完全失明。
如今,店内与家中的方寸天地,他靠记忆已摸得十分熟悉,但许多普通人抬手可为的小事,他处理起来仍然费劲。接受采访那天下午,王安平坐在沙发上,想拿脚底下的快递包裹,却找不准位置,几次都捞空了。
类似的麻烦还有许多。做菜时,他取不准盐和油的量;收了快递,他不知道寄送者的信息;在医院拿了诊断,他也看不见上面的字迹。作为老板,他很难读经营账目,无法分辨按摩师号码牌上的数字,连按摩床上被子掉落都不知道。他需要“明眼人”的帮助,才能拥有完整的事业与生活。
和王安平一样,盲人程家家也想拥有自己的事业。短视频平台兴起后,这位以擅长模仿、脱口秀著称的盲艺人入局做了盲人主播。
对盲人主播来说,最麻烦的是在直播间与观众互动。观众在弹幕中说了什么,他们难以知晓,也无法回复。久而久之,观众索然无味,纷纷离开,直播事业难以为继。
从2019年下半年开始,程家家找到一名视力正常的网友协助直播。开播后,网友需与他保持通话,实时阅读观众的评论及刷礼物的情况。
最初,这个办法效果不错。然而,3年过去,新的问题出现了。程家家称,虽然他会与网友分享直播收入算作酬劳,但网友后来还是有些懈怠,时而跳过一些他认为不重要的信息。
程家家试图换个人选,可一时也不好找替代者。他担心,好不容易有些人气的直播事业将要下滑。
当AI成为眼睛盲人最懂盲人的需求。
2022年开始,蔡勇斌陆续听说,有盲人主播因无法看见直播弹幕,流失了不少观众。这位6岁时双眼被石灰烧伤以致失明的码农,突然起了兴趣。他靠自学成为程序员,开过信息科技公司,开发过助盲软件,也为许多App做过信息无障碍化工作。这一次,他决定利用AI,拉盲人主播们一把。
一年后,互联网大厂员工李岸也看好AI浪潮,下海创业。思索具体进军领域之际,AI助盲也进入了李岸的视线。他了解到,多年前,国外已有公司开发了AI视觉辅助眼镜,能够帮助盲人识别文本、人脸、商品、颜色与时间。不过,它运用的还是早期的小模型,“只能做一些简单的识别,不能做理解”。如能与当下的多模态大模型结合,产品功能上还可更进一步。
一前一后,两人分别走上开发的征途。
在蔡勇斌的叙述中,这项工作几乎是顺便的事情。文本转语音的技术已经成熟,此前已有云平台提供基于AI算法的文本转语音服务。他付费使用该服务,并开发了一款软件,将服务嵌入。使用者开始直播后,启动该软件,就能实时听到观众的弹幕文本转换成的语音。一两个月后,弹幕助手软件开发完成,并开放免费使用。
2023年10月,李岸也带着一个迷你初创团队开工了。他有芯片工程师的经历,又曾在互联网大厂任职产品经理6年,一直负责刷脸支付的产品线。李岸解释,早前的刷脸支付也会用到判别式AI,虽与现在的生成式AI不同,但技术与产品架构上均有延续性。
设备的工作原理不复杂:在眼镜上安装小型摄像头以拍摄图像或视频,传送给AI,AI识别出拍摄的内容后,先将其转化为文本,再读给盲人听。现实中,也有一些开源模型可供使用。
李岸团队要完成的关键任务,是以图像、文本一类数据大量训练AI,使其能在识别时举一反三。用于训练的数据必须来自盲人生活场景,与普通数据不同,团队要在浩瀚的网络中爬取零散信息,再做清洗。
尽量缩短AI的反应时间也很关键。为此,他们不得不“抡起斧头”,将过于智能的AI中一些无助于识别图像、文字、视频的功能悉数砍掉。模型缩小了,反应时间才能缩短。
声音与噪音
74岁的王水东不清楚自己是否达到听力残疾的标准,但他很熟悉感官失灵后,与生活渐渐脱节的感受。古稀之年,王水东耳背了。家人说话,他听不清;看电视时,他要把声音调得很大;在医院窗口办手续,他得趴在窗口前听工作人员讲话,有时还要多听几遍。
他尝试过自我拯救。2022年,有亲戚送了王水东一副电池式助听器,他断断续续使用了一年,效果一言难尽。水龙头的水流声、汽车的喇叭声、户外的风声,经助听器放大后,在王水东的耳朵里就像爆炸一样;声音低的人和他说话,话语声却被助听器当成环境噪音降噪处理,他还是听不清。
时间久了,王水东出门还会戴上助听器,但在家里就渐渐“弃疗”了。“反正就是跟老伴沟通费点劲。”遇上没字幕的电视节目,他“看都不看”。
事实上,在AI还不为大众所知时,已经有研究者试图用它改善助听设备。腾讯天籁实验室是一支聚焦声学领域研究二十多年的团队,利用AI为腾讯会议软件的音频降噪是其研究项目之一。
降噪恰恰也是传统人工耳蜗的技术难题。按照天籁实验室专家研究员甄广启的解释,听障者植入传统人工耳蜗后,听力虽有所恢复,但在嘈杂环境中,时常要忍受噪音过大的折磨。看到技术跨界克服难题的可能后,2020年,天籁实验室与耳蜗厂商达成合作,以AI助力厂商提升产品使用效果。
在那之前,已有超过300种从外界搜集而来的噪声与其它海量数据被“灌输”给AI大模型,用于训练其识别何为有效语音,何为噪音。“训练一个模型之后,我们去试它的降噪效果,有时它会把有效语音消掉,我们再去微调参数,不停迭代。”甄广启说,产品最终要能达到这样的效果:输入的是含噪音的语音,输出的是干净的语音。
但新问题仍层出不穷:为了适应人工耳蜗的芯片,过往用在会议中的大模型,要改为降噪效果更弱的小模型。它去除的噪音种类要多,但还得学会留下一些必要的噪音,如过马路时的汽车声。此外,它的延迟要低,以确保使用者能正常与人交流。
优化算法,将要处理的声音片段切得更小……几个月后,他们完成了第一代产品的开发,通过人工耳蜗加手机伴侣的方式,把AI算法植入手机App中,以提升使用者的听觉体验。
从2022年开始,天籁实验室的重点逐步转向开发助听器的AI算法。工作人员介绍,人工耳蜗开发周期过长。同时,全球范围内,使用助听器的听损者数量更多,AI算法能使更多人受益。
生意还是公益
2024年年初,儿子为王水东买入一款植入AI的助听器。
在王水东的耳道中,完成助听器调试后,声音在一瞬间清晰了不少。此后,坐在电脑前看小说、玩游戏时,妻子做饭、孩子们聊天以及电视节目的声音,他都能听见。王水东主动将助听器戴回了耳边。
甄广启介绍,为了使听损用户听感更能适应日常生活,研发助听器的过程中,他们在AI算法优化上下了不少功夫。例如,要使AI算法有针对性地保留说话人的声音,去除周围的环境噪声和干扰人噪声,抑制一些不想要的声音,否则用户在餐厅、街道这些多人场景,听感上会很难受。针对助听器,他们推出了适应不同场景及需要的五大算法。
也是在2024年年初,李岸认为,AI眼镜的第一代样品已经可以试水。他在公司周边寻找盲人按摩店,请按摩师们试用,王安平是其中之一。
李岸对王安平第一次试用的场景印象深刻。王安平使用眼镜上的摄像头,对面前的物体拍照后,AI识别出了那是桌子,还说出了桌子上水果的大致数量;AI还描述了他女儿的穿着。
程家家的直播间里,AI战胜了人力。比起雇用“明眼人”,弹幕助手不会漏掉信息。这款产品还开发了不少切中盲人痛点的功能。例如,它可以识别榜一、榜二、榜三的“大哥”,提示主播向其致谢;在有高级灯牌的粉丝进入主播间时发出提醒,并为其制作单独的入场音效,便于主播与其互动,留住大粉丝
“当你知道公屏上有这么多人在跟你互动的时候,当然会调起你的积极性。”程家家说,粉丝们在他的直播间里感受到的沟通障碍更少了。
直播间,蔡勇斌却渐渐生出开发者的烦恼:伴随着弹幕助手的不断迭代,其开发成本也在不断增加,他不得不将最初的免费软件变为付费使用。目前,一年的使用费是四百多元,有用户抱怨收费过高,可按照蔡勇斌的计算,收益不足成本的四分之一。
盲人主播少,付费用户更少。现阶段,蔡勇斌只能减少人力投入,“大家没有主营业务干的时候,就干一干(弹幕助手)。”
事实上,这是助残行业常见的困境:生意与公益性质交织。AI助残也是如此,开发者、生产者是否能从技术创新中获得商业回报是个未知数,也影响着创新可持续性。在迈出最初几步后,AI对残障人群的帮助会走向何方,仍无人知晓。
李岸还在AI助盲眼镜的研发升级中摸索前行。王安平称,第一代眼镜确有帮助,但还有不少需改进之处。其中一些,李岸后来陆续实现了,如将AI反应时间缩短至数秒,并用手机App替换了第一代的外接设备。
也有问题未解决。王安平感觉眼镜的设计戴着不舒服,他因此不常用眼镜上的摄像头,而是用配套App对物体拍照做识别,要对准物体并不容易,有时识别文字、数字也会出现差错。此外,王安平期待它能进一步完善导航等功能,甚至帮助他上街行走。
李岸观察到,国内也有AI避障眼镜产品问世,但确实卖得不好。他判断,核心原因还是技术不够强。
不过,他对于AI助盲产品的市场前景依然乐观,因为他认为,获取信息对视障群体来说是刚需。“盲人也要生活工作的,很多时候他们职业道路受限,是因为没有办法,没有工具去帮他们做这个事情。”
(文中王水东、王安平为化名)
南方周末记者 姜博文 南方周末实习生 宋宇玲
责编 谭畅