12月7日,在北京市大兴区举办的2024T-EDGE创新大会暨钛媒体财经年会上,「AI 落地场景图谱」圆桌由钛媒体集团联合创始人刘湘明主持,TDK InvenSense 副总裁 Pankaj Aggarwal、Traini 创始人孙邻家、MascotGO 首席技术官 Peter Avritch、万魔声学董事长谢冠宏、红杉中国合伙人张涵等嘉宾,围绕 AI 落地应用面临的挑战、各公司在 AI 领域的进展与商业模式、AI 在不同领域的发展趋势等话题展开。
Traini公司通过大量视频标注理解宠物行为并选择模型,与宠物行为专家合作确保数据准确性,公司在共情方向投入研发,产品有 C 端用户,且在模型端可输出,与多家硬件公司合作。
孙邻家表示,Traini未来尝试在医疗端辅助诊断、为具身机器人提供数据。目前主要专注于狗狗领域,因北美和欧洲狗狗市场大且狗狗行为与人类交互更直接,未来可能延伸到其他领域。
谢冠宏提到,万魔声学在耳机降噪(飞机、火车降噪及通话降噪)、省电方面取得成果,睡眠豆第三代可准确监控心率、呼吸和睡眠状态。眼镜产品也在发展,虽市场挑战大但从一开始就注重差异化。
Peter Avritch提到,他的开发工作围绕研究如何使用和获取数据,为用户提供个性化推荐。
Pankaj Aggarwal则表示,AI 发展需要更多传感器,传感器能让AI变得更智能,如耳机能判断发言者自动调节声音,未来机器人将使用更多传感器,覆盖消费、工业设备等多领域,且需关注小设备功能局限、安全及隐私问题。
张涵从投资视角阐述了目前AI应用在寻求大规模落地和商业化方面面临的挑战,包括落地场景、Token成本控制、数据安全等。他认为在应用落地的优化方向上,创业者可以寻找和构建对模型以及Agent的输出结果要求不太高的使用场景,实现产品和商业化更快、更早的落地。
以下是圆桌对话实录,经钛媒体APP编辑整理:
刘湘明:特别高兴今天有这样的机会讨论落地的问题,这次在美国参加很多AI会议,主要是两个方向,一是AI落地;二是AI工具,结合大家在领域里的观察,目前AI应用落地面临有哪些挑战和障碍是什么?
Pankaj Aggarwal:数据收集的过程应该是一大挑战,以及从不同来源收集数据并且进行整合,这也是挑战。
过去十年,AI有100万倍的计算成本下降,数据量增加了1万倍,在这个过程中AI不断地应用数据,将数据数字化。
比如对于马拉松长跑选手,可能配备了不同的传感器,现在的AI技术有没有能力把所有数据进行收集,并且进行符合需求的数据分析,这是非常重要的。
很多时候,AI数据没有很好地被应用。比如很多小的设备,可能在电力或者其它方面有局限,导致没有办法在每时每刻收集数据。
智能终端或者智能边缘也受到行业关注,我们需要有不同的传感器,比如温度传感器、水分传感器,以及其它的像WiFi、蓝牙、云上设施等,收集并分析数据的过程受到电池的限制。
孙邻家:AI落地应用最大的挑战有三。第一,人们对大模型的期待非常高,大家期待出现能够颠覆移动互联网的大模型应用,一般的应用大家会觉得它太薄,不足够变成杀手级的应用。这会和实际有个gap(差距),这个gap会导致做应用的公司,去融资或者想拿到足够的钱,再往前的时候难度变得更大。
第二,很多做应用的公司,认为具备工程能力,又对大模型比较了解,就可以做了,过程中会使用现有的开源技术。但实际上这些公司对场景、用户需求的理解,特别是在整个Workflow(工作流程)上理解比较浅,在做产品或者应用的时候很难切到用户的痛点。
第三,现在的AI应用某种程度上等于AI Agent,需要有自己的模型。建立模型的时候,不论利用开源技术还是自己架构的技术,最后要形成比较独特的技术优势,这个技术优势上边要叠加无数的数据,在AI应用层面,很多数据都是非结构性的,怎么样去处理、采集非结构性的数据,达到能够训练大量模型的程度,把它变成非常独特的产品,这对于一般的团队而言难度非常大,至少有一件事情大家必须要去做,就得去读论文,读英文的论文非常难,对于小公司而言非常难。
谢冠宏:AI终端存在四个主要难点。
省电难点。万魔声学几年来一直在改进和克服省电、轻薄、穿戴舒适等问题,AI终端需做到不用时省电stand by一整天,又能随叫随到,使用时可迅速连接蓝牙、wifi等,且视频要有高带宽。
音质难点。要提高声音质量、消除噪音,让使用者既能清楚理解对方讲话,也能清晰听到自己说话,还能发出接近人类的声音给对方,改变传统AI一问一答模式,实现全时间双向实时对应,能分清不同语言,双方和动作,目前在眼镜、耳机上已做到相应程度。
APP难点。使用AI需下载APP,但跟Apple、谷歌抢入口较难,未来是万物互联时代,可通过直接拉群的方式解决,同时提升使用的便利性。我们使用专利技术为人,AI与 messager 结合一物1号,达成人机互联。
手机本地agent难点。要清楚分辨其能做和不能做的事,比如订披萨时不能放入银行账号和家庭住址等隐私信息,当前模型设有防火墙隔离,但同时还要充分利用云端的智能跟资讯。
Peter Avritch:谈到生成式AI,我的工作就是研究做哪些工具加入到大语言模型当中,研究如何使用这些数据,如何获取这些数据,再把这些数据给回到大语言模型,实现个性化的推荐。
比如对于某个人来说,上哪所大学最合适,这不仅仅是学术问题、财务问题,它包含各个方面。对于16、17岁的孩子来说,做这样的决策可能是整个人生最重要的决策,我们希望能够运用到大模型帮助年轻人来做决策。
张涵:大模型这两年发展非常快,但能力还相对有限,特别是在内容准确度、输出能否符合预期等方面,离大规模商用和到基于Agent做闭环操作还是有距离的,仍然需要技术侧、产品侧的人才去不断想办法优化。
在应用优化的方向上,可能会有一批优秀的产品经理或者创业者去构建更新的场景,比如他们寻找的用户群体可能对模型和Agent的输出结果预期没有那么高。在这种情况下,产品反而变得更容易落地,商业化也更容易形成。
AI创业者还会普遍碰到token的成本问题,这和之前移动互联网的差别比较大。当你做了一个AI产品,这个产品在还没有形成良好盈利状态和商业模式的时候,在这上面消耗的token以及获客的成本叠加等等会使得整体成本变得更高。
最后是数据。不同的场景下,企业侧可能积累了很多私有数据。如何在最大化保护数据隐私、数据和模型安全的前提下,让私有数据和自己的业务侧结合,与大模型联接起来,从而提高工作效率,这可能还是个挑战。
刘湘明:问个小问题,“Traini”的名字由何而来?商业模式就是把宠物的语言翻译成人能听懂的语言,怎么做到的?
孙邻家:其实是training的缩写,我们想表达宠物到人类世界被驯化的过程。
我们是全球第一家用生成式AI做宠物行为分析的商业公司,通过大量视频的标注,系统性地理解宠物行为之后,再去选择模型。我们目前专注在狗上面,会和顶级的宠物行为专家合作,让他们成为我们的一部分,而且要付出很高的成本,例如股权给他们,来进行专业数据的标注,保证Ground truth最后能够实现。
其次我们在共情方向上进行大量的研究和开发,例如用语音的方式呈现,克隆成狗儿子和狗父母说话的形式,整个体验对于产品都起到决定性的作用。我们看起来是C端产品,但做小模型一旦拥有数据,建立数据壁垒,就有很大的能力可以做C2B,这个模式可以成立,目前在模型端也可以输出,在硬件上可以用到。像苹果、华为、尼桑汽车、上汽等等很多大的硬件公司都在找我们合作。
原来做的非常垂直领域的小的事情,是个芝麻,我们现在已经把它变成通用,当模型能力变成通用之后,未来我们就可以做成宠物生活的生态,就可以拿到西瓜,这是我们的逻辑。
我们其实还在探索商业模式,但基本的想法在C端收取费用费,提供API给这些公司。另外,做宠物可穿戴设备,实时进行翻译。未来尝试在医疗端,给宠物医生做医疗辅助诊断,以及给具身机器人提供数据,让具身机器人在生活中可以和狗狗交互,做成更通用的场景。
我们主要做北美和欧洲,1.6亿条的狗狗,市场足够大。其次是狗狗的行为和人类的交互更突出、更直接,用这样的解决方案,对我们的产品突出上会更大,作为创业公司我们只能做选择,在未来的时候再延伸到其它领域。
刘湘明:其实音频耳机是AI最早用到的领域,我现在的问题是在未来,AI会给我们带来哪些惊喜,在硬件方面?
谢冠宏:我们专注在小模型,以前用在降噪、辅助睡眠、辅助听觉,以及运动的器材,这些东西来做学习的终端,会越来越多,而且越来越准确,就像睡眠豆第三代,它对于心率、呼吸和睡眠状态有非常准确的监控。
一是和健康相关,和运动相关的,逐渐AI会提供更多的东西;二是翻译,我们做的比较大的改变是实时双向对谈,不管什么语音都共同做。另外的惊喜是这种硬件会越来越多,耳机、眼镜、戒指、手表、鞋子等,这方面会提供很多惊喜。
降噪分两方面,一是飞机或者火车上的声音,把声音降下来,这和世界一流水平可以媲美,部分效果甚至超越,因为AI学习给到我们很大的帮助;二是通话降噪,我在跟他讲话,但是我旁边吵闹的声音不要出来,AI就是要学习这是噪音,这是声音,再传送完美的原音的时候,其它噪音不能传过去,再就是现在的省电越做越好。
刘湘明:简单进行总结,各个嘉宾我觉得来自于AI创业领域不同的环节,其实我的感觉就是,AI其实有两个方向,一是提高效率,做好“牛马”;二是怎么去把生活过慢,提供足够的情绪价值,追求效率的最后也是为了追求更美好的生活,所有的落地,所有的应用都是期待更好的明天,谢谢大家。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App