展会信息港展会大全

红杉资本专访Decart创始人:用户体验已死,现在是生成式体验的时代
来源:互联网   发布日期:2024-12-01 18:18:24   浏览:0次  

导读:图片来源:红杉资本Z HighlightsOasis非常有趣,它是一种全新的体验,让我们能够通过屏幕表达我们的想象力。我们的目标可以用一句话来概括:通过生成式AI将我们的想象与屏幕上的视觉内容相连接。要达到实时视频处理,必须对模型本身进行很多改变,还需要做很多系统层面的工作。这意味着必须编写自己的CUDA内核,甚至可能需要从头开始编写一些系统组件。未来两三年内,解决这个 ......

红杉资本专访Decart创始人:用户体验已死,现在是生成式体验的时代

图片来源:红杉资本

Z Highlights

Oasis非常有趣,它是一种全新的体验,让我们能够通过屏幕表达我们的想象力。我们的目标可以用一句话来概括:通过生成式AI将我们的想象与屏幕上的视觉内容相连接。

要达到实时视频处理,必须对模型本身进行很多改变,还需要做很多系统层面的工作。这意味着必须编写自己的CUDA内核,甚至可能需要从头开始编写一些系统组件。未来两三年内,解决这个问题的正确方法可能是拥有两个模型:一个是负责持有状态的模型,另一个模型则将该状态渲染成像素。

垂直整合通常能带来两个主要好处:一是降低成本,从而提高利润率;二是加快行动速度,使企业能够更迅速地响应市场变化。在人工智能领域,这两点都非常重要,但我认为行动速度的重要性超过了成本降低。

我们认为用户体验(UX)已死,现在是生成式体验(GX)的时代。基本上,我们将创造新的体验,这些体验将根据人类与计算机互动的自然方式生成,包括从角色AI到实时视频模型等各种形式的生成体验。这就是我们预见的未来。

Decart与Oasis

Shaun Maguire:大家好,我是Shaun Maguire,红杉资本合伙人。今天,我的同事Sonya Huang和我将对Dean Leitersdorf进行一次采访。Dean是一个才华横溢的青年,他的成长经历跨越了以色列和美国。他曾是以色列理工学院最年轻的博士毕业生,年仅23岁,直到他的弟弟在21岁时获得了博士学位,打破了这一纪录。Dean所创立的公司Decart致力于创造令人愉悦的AI体验,让人们能够以前所未有的方式与自己的想象力以及他人的想象力进行互动。为了实现这一目标,Decart实现了从底层优化,如CUDA内核,到模型设计、训练,直至最终提供体验的全流程垂直整合。在未来几个月,我们期待看到他们推出的一系列令人印象深刻的成果Sonya Huang:Dean,感谢你今天加入我们。我今天早上刚玩了Oasis,玩得很开心。所以让我先问一下,Oasis,这个非常可玩的AI游戏引擎。它是什么?你为什么要推出它?Dean Leitersdorf:几周前,我们推出了Oasis,这是一个技术上令人惊叹的项目。它是第一个真正实时运行的视频模型,用户可以与之互动,可以在虚拟世界中移动,甚至可以破坏和放置方块。虽然这听起来像是一个游戏,但它并不仅仅是为了娱乐。那么,为什么Oasis真正有趣呢?让我们暂时忘掉Oasis 1,想象一下Oasis 3。你站在一面神奇的镜子前,你可以与它对话,告诉它做一些很酷的事情。比如,你可以说:“嘿,我想要一把剑。”然后,镜子里的你手里就会出现一把剑。你移动手,剑也会跟着移动。你可以说:“不,我想要更大的剑,变成蓝色。”它就会如你所愿变化。你可以进一步说:“现在,让我进入《权力的游戏》的世界”,然后你周围的一切都变成了《权力的游戏》的场景,你甚至戴上了王冠。你还可以要求王冠有所变化,然后开始跳跃和移动,镜子都会对你的动作做出反应。这非常有趣,因为它是一种全新的体验,它让我们能够通过屏幕表达我们的想象力,连接了我们脑海中的想象和眼睛所看到的世界。我们的目标可以用一句话来概括:如何通过生成式AI将我们的想象与屏幕上的视觉内容相连接。通过这种方式,我们可以进入以前未探索过的世界,它可能会改变一切,从我们今天无法实现的应用程序,到我们与计算机或硬件的互动方式。Sonya Huang:我喜欢镜子这个比喻。让我们进一步探讨。你打算用它做什么?这是一个社交媒体的东西吗?你在构建一个游戏吗?一个互动的世界模型吗?我应该如理解Decart和Oasis?Dean Leitersdorf:那么让我来问你。ChatGPT能解决什么问题?Sonya Huang:作业。Dean Leitersdorf:作业,确实……它还解决了哪些问题?Shaun Maguire:使与计算机进行对话变得更加容易了。Dean Leitersdorf:没错。简而言之,ChatGPT并没有解决某个特定的问题,而是帮助你更高效地完成家庭作业、撰写电子邮件、进行总结。它并没有直接解决问题,但它克服了一些根本性的限制,正如Shaun所说,它打破了人类与计算机之间的沟通壁垒。计算机使用结构化语言,而人类则使用非结构化或复杂结构的语言。大语言模型正是缩小了这一差距,使计算机和人类能够用双方都能理解的语言进行交流。一旦实现了这一点,你就可以在此基础上解决上百个不同的问题。因此,无论是通过镜子还是生成式互动视频,我们现在不仅通过文本,而且通过视觉克服了沟通障碍。现在,计算机能够以我们看待世界的方式来看待世界,它们能够以我们能理解的方式来向我们展示世界。你解决了这个问题,构建了一个平台,允许在其上构建一切,从下一代的Snapchat或TikTok到战斗机飞行员的模拟器。这正是这里的奇妙之处。而且,现在是2024年,我认为最令人兴奋的事情之一是我们有机会在正确的时机建立一些不是解决问题,而是克服限制的公司。99%的公司都在解决问题。当你看到那些向红杉或其他风险投资公司推销的公司时,他们通常会这样开始:这是我们要解决的问题,这个问题有多大,我们的市场规模是多少,以及我们将如何解决问题。通常,前两个方面是不变的。如果你改变了你正在解决的问题,那就叫做转型。如果你500次改变了解决问题的方式,那么这就是99%的公司的做法。这是在任何正常年份你所能做的事情。历史上有些时刻,大约每十年或十五年,你会有机会建立一些不是解决问题,而是克服限制的东西。让我换个方式问你这个问题:Mac是面向消费者的产品还是企业产品呢?Shaun Maguire:还有,这是一家硬件公司还是软件公司.Dean Leitersdorf:是的,这家公司究竟是硬件公司还是软件公司?它解决了哪些问题?如果我们要列举个人计算机解决的问题,那可真是包罗万象,从游戏到Excel应有尽有。这就是它的优势所在,你正在构建一项惊人的技术,这项技术可以以多种不同的方式进行产品化。Sonya Huang:我喜欢这个观点。你构建的东西中一个非常酷的特点是,据我所知,里面没有游戏引擎。你怎么看这一点?你认为游戏引擎是过时的产物吗?Dean Leitersdorf:游戏引擎的目的是让一个人能够创造一个世界,而另一个人能够与这个世界互动。这就是游戏引擎的核心功能。我们有游戏开发者,也有使用这些引擎的用户。它不仅适用于游戏,还适用于电影等其他领域。最近,Unreal Engine在电影制作中的使用也变得非常广泛,这是一个非常有价值的产品,它有很多优点,比如能够创造出非常一致和精确的世界。但问题是,与这样的世界互动需要花费很多时间。人们喜欢从基础游戏出发,将其改造成各种不同的形态。当我们深入了解并观察人们实际上如何使用这些工具时,你会发现,比如有人在《我的世界》中加入了宝可梦模组,你可以在森林里漫步,看到宝可梦四处奔跑。这是一个真实的模组,有人创造了它。人们天生就有这种欲望:我们有了这个平台,我们想要改变它。这就是模组的魅力所在。如果运行你的游戏或环境的是一个AI,你就可以以我们习惯与AI互动的方式与它互动。你可以这样说:“嘿,你能把它变成艾莎主题吗?”然后突然之间,一切都变成了艾莎主题。你可以要求加入一个飞象,然后游戏中就真的出现了一个飞象,而且不仅仅是一个图像,你实际上可以与它互动。你可以攻击大象,它可能会反击,或者你可以做任何与大象互动的事情。我认为,如果这种趋势要取代游戏引擎,它必须能够达到可以编程的状态,这样它就是一个机器,一个人可以在上面构建世界,另一个人可以与之互动。这肯定会到来。不仅如此,为这个编程将会容易得多,你可以只用语言来完成,不必写代码。即使你懂得如何写代码,你也可以更快地进行迭代。总的来说,我认为这将使我们的模组制作速度加快,并实现更具互动性的模组创作。Oasis技术细节Shaun Maguire:为了更深入地探讨技术层面的问题,你们构建了我见过的第一个能够实现实时推理的视频模型。实现实时推理需要哪些技术?难度有多大?给我们介绍一下这背后的技术细节。Dean Leitersdorf:如果我们回顾三四个月前,也就是夏天的时候,有一些头条新闻提到了NVIDIA的Blackwell芯片发布后,它将能够实现实时视频处理。Hopper架构的芯片做不到这一点,H100芯片也不行。然而,事实上H100芯片是能够实现实时视频处理的。要达到这一点,需要同时做两件事:首先,必须对模型本身进行很多改变。并不是每个视频模型都能实时运行,必须以不同的方式训练模型,架构也需要有所不同。虽然这不是重大的架构变化,但确实需要进行这些调整。其次,还需要做很多系统层面的工作。这意味着必须编写自己的CUDA内核,甚至可能需要从头开始编写一些系统组件,比如抛弃PyTorch的垃圾收集器,自己从头开始编写一半的代码。如果你只做其中一件事,就需要等待别人来做另一半如果你只做系统层面的部分,那么你就无法实现另外一点,因为你没有准备好以这种方式交互的模型。如果你只做建模方面的工作,你将没有系统层面的支持来使其实时运行。因此,要实现实时视频处理,不仅需要在模型训练和架构上做出改变,还需要在系统层面进行深入的工作,包括编写CUDA内核等。这样的全面努力是实现实时视频处理能力的关键。Sonya Huang:可以介绍一下这个模型的工作原理吗?它和Sora这样的模型类似吗?Dean Leitersdorf:简单来说,这个模型和Sora这样的模型非常相似,唯一的区别在于输入提示是用户操作而不是文本。这是理解这个概念最简单的方式。你有文本到视频的模型,比如Sora,你输入一个句子,然后得到一个视频。在这里,你输入的是键盘操作和之前的帧作为提示,然后模型生成下一帧。Sonya Huang:你是如何将操作和视频数据关联起来的?Dean Leitersdorf:这里需要做一些预处理步骤,这是常规视频模型不需要的。比如,你必须对原始的游戏录像进行标注,记录下每个步骤中执行的操作。我们训练了一个小模型来自动化这个任务。实际上,这个过程不需要太多的数据。一个小模型就能搞定,它不需要太多的例子。你只需要让我们的团队玩一会儿游戏,然后录制下来。这样,你就能获得一个小模型,用它来标注所有的数据。Sonya Huang:非常有趣。你是在构建一个世界模型,还是这只是纯粹的像素表示?Dean Leitersdorf:这里的精妙之处在于它完全基于像素表示。现在,让我们来对比一下你提到的世界模型、3D内容等其他技术。在AI领域,过去十多年一直存在一个普遍的问题:你是选择端到端的解决方案,还是优化现有的工作流程?这个问题有两种处理方式。你可以直接利用现有的游戏引擎,比如Unity和Unreal,它们已经很出色了。我们可以直接融入这个工作流程,构建从文本到3D的模型。我描述一头大象,然后得到一个3D网格模型,再将其导入到Unity、Unreal或其他你使用的游戏引擎中。相比之下,端到端的解决方案是,最终我有一个屏幕,屏幕需要显示内容,并且需要工作。最终,人们看到的是电脑屏幕,操作键盘和鼠标,这就是你的界面,你从按键到帧,端到端地解决这个问题。显然,这两种方法是相互竞争的。但随着时间的推移,我认为它们会有所融合,因为从技术角度来看,它们各自都有优势。第一种方法在时间上更加一致,更容易保持物体的外观不变。而端到端的像素处理方法更加灵活,可以实时编辑,比如改变大象尾巴的大小。所以,从长远来看,这两种方法可能会融合。如果我们大致展望一下,今天我们主要是从提示到像素,从按键到像素的转换。理论上,在未来两三年内,解决这个问题的正确方法可能是拥有两个模型。一个是负责持有状态的模型,比如游戏的状态,这与像素无关,类似于LLM式的Transformer,它只获取当前状态,获取新的用户操作,并输出对该状态的更改。另一个模型则将该状态渲染成像素。这大概就是我们会融合的地方,因为这将真正结合世界模型和像素模型的优势。Sonya Huang:两种模型你们都想要构建吗?Dean Leitersdorf:当然,的确如此。但是,我认为我们还没有到达那个阶段,我们需要更多的时间才能达到。推进垂直整合Shaun Maguire:我对Dean和Decart印象深刻的一点是他们打造完全垂直整合的系统的雄心。他们真正理解电子的本质。他们不仅掌握电子在逻辑门及其不同类型中的传输方式,还拥有对比汇编语言更基础的层次的透彻理解,并能够优化汇编中的CUDA内核。他们从电子到人眼所见的像素之间的各个环节都进行了全面优化。通过这种方式,我认为他们将始终比那些只在应用层面工作的人拥有至少10倍的优势。Sonya Huang:实际上,关于这一点,我认为有一种反驳的观点是关于专业化的,因为有成千上万的聪明人在NVIDIA或其他公司工作并专注于此。而你应该专注于构建最佳的用户体验和病毒式传播。那么,能否分享一下你们选择进行垂直整合的原因呢?Shaun Maguire:让我来说几句,因为Dean不能像我这样自夸。我一生都在研究商业模式。从年轻时起,这就是我的热情所在。对我来说,Google是我见过的最了不起的公司之一,也是最了不起的商业模式之一。我在Google工作过几年。我真的觉得人们对Google的护城河有误解,对NVIDIA今天的护城河有误解。在我看来,Google真正的优势不在于Sergey和Larry发明的PageRank,这是一种深刻但简单的算法,本质上是基本的图论。PageRank问世后很快被广泛模仿。Google真正的优势在于其在分布式系统和底层系统优化方面的顶级水平。他们从早期就有一个非常深刻的见解,基本上所有其他搜索引擎都在购买Sun Microsystems的服务器机架,通过购买昂贵的硬件来获得容错能力。而Google则发现可以通过购买便宜易失的消费级硬件,比如游戏电脑中使用的Intel Pentium处理器或SanDisk内存,然后用五倍于其他硬件的数量来提升总能效或容量。尽管失败率高,但这种方案的性能成本仅为其他方案的1/50。通过深入优化分布式系统以最大化硬件性能,他们赢得了十倍的成本优势。回想第一次使用Google时,它的界面非常简单,仅是一带有搜索框的白色网页。我认为它当时比Yahoo的用户界面更差。Yahoo还有聊天室和其他更闪亮、更令人兴奋的东西,但Google 的魔力在于成本优势下的后端性能,这得益于对硬件层面的极致优化。Dean和Decart的故事让我很有共鸣。但我们需要保持谦逊,这家公司还没有做任何事情,在他们值得与Google相提并论之前还有很长的路要走。对我们来说,Sequoia共同领投了Google的A轮融资,我为此感到自豪;我们也参与了NVIDIA的种子投资,可以说,我们有良好的投资历史。Shaun Maguire:我认为要真正提供那些令人愉悦的体验,比如一个简单的镜像体验,你需要一个极其强大的后端。我认为这是一个全有或全无的事情。如果不能实时提供服务,那么体验就不够好。我坚信,如果你不深入到底层优化,是无法实现实时体验的。至少对我来说,我认为你必须这么做。在我见过的人中,这些人是唯一真正这么做的。Dean Leitersdorf:我非常喜欢Shaun刚才所说的话,其中有两点特别引起了我的注意。一点是关于垂直整合的内容,这也是我们稍后会讨论的,这也回应了最初的问题。另一点是,我不会透露名字,但最近我与Google的一位非常资深的高管进行了交谈。我们回忆过去,试图了解一些情况。因为在Google成立时,我才仅仅三个月大,我那时在场,但并没有真正关注。Shaun Maguire:Dean,我知道你可能一直在密切关注。Dean Leitersdorf:我试图弄清楚那里究竟发生了什么,以及为什么那件事如此有趣。这源于一次不相关的对话。在那次对话中,我们讨论了GPU集群的不可靠性。通常情况下,如果你今天尝试在一个集群上训练我们训练的那种模型,无论是超大规模的还是GPU云,那个系统每隔几小时就会崩溃。你会碰到很奇怪的问题,可能因为另外两个节点之间的电缆上有灰尘,导致一个节点崩溃,而且没有任何错误信息能告诉你到底发生了什么。所以你的训练模型会崩溃,你会疑惑为什么会这样?你尝试重启,但不起作用。然后你尝试移除随机节点,直到你弄清楚问题所在。这就是整个行业的现状。几乎只有Google和OpenAI在训练时没有遇到这种情况。因为他们真的从硬件层面就开始构建一切。OpenAI有很多时间来真正专注于这些可靠性问题,但其他的公司,从大公司到小初创公司的任何人都在经历这些挑战。所以我和Google的一位高层人士交谈。他说,我们现在的训练情况就像90年代的CPU一样,没有Kubernetes,也没有VMware,服务器常常崩溃。大多公司不愿处理这种情况,因此要么支付更高费用给更好的高级服务,要么消耗更多时间。硬件的发展最终会趋于稳定,英伟达将致力于提高他们芯片的稳定性,并优化他们的代码。GPU云服务将围绕这一点找到解决方案。这是未来的趋势,但目前还没有实现。如果你现在想要训练一个模型,你将不得不面对所有这些问题。因此,这是你必须应对的挑战之一。在Decart实验室,我们直面这个挑战。我们能够做到这一点的原因是,比如你看到的Oasis模型,从开始到结束仅需20小时就能收敛。我们与其他AI实验室有很多合作和交流,那些训练最先进模型的最佳实验室,他们对此都感到震惊。对于这些模型,他们的收敛通常需要大约两周时间。这不仅仅是因为他们没有使用优化的系统层面的东西,还因为他们每隔几个小时或数天就会遇到崩溃。而我们实际上可以保持训练运行从头到尾不崩溃。我们也可以保持训练运行一周或两周不崩溃。这种可靠性真的非常重要。问题是,这并不容易实现。我们有一个内部文档,我想现在大约有200页,记录了训练一个模型时可能出错的所有事情。从一个节点上的错误信息要求硬件操作员检查两个节点间的问题,到另一个有趣的情况。比如,在我们训练Oasis模型的过程中,遇到了一个有趣的情况。我们需要生成一些合成数据,而我们拥有的集群既有GPU也有CPU。通常情况下,CPU的利用率只有3%左右,而GPU则被充分利用。因此,我们决定在训练模型的同时,利用这些未充分利用的CPU来生成合成数据。这种做法让我们的GPU云团队感到惊讶,因为我们实际上将集群的利用率提高到了200%。我们不仅使用了CPU和GPU,还利用了InfiniBand在训练期间传输数据。这样,我们从集群中获得了比预期更多的资源。总的来说,我们通过并行运行合成数据生成任务,有效地利用了未充分利用的CPU资源,而没有占用GPU资源。这一策略使得我们能够更高效地使用集群资源,提高了整体的训练效率。在进行Oasis模型训练的同时,我们还进行了合成数据的生成,这项工作仅使用了CPU资源,理论上不应该影响到训练运行。然而,实际上这导致了训练运行出现问题。具体来说,我们遇到了一个随机错误,团队中可能有成员能够更准确地描述这个问题,但错误信息大致是关于数据加载器缺少锁文件。这个错误背后的原因是,合成数据的生成过程中消耗了更多的RAM,这本不是什么大问题,但它导致在不同节点间传输数据时占用了更多的网络带宽。这超出了Python数据加载器通常使用的网络映射锁文件的处理能力,导致锁文件被移动到了磁盘上。结果就是不同节点上出现了不同的锁文件,最终导致数据加载器崩溃。简而言之,我们本以为这样做是合理的,但却遭遇了一个意外的错误。这就是我们日常工作的一部分,我们有一个200页的文档记录了所有这类问题,这也是我的工作内容之一。Shaun Maguire:Dean愿意分享一个简单的例子,这是他们遇到的挑战中较为简单的一个。实际上,还有比这困难和重要百倍的问题需要他们去解决。关于AI的现状,还有一个相对简单的例子可以说明。Dean,如果你不愿意讨论这个,可以跳过,但你们有一次获得了一个新集群的使用权。这个集群的内存尚未安装,GPU只有一些非常有限的内存,以至于大多数人几乎无法使用这些GPU。能否分享一下这个故事?Dean Leitersdorf:这确实是一个精彩的故事。我们常说,要构建一个理想的视频模型训练环境,需要的不仅仅是集群,还包括存储和网络等基础设施。我们距离实现这个目标还有很长的路要走。我预计在未来半年左右,这些配套会逐渐稳定下来,许多GPU云服务提供商正在努力实现这一点。在我们遇到的一个情况中,我们获得的一个集群完全没有存储,而且这并不是个例。这种情况发生在几个不同的集群和不同的云服务上。这些云服务提供商虽然提供了GPU,但要让一切正常运作,还有许多工作要做。Shaun Maguire:他们过于专注于关注H100s,因此忽视了内存和存储部分。Dean Leitersdorf:这种情况是可以理解的。云服务提供商计划安装存储系统,并且他们会完成这项工作。他们急于尽快推出服务,这是合理的。然而,由于缺乏稳定的存储和优化的存储节点或者S3存储桶等类似的服务,我们面临了一些挑战。于是我们提出一个想法:如果每个节点都连接了几个SSD,我们是否可以在这些SSD上构建自己的迷你分布式文件系统呢?我们确实这么做了,而且这个方法是有效的。尽管在实现过程中遇到了许多需要克服的问题,但最终我们成功了。这再次回到了垂直整合的问题上。Shaun在这个领域的知识和经验都比我丰富得多,他在这个行业的时间也比我长。我主要是做研究工作,完成我的博士学位...Sonya Huang:我觉得他好像刚刚称呼你为“年纪大”。Shaun Maguire:我说的是经验……我从Google刚推出的时候就开始使用它,在NVIDIA首次公开募股时就买了它的股票,那正是我出生的时候。Dean Leitersdorf:我记得NVIDIA上市是在我出生之前的事情,是1996年还是1999年?不管怎样。对于我而言,垂直整合通常能带来两个主要好处:一是降低成本,从而提高利润率;二是加快行动速度,使企业能够更迅速地响应市场变化。在人工智能领域,这两点都非常重要,但我认为行动速度的重要性超过了成本降低。我们面临的所有问题最终都会被解决,但这需要时间。有一篇发表在《The Information》杂志上的文章提到,一些离开谷歌的创业者发现,他们在外部创业时缺乏必要的基础设施支持,比如存储和云服务,这些都是他们在谷歌内部时不曾意识到的问题。随着时间的推移,云服务提供商会逐步提供这些支持,一些公司也会提供系统中间层的服务,甚至简化模型训练过程。但如果你能实现端到端的垂直整合,就能比竞争对手提前一到两年进入市场,这是至关重要的。因为技术优势不会永远持续,例如谷歌和Bing,尽管谷歌拥有更多数据,但微软的Bing也在不断进步,尽管两者之间仍有差距。归根结底,整个游戏的关键在于快速获得技术护城河,比如谷歌和OpenAI,并尽可能早地将这一优势转化为市场竞争力。这就是游戏规则,因为我们都可以说,“红杉投资了,很好。我们先把钱存入银行,让我们从中赚取一些利息。我们会去海滩待两年,等一切稳定下来,两年后再回来,然后建立同一家公司。”那会很棒,但其他人早就做过了。这就是我们选择垂直整合的原因。通过垂直整合,我们可以更快地将技术转化为产品,从而在市场上获得先发优势。未来发展及商业模式规划Sonya Huang:我喜欢这个,那你的护城河是呢?Dean Leitersdorf:是长期的还是短期的?Shaun Maguire:两个都有。Dean Leitersdorf:关于短期技术,我们拥有业界领先的系统层技术,同时也在模型层进行深耕。我们的业务实现了完全的垂直整合,这构成了我们的短期竞争优势。谈到长期发展,这是一个值得深思的问题。我想分享一些我最近发现的有趣现象。现在,一种新型的、较弱的网络效应正在形成,这种效应以前并不存在,它与TikTok上的讨论有关。为什么这很有趣呢?我们从Character AI这家公司学到了很多,它是一家非常出色的公司。尽管最终没有被谷歌收购,但他们选择回去继续训练大型模型。Character AI迅速崛起,很快面临了激烈的竞争。例如,他们的技术领先了大约半年,直到Meta发布了开源模型,其他竞争者也开始跟进。Character AI依然保持着垂直整合的优势,使得他们的成本比其他竞争者低了十倍,这是一个巨大的优势。但让我印象深刻的是他们的TikTok策略。如果你在TikTok上搜索Character AI的竞争对手,你会发现关于这些竞争对手的视频,然后继续浏览,你会发现上百个关于Character AI的视频。即使你查看那些不是关于Character AI的视频,评论中也充满了对Character AI的讨论。如果你与一个普通的Character AI用户交谈,他们甚至可能不知道有其他竞争对手存在。因此,我们可以看到,由于TikTok的存在,似乎形成了一种新型的小型网络效应,或者说是品牌效应。这种效应让人们在TikTok上的话语成为了一种新的品牌影响力。Sonya Huang:这种新型效应与品牌有何不同?Dean Leitersdorf:这种效应与品牌非常相似,但它是即时可见的。就像20年前的品牌效应,你是否曾听朋友或家人谈论过某个品牌?而现在,尤其是年轻一代,他们总是活跃在TikTok这样的平台上。因此,他们可以迅速接触到这些内容。这里有一个重要的问题:这种护城河效应能否持续两三年,直到建立起像谷歌那样强大的品牌或分销网络等长期护城河。或者,是否能形成一种分销模式。我认为我们正处于一个新市场环境中,我们可能不会拥有10年前那样的传统护城河。Sonya Huang:非常有趣。Shaun Maguire:硬件始终是最强的竞争优势,谷歌已经将其最初的软件和分布式系统优势转化为硬件优势。我认为谷歌在应用层面并没有充分利用这一硬件优势。尽管自早期以来,谷歌并没有推出许多突破性的消费者产品,但在硬件层面,他们拥有巨大的成本优势。在我任职于谷歌期间,有一个项目让我印象深刻,它为一些投资决策提供了洞见。Google通过构建光交换机提高了数据中心的数据传输能力,这在“Jupiter Rising: Google Data Center”论文中能够找到。这些光交换机的使用,实际上使数据中心的性能翻倍,它们主要用于数据中心内机架之间的通信,实现了从电子到光子的信号转变。制造这些设备非常困难。如果当时询问谷歌之外的专家,他们可能会认为制造每秒百太比特的交换机是不可能的,但谷歌做到了。外界甚至不知道谷歌拥有这项技术,它使数据中心的功耗降低了约30%。这些都是谷歌的真竞争优势。虽然很难预测公司未来的竞争优势会是什么,但我坚信硬件是最终的护城河。部分原因是,移动原子、启动晶圆厂、获取电力、建造发电厂等过程总是需要长周期。即使是在拥有AGI和十亿个Optimus机器人的世界,制造新硬件的时间尺度也会很长。因此,无论如何,我希望Decart能在某个地方建立起硬件护城河。Dean Leitersdorf:我认同你的观点。从长远来看,这让我们回想起创建Decart的初衷。我们认为,人生中可能只有一次黄金机会去创办一家公司。当时我们认为,与其在某个革命性技术变革中创建公司,不如说我们有机会去解决一些根本性的问题。我们分析了这个领域,认为有三个巨大的机会可以把握。首先,可以创建一个NVIDIA的竞争对手,比如开发下一代AI芯片。这非常困难,因为NVIDIA不仅是芯片巨头,还是供应链巨头。但如果在行业中努力,会得到许多人的帮助。如果你在商业上表现出色,这是可行的。其次,可以建立下一个AWS,因为工作负载正在变化,有机会创建一个新的云服务。这同样非常困难,因为市场上有一个默认的赢家。即使其他人都失败了,三大巨头和甲骨文等云服务提供商仍然会成功。第三,是创造新的体验。这些新体验将非常剧烈,以至于下一家万亿美元的公司可能在五年内而不是30年内从这些体验中诞生。因此,我们必须选择一个方向开始,我们选择了创造新的用户体验这一领域。但第二个好选择是成为NVIDIA的竞争对手,这也是我们一直考虑的一个选项,我们总有一天会回到这个想法上来。Sonya Huang:让我以最后一个问题结束:如果一切按计划进行,Decart在未来10年、15年、20年后会发展成什么样子?你们将创造怎样的体验?消费者娱乐的未来又将如何?我不确定这是否是正确的市场定位。Dean Leitersdorf:我想引用红杉资本的James的话,是他提出了“生成体验”(GX)这个概念。我们认为用户体验(UX)已死,现在是GX的时代。基本上,我们将创造新的体验,这些体验将根据人类与计算机互动的自然方式生成,包括从角色AI到实时视频模型等各种形式的生成体验。这就是我们预见的未来。Decart将成为一家生成体验的公司,通过完全垂直整合和系统层面的创新来实现这一点。最终,Decart将成为一家创造新一代体验的公司,这些体验将影响地球上的每一个人,这就是笛卡尔的目标所在。现在的问题只是实现这一目标需要多长时间是10年还是15年。在当今时代,可能不需要那么长时间。过去的巨头花了很长时间才统治世界,我不知道Decart是否也需要那么长时间。但可以肯定的是,至少需要五年时间。Sonya Huang:你们在不同的时间尺度上运作,这与许多我们领域内的顶级AI研究人员不同。我非常尊重这一点。我们是否应该以一个快速问答环节结束?Shaun Maguire:当然可以。Sonya Huang:除了Oasis,你最喜欢的AI应用是什么?Dean Leitersdorf:就是ChatGPT和Character中的一个。Sonya Huang:你会用Character干什么呢?Dean Leitersdorf:即使你不会使用Character……从基本概念上讲,我们将拥有作为实体的应用程序,这些应用程序将在用户之间维持某种关系,无论是友谊还是功利性的。我认为,Character将成为未来众多事物的基本平台。Sonya Huang:我确实喜欢这样。至于你最喜欢的 AI 公司,可能和你刚刚提到的一样。Dean Leitersdorf:是的。Shaun Maguire:你第一次编程是在什么时候?Dean Leitersdorf:我第一次编程是在13岁,为游戏RuneScape编写机器人脚本。RuneScape是一款很棒的游戏,我玩了好几年。直到第六年,我使用了一款从网上下载的机器人软件,结果24小时后账号被封。Sonya Huang:我们会先迎来AI生成的视频游戏还是小说?我的意思是,达到我愿意为之付费的水平。Dean Leitersdorf:首先出现的将是一个平台,允许人们利用他们的创造力来制作这些内容,因为目前的AI技术还远远不能创造具有创意的内容。Shaun Maguire:你最喜欢的科学家是谁?Dean Leitersdorf:关于最喜欢的科学家这个问题,我非常喜欢。我们选择“Decart”这个名字是有深意的。我最喜欢的科学家是达芬奇,因为他不仅是一位杰出的科学家和工程师,还懂得如何获得资助。回顾历史,达芬奇不仅在科学和工程领域有着卓越的成就,还擅长从当时的“风险投资家”也就是国王们那里筹集资金。因此,达芬奇无疑是我的首选,其次是笛卡尔和特斯拉。选择“Decart”这个名字,是因为我们对特斯拉公司及其命名方式感到钦佩。我们需要一个与尼古拉特斯拉对特斯拉公司所代表的意义相似的名字。而笛卡尔正是这样的人,因为他的哲学、理性主义和方法论,“我思故我在”与当今人工智能的许多理念不谋而合。这是一个绝妙的选择。Sonya Huang:这是一个完美的结束语。Dean,对你所做的一切表示敬意。感谢你今天的参与,我们很享受这次对话。Shaun Maguire:我不会提前祝贺你,因为我们还没有实现目标。让我们去创造一些非凡的成果。不过,我非常欣赏你这样的态度。Dean Leitersdorf:在我们真正成功之前,我们不会庆祝。我们不庆祝小胜利。原视频:Decart’s Dean Leitersdorf on AI-Generated Video Games and Worldshttps://www.youtube.com/watch?v=GuenqZiA1NA编译:Yuxin Chen

赞助本站

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港