(图片来源:unsplash)
2023年以来,以ChatGPT为代表的生成式 AI(AIGC,Artificial Intelligence Generated Content)技术成为整个科技行业最热门的讨论话题。
AI 技术的突飞猛进,不仅将重塑传统农业、制造业、工业、信息科学等领域,而且对经济社会的各个领域都将产生重大影响,对GDP(国内生产总值)的拉动作用也有望逐渐显现。
首先,从投资人到创业者、从独角兽到大厂、从业界到学术界、从经济专家到电影工作者,都开始感受到 AI 技术对生产生活带来的重要改变。Gartner最近预测,超过80%的企业都希望在工作中使用AIGC API和模型,或部署支持AIGC技术的应用程序,而2023年初这一比例还不到5%。
其次,AIGC已经为全球超过38万亿美元数字经济提供了强大动力。据高盛经济学家曾预估,未来10年内,AIGC 技术可以推动全球GDP增长7%,或接近7万亿美元,并将全球劳动生产率每年增长提高1.5个百分点。
最后,AIGC也成为今年唯一呈现高增长的投融资赛道。据风投数据分析公司PitchBook数据显示,截至今年10月15日,2023年,全球AIGC领域筹集融资总额达232亿美元(约合人民币1656亿元),比2022年全年增长250.2%,其中AI核心(Al core)领域融资就达50.82亿美元。截至目前,全球AIGC新兴领域相关公司总数量已超过1500家。
今年以来,市场出现了众多很酷、超乎人们想象的新的 AIGC 技术或产品落地,从而加速内容生成效率、提供更多想法探索和灵感、使得人们想法个性化和定制,以及帮助企业提高生产力和效率。
钛媒体App详细梳理了2023年至今10个最热门的AI工具产品,希望让更多企业家、投资者和用户了解LLM(大型语言模型)和 AIGC 将如何变革人们的生活。(排名不分前后)
1、ChatGPT和DALLE 3
随着2022年11月美国OpenAI公司推出聊天机器人ChatGPT并引发全球热潮,发布短短5天,注册用户数就超过100万,至今热度不减,每周已有超过1亿人使用ChatGPT,有超过200万开发者在该公司的API上进行开发,高达92%的财富500强公司使用它。
ChatGPT已经从根本上改变了 IT 和互联网时代格局,促使更多人把关注重点转向AI大模型和AIGC技术方向。
今年3月,全新预训练模型GPT-4发布,技术能力全面增强。全新ChatGPT-4体验效果比之前版本更佳,也更具创造性和协作性,而且内置DALLE 3文生图模型,可以让ChatGPT与用户一起生成、编辑、迭代技术与创意写作任务。与此同时,OpenAI还加大了商业化和安全对齐工作,减少了“幻觉”要素。
据The Information 10月报道,OpenAI公司CEO奥特曼(Sam Altman)对员工表示,公司正以每年13亿美元(约合人民币94.93亿元)的速度产生收入,平均每月收入超过1亿美元,比去年全年2800万美元增长超过45倍(4542%),也比三个月前预期的年收入高30%。
如今,ChatGPT能力正不断升级,如今已上线了增强版本GPT-4 Turbo产品,并具有128K上下文窗口,反馈迅速,数据准确性大大提升,而且可实现更周到的响应反溃有消息称,预计近期OpenAI将会推出GPT-5产品。
除了ChatGPT之外,类似的 AI 聊天机器人产品还包括Google Bard、Claude、ChatSonic、Jasper AI等。
2、Midjourney
Midjourney是一款 AIGC 文生图应用服务,用户使用Discord平台根据自然语言描述可以自动生成图像,产品非常火,是这波 AIGC 浪潮中的佼佼者。
Midjourney由美国旧金山 AI 实验室 Midjourney, Inc.研发,公司创始人、CEO David Holz是Leap Motion前联合创始人。2021年,David Holz 带领11个全职员工成立了Midjourney这家公司,短短一年时间积累了 1000 多万用户和一亿美金的营收。
2022年7月12日,Midjourney首次对外公布,并启动公开测试版,并经历快速的版本迭代。
去年9月举行的2022年科罗拉多州博览会期间,参赛选手Jason Michael Allen基于Midjourney生成的 AI 图像“空中歌剧院”(Thétre D'opéra Spatial)赢得了本届博览会的年度美术竞赛,随后被广泛报道。目前,包括英国杂志《经济学人》、《大西洋月刊》等多个平台都曾采用Midjourney的图片产品。
基于Midjourney平台生成的 AI 图片
2023年12月20日,Midjourney宣布开放 V6 模型的 alpha 版本测试。V6 新版本拥有更准确的提示词跟随以及支持更长的提示词,同时提高了连贯性和模型知识,并且改进了图像提示词和重新混合。V6 的提示与 V5 的提示词逻辑有显着不同,用户将需要“重新学习”如何输入提示词。V6 对提示词更加敏锐,用户应避免使用无用的提示词。
如今,因为Midjourney V6生成的图片过于逼真,同样的女性面部主体,V6在皮肤细节、毛发细节、光影效果上,都远优于V5.2的效果,甚至已经几乎分辨不出来到底是实拍还是出自AI,所以引发了更多人对于AIGC技术的讨论。
3、Stable Diffusion
Stable Diffusion是一种基于潜在扩散技术(LDM)的深度学习文本到图像开源模型,由英国 AI 初创公司 Stability AI 开发,于2022年发布。
Stability AI创始人兼CEO莫斯塔克(Emad Mostaque)来自孟加拉国,在英国长大。他在2005年获得牛津大学数学和计算机科学硕士学位,毕业后在英国一家对冲基金公司工作了13年。2019年,他曾创业做了一家身份认证的SaaS公司,但并不顺利。2020年底,Emad Mostaque卷土重来,创立Stability AI,初衷就是做一个AI开源的平台。
2022年10月,Stability AI完成1.01亿美元融资。截至去年底,Stable Diffusion已被全球超过20万名开发者下载和授权,成为目前可用性最高的开源模型。而Stability AI面向消费者的产品DreamStudio注册用户超过100万,共同创建了超过1.7亿张图像。
2023年,随着ChatGPT的爆火,Stable Diffusion产品被重新关注了起来。2023年12月20日,Stability AI宣布将视频生成模型Stable Video Diffusion添加到开发者平台 API 中。据悉,该模型可在平均 41 秒的时间内生成 2 秒钟的视频,包括 25 个生成帧和 24 个 FILM 插值郑
4、Runway
Runway是国外一家在线视频剪辑制作网站,成立于2018年,上述这款AI生成绘画模型Stable Diffusion就包含Runway等公司提供的技术支撑。随着AIGC爆火,Runway团队将产品定义为基于AI的创意工具,即一个AI native tools 工厂,从产品特征来看,Runway定位于专业、协作、快、很多AI Magic Tools,关键在于机器学习和云原生能力。
依托于 AI 技术快速发展,今年以来,Runway不断推出应用于产品的新模型框架,包括Gen-1、Gen-2两代图像视频编辑软件,目前收费价格是个人专业版 12 美元/月,团队版 28 美元/月。
目前,Runway已经发布了 30 多个AI Magic Tools,包括文本生成、图像生成、音频处理、视频抠图等市面上主流 AI 功能。尽管在专业视频编辑场景,Runway 难以撼动 Adobe、达芬奇(Davinci Reslove)这些传统专业视频编辑软件地位,但在轻量化和图像生成领域,Runway具有一定的竞争力,将成为以合作为中心的自动化创作工具。
截至目前,Runway这款产品背后的Runway公司已完成超过1亿美元融资,估值达15亿美元,不到一年内公司估值增长3倍以上。
5、Notion AI
Notion是一款集成笔记、知识库、数据表格、看板、日历等多种能力于一体的应用,它支持个人用户单独使用,也可以与他人进行跨平台协作。
据悉,Notion产品背后的公司名为Notion Labs Inc,成立于2016年,创始人为Ivan Zhao、Simon Last。截至2021年10月,Notion公司估值103亿美元,在全球拥有超2000万用户,团队规模为180人左右,投资方包括红杉资本、指数风险投资等
2023年2月,Notion发布一款 AI 驱动的项目管理和协作工具插件Notion AI,得到广泛好评。
Notion AI利用大模型和数据收集能力,能帮助用户自动整理笔记、改正错别字、列出文章重点、翻译、制作表格等。如果你是学生,使用 Notion 搭配 Notion AI 来整理、制作学习笔记可以提高准确性和易读性;如果你是上班族,通过 Notion AI 更可以快速地生成例如讨论大纲、会议行程,甚至是报告的内容。另外,Notion AI 的执行速度很快,写出来的内容也可以条列式或是表格化,可以大大简化工作流程。
目前,Notion AI收费价格为每人每月 10 美金,如果以年购买,价格则优惠到每人每月8 美元。
有消息显示,仅发布一个月,Notion AI为Notion团队带来额外1000万-3000万美金ARR(年度经常性收入),最终年收入可能将达1亿美金。
6、HeyGen
HeyGen是一款比较有争议的 AI 换声产品。今年10月底,美国知名歌手Taylor Swift说普通话、赵本山和郭德纲讲英语的视频片段在网络热传。在视频中,Taylor Swift用中文说道:“我最近去过很多地方,比如意大利、法国和日本”,口型和说话内容步调一致,达到了以假乱真的效果。
随后,该视频被剪辑发布到TikTok、B站、抖音、视频号等平台中,迅速引起了大量关注。这种是利用HeyGen生成的 deepfake 类视频,其真实程度让大众非常震惊。
有消息指,HeyGen仅发布7个月,实现了100万美元的ARR(年度经常性收入),今年10月份的收入则直接超过1000万美元。
公开资料显示,HeyGen成立于2020年11月,由曾在Snap担任软件工程师的徐卓(Joshua Xu)和其同济大学校友、公司首席产品官梁望(Wayne Liang) 共同成立的中国公司“诗云科技(深圳)有限公司”,同时其还将公司总部设在了洛杉矶。此前,HeyGen主要采用Stable Diffusion技术。
据徐卓透露,公司已经开发出了自己的视频 AI 模型,并且还整合了来自 OpenAI 和 Anthropic 的大模型用于文本处理,以及 Eleven Labs 提供的音频技术。
今年11月29日,HeyGen宣布获得由Conviction Partners的560万美元新一轮风险投资,投后估值达到7500万美元。而作为交易的一部分,据天眼查显示,12月11日,诗云科技(深圳)有限公司因决议解散申请注销登记。这意味着,HeyGen未来长期在美国进行研发销售。
价格方面,HeyGen 提供一系列订阅选项,每月49美元-150美元不等,并提供一定数量的积分兑换视频。同时,用户也可以选择创建更长、更高分辨率的视频,平均费用约为每分钟3美元;或是1000美元的专业选项。
7、Replica Studios
Replica Studios是一款由ReplicaStudios公司开发的 AI 语音生成产品,致力于为故事讲述者提供 AI 驱动的配音演员库。
实际上,此前 AI 大部分采用生成对抗网络(GAN)技术生成逼真的音频语音,因此为了实现这一目标,团队需要在多个参与者上进行数据整理以及调制各种声音组合才能产生,即便是文本转语音 (TTS) 生成过程,也需要大量的数据采集。
但如今,随着AIGC技术快速崛起,语音到语音 (STS) 转换技术可以利用现有语音源来生成语音,大大减少数据采集以及训练的时间和能力,可以快速轻松地创建画外音。如今,使用包括Replica Studios、Synthesys、Murf、Listnr、Lovo、Speechelo等产品或工具,可以为纪录片、广告或游戏生成画外音,而无需聘请配音演员。
8、3DFY.ai
3DFY.ai是一款利用AIGC技术实现从文本中创建高质量3D模型生成工具平台,无需手动创建、摄影测量和3D扫描,输入文本、图像提示即可创建可扩展的高质量3D模型,适用于在线零售、游戏、AR/VR和模拟等行业应用。
实际上,对于游戏开发商和游戏工作室来说,3D模型开发通常是开发过程中最棘手的部分之一,容易出现瓶颈。生产一个模型的成本从60美元到 1500 美元不等,需要2到10周的时间来回制作。在此之前,创建3D模型需要大量的制作模型的算力、算法支持。
如今,在AIGC技术帮助下,数据都内嵌在预训练模型中,有些甚至是开源的,因此3DFY.ai促使3D模型的制作成本和使用成本大幅下降。
目前,3DFY.ai 处于开放测试阶段,可以免费试用,新用户有10积分,可免费生成10个模型,要继续生成或下载模型,则需付费。3DFY也为企业提供文本转3D API服务,以及生成大量3D数据集的服务,旨在满足未来的不同需求服务。据悉,该平台背后由AIGC 初创企业 3DFY.ai开发。
除了3DFY.ai之外,目前在3D模型领域的AIGC产品还包括Nvidia Get3D、Alpha3D、Sloyd.ai等。
9、DreaMoving
这是一款我认为最有趣的产品。仅靠脸部照片和文字提示,DreaMoving就能生成在任何场景下跳舞的视频。
DreaMoving由阿里巴巴团队开发,是一个先进的人类舞蹈视频生成框架,它基于扩散模型技术。这个系统能够根据用户的输入生成高质量和高保真度的舞蹈视频,输入可以是文本提示、图像提示或两者的组合。用户可以指定视频中的人物,这些人物可以是名人、朋友或任何特定的形象。背景可以是真实地点(如海滩、城市街道)或任何虚构场景。此外,用户还可以通过提供脸部照片或其他图像来确定视频中人物的外观,甚至可以指定人物的动作和姿势。
DreaMoving包含几个关键组成部分,如去噪U-Net、Video ControlNet和内容引导Content Guider。这个系统在约1000个高质量的人类舞蹈视频上进行了训练,这些视频经过剪辑和处理,形成了约6000个短视频片段。模型的训练包括内容引导器训练、长帧预训练、视频控制网训练和表情微调。在模型推理阶段,输入包括文本提示、参考图像和姿势或深度序列,通过调整控制网和内容引导器中的参数来控制视频内容。
目前,DreaMoving仅有演示和项目论文,没有代码。
项目地址:https://dreamoving.github.io/dreamoving/
论文:https://arxiv.org/abs/2312.05107
体验地址:https://modelscope.cn/studios/vigen/video_generation/summary
10、AlphaCode 2
随着今年AIGC技术大爆发,人们发现,AIGC在软件代码生成方面具有优异的应用表现,可以无需手动输入直接创建正确的代码,从而显著提升程序员效率,以及最大限度地减少人工执行代码任务的错误率。
AlphaCode 2就是这样一款由谷歌大脑和谷歌DeepMind共同研发的产品。今年12月,在谷歌发布Gemini大模型之际,AlphaCode 2也正式推出,它基于Gemini AIGC技术,可实现快速、准确的代码编程。谷歌表示,AlphaCode 2 的架构基于强大的大型语言模型 (LLM) ,以及专为竞争性编程设计的高级搜索和重新排名系统。
谷歌指出,AlphaCode 2最近在编程评分平台Codeforces上进行测试,最终发现,AlphaCode 2在短短 10 次尝试中就能够回答高达43%的问题,中位排名达第85个百分位数,运行水平被认为超出 AI 系统的能力。
除了AlphaCode 2之外,在 AIGC 代码编程领域的国外产品还包括OpenAI Codex、Copilot、ChatGPT、GitHub Copilot aigctookit、Tabnine、Codeium等,国内也有智谱AI的CodeGeeX、北大团队的aiXcoder 智能编程机器人等相关产品。
这类AIGC生成代码平台,不仅能自动写代码,而且还可以自动检测和解决生成代码中的错误,可以更好的提高整个代码库的一致性和可读性。
总结
这是一个比较全面且主流的10款AIGC产品,有些来自大公司研发,有些则来自刚成立不久的初创公司。随着在更多人角度看,榜单并没有完全客观,因为每个人心中都有更多、更好、更适合自己的 AIGC 产品。一千个人眼中有一千个哈姆雷特,只要这款 AIGC 产品能帮助你降本增效、提高生产力,它就是一款好产品。
不久之前,美国工程院外籍院士、北京智源人工智能研究院学术顾问委员会主任张宏江表示,AI 大模型作为基础平台,将会系统性推动所有产业进入新范式,成为下一个时代的“超级入口”,重写所有软件应用和产业,提升每个领域的生产力。同时,新的产品、商业模式、盈利模式和创业机会也将到来。所有的软件公司都必须拥抱大模型,包括软件工具、应用服务等类型企业,都需要启用大模型重写软件。
百度创始人、董事长李彦宏也表示,100多个基础大模型浪费社会资源,更多企业应该要去“卷”AI 原生应用,大模型对大多数人来说不是机会,应用才有价值。“今年绝大多数时候,全社会焦点都在大模型本身。但是我一直的观点都是,在基础模型之上要有千千万万的 AI 原生应用,大模型的价值才能被体现出来。”李彦宏表示。
2024年,随着AIGC应用和场景的不断涌现,我们将看到产业原生应用市场迎来更多机遇。这一趋势有望推动整个通用人工智能智能(AGI)以及数字经济领域的蓬勃发展。
我们相信,AI 技术将无处不在,一定会不断变革各行各业发展。
(本文首发钛媒体App,作者|林志佳)