作者丨刘杨楠
编辑丨海腰
图源丨Speak官网
2018年1月,Speak正式在韩国上线应用商店。上线当天共3人付费,收入18美元。这是Speak成立3年来第一笔用户付费收入。
Speak是两位天才少年共同打造的一款AI语言学习产品。
一位名叫Andrew Hsu,生于中国台湾,在美国长大,从小便是华盛顿各大媒体笔下的天之骄子。Hsu 5岁能解代数题,7岁因太聪明而辍学开始家庭教育(Home-schooling),用1年时间学完了从小学到初中的课程;12岁考入华盛顿大学,16岁从华盛顿大学毕业时手握三个理学学士学位;19岁成为斯坦福大学神经科学项目四年级博士候选人后辍学创业,成为Peter Thiel“20 Under 20”计划的一期学员,后来成为首位拿到Google Venture等知名VC投资的创业者。
另一位名叫Connor Zwick,从13岁开始编程,曾被澳大利亚科技网Nettuts.com聘请担任网站作者;高二时开发一款语言学习应用Flashcard+,用户最高达500万,最终被上市教育企业Chegg收购。之后,Connor入学哈佛,但只上了一年课便辍学创业,成为“20 Under 20”计划二期学员并结识Hsu。
2016年,二人共同创办语言学习应用Speak,试图借助最新的AI技术,打造一个“AI tutor”,让每位语言学习者享受到个性化教育,真正学会“说”英语。
为实现这个目标,成立以来,Speak团队用了几年时间反复试验PMF。而上线首日的18美元让团队第一次看到希望,也为今天的10亿美元估值写下序章。
“小天才组合”
2011年,Peter Thiel发起20 Under 20计划,鼓励有想法的学生辍学或暂时休学创业。
同年,年仅19岁的天才少年Andrew Hsu从斯坦福辍学,成为20 Under 20的一期学员,并创办Airy Labs。Airy Lab希望针对儿童开发出能被家长们广泛认可的,具有教育意义的社交游戏,真正实现“寓学于乐”。
当时,Hsu天才少年的光环,Peter Thiel的背书,以及超前的教育理念让Airy Labs成为VC眼中的一颗新星。Airy Labs成立不久便获得150万美元种子轮融资,投资方大佬云集,包括Google Ventures、Foundation Capital和Playdom创始人Rick Thompson。拿到融资后,Airy Labs的团队迅速扩充至20人,Hsu也成为媒体口中的创业明星。
然而,一时风光无两的Airy Labs仅存活了不到1年。
Hsu的天赋并未在经营公司中体现,他的父母成为公司真正的掌舵人,并逐渐将公司变成了一个“家庭作坊”。
Hsu的父母近乎像管孩子一样管理Airy Labs,他们制定的一系列管理制度在员工眼中都很“糟糕”。例如,上午9点到下午6点不能在办公室大声说话,必须通过电子邮件或通讯软件交流;部分成员需要在工作结束后向Andrew Hsu或其父母汇报工作,经常等到晚上9、10点甚至更晚才下班,而且每周通常要工作6~7天。
“管理层与父母不同,他们肯定不爱我们。他们要求的工作时间在他们所在的国家可能是正常的,但在这里是不可接受的。我认为他们没有根据文化差异进行调整。”一位离职员工曾抱怨。
除管理问题外,Airy Labs的离职员工曾透露,公司并没有清晰的愿景和战略布局。公司网站上描述的愿景是“为儿童打造下一代社交学习游戏”,但公司却没几个全职的游戏设计师。在这种情况下,公司却一连发布7款免费产品,几个月后才引入收费机制,导致公司一直烧钱,却没有收入。
面对如此局面,Hsu一度寄希望于A轮融资能提供更多资金维持运转。但最终,员工们没有等到A轮融资,而是减薪裁员、公司倒闭。
创业失败的教训惨痛,但Andrew Hsu改变教育的热情却丝毫不减。正是这次创业经历,他认识了20 Under 20计划的二期学员Connor Zwick。
Connor Zwick从13岁开始编程,曾被澳大利亚科技网Nettuts.com聘请担任网站作者。高二时,Connor Zwick一度对时下的教育体制感到失望,希望用创新技术实现真正的“因材施教”。于是,Zwick开发了语言学习应用Flashcards Plus,用户可以把单词和短语的语音制作成电子学习卡片反复练习。
“我当时的想法是,如果能将这些知识点汇总成某种知识图谱,就能生成任何内容、教授任何知识,并创造出一个无所不知的导师。”Connor近期回忆道。但显然,当时的技术水平难以满足这个愿景。最终,Flashcards Plus全球用户量达到500万,2013年被教育科技上市公司Chegg收购。
之后,Connor考入哈佛,在哈佛大学学习一年后,便拿下10万美元的泰尔奖学金和Y Combinator提供的15万美元投资辍学创业,开发了Coco Controller,曾和30家游戏企业建立联系。
直到2016年,Andrew Hsu和Connor Zwick都看到了在AI教育领域再次出发的机会。
AlphaGo战胜李世石后,深度学习范式成为AI界的新热点,大量人工智能论文问世,Andrew Hsu和Connor Zwick在硅谷亲眼见证了一切的发生。
“那时的模型更加具体,比如语音模型、图像模型。我们看到这些模型即将与人类一样好,甚至比人类更好。”Connor曾对媒体表示,“当时只是觉得这东西很酷,想用AI来打造一些有趣的东西。”
他们用一年时间研究AI,甚至到斯坦福蹭课学AI。期间,他们尝试开发了各种不同的算法,还尝试过不少计算机视觉应用,例如用AI定制服装,或应用于医学影像测量人体指标,以及用深度学习预测天气。
但二人发现语音识别是效果最惊艳的。当时,他们在YouTube上随机收集了一些语音数据,构建了一个语音识别系统,不仅能理解用户说话的内容,还能理解不同口音。
用随机数据训练的模型尚且有这么好的效果,如果质量更高的数据呢?于是,二人提出一个技术假设:是否能构建一种真正可用的产品,从中收集足够的用户数据,以供算法使用,改善建模,优化产品体验,进而获取更多的数据,形成良性的数据循环?
在这个假设之上,Speak成立了。
“先有鸡”还是“先有蛋”?
或许是有了此前创业失败的经验,Speak从创办之初就制定了清晰的发展路径。
Andrew Hsu和Connor Zwick二人一致认为,除非学习者移居到英语母语地区,否则大概率只能学到一手“哑巴英语”,无法正常交流。因此,Speak的愿景就是为每一位用户打造一位个性化的“AI tutor”,让想学英语的人能真正会说会用。
目标很清晰,问题在于如何实现。
Speak成立初期,团队遇到了经典的“先有鸡”还是“先有蛋”的问题要建立强大的AI模型,就需要大量多元、高质量的语音数据喂给模型。但要获得数据,要么需要全程手动搜集,成本高昂;要么就需要创建一款可以收集该类数据的产品,但好的产品体验又建立在强大的模型能力之上。
权衡过后,Speak并未直接自研模型,而是在当时的技术水平下,先推出一款用户可接受的产品,跑通PMF,用户逐渐增长后,Speak再根据用户数据微调自己的模型,形成数据飞轮。
起初,Speak面向全球推出产品做用户测试,每个市场都有AI对话功能,用户可以选择一个类别,选择喜欢的话题和AI简短对话。但试验发现效果并不好,用户基本会在产品发布30天后流失。
这个结局或许并不意外。不同地区用户的学习需求、习惯文化背景不同,很难一概而论,而且语言学习市场本就竞争激烈,已经有Duolingo、Babbel等巨头占领市场,很难正面“硬刚”。此外,当时的语音识别技术也不足以识别全球各地的语音差异。
在Andrew Hsu和Connor Zwick苦闷之际,投资人建议先把公司规模做起来,但二人很警惕这种做法。直到2023年6月,成立七年的Speak也只有30多名员工。
最终,他们决定先从单一市场攻破,以便集中精力用有限的资源快速验证和迭代产品。
2019年,Speak正式进军韩国市场。此前,Speak进行了一番严格的市场调研。他们租了一个小房间做小规模的用户测试,给每一位参与测试的用户发一部测试手机,并全程记录用户的使用过程。
他们发现,用户真正使用产品的时间大多在通勤的时候。抓住通勤时段培养起用户的学习习惯后,用户在其他时间也会自然而然用Speak产品练习英语口语。
意识到这一点后,Speak发现产品的使用量、转化率、留存率都大幅提升,Speak才算初步跑通了PMF。但在Hsu看来,“PMF不仅仅是单点的事物,而是一个连续的过程。你改进PMF的程度越大,你的增长速度通常就越快”。
之后,Speak不断更新产品功能和课程内容,并不断优化产品的交互设计。“任何形式的工具提示、用户教育或功能解释,都意味着我们的设计还不够完善。”Connor认为,应把尽可能减少用户教育作为一个目标。而Speak将这一点做到了极致。
很多语言学习App的内容会采用算法推荐机制,新用户进入应用后,通常会做一份简单的问卷或用户引导流程,选择自己的学习动机、想学的内容等,算法会根据用户反馈给其首页推荐大量信息。但在Connor看来,这些信息并非真正有用。“过去我们想要获得有价值的信息都要自己主动去搜索,而那些被推送过来的信息有99%都毫无价值,比如垃圾邮件和推送通知。”
因此,Speak借助AI能力打造了一个全新的界面解锁方式。
在产品首页,Speak没有给任何新用户引导流程,只有一个简单的问题:“你为什么想学英语?”然后用户就可按下“开始”按钮说话。每个用户都会用不同的情绪、语音语调回复不同的答案。Speak会根据这些信息为用户构建个性化体验。
不过,Connor曾表示,虽然语音到语音模型效果越来越好,但“语音并不总是最佳的人机交互方式,很多时候,打字和点击图标是更快捷的方式”。因此,Speak试图探索一种“混合界面”,让用户可以在随时都自由选择说话还是打字。
同时,为了更好地理解用户,Speak在后台运行时,例如在夜间,模型会利用闲置GPU资源分析用户数据,从而解析用户感兴趣的课程,并在第二天的学习中给用户推送新的课程。在Connor看来,“思维模型”真正的价值正在于,即使用户没有使用产品,模型也在后台不断处理着用户数据,分析用户需求。这种模式也决定,Speak的产品迭代依赖于模型有更强的语音识别、理解和生成能力。
2022年,Speak遇到OpenAI,PMF又有了质的飞跃。
绑定OpenAI,自建AI团队
从2022年起,OpenAI连续四次投资Speak。
OpenAI Startup Fund成立于2021年5月,已投资数个AI应用项目,包括Descript、Anysphere、Diagram、Harvey AI、Kick、Mem和Speak等,涉猎AI音视频编辑、AI编码工具、AI产品设计、AI法律顾问、会计软件等多个领域的落地应用。其中,Speak是唯一一个教育类软件。
对于投资的创业项目,OpenAI通常不仅给钱,还给技术。Speak也不例外。
2023年3月,Speak先后官宣了和OpenAI的三项合作:
3月1日,宣布成为OpenAI全新“Whisper”模型API的首发合作伙伴。Whisper有更强的语音识别能力,在处理带口音的语音以及无缝处理多语言语音(代码切换)方面的表现更好。
3月14日,宣布其作为早期访问者,将GPT-4接入其“AI tutor”中,能让AI tutor实现高度个性化和上下文相关的反馈。同时,GPT-4能够生成更高准确度和连贯性的文本,让用户和AI tutor进行更自然、更有针对性的互动。
3月23日,Speak宣布与OpenAI合作启动ChatGPT插件的Alpha版本,用户可从ChatGPT的界面直接访问Speak。
但Speak并未把全部希望寄托在OpenAI上。在和OpenAI深度绑定的同时,Speak也在2023年着手搭建了自己的AI团队,开始利用过去几年从产品上积累的数据集微调自己的语音模型。
2024年,Speak在官网博客中宣布升级了核心语音识别系统。
系统升级前,Speak分别在iOS和Android系统上运营着不同的ASR(自动语音识别)系统,还会用自有数据训练端侧小模型适配特定型号的移动设备,也会采用第三方语音识别服务。
但长此以往,Speak便发现了一些弊端。例如,为了支持比较老的设备,Speak使用了参数规模更小、计算能力较低的模型,对语音识别效果较差;第三方语音识别服务往往也难以识别口音较重的语音,会影响用户体验;Speak必须维护iOS和Android两套语音系统,导致“事倍功半”。
而系统升级后,Speak基于内部数据集微调了Conformer系列的语音识别模型,该数据集包含了用户数千小时带有浓重口音的英语语音音频。
此外,Connor认为:“模型评估非常困难且重要。对于我们的机器学习团队来说,最重要的可能是评估,特别是对于大型语言模型经常执行的开放式任务,如果你能够提炼出完美的评估标准,你基本上就提炼出了你正在优化的目标问题。”因此,Speak根据用户数据,构建了自定义测试集,主要评估语音模型根据音频转录单词的单词错误率(WER)。评估发现,微调过后的模型单词错误率比通用模型降低60%以上。
内部Speak测试集上的单词错误率(WER),图片来源:Speak官网
目前,Speak微调的Conformer-CTC模型仅用于英语语音识别,但Speak透露,该模型未来也将扩展到西班牙语等其他语言中。此外,Speak还在开发超出单词之外的其他语音和语言模态(例如,用于发音反馈的音素)。
在用自有数据微调模型的同时,Speak依然抓紧每一次与OpenAI合作的机会。因为在Connor看来,“语言学习和实时对话练习,是语音到语音技术的最佳用例,因此我们抓住机会与OpenAI合作,并将这项技术深度嵌入我们的核心体验中。”博客写道。
2024年10月1日,Speak又与OpenAI合作测试了GPT-4o的实时API,推出Live Roleplays,使用户能够在各种角色扮演情境中进行沉浸式、逼真的口语练习。借助GPT-4o上的实时API,Speak的AI tutor可以像人类教室一样快速或更快地响应,并能够理解并提供关于语音各方面的反馈,而不仅仅是纯文本转录,如语调、发音、韵律等。
不过,Speak在博客中写道,语音到语音模型的指令跟随能力仍然不如文本模型,目前还不擅长更细致的语言学习特定任务,如发音指导和反馈。
语言学习界最懂AI的公司
2024年12月,Speak宣布完成7800万美金C轮融资,由Accel领投,OpenAI Startup Fund、Khosla Ventures和Y Combinator等跟投。本轮投后估值10亿美元,Speak也被看作大模型浪潮中第一家真正以C端应用立足的独角兽。
除获得资本青睐外,Speak的产品表现也得到市场认可。据“投资习所”的信息,截止2024年12月,Speak的ARR已经接近5000万美元,年增长率达到100%。
Speak主要的商业收入都来自C端,没有免费版本,只为用户提供七天免费试用,之后就按月或按年收费,收费标准分为2档:
Premium计划:$99.99/年,每月2000个AI tutor积分;
Premium plus计划:$234.99/年,每月10000个AI tutor积分。
(AI tutor积分对应的是用户和AI Tutor的对话字数,每和AI对话一个词即1积分。)
在Speak的实际测试中,2000家教积分学习5天就能消耗完,这也意味着对于有固定学习习惯的用户而言,Premium Plus方案更划算。
2024年,Speak也开始拓展to B业务。Speak for Business可以练习特定的商务对话,例如与供应商和客户的专业讨论等。目前,Speak for Business拥有超过200个客户,员工采用率为85%。
Speak为何能在一众语言学习市场激烈的竞争中脱颖而出?答案或许就是“聚焦”二字。
Speak自创立之初的目标就很聚焦,围绕“哑巴英语”这个核心痛点打造产品体验,并一直坚持产品导向的思路,持续迭代PMF。最近的访谈中,Connor表示Speak一直非常注重课程内容,现在内部仍会对AI tutor的课程内容进行A/B test。
同时,两位创始人很清楚,其产品体验的迭代很大程度上依赖于底层AI模型的能力。因此,在OpenAI强势爆发后,Speak主动拥抱大模型。找到OpenAI这个强势的合作伙伴后,Speak也并未在AI的火爆中迷失方向,盲目高估模型的能力,而是组建自己的AI团队,利用多年积累的用户数据微调语音模型,升级语音识别系统,继续迭代产品功能。
套用近两年很时髦的概念,Speak是一个更加“AI原生”的产品。相比其他语言学习应用,Speak更像一家技术公司。按对话积分消耗收费的模式,也和大模型按token消耗量计费的模式很相似,甚至营销文案也相应调整为类似“20分钟内说100句话”的口号。
同时,为了在单一市场打造最佳产品体验,Speak也十分注重产品设计和营销手段的本地化。在正式进入韩国市场前,Speak做了充分的市场调研,并在后期搭建了一个世界级的本地营销团队,根据韩国市场的用户特点定制相应的营销策略,创建了一个独特的品牌形象。
Andrew Hsu曾透露,截止2024年12月,Speak应用的下载量已超过1000万次, 每位用户每天的使用时间约为10-20分钟。
目前,Speak正在将韩国市场的成功经验逐渐带到其他市场进行验证。2022年底,Speak开始开拓日本市场;2024年下半年,Speak在中国台湾市场的收入开始快速增长。
不过,Speak目前主要活跃在不以英语为母语的市场。相比之下,欧美等以英语为母语的市场则由Duolingo、Babbel等老牌语言学习软件占领;微软、谷歌等大厂也对语言学习应用虎视眈眈,真正激烈的竞争风暴或许还没有到来。
本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。