【EqualOcean】生成式AI——一场「跨越星空」的征程

EqualOcean将持续关注AI技术突破、尤其是以ChatGPT为代表的生成式AI，对产业内外的潜在持续影响，本期为EqualOcean采访AI创业公司跨越星空创始人尚晏仪整理所得，欢迎阅读。

跨越星空成立于2021年，聚焦于研发智能软件引导机器人，即让机器人自动理解用户意图，从而引导用户使用软件。跨越星空已积累超过20家客户，覆盖互联网、金融、政务等领域。创始人尚晏仪毕业于浙江大学，深耕天体物理领域研究，曾在奇绩创坛从事投资工作，关注人工智能、量子计算等硬科技领域。

EqualOcean：2022年被称为AIGC元年，在您看来为何会有这个说法？

尚晏仪：AI生成内容的技术经过了多年发展，在2022年存在很多契机使得该技术达到临界点水平，变得更平民化，AI生成能力从实验室里的科研项目走进大众的视野和生活。比如，现阶段大家可以免费且几乎无限地使用ChatGPT生成文字，而在此之前扩散模型及生成图像也备受关注。不同类型的AIGC在2022年数次引爆了全球关注。

EqualOcean：生成式AI经历了哪几个阶段的发展与迭代？当前处于什么技术水平？下一阶段的技术突破可能在哪个方向上发生？

尚晏仪：业界一般将生成式AI的发展划分为三个阶段。

20世纪50年代到90年代中期，AIGC尚处于早期实验室阶段，人们开始探索AI创作内容的可行性。在这期间发生了几个比较有标志意义的事件：1957年勒加任·希勒和伦纳德·艾萨克森将计算机程序中的控制变量转化为音符，完成了历史上第一支由计算机创作的曲谱《ILLIAC弦乐四重奏》（ILLIAC Suite for string quartet）。

到了1966年，世界上第一台聊天机器人—伊丽莎（Eliza）在麻省理工学院诞生了。伊丽莎可以提出问题，并重新表述用户说的话，算是GhatGPT的鼻祖。但受限于当时的技术水平，伊丽莎并未引起广泛关注和使用。

1980年代中期，IBM基于隐形马尔科夫链模型创造了语音控制打字机“Tangora”，能够处理两万个左右的单词，大公司开始逐步参与到AIGC应用的研发中来。

第二个阶段主要包括上世纪90年代中期至本世纪前十年，AIGC从实验室转向应用。2006年前后，一方面深度学习算法有了巨大突破，另一方面是相关硬件如图形处理器、算力设备等的性能得到了大幅提升。此外，得益于互联网的发展，机器学习所依赖的数据产生了巨量积累。

2010年以后，生成式AI进入到快速发展阶段，以生成式对抗网络为代表的深度学习算法的提出和迭代成为一项专门的课题。业界开始思考AI是否可以生成能直接与人交流的、有意义的内容，不论是一篇论文还是一幅画，抑或像跨越星空正在从事的由AI代替人操作软件，这项工作在过去是由成本更高的人工客服来完成的。2021年OpenAI推出的文本与图像交互生成内容的模型DALL-E也让更多人看到了技术的突破和拐点。

以上是业内主流的划分方法。但其实“生成式AI”这个概念是从应用而非技术的角度出发进行界定的，它泛指AI生成人类可用的内容，在技术层面则涵盖多个维度，而非一项主线明确的单一技术。

对于生成式AI的未来发展我是比较乐观的：我相信美好的未来是由我们当下的努力所创造的，投入这一领域的人才和资源越多，生成式AI的发展速度就会更快。尽管我们现在还无法明确预测相关技术的应用是否处在爆发前夜，但其所需的必要条件目前来看均得到了满足，尤其是基于transformer的ChatGPT的巨大突破提供了基础模型。

在实际推进的过程中我们还会遇到很多工程方面的难题。当我们要训练AI生成文字，那么互联网上现存的数据在量级和可用性方面都十分充足。但如果是像跨越星空这样开发一套帮助用户使用软件的AGI方案，我们就需要从头积累数据群，在这个过程中还涉及到成本的考量。如果是在国外雇上百个会使用Salesforce、月薪上万美元的人来标注数据，一个网站的标注成本可能就高达数百万美元，这个方案不现实。

类似的难题还有不少。比如用户对于AI生成的画作不甚满意，想进行微调，但稍微调整了输入的“咒语”，画作就会变得面目全非。

EqualOcean：在您看来，ChatGPT的问世给行业乃至整个社会带来了哪些突破？

尚晏仪：在大众层面，我们第一次感觉到一台机器的对话能力达到甚至超过80%的人类的水平，这是ChatGPT带来的主要冲击。

在行业层面，我想举“智能客服”的例子。大家可能会担心ChatGPT将颠覆智能客服，但我反而认为更多是赋能。ChatGPT在回答通用问题时能力很强，但具体到某家店如何去向客户介绍某件商品，相关的信息还是掌握在店主手里。

国内很多研发智能客服的公司其实积累了具体行业和品类的丰富语料库，结合这些现有数据对大模型进行调参，可以得到一个更好的智能客服，这就是我所说的赋能而非替代。通用人工智能模型可能会成为智能客服行业的基础设施。

这个问题也很好理解，即便是一位非常聪明的人，第一天来到一个服装店工作，也需要先了解店内的货品，每件货品的特点，店铺的退换货规则等。这些知识首先机器是无法预先学习到的，其次他的复用性也很低。

总的来说，我认为AGI对于不同行业和场景更多是赋能而非摧毁，它可以帮助人类更好地创作内容。在未来的AI时代，数据作为生产要素的重要性将进一步提升，创业公司的机会出现在巨头尚未形成巨量数据积累的领域，比如跨越星空目前的方向。

全球有40亿软件用户，有2亿家软件研发企业，软件无穷无尽，因此帮助用户使用软件代表着一个前景广阔、意义巨大的方向，同时避开了与巨头的正面竞争，成功概率更高。

EqualOcean：除了应用层面展现出的智能化水平，ChatGPT在算法和模型方面的创新性体现在哪里？

尚晏仪：在过去的模型训练中，互联网上的语料在AI看来都是性质无差别的文字。从ChatGPT的前身InstructGPT开始，AI开始学习处理由一个问题和一个答案组成的任务对。以此为起点，AI训练采用了新的“来自人类反馈的强化学习方法”。这个方法的好处，一是省去了专门雇佣的人，用户本身就是行为标注，二是AI学习的场景和过程更真实，更贴近于人的状态。

当时AI工程师发现了一个重要的问题：并非语言模型越大，AI就能更好地遵循人类的意图，大模型同样会生成不真实或无帮助的内容。于是，InstructGPT的研发人员改变了思路，先训练一套奖励模型，再去训练AI的学习模型。

这个奖励模型就是让人类来为AI生成的内容打分，生成的内容得到人认可则“施以奖励”，得不到人的认可则“施以惩罚”，有点像我们训练宠物定点排泄。同时，不同行为对应的奖励和惩罚的程度也是不同的，就像宠物偷吃东西和随地排泄所受的惩罚也不同，由此搭建起一整套大范围的、人机结合的模型训练机制。

这种方式与过往完全不同，其训练出的AI在价值观上也更趋近于人类，这令我想到了我们踩过的坑。跨越星空的团队成员许多是来自全球顶尖的自动驾驶公司Cruise，这是一家极致追求算法模型驱动的AI公司。但特斯拉并不认同这一理念，在特斯拉看来，自动驾驶AI并不比人更懂开车，它只需要不断跟人学习。

最初特斯拉的自动驾驶团队不足Cruise的十分之一，他们构建了一个非常不完善的模型。但这个模型每天不停地跑，不断地生成下一秒该如何操纵车辆的驾驶方案。但它并不会实际接管车辆，而是等到下一秒人类司机实际开车时收集相关的真实驾驶数据。如果模型预测的驾驶方案接近人类的动作，则对模型施以奖励，反之施以惩罚。通过这种方式，特斯拉仅用了两年半时间就超越了Cruise，成为美国最好的自动驾驶公司，且至今仍保持着该领域难以超越的地位。

回看这段经历，我认识到“向人学习”反而是训练AI更正确的一条路径，也是包括跨越星空在内的所有AI公司更应该追求的。我们训练AI，本质上是为了让其符合人类的价值观，能够和人正常沟通。基于这一目的，让AI了解人类、保持和人的互动就成为了一个理想的方案。

就跨越星空来说，我们目前也是采取类似的理念来训练操作软件的AI：在AI操作软件的过程中，如果用户认为它操作错误，就会打断并人为接管鼠标键盘进行正确操作。人类的操作会被记录下来，作为AI的反馈学习素材。

EqualOcean：大众对ChatGPT的新鲜和好奇所引发的AIGC热度是否能延续下去？当下，相关技术是否已经发展到具备实际应用和商业价值的阶段？生成式AI将会在何时迎来大规模商用？

尚晏仪：总的来说就是要避免短期的期望过高和长期的期望过低。

ChatGPT的发布对我来说是一件值得激动的事。我从21年开始进行跨越星空的产品研发，当时还只有GPT3。虽然Transformer架构的发展让我知道，理论上来说相关研发的要素已经集齐了，但我还不知道实践中该技术能进展到何种地步。当时我们也没什么同行，没有对标。对我来说，最大的问题就是一个向人学习的AI最终能否比大多数人更懂得如何操作软件？

2022年上半年，OpenAI发布InstructGPT，开始在文字领域采用人类反馈学习的方式。直到ChatGPT问世，我们看到了在文字这一内容生成方向上AI确实能够超越人类平均水平。因为我们采用的是同样的技术框架，只要我积累足够多的数据，经过足够的训练，未来跨越星空也能够推理出比大多数人更会使用软件的AI。

ChatGPT的发布使我更有动力、目标更明确了，长期来看，我对生成式AI的发展应用非常乐观。生成式AI可能2023全年都会很热，明年又可能会冷下来。AI在各细分领域的学习都需要积累数据，甚至需要五六年才能看到成效。但我相信它在未来十年都将持续产生深远影响。

EqualOcean：生成式AI或者AIGC领域的创业者目前面临哪些亟待攻克的难关？

尚晏仪：之前最大的困难就是向别人解释我们是做什么的，但现在再向别人解释时，他们很容易能理解，甚至觉得非常兴奋。既然AI能写论文、画画，大家自然而然地相信AI能操作软件，甚至能做所有事。这方面要感谢ChatGPT对于市场的教育作用。

从跨越星空的角度来看，比较困难的点还是在于缺乏相关数据的积累，但这也正是我们选择这一方向的原因。没有数据，大厂就不会做，就是我们创业公司的机会。可以说痛苦与快乐并存，继续踏实做事就行。

EqualOcean：作为投资、创业和技术复合背景人才，您如何看待现阶段的资本入局生成式AI？

尚晏仪：我觉得主要有几个方向。首先，ChatGPT证明了一套技术框架的可行性，中国目前还没有、但一定是需要一套自主的语言大模型。这个大模型更可能出自于掌握大算力和海量数据的头部大厂，最后肯定会有一个大模型跑出来，这里面包含一个很大的机会。

另一个方向就是关注数据相对匮乏的领域的创业公司，也就是从事其他方向上的内容生成。比如我们的AI要生成操作软件的方法，相关数据过往没有被机器大量沉淀，可能有人录过教学视频，但这是机器不可读的格式；也可能有人撰写过操作文档，但机器也不可读。但因为我们采用了和ChatGPT相似的框架，通过积累数据，未来我们的模型也能够取得优于百分之八九十的人类的表现。软件本身就代表着生产力和生产价值，这在应用上是很有意义的。

此外，一些对现有行业进行赋能的工具类应用也值得关注。行业自身沉淀了大量数据，希望通过ChatGPT的模型提升工作流效率，这时就需要通过相关的工具作为桥梁。比如，可能有数十万中小电商卖家希望借助工具使用ChatGPT的能力，搭建自己的客服。

EqualOcean：您创立跨越星空的初衷和想解决的核心问题是什么？

尚晏仪：当下，软件已经覆盖到人类社会的各行各业、方方面面。我们处在一个人与软件频繁交互的时代。在这个过程中，我们经常发现自己不知道该用什么软件、如何操作来达成自己的最终目的。甚至使用photoshop和CAD成为大学里的一门课程，一个专业和公司里的一个岗位，人们需要经过专门的培训学习才能掌握使用软件的方法。基于这样的发现，我创立了跨越星空，希望通过AI使得操作软件的过程变得“言出法随”——我只需用自然语言表达我的意图，软件就可以自动完成相关操作。

我们也看到了很多类似的社会问题：银行几年前就已经推出移动应用，但还是有很多老年人在银行排队办业务；也有很多人不会在手机上预约，而是在门诊窗口排队看病。我们这代人之所以能熟练使用部分软件，主要是我们成长的时代背景所致，但上一代人的数字化能力可能整体相对欠缺。

我是使用拼音输入法的，我妈妈则习惯使用五笔输入法，这两种输入法之间其实并没有间隔很多年。这种差异让我意识到，我当下所熟悉的图形界面和软件交互方式可能也不会长期持续下去，而是会逐步进化为自然语言交互。后来我多次去中学调研，发现现在的00后、05后在逐步抛弃键盘输入法，他们更喜欢使用语音交流。

人机交互方式的迭代在推着我们往前走。当下的图形界面基本上由微软和苹果主导，回看技术发展史，在DOS界面时代，只有经过严格训练的工程师才具备和机器交互的能力，就像我们平时在电影里看到的黑客桌面。那个时代的程序员难以想象未来仅通过鼠标就可以和机器交互。所以我们也不能固步自封，而是要不断突破现状看未来。

EqualOcean：为什么跨越星空的业务率先落地互联网、金融和政务领域？

尚晏仪：目前我们的模型可迁移性已经很强了，它在学习一款新软件时需要的数据越来越少。跨越星空更专注的目标就是不断降低模型的再学习成本，尤其是学习过程中涉及到的人工标注成本。因为我们雇佣一个会使用Salesforce的人来标注数据成本是很高的，他们在美国轻轻松松就可以找到月薪上万美金的工作。但训练模型的好处在于边际效应很高，我们只需教会一个模型，它就可以无限地工作。如果是培训人类使用软件，10万个人就需要培训10万遍。

跨越星空现在主要落地在一些痛点更明确的领域。以我们服务的一些全国性银行为例，这些银行内部有几十万员工，外部有上亿客户，仅一款网银的指导手册就有几百页那么长，更不用说银行内部存在多套类似的系统。让客户自己对照几百页的文档学会使用网银，这是很困难的。如果客户电话求助客户经理，又会遇到不少困难。出于保护隐私的考虑，客户不愿直接共享屏幕交由经理操作，但经理又很难仅凭语言交流教会客户如何操作。这都是银行普遍存在的痛点。

跨越星空的产品主要由两部分组成，一部分是模型，主要是部署在云上，用于生成式模型的计算；另一部分是内置到客户软件中的插件，用于模拟和代替人类操作软件。不知道你有没有这种经历？刚下载的软件，打开后就弹出新手引导，用户也不知道为什么要看这些，全部选择跳过，等真正遇到问题时又找不到这个新手引导，找到的只能是一大堆看不懂的文字。我们的插件是随取随用的，用户遇到问题时把它“召唤”出来，代替自己完成操作。

EqualOcean：跨越星空下一步的研发和业务探索方向在何处？

尚晏仪：从创业一开始我们就意识到，我们的产品在各行各业都存在需求，理论上只要有软件就用得到我们。但商务拓展资源有限，所以像抖音这种操作简单、不需要提效的社交软件就不在我们的拓展方向里。我们发现，场景复杂多样、内容体量大、用户意图相对明确且对提效有需求的领域是比较适合我们的，比如金融、政务、医疗以及大型企业内部的生产力软件。

此外，在技术层面，我们希望通过更多的训练，使得我们通用大模型每次计算的成本逐渐下降，整体对存储和算力的消耗不断降低。

由于数据来源较少，我们对每一份数据的重视程度都更高，也在不断优化数据清洗的技术。

EqualOcean：生成式AI是否将取代人类创作者和人类员工？未来人类应以何种模式与AI共存？

尚晏仪：我觉得不会。人工智能是人创造的，在技术发展的过程中，人们今天能创造出ChatGPT，未来还能创造更伟大的产品，本质是因为人拥有聪明才智。把生成式AI看做工具就是一种比较好的心态。