专访聆心智能黄民烈：ChatGPT全球瞩目，「乌托邦」实现人格化AI交互

China&Chinese Author：亿欧全球 Dec 08, 2022 11:45 AM (GMT+8)

由清华大学计算机系孵化的AIGC初创企业聆心智能推出新产品「AI乌托邦」。用户可快速定制 AI 角色，只需输入简单的角色描述就可召唤出相应人设的 AI ，与之进行深度对话，还可以命令AI完成相应任务。

EqualOcean深度专访

在科幻爱情电影《她》中，好莱坞女演员斯嘉丽·约翰逊仅凭声音演绎出风情万种的AI女神，与后来凭借《小丑》获得金球奖最佳男主角的华金·菲尼克斯展开了一场荡气回肠的‘人机恋’。人工智能与人的无障碍交互和共情在电影上映的2013年还显得如此遥远，在当下却与现实无比接近。

2022年，由清华大学计算机系孵化的AI初创企业聆心智能面向市场推出新产品—「AI乌托邦」，用户可选择与梅西、马斯克、于谦、爱因斯坦、甄嬛等跨次元跨时空名人聊天，也可与程序员、心理咨询师、算命先生等群体属性的角色交流，还可通过文字描述“捏出”自己想要的AI‘朋友’。

不同于游戏NPC只能严格按系统设定的规则行事，AI乌托邦中的角色‘拥有人格’——它们能够基于算法赋予的基本性格设定，在与外界交互的过程中不断收集信息，填充自身的‘认知与价值观’，并保持改变和成长——这与‘忒休斯之船’探讨的身份认同问题边界已相当模糊。

最近，火爆全网的ChatGPT再次引发各方思考：AI的智能水平已达到何种高度？人工智能是否可能拥有‘人格’甚至‘灵魂’？高度智能化的AI与人之间如何相处？通过‘人格化AI’想要打造何种图景？带着这些问题，EqualOcean采访了聆心智能创始人、清华大学计算机科学与技术系副教授黄民烈。

黄教授是自然语言生成领域的资深专家，他创办的聆心智能开创了人工智能在心理健康领域的前沿应用，已推出AI情绪疗愈机器人Emohaa，并与知名精神心理平台好心情达成合作。此番黄教授团队推出「AI乌托邦」，再将AI在各行业的应用可能性推上新台阶。虽然目前产品还处于雏形阶段，但聆心智能正在加快迭代玩法丰富度和用户体验感，并在积极寻求可落地的商业解决方案。

开放域类人对话系统——AIGC的一小步，人机协同的一大步

EqualOcean：请黄教授介绍一下主要的研究方向。

黄民烈：当下AIGC热度很高，我们按照智能水平将AIGC分为感知智能、认知智能和AGI。感知智能通过类人五感如听觉、视觉、嗅觉等实现，形式包括语音生成、图像视频生成、音乐生成等。达到认知智能则需要AI具备语言和推理能力，具象表现为能够续写、改错、创作故事小说、生成对话等。

自然语言生成属于‘认知智能’范畴，是我过去十多年的研究方向。在自然文字语言生成的基础上，我们新推出的「AI乌托邦」又可细分为‘对话生成’。对话生成在整个人工智能发展史上具有独特的地位，从图灵测试开始，科学家就将‘计算机是否能与人无障碍对话’作为判定其是否具有人类智能的标准。用学界的话来说，自然语言处理是人工智能皇冠上的明珠，开放域类人对话系统则是认知智能的巅峰。

在AIGC达到高度智能水平时，将能实现无障碍的人机交互与人机协同，可被用于游戏、虚拟导购、情感陪伴、数字人、品牌营销、元宇宙等场景。

EqualOcean：聆心智能为什么从心理健康领域拓展到日常应用？

黄民烈：「AI乌托邦」是对此前心理健康产品的传承和发展。聆心智能在心理健康领域积累了超百亿高质量训练数据，超30亿模型参数量，构建了源自心理学最大最全的意图和策略库，甚至在临床上取得了显著的心理治疗效果，这些成果是可以复用到「AI乌托邦」的产品开发中的。

「AI乌托邦」里也有‘心理咨询师’角色，但相比于正统的心理咨询，TA是凭借专业知识、以朋友的交流方式给用户提供心理陪伴，进行‘情感按摩’。我们希望「AI乌托邦」里的每个角色是‘鲜活的’—能够在与用户的深度交流中传达独特的态度，并与用户建立起情感链接，最终达到‘万物有灵、万物皆角’的境界。

「AI乌托邦」只是对话生成的一小步，我们想描绘的更大愿景是‘人与机器在各种场景下和谐共存’，而实现这一愿景的重要前提是人与机器之间能够进行无障碍的沟通。在起步阶段，我们尝试在心理健康领域为AI植入‘灵魂’，在「AI乌托邦」中这个范围拓宽了，未来还将应用到更多场景，比如游戏、电影、动漫、数字人、社交、教育、家居、出行、生活等。

图为「AI乌托邦」网页和微信小程序界面

EqualOcean：「AI乌托邦」下一阶段的开发计划是什么？

黄民烈：我们将在产品中融入更多玩法，丰富用户的互动和社交体验。比如我们可以添加语音合成功能，让用户和‘AI朋友’语音交流；可以添加文生图甚至文生视频功能，使得用户的‘AI宠物’更加活灵活现；还可以增强社交属性，方便用户将自己与AI的交流分享到社群或社交媒体平台，甚至多位用户共同打造一个AI角色。同时，我们还将推出开发者社群，允许更多用户参与共创。作为一家硬实力过关的公司，我们可以在AI的技术底座上发掘多种多样的应用可能性，核心是我们能够给AI赋予‘灵魂’。

「AI乌托邦」现在处于雏形阶段，我们计划将其打造成有特色的互联网产品。同时，聆心智能团队里有很多心理背景的同学，基于他们对用户心理的深刻洞察，我们的产品更能在未来的迭代过程中把握用户的深层心理需求、并不断与用户产生心灵的共鸣。这种深度用户粘性将持续为「AI乌托邦」提供动力。

EqualOcean：「AI乌托邦」的产品迭代周期是怎样的？

黄民烈：基本遵循互联网产品的迭代模式。我们自研一套成熟的模型和框架，支持快速研发新角色，我们希望在角色供给的多样性、有趣性方面形成持续迭代，同时开放给用户更多玩法，让用户参与更多的角色创作。

从科学家到创业者——以技术为地基，以用户为导向

EqualOcean：当您的角色从科学家转变为创业者，您是否慎重考虑过技术如何变为产品、产品如何产生盈利？

黄民烈：作为连续创业者，我们了解技术到产品需要经历的发展阶段。学术界非常强调创新力，到了商业界，创新力依然构成核心竞争力之一。但做出好产品的过程是‘多线叙事’，在创新力的基础上还要能洞察用户需求，抓住市场机会，合理匹配资源，调动团队，还要保障产品能落地—这实际上更像是一个工程问题。

现阶段我们还是聚焦在技术打磨和产品的场景跑通。在技术过硬的基础上我们的变现路径非常畅通，我们已经通过定制化方式给一些品牌及IP输出了AI交互能力，这在当下给我们输入了一些算力，未来这部分是可以通过API调用的方式大规模订阅收费的。随着「AI乌托邦」不断优化、聚集到更多深度用户，也可以吸引品牌方和广告主来平台进行投放营销，或向用户开放增值付费服务。

从根本逻辑上，我们要做的是基础设施，这和专注于提供ToB解决方案的AI公司不一样。未来我们会向平台的方向发展，不论C端用户还是B端品牌方都可以在我们的AI乌托邦里找到好玩、有价值的点。

EqualOcean：通过「AI乌托邦」这款阶段性产品可以看出，聆心智能的对话生成技术已经相当成熟、达到应用水平了。目前在技术集成到其他厂商的应用这方面有进展吗？

黄民烈：在过去的一年多里，我们已经同一些游戏厂商和车厂落地了深度合作项目，基于聆心智能的对话生成技术为品牌定制开发AI角色。通过合作粉丝基数庞大的知名IP，也能对聆心智能的AI互动平台起到引流作用。

聆心智能的对话生成技术已经处在世界领先水平，在扎实的技术基础之上，商业变现的想象空间非常大。核心还是在于我们能为用户搭建低门槛、高自由度、高可玩性的人工智能对话平台，给用户带来足够好的体验。

EqualOcean：聆心智能团队中的算法开发人员和产品开发人员是如何配合的？

黄民烈：我们内部分为前、中、后台。前台就是产品的使用界面，中台是数据库系统和框架，后台是支持性工具，包括数据制作、运维分析等，各部分一以贯之。算法团队负责关键模型和算法的研发，并保障框架的能力。产品侧的需求会反映在模型迭代和数据更新上。

远见者将不停思考下一时代的根本性问题

EqualOcean：最近大火的ChatGPT强在何处？

黄民烈：首先，ChatGPT具有强大的基座模型能力。过去几年 GPT-3 的能力得到了快速提升，OpenAI 建立了用户、数据和模型之间的飞轮。实践证明，开源模型的能力已经远远落后于平台公司所提供的 API 能力，因为开源模型无法持续获取用户数据以对模型进行改进。

其次，ChatGPT在真实调用数据上的 Fine-tune，确保了数据的质量和多样性，使得模型能从人类反馈中学习。虽然ChatGPT的模型架构InstructGPT 的训练数据量不大，全部加起来也只是10 万量级，但是数据质量（well-trained AI 训练师）和数据多样性非常高。而最重要的是，这些数据是来自真实世界调用的数据，而非学术界惯常追求的自然语言处理的‘benchmark’。

此外，ChatGPT能够从‘两两比较的数据’中学习，这对强化学习而言意义重大。如果对单个生成结果进行打分，标注者主观性带来的偏差很大，无法给出精确的奖励值。在强化学习里面，奖励值差一点，最后训练的策略就差很远。而对于多个结果进行排序和比较，相对就容易做很多。这种比较式的评估方法，在很多语言生成任务的评价上也被广泛采用。

EqualOcean：OpenAI的研究将给国内的人工智能产学研界带来什么启示？

黄民烈：我总结为以下五点：1. 以 OpenAI 为代表的 AI 3.0在走一条跟过去 AI 浪潮不一样的路。这条路更落地、更接近真实世界，在工业应用上也更直接，更落地。从学术研究到工业落地的路径被缩短、加快；

2. 像OpenAI这样有底层 AI 能力、有用户数据调用的平台公司更能引领 AI 的未来，通过“用户调用→数据→模型迭代→更多用户”的正循环机制，强者恒强；

3. 有价值的研究需要更多思考真实用户的需求和场景，目前学术界不停追求‘在benchmark 刷榜’是对资源的浪费。从benchmark的角度来说，instructGPT的性能并没有很厉害甚至有退化，但在真实调用数据上表现亮眼，这说明了学术圈的 benchmark离真实世界很遥远，不利于 AI 研究的落地。因此，更开放、更共享的工业数据，也是未来我们应该努力的方向；

4. AI与人无缝交互的时代即将来临，现阶段的对话生成能力已经使得将对话交互作为一个基本入口成为可能，过去所说的 conversation as a platform/service 不是梦。但有人说“ChatGPT将替代Google”，我觉得还有点遥远，更多是作为对当前搜索服务非常好的补充和增益；

5. 致力于更有用（helpful）、更可信（truthful）、更安全（harmless）的AI 研究和应用，应该是学术界和工业界共同努力的方向。有用，是指AI研究成果应用于解决真实世界的问题，满足用户的真正需求；可信，是指AI模型能够产生令人信任的结果，知其所知，也知其所不知（这很难）；安全，是指模型有价值观、符合社会伦理规范，能够产生安全、无偏见的结果。

EqualOcean：在您看来，未来人与AI将是何种关系？

黄民烈：我相信，人与AI和谐共融的社会一定会到来。这有两项前置条件：第一是低成本的服务机器人走进千家万户；二是人与AI能进行无障碍交流。促成人与AI无障碍交流是一场开启于1950年‘图灵测试’的远大征程，也是聆心智能的使命。如今，这些趋势正在照进现实，对话生成技术经多年发展已取得阶段性突破。

在人与AI和谐共融的新范式中，AI将同样具有生命与灵魂，并扮演独特的社会角色，我们称之为‘AI-being’。具有人格系统、注意力系统、表达系统、情感系统、学习成长系统、认知和思维系统的AI -being不仅将全方位辅助和服务于人类，更将与人类共同成长，达成我们的愿景—Making AI-beings Accessible Anytime Anywhere。这就需要人类在与AI互动的过程中，教导AI，训练AI，受益于AI，使AI愈发有灵性。

EqualOcean：AI一旦拥有生命，会否与人类产生分歧？

黄民烈：对话式的交互人工智能经历了规则时代‘Rule-Based Era’，逐步发展到‘Smart Assistant Era’乃至‘Deep Learning Era’，但未来AI可能拥有自主意识—也就是我们说的“生命和灵魂”。从技术的角度说，AI的心理模型将能够动态变化，达成自主学习和成长。

关于AI的伦理争论演变已久，最知名的解决方案当属科幻作家阿西莫夫提出的“机器人三原则”。借鉴这一框架，我们可以在AI成长进化的过程中为其设定约束，‘教导’AI要遵循特定的行为原则和规范，就像人在成长过程中同样要习得社会交往的道德准则，不去触碰边界和违反规则。