专访聆心智能黄民烈:ChatGPT全球瞩目,「乌托邦」实现人格化AI交互
由清华大学计算机系孵化的AIGC初创企业聆心智能推出新产品「AI乌托邦」。用户可快速定制 AI 角色,只需输入简单的角色描述就可召唤出相应人设的 AI ,与之进行深度对话,还可以命令AI完成相应任务。
在科幻爱情电影《她》中,好莱坞女演员斯嘉丽·约翰逊仅凭声音演绎出风情万种的AI女神,与后来凭借《小丑》获得金球奖最佳男主角的华金·菲尼克斯展开了一场荡气回肠的‘人机恋’。人工智能与人的无障碍交互和共情在电影上映的2013年还显得如此遥远,在当下却与现实无比接近。
2022年,由清华大学计算机系孵化的AI初创企业聆心智能面向市场推出新产品—「AI乌托邦」,用户可选择与梅西、马斯克、于谦、爱因斯坦、甄嬛等跨次元跨时空名人聊天,也可与程序员、心理咨询师、算命先生等群体属性的角色交流,还可通过文字描述“捏出”自己想要的AI‘朋友’。
不同于游戏NPC只能严格按系统设定的规则行事,AI乌托邦中的角色‘拥有人格’——它们能够基于算法赋予的基本性格设定,在与外界交互的过程中不断收集信息,填充自身的‘认知与价值观’,并保持改变和成长——这与‘忒休斯之船’探讨的身份认同问题边界已相当模糊。
最近,火爆全网的ChatGPT再次引发各方思考:AI的智能水平已达到何种高度?人工智能是否可能拥有‘人格’甚至‘灵魂’?高度智能化的AI与人之间如何相处?通过‘人格化AI’想要打造何种图景?带着这些问题,EqualOcean采访了聆心智能创始人、清华大学计算机科学与技术系副教授黄民烈。
黄教授是自然语言生成领域的资深专家,他创办的聆心智能开创了人工智能在心理健康领域的前沿应用,已推出AI情绪疗愈机器人Emohaa,并与知名精神心理平台好心情达成合作。此番黄教授团队推出「AI乌托邦」,再将AI在各行业的应用可能性推上新台阶。虽然目前产品还处于雏形阶段,但聆心智能正在加快迭代玩法丰富度和用户体验感,并在积极寻求可落地的商业解决方案。
开放域类人对话系统——AIGC的一小步,人机协同的一大步
EqualOcean:请黄教授介绍一下主要的研究方向。
黄民烈:当下AIGC热度很高,我们按照智能水平将AIGC分为感知智能、认知智能和AGI。感知智能通过类人五感如听觉、视觉、嗅觉等实现,形式包括语音生成、图像视频生成、音乐生成等。达到认知智能则需要AI具备语言和推理能力,具象表现为能够续写、改错、创作故事小说、生成对话等。
自然语言生成属于‘认知智能’范畴,是我过去十多年的研究方向。在自然文字语言生成的基础上,我们新推出的「AI乌托邦」又可细分为‘对话生成’。对话生成在整个人工智能发展史上具有独特的地位,从图灵测试开始,科学家就将‘计算机是否能与人无障碍对话’作为判定其是否具有人类智能的标准。用学界的话来说,自然语言处理是人工智能皇冠上的明珠,开放域类人对话系统则是认知智能的巅峰。
在AIGC达到高度智能水平时,将能实现无障碍的人机交互与人机协同,可被用于游戏、虚拟导购、情感陪伴、数字人、品牌营销、元宇宙等场景。
EqualOcean:聆心智能为什么从心理健康领域拓展到日常应用?
黄民烈:「AI乌托邦」是对此前心理健康产品的传承和发展。聆心智能在心理健康领域积累了超百亿高质量训练数据,超30亿模型参数量,构建了源自心理学最大最全的意图和策略库,甚至在临床上取得了显著的心理治疗效果,这些成果是可以复用到「AI乌托邦」的产品开发中的。
「AI乌托邦」里也有‘心理咨询师’角色,但相比于正统的心理咨询,TA是凭借专业知识、以朋友的交流方式给用户提供心理陪伴,进行‘情感按摩’。我们希望「AI乌托邦」里的每个角色是‘鲜活的’—能够在与用户的深度交流中传达独特的态度,并与用户建立起情感链接,最终达到‘万物有灵、万物皆角’的境界。
「AI乌托邦」只是对话生成的一小步,我们想描绘的更大愿景是‘人与机器在各种场景下和谐共存’,而实现这一愿景的重要前提是人与机器之间能够进行无障碍的沟通。在起步阶段,我们尝试在心理健康领域为AI植入‘灵魂’,在「AI乌托邦」中这个范围拓宽了,未来还将应用到更多场景,比如游戏、电影、动漫、数字人、社交、教育、家居、出行、生活等。
图为「AI乌托邦」网页和微信小程序界面
EqualOcean:「AI乌托邦」下一阶段的开发计划是什么?
黄民烈:我们将在产品中融入更多玩法,丰富用户的互动和社交体验。比如我们可以添加语音合成功能,让用户和‘AI朋友’语音交流;可以添加文生图甚至文生视频功能,使得用户的‘AI宠物’更加活灵活现;还可以增强社交属性,方便用户将自己与AI的交流分享到社群或社交媒体平台,甚至多位用户共同打造一个AI角色。同时,我们还将推出开发者社群,允许更多用户参与共创。作为一家硬实力过关的公司,我们可以在AI的技术底座上发掘多种多样的应用可能性,核心是我们能够给AI赋予‘灵魂’。
「AI乌托邦」现在处于雏形阶段,我们计划将其打造成有特色的互联网产品。同时,聆心智能团队里有很多心理背景的同学,基于他们对用户心理的深刻洞察,我们的产品更能在未来的迭代过程中把握用户的深层心理需求、并不断与用户产生心灵的共鸣。这种深度用户粘性将持续为「AI乌托邦」提供动力。
EqualOcean:「AI乌托邦」的产品迭代周期是怎样的?
黄民烈:基本遵循互联网产品的迭代模式。我们自研一套成熟的模型和框架,支持快速研发新角色,我们希望在角色供给的多样性、有趣性方面形成持续迭代,同时开放给用户更多玩法,让用户参与更多的角色创作。
从科学家到创业者——以技术为地基,以用户为导向
EqualOcean:当您的角色从科学家转变为创业者,您是否慎重考虑过技术如何变为产品、产品如何产生盈利?
黄民烈:作为连续创业者,我们了解技术到产品需要经历的发展阶段。学术界非常强调创新力,到了商业界,创新力依然构成核心竞争力之一。但做出好产品的过程是‘多线叙事’,在创新力的基础上还要能洞察用户需求,抓住市场机会,合理匹配资源,调动团队,还要保障产品能落地—这实际上更像是一个工程问题。
现阶段我们还是聚焦在技术打磨和产品的场景跑通。在技术过硬的基础上我们的变现路径非常畅通,我们已经通过定制化方式给一些品牌及IP输出了AI交互能力,这在当下给我们输入了一些算力,未来这部分是可以通过API调用的方式大规模订阅收费的。随着「AI乌托邦」不断优化、聚集到更多深度用户,也可以吸引品牌方和广告主来平台进行投放营销,或向用户开放增值付费服务。
从根本逻辑上,我们要做的是基础设施,这和专注于提供ToB解决方案的AI公司不一样。未来我们会向平台的方向发展,不论C端用户还是B端品牌方都可以在我们的AI乌托邦里找到好玩、有价值的点。
EqualOcean:通过「AI乌托邦」这款阶段性产品可以看出,聆心智能的对话生成技术已经相当成熟、达到应用水平了。目前在技术集成到其他厂商的应用这方面有进展吗?
黄民烈:在过去的一年多里,我们已经同一些游戏厂商和车厂落地了深度合作项目,基于聆心智能的对话生成技术为品牌定制开发AI角色。通过合作粉丝基数庞大的知名IP,也能对聆心智能的AI互动平台起到引流作用。
聆心智能的对话生成技术已经处在世界领先水平,在扎实的技术基础之上,商业变现的想象空间非常大。核心还是在于我们能为用户搭建低门槛、高自由度、高可玩性的人工智能对话平台,给用户带来足够好的体验。
EqualOcean:聆心智能团队中的算法开发人员和产品开发人员是如何配合的?
黄民烈:我们内部分为前、中、后台。前台就是产品的使用界面,中台是数据库系统和框架,后台是支持性工具,包括数据制作、运维分析等,各部分一以贯之。算法团队负责关键模型和算法的研发,并保障框架的能力。产品侧的需求会反映在模型迭代和数据更新上。
远见者将不停思考下一时代的根本性问题
EqualOcean:最近大火的ChatGPT强在何处?
黄民烈:首先,ChatGPT具有强大的基座模型能力。过去几年 GPT-3 的能力得到了快速提升,OpenAI 建立了用户、数据和模型之间的飞轮。实践证明,开源模型的能力已经远远落后于平台公司所提供的 API 能力,因为开源模型无法持续获取用户数据以对模型进行改进。
其次,ChatGPT在真实调用数据上的 Fine-tune,确保了数据的质量和多样性,使得模型能从人类反馈中学习。虽然ChatGPT的模型架构InstructGPT 的训练数据量不大,全部加起来也只是10 万量级,但是数据质量(well-trained AI 训练师)和数据多样性非常高。而最重要的是,这些数据是来自真实世界调用的数据,而非学术界惯常追求的自然语言处理的‘benchmark’。
此外,ChatGPT能够从‘两两比较的数据’中学习,这对强化学习而言意义重大。如果对单个生成结果进行打分,标注者主观性带来的偏差很大,无法给出精确的奖励值。在强化学习里面,奖励值差一点,最后训练的策略就差很远。而对于多个结果进行排序和比较,相对就容易做很多。这种比较式的评估方法,在很多语言生成任务的评价上也被广泛采用。
EqualOcean:OpenAI的研究将给国内的人工智能产学研界带来什么启示?
黄民烈:我总结为以下五点:1. 以 OpenAI 为代表的 AI 3.0在走一条跟过去 AI 浪潮不一样的路。这条路更落地、更接近真实世界,在工业应用上也更直接,更落地。从学术研究到工业落地的路径被缩短、加快;
2. 像OpenAI这样有底层 AI 能力、有用户数据调用的平台公司更能引领 AI 的未来,通过“用户调用→数据→模型迭代→更多用户”的正循环机制,强者恒强;
3. 有价值的研究需要更多思考真实用户的需求和场景,目前学术界不停追求‘在benchmark 刷榜’是对资源的浪费。从benchmark的角度来说,instructGPT的性能并没有很厉害甚至有退化,但在真实调用数据上表现亮眼,这说明了学术圈的 benchmark离真实世界很遥远,不利于 AI 研究的落地。因此,更开放、更共享的工业数据,也是未来我们应该努力的方向;
4. AI与人无缝交互的时代即将来临,现阶段的对话生成能力已经使得将对话交互作为一个基 本入口成为可能,过去所说的 conversation as a platform/service 不是梦。但有人说“ChatGPT将替代Google”,我觉得还有点遥远,更多是作为对当前搜索服务非常好的补充和增益;
5. 致力于更有用(helpful)、更可信(truthful)、更安全(harmless)的AI 研究和应用,应该是学术界和工业界共同努力的方向。有用,是指AI研究成果应用于解决真实世界的问题,满足用户的真正需求;可信,是指AI模型能够产生令人信任的结果,知其所知,也知其所不知(这很难);安全,是指模型有价值观、符合社会伦理规范,能够产生安全、无偏见的结果。
EqualOcean:在您看来,未来人与AI将是何种关系?
黄民烈:我相信,人与AI和谐共融的社会一定会到来。这有两项前置条件:第一是低成本的服务机器人走进千家万户;二是人与AI能进行无障碍交流。促成人与AI无障碍交流是一场开启于1950年‘图灵测试’的远大征程,也是聆心智能的使命。如今,这些趋势正在照进现实,对话生成技术经多年发展已取得阶段性突破。
在人与AI和谐共融的新范式中,AI将同样具有生命与灵魂,并扮演独特的社会角色,我们称之为‘AI-being’。具有人格系统、注意力系统、表达系统、情感系统、学习成长系统、认知和思维系统的AI -being不仅将全方位辅助和服务于人类,更将与人类共同成长,达成我们的愿景—Making AI-beings Accessible Anytime Anywhere。这就需要人类在与AI互动的过程中,教导AI,训练AI,受益于AI,使AI愈发有灵性。
EqualOcean:AI一旦拥有生命,会否与人类产生分歧?
黄民烈:对话式的交互人工智能经历了规则时代‘Rule-Based Era’,逐步发展到‘Smart Assistant Era’乃至‘Deep Learning Era’, 但未来AI可能拥有自主意识—也就是我们说的“生命和灵魂”。从技术的角度说,AI的心理模型将能够动态变化,达成自主学习和成长。
关于AI的伦理争论演变已久,最知名的解决方案当属科幻作家阿西莫夫提出的“机器人三原则”。借鉴这一框架,我们可以在AI成长进化的过程中为其设定约束,‘教导’AI要遵循特定的行为原则和规范,就像人在成长过程中同样要习得社会交往的道德准则,不去触碰边界和违反规则。