【EqualOcean】大模型之路｜ChatGPT与文心一言的选择

2023年以来，人工智能领域乃至科技界的明星当属ChatGPT。ChatGPT是由美国公司OpenAI开发的一个基于人工智能技术的语言大模型，它能够帮助人们回答各种的问题，提供相关的知识和信息。ChatGPT问世爆火后，中国的科技公司纷纷宣布在大模型领域早有布局。过去几年宣称深耕人工智能领域的百度，率先发布了多模态大模型“文心一言”，在国内相关领域拔得头筹。虽然仅开放了测试功能，文心一言仍在打造中国版ChatGPT的过程中被寄予了期望。

文心一言，避开国际竞争

ChatGPT从诞生之初就是一个多语言大模型。公开论文显示，按语种划分，ChatGPT的英文数据集占据了将近50%，其余主流语言均有涉及。MMLU测试结果表明，GPT-4的多语言解决问题能力十分强大，26个测试项目中有24个优于GPT-3.5与其他大模型。从后续的用户反馈中我们得知，ChatGPT在英文反应速度和内容质量上优于中文，但从整体看，表现仍优于其他模型。

WechatIMG530.jpeg.jpeg

GPT-4跨语言MMLU测试结果。图片来源：OpenAI官网截图

OpenAI公布的训练GPT模型采用的三种方式：有监督微调（Supervised Fine-Tuning, SFT）， FeedME（Feedback Made Easy）、人类反馈的强化学习（PPO），都是大模型训练时常用的方法。但由于训练过程复杂，数据集不透明，加上长期技术迭代等，外界复制ChatGPT并不容易，ChatGPT目前在大模型领域的霸主地位无人能够撼动。

百度官方称，文心一言大模型训练数据来自互联网公开数据，创始人李彦宏在发布会上亦重点展示了其中文理解的能力。李彦宏表示，对于英语及其他语种的态度是“慢慢尝试”。比起ChatGPT的多语种跨国界应用，文心一言选择的发展策略偏重中文市场。

这不难理解。首先，百度深耕多年积累起的强大中文语料资源，是文心一言朝中文大模型发展的有力支柱。百度CTO王海峰在接受媒体采访时表示，除了大模型训练常用的三种方法，文心一言还引入了三种创新方法，包括知识增强、检索增强和对话增强。这三种方法依赖的无标注数据、搜索架构和对话技术，百度的可拓展资源（如用户真实反馈、搜索请求）主要在中文领域。

其次，ChatGPT目前在中国内地无法正常使用。由于各方面文化差异，ChatGPT在短时间内进入中国市场的机会不大。已经建立起的需求亟需满足，依靠OpenAI的“烧钱模式”创造中国的ChatGPT，无论是在时间上还是成本上都不现实。文心一言在接受与ChatGPT差距的同时，优先抓住中国市场是必然选择。

同样的技术，不同的方向

大模型技术如雨后春笋般出现，其可用度吸引了不同企业与个人用户。目前的公开信息显示，ChatGPT与文心一言在探索商业化模式上出现了差异。

ChatGPT超越TikTok成为用户活跃增长最快的公司，显然是靠C端用户。2023年2月，ChatGPT面向C端的个人用户推出了付费版ChatGPTPlus，每月收费20美元。有消息称，ChatGPT的商业版也将推出，目前尚不清楚其定价及成本。

与ChatGPT相比，文心一言的B端倾向更强。发布会前后，百度的外宣更多关注与企业合作建立生态圈。据财经十一人报道，目前百度将文心一言定义为“一个通用的赋能平台”，希望其他行业基于文心一言来做智能化改造，实现效率提升，在这一点上，OpenAI只允许微软系产品接入，封闭性更强。百度官方微博称，截止到2023年3月20日，已有超过10万企业用户排队申请文心一言企业版API调用服务测试。对C端的赋能，百度似乎没有过多宣传。

强大如ChatGPT，仍处于亏损状态，比起技术的突飞猛进，大模型商业化的探索显得磕磕绊绊。小冰CEO李笛在接受北京商报采访时表示，大模型运行成本巨大，TOB与TOC盈利方式不同，要想商业化落地，首先必须解决准确性问题，在这个基础上再考虑进一步优化成本。TOB好还是TOC好？这个问题目前没人能准确回答。

在不确定中迎接挑战

当人们为技术进步兴奋、欢呼或者惆怅时，来自监管层面的压力对ChatGPT的落地应用泼了一盆冷水。当地时间3月31日，意大利当局宣布全域禁止使用ChatGPT。随后，德国、法国、爱尔兰、西班牙等欧洲国家的监管机构也相继表达了考虑暂时禁用ChatGPT的可能性。4月11日，美国政府开始研究对ChatGPT等人工智能工具进行审查。

同样，在中国国内，4月11日，国家互联网信息办公室就《生成式人工智能服务管理办法（征求意见稿）》公开征求意见，这预示着文心一言类的产品在国内落地应用的合规成本将会提升。

未来人工智能技术如何与用户、公共政策制定者、社会进行良性互动，是除了技术更新迭代与商业化以外必须考虑的问题。

ChatGPT以“大力出奇迹”的模式走到了行业前列，短期内没有其他大模型可以取代其地位。文心一言在中国国内则没有那么幸运。在ChatGPT无法进入中国的情况下，其他中国科技公司对文心一言的挑战不小。

4月11日，阿里发布语言大模型“通义千问”。阿里云CTO周靖人在接受CSDN访谈时表示，“通义千问”在训练时，既有中文语料，也有跨语种语料，既能做机器翻译，也能自动切换各语种，是一个多语种的智慧体。目前，通义千问处于从语言模型到多模态模型发展的过程中，文心一言已经是多模态模型，通义千问稍落后于文心一言。从长远来看，未来要开辟国际市场，通义千问的多语种模型更有优势。

比起与ChatGPT的竞争，中国企业内部的竞争在接下来一段时间会更加激烈。华为、京东、腾讯、字节跳动、科大讯飞都向外界透露了相关领域的积累，大模型之战才刚刚开始。可以预见的是，这些科技巨头一定会踩着前人的石头过河。百度虽走在最前，抢占了市场先机，但前期探索的成本不小。未来大模型落地向垂直领域纵深发展时，产品的优劣很快能分出胜负。