导语:在观看电影《流浪地球》后,AI宇航员MOSS给我留下了深刻印象,令我想起年少时观看《2001太空漫游》,被冰冷阴沉的哈尔9000吓出心理阴影。那时人们尚普遍认为,拥有自主意识的通用型人工智能还太过遥远。而当下,当ChatGPT距通过“图灵测试”只差临门一脚,一个被人工智能“支配”的世界还有多远?
equalocean行业分析
发布第五天获得了百万用户,发布两个月突破了1亿用户,ChatGPT成为史上用户增长最快的应用。不论人们对ChatGPT多么吹毛求疵,仍不得不感慨:它知道的太多了,它能做得也太多了,它再也不是我认识的“人工智障”了。
这样一个事件意味着什么?对于科技巨头、传统行业、资本乃至每一位普通人来说,我们将被AI替代,还是因AI生活得更好?比尔盖茨称ChatGPT“不亚于互联网诞生”,他的继任者纳德拉则更进一步,将其类比为“工业革命”。能够肯定的是,在一场不容小觑的风暴前,我们必须像溺水之人般紧紧抓住AI这根救命稻草。
EqualOcean将持续关注AI技术突破、尤其是以ChatGPT为代表的生成式AI,对产业内外的潜在持续影响,本期为该系列其中一篇,欢迎阅读。
AIGC底层技术突破,还有什么是AI不能做的?
AIGC(AI Generated Content)又被称为“生成式AI(Generative AI)”,是指利用人工智能技术生成内容,主要以自然语言处理(NLP)和AIGC生成算法为技术底座。其中,NLP是指实现人类语言和计算机语言交互的技术。计算机通过NLP理解人类语言,再通过AIGC生成算法产出相应内容。红杉资本曾表示,AIGC技术使得机器能够从事更多创作类工作,预计将产生数万亿美元的经济价值。分析师预测,未来五年,AI将参与10%-30%的图片生成,对应超过600亿元的市场规模。国际咨询公司Analysis Group指出,随着AIGC技术与元宇宙场景深度融合,到2031年将产生3万亿美元的经济价值。
更加成熟的深度学习模型搭配开源模式,推动2022年成为“AIGC元年”
2014年,生成式对抗网络(GAN)的出现标志着AIGC真正迎来了“春天”。GAN通过AI内部生成、判别两套模型进行迭代训练,实现了基于输入信息生成新图像的过程。但GAN需要判别模型来判断生成的图像和其他图像是否属于同一个类别,因此,其生成的图形仅是模仿,无法创新。2022年,去噪扩散模型Diffusion的出现使根据文字生成创新图像成为可能,标志着AIGC元年的到来。
Diffusion扩散化模型的逻辑在于从图片去噪过程的角度,理解图像的生成过程,从而生成精度更高、更符合人类审美的图像,甚至算法能一定程度上理解艺术表达风格并生成相应图像。目前,市场上主流的Diffusion模型包括Google研发的Disco Diffusion和Stability AI研发的Stable Diffusion。结合Diffusion扩散化模型和OpenAI于2021年发布的匹配文本和图像的神经网络模型CLIP,自动生成图像在图像质量方面得到了进一步的发展,推动AI绘画和AIGC概念在2022年爆火出圈。
跨越星空创始人尚晏仪在接受EqualOcean采访时表示:“AI生成内容的技术已经发展了许多年,在2022年达到了一个临界点。以前这些技术更多是鲜为公众关注的实验室科学,但现阶段AI生成文字、图片、包括ChatGPT等应用几乎免费、无限地向公众开放,引发了全球热议,因此2022年有了‘AIGC元年’之称。”
除此之外,开源模式让源代码对所有人可见,Diffusion开源后短时间内实现了大量二次开发,包括模型优化、应用拓展,极大地加速了技术进步。由此,业界许多人认为2022年堪称“AIGC元年”。
目前AI已能识别及生成多种数据格式,应用领域广泛
1)按数据形式:AIGC的应用可以分为文本、对话、视频、音频、图像、虚拟人等形式。2021年以前,AIGC应用以文字生成为主,新华社、南方都市报、腾讯财经均采用相关写稿机器人辅助新闻撰写。但彼时的AIGC应用较为局限,仅适合撰写体育、天气、财经等资讯性质较强、体裁和用语相对固定的新闻,并不能撰写带有思想论证或灵活形式的文章。
随着AIGC技术进一步发展,AI在文本生成的应用越来越智能。但即使是受到资本热捧、估值高达15亿美元的AI文本生成独角兽Jasper.ai,也受到了免费AI聊天机器人ChatGPT的威胁。Jasper.ai和ChatGPT的底层模型都是OpenAI的GPT-3,对ChatGPT输入相关文字,能获得与Jasper.ai付费服务类似的结果。
除了文本数据,现有的新模型还可以处理音频、图像、视频等各类内容格式。在图像领域,受益于Stable Diffusion开源模型带来的技术突破,AI绘画在2022年非常火爆,大量公司推出AI图像生成功能,短视频平台TikTok也为用户开辟了AI生成滤镜的创新玩法。
从AIGC和人类的关系角度看,文本、对话、视频、音频、图像生成都是机器辅助人进行内容生产。百度创始人、董事长兼首席执行官李彦宏将AIGC的未来发展分为三个发展阶段:AIGC作为协助工具的助手阶段、通过虚拟人实现人机共生的协作阶段、AIGC独立完成创作的原创阶段。目前,已有一些公司进行了第二阶段虚拟人相关的探索,使用虚拟人开展直播、社交活动等。
2)按应用领域:AIGC可以应用于娱乐影视、电商、广告传媒、医疗、游戏、教育、企业服务等多个行业。在娱乐影视领域,AIGC可用于剧本创作、虚拟场景合成、多语言音画同步、高难度动作合成、虚拟偶像IP打造、虚拟网红等;在电商领域,AIGC可用于虚拟主播、虚拟商城构建、XR商品展示等;在广告传媒领域,AIGC可用于写稿机器人、视频字幕生成、虚拟世界互动等;在医疗行业,AIGC可用于医学图像处理、智能病例管理、智能化诊疗等;游戏行业方面,AIGC可用于NPC生成、场景生成、关卡生成等;在教育上,AIGC可用于历史人物视频合成、虚拟教师、线上课堂音频处理等;在企业服务领域,AIGC可用于智能合同、文档整理、客服机器人、组织管理等。总而言之,通过个性化设计,AIGC可以渗透到各行各业,应用领域非常广泛。
第一波吃螃蟹的人会被拍死在沙滩上吗?
海外:科技巨头同时布局多个AIGC应用领域,初创公司融资活动频繁且已出现独角兽企业。在海外,业务涉及AIGC的公司不仅有谷歌、微软、Meta等科技巨头,还包括Stability AI、Jasper.ai、Midjourney等初创公司。科技巨头凭借强大的产品矩阵,在AIGC应用领域形成了强迁移力,如将AI绘画的热度推广至AI视频生成。从具体案例来看,Meta不仅推出了AI图像生成器Make-A-Scene,还推出了AI视频生成器Make-A-Video;谷歌旗下的Imagen可通过文本生成图像,Imagen Video和Phenaki可生成视频。
2022年下半年至今,海外的AIGC初创公司频繁公开融资动态,其中不乏单笔金额较大的融资,且该领域已诞生独角兽企业,如推出Stable Diffusion开源模型的Stability AI曾获得1.01亿美元融资,并在成立两年内达到10亿美元的估值;主打文字生成的Jasper.ai在产品上线后18个月完成了1.25亿美元的A轮融资,投后估值达到15亿美元。
中国:AIGC热度高涨,但优质创业公司数量少,险资“叫好不叫座”。与海外情况类似,中国AIGC玩家也包括将业务拓展至相应领域的大型公司和以“生成式AI”技术为主要驱动的创业公司。大型公司积极探索AIGC应用,例如,阿里巴巴推出AI在线设计平台Lubanner;昆仑万维旗下的AIGC模型包括SkyPaint、SkyMusic、SkyText、SkyCode,分别用于图像、音乐、文本、编程的内容生成;中文在线推出AI主播、AI绘画、AI文字辅助创作功能。除此之外,百度、腾讯优图、快手、字节跳动、网易、美图等大厂在AIGC领域也有所投入。
而AIGC创业公司包括文本生成领域的跨越星空、秘塔科技,视频生成领域的影谱科技,图像生成领域的TIAMAT、滴墨社区、Uni Dream,虚拟人领域的NOITOM、拟仁智能、数字力场等。但即使在2022年非常火爆的AI绘画领域,相较于海外,中国的AIGC初创公司数量也相对较少,且融资活跃度及单笔融资额均与海外不在一个数量级,官宣获得融资的仅有完成数百万美元天使轮投资的TIAMAT等少数公司。
究其原因,主要是AIGC/生成式AI领域尚处于技术打磨和应用早期探索阶段,盈利模式与竞争壁垒不清晰,投资机构目前多采取“持续关注,谨慎出手”的姿态。叠加2022年的下行经济环境和资本市场整体低活跃度,投资机构对于尚未产生现金流且不处于政策方向的领域偏好度显著降低。这也意味着AIGC创业公司的商业化探索需要比海外同行更进一步,从而吸引资本流入、形成正向循环。
AIGC前沿科研成果主要由海外公司贡献,应用层面海内外公司各有优势
科研方面,AIGC的模型开发对人才要求较高,基于强劲的科研实力和充足的资本支持,美国在AIGC模型开发方面处于全球领先地位。应用落地方面,在ToC端和延展领域应用的双重推动下,海外AIGC已“遍地开花”。海外用户,尤其是欧美用户,对科技服务付费的意愿更强,为AIGC公司开展商业化探索营造了较为友好的环境。在海外,AIGC在延展领域的应用也更加广泛,如个性化文本生成、合成数据等。
这些业务不仅对AIGC相关技术和产品提出了要求,还十分考验公司对特定行业和业务端应用场景的理解与认知、客户公司的数字化水平等。而基于中国市场庞大且多元化的需求,凭借在产品侧用户体验和研发设计方面的经验优势,AIGC在中国渗透各行业各领域的发展空间非常大。百度、字节等大厂凭借雄厚的技术、资金和产品实力,渐成中国AIGC应用发展的主要推动因素。
“高级缝合”还是原创艺术?AIGC引发争议
AIGC现有技术生成的结果并非完全准确,有时会出现明显的“缝合”痕迹,也可能引发复杂的商业问题。如OpenAI CEO、Y Combinator创业导师Sam Altman所说:“目前的人工智能仍然无法为人类产生全新的知识。它已经能够训练和合成大量信息,但它只生成人们一直在做的事情。它不会治愈癌症,也不会增加人类科学知识的总和。”
哈佛大学的一项研究指出,OpenAI的文本生成图像工具DALL-E 2并不能理解本文提示中的逻辑关系,只是进行了一个合并工作,图像正确率仅能达到22%。程序设计领域的问答网站Stack Overflow上存在大量由ChatGPT生成的答案,经过专业人员判断,多处存在错误,也因此ChatGPT已被Stack Overflow暂时禁用。
同时,需求差异化进一步加大了开发规模要求。例如,在AIGC文本生成领域,即使要表达同一个意思,不同场景需要的措辞也存在很大差异,如新闻和小说需要不同的行文风格。多样的需求对数据训练和产品开发带来了更大的压力。因此,AIGC模型的迭代进化仍是行业发展的重中之重。
除了技术缺陷问题,版权争议也广为讨论。一方面,AIGC的算法基于大量的数据训练,对于一些数据的收集、使用、商用等,法律上目前还未有明确规定。全球知名视觉艺术网站ArtStation的上千名画师曾联合抵制其画作被AI绘画系统收录,他们认为任由系统模仿画作是一种侵权行为。另一方面,AIGC生成的文字、图像、音频、视频等产物从属于AI画家还是平台,是否拥有版权等问题也未有明确规定。为规避版权相关风险,Getty Images、Shutterstock等大型付费图库表示,不再接收AI绘画相关作品。因此,版权争议对AIGC商业化带来了一定程度的阻碍,急需形成行业共识或相关部门制定监管法规。
AIGC技术的不成熟性和版权争议解决方案尚未落实导致AIGC应用受限,同时愿意为AIGC付费的C端用户群体较小,用户粘性也较低。另一方面,对于AI驱动的公司,研发和经营成本压力较大,这就给AIGC商业模式的可持续性提出不小的挑战。AI绘画公司Stock AI成立4个月后,由于付费用户基础无法支撑公司的高额成本,宣布关停平台。即使是运营了8年、曾拥有50万月活用户的AI编程工具Kite也宣布失败,原因是AI模型始终无法理解代码结构,仅能提高18%的代码编写速度,降本增效的效能不足。
此外,现有的开源模式和商业化的盈利追求之间存在矛盾性。以开源模式向公众提供免费的底层模型,则公司现阶段的利润来源受限。但舍弃开源模式则会带来模型进化、技术迭代速度不及同行,不利于长期竞争力的建立。
回归商业本质:谁将为AIGC买单?
关于生成式AI的发展阶段,跨越星空创始人尚晏仪表示:“生成式AI技术的发展一般分为三个阶段。首先是上世纪50年代到90年代中期是生成式AI早期的实验室阶段。人们在50年代第一次实现了计算机创作曲谱,在60年代第一次设计出具有人机对话功能的机器人。这一阶段相关的研究还局限于学界小范围。上世纪90年代中期到2010年间为生成式AI发展的第二阶段,相关技术开始了由实验室科学向应用性科学的转变,算法和处理器硬件得到了提升,互联网的兴起也提供了数据量上的支持。生成式AI发展的第三阶段为2010年至今,这是一个快速发展的阶段,生成式对抗神经网络出现,人们开始关注AI能不能通过生成内容与人直接沟通。”
目前来看,AIGC一定程度已能在应用层面助力提升内容创作效率。AIGC技术发展至今已实现了文字生成、图像生成、音频生成、视频生成方面的基本功能,一些企业甚至进行了虚拟人、元宇宙领域的探索,生成的作品具备一定实用性的同时也获得了专业认可。比如,一幅由AI制作的名为《空间歌剧院》的美术作品在美国科罗拉多州博览会上获得一等奖,洛杉矶初创公司Brud创建的虚拟网红Lil Miquela曾与Dior、Prada、Calvin Klein等高端时尚品牌合作,并在线上音乐节中献唱“Hard Feelings”。
而在开源模式的背景下,基础模型能被多次创作,从而实现更为快速的发展与迭代,未来有望生成更加贴近人类创作水平的作品。总体而言,目前AIGC对内容生成的帮助主要体现在速度和效率方面,如百度发布的AIGC营销内容生产工具“营销内容AI助理团”可以将单条创意制作时长从30分钟缩减至4分钟。AIGC初创公司的底层模型类似,而具体应用场景、数据获取与处理、产品形式、商业模式等方面将成为做出差异化的核心发力点。
疫情推动数字内容的需求增加并在一定时间内保有惯性,给AIGC创造了广阔的应用空间。AIGC技术可迁移性强,可应用于娱乐影视、电商、广告传媒等领域,例如虚拟主播、虚拟教师、虚拟偶像本质都是构建一个虚拟人,再赋予其直播、讲课、唱跳的能力;剧本创作、小说创作、新闻撰写本质都是对已知的需求进行文字产出。随着AIGC在各行各业的渗透率逐渐提升,AIGC市场规模将进一步扩大。同时,疫情加速了人们生活的“线上化“,用户对数字内容的需求增加且保有一定的惯性,这将助力AIGC应用的扩散。
为了公司的持续发展,获取足够的付费用户以覆盖运营成本将是AIGC公司实现商业化的考虑因素之一。不同于此前的技术发展模式,AIGC的模型规模更加庞大,开发成本高企,开发方面壁垒较大。在AIGC发展现阶段,初创公司更倾向于利用现有的AIGC开源模型搭建贴合特定场景的应用或产品,而非自建模型,在创造可视化业务价值、赢得更多付费用户的同时收获利润。
已有的实践部分证明了AIGC商业化路径的可行性,如营销领域。营销是大部分公司的刚需,互联网、电商等行业的营收更是极大程度地依赖营销。在营销领域,AIGC可以用于产品介绍生成、图片素材生成、广告内容创作等。例如,Jasper.ai基于海外公司的营销需求,以Instagram标题生成、广告营销文本撰写、重复性电子邮件编辑等业务,在2021年实现了4000万美元的收入,预计2022年营收接近1亿美元。
在国内,AIGC技术也已被应用于数字营销领域,并实现了优于人类平均水平的产出效率。百度副总裁璩静表示AIGC生成的视频点赞播放能超过100万,人工创作的视频反而只有超过1万的点赞播放量。
一定的研发实力、中国规模庞大的内容产业、AIGC底层技术的通用性共同助力中国AIGC公司全球化
对于海内外发展起点较为接近的AIGC而言,存在一些因素构成中国AIGC行业的“天然”全球化竞争优势。首先,中国的顶尖科技人才越来越丰富,为AIGC算法的开发与完善提供了人才基础设施。其次,中国规模庞大的内容产业和用户体量为AIGC算法的训练和迭代提供了优质的数据源,包括超过5亿用户的网络文学产业、约3万亿元的传媒产业、规模千亿的国漫产业及规模超过万亿的广告产业等。
最后,就技术特性而言,AIGC的底层模型通用性、迁移性较强,不同的只是其在各领域的垂直应用与调整。中国AIGC公司要做到“生而全球化”,一方面应考虑如何通过技术解决目标市场的痛点,另一方面可以结合中国元素的文化载体寻找机会。基于AIGC当前的技术及应用发展阶段,中国的AIGC相关创业者可以直接瞄准更广阔的市场进行战略规划。关于创业公司的关注方向,跨越星空创始人尚晏仪表示:“在已形成海量数据积累的领域,巨头公司凭借雄厚的资金实力和数据资产,更有可能主导AIGC的应用和发展,比如搜索引擎之前已经在互联网上积累了大量了网页数据。而在尚未形成庞大数据量的赛道中,创业公司和大公司在数据量方面几乎站在同一起跑线上,都是从零开始构建数据集、内容生态等。创业公司在这些领域更有机会立足并发展。”
结语
AIGC广泛的应用领域预示其巨大的潜在市场。尽管版权争议尚待解决,技术成熟度也将在长期范围内持续提升,但基于当前的技术发展水平和用户对数字内容的广阔需求,AIGC行业存在强大的发展动因。基于本土庞大的市场体量和内容需求,中国的AIGC公司有望在应用领域快速追赶甚至反超海外同行,通过解决目标市场的问题、充分挖掘中国的数据潜力及制定完善的全球化战略实现较快发展。随着相关法律法规和技术不断完善、用户消费习惯逐步成熟化,AIGC的商业化将逐步展开,并极大地提升人类生产力。