本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。
智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
人工智能(AI)创作,怎么突然就成了AI领域最热门的话题?
AI作画拿大奖的热议事件才没过多久,这周,两家AI生成内容企业相继官宣过亿美元新融资。最近爆火的Stable Diffusion模型,其背后公司Stability AI宣布获得1.01亿美元融资,投后估值达10亿美元;明星AI内容平台创企Jasper亦宣布获1.25亿美元新融资,估值达17亿美元。
投资界对AI的热情正在回升。这是一个方兴未艾的赛道,正大举挖掘AI的创造力潜能——AI算法在消化大量图像、视频、文本后,能学会创作诗歌、文章、绘画、照片、视频等原创内容,其作品甚至能做到“以假乱真”,乃至被高价拍卖。
▲今年9月,AI画作《太空歌剧院》夺冠科罗拉多州博览会数字艺术创作类比赛
掀起AI创作热潮的鼻祖级“以文生图”模型DALL·E背后的顶级AI创企OpenAI,亦被爆料正与微软谈判,想再拿一笔新融资。
此前OpenAI估值已接近200亿美元。据外媒The Information今日报道,一位直接了解OpenAI财务状况的人士透露,该公司有望在今年创收数千万美元。这意味着OpenAI去年的估值可能是2022年预测收入的500至800倍。
同样在这周,做AI音视频编辑的创企Descript,被传就新一轮融资开始与OpenAI CEO Sam Altman等投资者进行谈判。
连艺术圈都开始热议,AI创作,这是要抢走绘图师的饭碗?
一、AI商业化新生意,明星创企迅速蹿红
今年大火的AI生成图像,满打满算,其实严格意义上才起步大约两年。
2020年7月,马斯克参与创办、微软力捧的国际顶级AI研究机构OpenAI公布Image GPT模型,将在自然语言处理上取得突破性成就的Transformer模型引入图像补全及生成任务。
在此基础上,OpenAI于2021年1月推出了一个堪称图像版GPT-3的“炸圈”之作——能够“以文生图”的全新AI模型DALL·E。只需输入文字描述,DALL·E就能画出符合要求的一系列备选图像。
▲输入文本“穿芭蕾舞裙遛狗的萝卜”、“牛油果形状的扶手椅”、“将上部的图片素描化”,DALL·E分别生成对应的图像
这个开启了多模态学习的重磅研究成果,在AI学术界引起轩然大波。
此前,人们主要用GAN(生成对抗网络)算法来训练会创作的AI,但这种算法训练难度较高,而且很快遇到瓶颈。随后科学家们转换思路,将2015年诞生的扩散模型(Diffusion Model)引入到图像生成,DALL·E的出场,验证了这个新方法的可行性,并掀起新的研究热潮。
▲扩散模型根据“油画画布上的龙”提示词生成的样本
紧接着工业界就开始“卷”起来。从谷歌、百度等科技巨头到一众创企,纷纷入场为AI创作站台。
其中最具代表性的4个“以文生图”里程碑之作,均于今年诞生,分别是Midjourney、DALL·E 2、Imagen和Stable Diffusion。
2022年3月,AI图像生成平台Midjourney启动Beta版本测试;4月,OpenAI乘胜追击推出二代AI以文生图工具DALL·E 2,以4倍分辨率生成更逼真、更准确的图像;5月,谷歌公布用PyTorch实现的以文生图SOTA模型Imagen……
▲DALL·E 1与DALL·E 2生成图像对比
但直至此时,AI创作仍是一个不算出圈的话题,真正将其推向高潮的关键变量,是Stable Diffusion。
今年8月,基于扩散模型的开源模型Stable Diffusion横空出世。相较不对外开放的谷歌Imagen、限制免费作画数量的DALL-E,Stable Diffusion面向公众免费开放,上手几乎没有门槛,用户使用消费级显卡就能实现DALL-E 2级别的图像生成,且据称生成效率可提高30倍。
从此AI作画开始在网上爆红,每天都有海量网友蜂拥而至,甚至连特斯拉前AI和自动驾驶主管Andrej Karpathy都一连沉迷好几天,在推特上不停晒用Stable Diffusion生成的作品。
▲Andrej Karpathy在8月连发Stable Diffusion相关推文
目前Stable Diffusion的各渠道累计日活用户超千万,已经吸引超过20万开发者。
为Stable Diffusion提供算力的是Stability AI,这家创企就凭借这么一个“爆款”开源模型,最新拿到1.01亿美元融资,跻身独角兽企业之列。
Stability AI创始人兼CEO Emad Mostaque是个在英国长大的印度人,2005年毕业于牛津,是一位连续创业者,2020年创办Stability AI的目标就是为了在学术和产业界之外打造第三极,为AI研究扫清障碍,实现AI技术的真正普及化。
结果如其所愿,Stable Diffusion被赞誉为“开源炸弹”,Stable AI也被视作有望撼动OpenAI江湖地位的一匹“黑马”。
▲Stability AI创始人兼CEO Emad Mostaque
据悉,Stable AI现有103人,计划扩张到300人,其算力目前用的是在亚马逊云科技(AWS)上租用的4000台英伟达旗舰计算卡A100 GPU。Emad在近期接受采访时透露,Stable AI已经签订了很多合作订单,盈利能力超过大多数赔钱的大公司,明年还打算资助100个AI方向的博士。
另一家本月拿到1.25亿美元新融资的AI内容生成创企Jasper,此前已经推出用AI生成博客文章、社交媒体帖子、网站副本等的多种功能,它的Jasper Art系统同样可以根据文字生成不同风格的图像。
▲Jasper Art系统演示
Jasper Art链接:https://www.jasper.ai/art
二、轻松上手零门槛,生成作品视效惊艳
在科技巨头、明星创企们的推动下,AI自动生成内容的上手门槛正变得越来越低。
经典的DALL·E 2已开放测试版,它可以结合文本描述生成风格迥异的图像,兼顾到阴影、反射和纹理细节,还能在生成图像中增删元素。它还有一个大招,是能将图像扩展到原始画布之外,创建广泛的新构图。
DALL·E 2链接:https://openai.com/dall-e-2/
还有更易上手的DALL·E迷你版——Craiyon,由谷歌和Hugging Face的研究员们开发。用户可以直接在网络浏览器搜索框中输入文字描述,让AI生成各种神奇的画作。
Craiyon链接:https://www.craiyon.com/
据其创始人Boris Dayma透露,自2021年7月推出以来,Craiyon每天生成约1000万张图像,增加了多达10亿张以前不存在的图像。
今年7月,百度也特别展示了基于其文心大模型1秒“补全”真迹遭焚毁的中国传世水墨名画《富春山居图》。网友只要在百度APP搜索“富春山居图”,在空白处勾勒几笔,就能用AI补全自己心中的《富春山居图》。
▲在百度APP用AI“补全”《富春山居图》
再比如今年8月斩获科罗拉多州博览会数字艺术赛道大奖的Midjourney,用法也非常简单,在对话框输入文字描述,就能立即获得由AI生成的4张草图。4个“U”按钮可以将对应序号图片的尺寸变大,增加更多细节;“V”按钮可以按照对应序号图片,再生成4张风格近似的衍生草图。
Midjourney链接:https://www.midjourney.com/
不过,AI的发挥并不稳定,有时秒出神图,有时成品也犯一些低级错误。
不管怎么说,AI作画拿大奖、赚大钱的事,确实令不少艺术创作者为此破防,十年寒窗苦读,结果一朝被AI分分钟生成的作品打败。
虽然现阶段AI仍然主要靠“模仿”,在“悟性”上没法媲美人类,参透不了艺术的灵魂,但顶尖AI算法创作的不少文字、图像乃至视频,在许多外行眼中,已经很难分辨出与人类作品的差别。
目前,已经有很多日常消费的视觉类商品,比如海报、插图等,是由AI创作生成的。
还有一些公司另辟蹊径,从这股热潮的细分环节觅得商机。
正如前文提到的,AI生成作品的质量,一定程度上取决于你的文字描述,这个文字描述过程简称为“提示词”。如果“提示词”写的好,AI创作的效果就会更加令人满意。
比如今年6月成立的PromptBase,就是一家靠兜售AI绘画工具“提示词”发家致富的公司。用户可以从PromptBase这里花1.99美元买一个“提示词”,将其复制到DAll·E、Midjourney、Stable Diffusion等平台,就能生成质量上乘的作品。
PromptBase链接:https://promptbase.com/
科技巨头、明星创企们,还在继续将AI创作的实力“卷”向新的高度。
比如过去一个月,Meta和谷歌接连发布AI生成视频的研究进展。
Meta AI在9月29日公布的AI系统Make-A-Video,基于几百万个视频和23亿张图片训练而成,能根据给定的一段话,生成一个时长几秒钟的短视频。
▲Make-A-Video生成的“画自画像的泰迪熊”短视频
Make-A-Video链接:https://makeavideo.studio/
继承Imagen,谷歌的Imagen Video模型能生成1280 x 768分辨率、每秒24帧的视频片段,而且能按需生成不同的艺术风格,比如水彩画、像素画、梵高风等。
▲Imagen Video生成的一些视频片段
Imagen Video链接:https://imagen.research.google/video/
论文链接:https://imagen.research.google/video/paper.pdf
谷歌的另一款AI生成视频模型Phenaki,亦可以切换视频整体风格,而且还能根据200个词左右的文字描述,生成2分钟左右的视频,并在文本描述中补充添加剧情,形成一个完整的故事。
▲Phenaki生成2分钟视频的片段:镜头对准了办公室里狮子的脸,聚焦到办公室里穿着深色西装的狮子
Phenaki链接:https://phenaki.video/
论文链接:https://arxiv.org/abs/2210.02399
按这样下去速度发展下去,即将破防的,估计就不只是绘画师了。
三、版权争论不休,偏见问题难解
随着各种AI生产力工具出炉,AI创作的门槛被不断拉低,一些投资者对AI生成内容模型的期待值越来越高,甚至将其视作极大扩张AI普及范围的潜在变革工具。
但其商业化道路前方,还横亘着不少难题,最大的争议点就在于版权与偏见。
按原理来说,AI创作是“从无到有”,通过消化大量数据,生成现实世界中原本并不存在的东西,理应不存在侵犯版权的问题。
但实际上,因为AI学习的训练数据集过于庞大,就连造出这些AI工具的研究人员都没法保证,AI不会误拿一些商用需付费的资源,或者不会产生任何侵犯肖像权、商标权等侵权行为。
例如,Stable Diffusion生成的一些图像似乎带有水印,说明它的原始训练数据集中有一部分图像应该是受版权保护的。
对此,Getty Images、Shutterstock等知名付费图库纷纷封禁AI生成图片,停止接收所有由Stable Diffusion、DALL·E 2、Midjourney等AI模型生成的画作。
与种族、性别歧视相关的偏见,更是AI领域长期以来争论不休的“重灾区”。在国外,很多训练时没有考虑到偏见问题的AI工具,在生成人类形象时,会默认生成欧美白种人、男性形象。
这些问题,都令AI创作在通往落地的路上背负着沉重的枷锁。
长期裹挟在隐私伦理争议中的谷歌,对AI生成工具一直持谨慎态度,基本上都是只发论文公布研究成果,没怎么将AI模型对外开放。
OpenAI也不断改进其安全措施,包括通过从训练数据中删除存在偏见、负面倾向的数据,避免DALL·E 2生成暴力、仇恨、色情、政治类图像。该创企还采用先进技术以及自动化和人工监控系统,来防止AI技术被滥用。
Stability AI创始人Emad Mostaque则不觉得关于模型的负面影响源头是技术的问题,认为技术无好坏,人类的使用方式才分善恶,“当人们心理健康时,好事总是远超任何负面的事,现实中,人们会慢慢习惯这些模型。”
但不管怎么说,在我们尚且无法确保能够引导AI应用走在正道上时,通过法规进行相关行为、用途的约束仍非常必要。
此外,开源在催化AI创作应用热潮的同时,也降低了技术开发门槛,专注于此的企业们如何在特定领域寻找及培养付费意愿强的消费习惯、如何形成长期竞争力,仍有待时间给出答案。
结语:探索AI,需长期主义的坚持
近年来,随着AI泡沫破裂论声势渐长,围绕AI落地商用价值的探讨逐渐占据主流,资本似乎对短期内看不见盈利前景的故事失去了耐心。
但尽管短期内落地进程触达瓶颈,AI的长期价值不应被武断否定。能够改写未来的颠覆式技术,总是需要时间的沉淀。迄今我们仍不知道现有的算法是否会是走向通用AI的正确途径,然而道路虽远,行则将至,如今AI生成内容产业的日趋繁荣,也许能将人们对AI的关注重点与信心拉回到技术范式革新所带来的长远价值。
至少现在,远未到对AI失去期待的时刻。