Skip to content

AIGC智能创作时代

undefined
written
代序 AIGC和智能数字化新时代——媲美新石器时代的文明范式转型
 图0-1 内容生成的四个阶段
 图0-2 机器学习常用算法
 图0-3 人类生成内容向AIGC转换趋势
 图0-4 多种重要、高效的Transformer的集合模型
 图0-5 基础模型“Transformer”
数据、算法、算力是人工智能的稳定三要素。
 图0-8 AIGC产业生态
 图0-9 AIGC产业规模生态分布
前言 从机器学习到智能创造
人工智能更像是一门人文学科。其本质在于尝试理解人类的智能与认知。
在埃米尔·博雷尔1913年发表的《静态力学与不可逆性》论文中,曾提出这样一个思想实验:假设猴子学会了随意按下打字机的按钮,当无限只猴子在无限台打字机上随机乱敲,并持续无限久的时间,在某个时刻,将会有猴子能打出莎士比亚的全部著作。虽然最初这只是一个说明概率理论的例子,但它也诠释了机器具备创造力的可能性。只不过具备的条件过于苛刻,需要在随机性上叠加无穷的时间量度。
第一章 AIGC:内容生产力的大变革
PGC(Professional-Generated Content,专业生成内容)到UGC(User-Generated Content,用户生成内容)
表1-1 从PGC到UGC,再到AIGC的发展历程 
AIGC在图像生成方面有两种最成熟的落地使用场景:图像编辑工具与图像自主生成。图像编辑工具的功能包括去除水印、提高分辨率、特定滤镜等。图像自主生成其实就是近期兴起的AI绘画,包括创意图像生成(随机或按照特定属性生成画作)与功能性图像生成(生成logo、模特图、营销海报等)。
AI绘画大致可以分为三类:借助文字描述生成图像、借助已有图像生成新图像,以及两者的结合版。
现在流行的国外AI绘画工具Stable Diffusion、DALL·E 2、Midjourney等,以及国内AI绘画工具文心一格、意间AI绘画、AI Creator等
AIGC在视频生成方面的常见传统应用场景还包括视频属性编辑、视频自动剪辑及视频部分编辑。
第二章 AIGC的技术思想
 图2-2 专家系统结构图
机器学习模型的训练过程可以分为以下四步。 ·数据获取:为机器提供用于学习的数据。 ·特征工程:提取出数据中的有效特征,并进行必要的转换。 ·模型训练:学习数据,并根据算法生成模型。 ·评估与应用:将训练好的模型应用在需要执行的任务上并评估其表现,如果取得了令人满意的效果就可以投入应用。
 图2-3 简化版感知器结构示意图
表2-1 监督学习、无监督学习和强化学习对比 
强化学习系统的逻辑如图2-5所示,我们可以用一场《超级马里奥》游戏来分析图中的每个元素。 ·智能体(Agent):人工智能操作的马里奥,它是这个游戏的主要玩家。 ·环境(Environment):马里奥的游戏世界,马里奥在游戏里做出的任何选择都会得到游戏环境的反馈。 ·状态(State):游戏环境内所有元素所处的状态,可能包括马里奥的位置、敌人的位置、障碍物的位置、金币数、马里奥的变身状态等,玩家的每次选择可能都会观测到状态的改变。 ·行动(Action):马里奥可以做出的选择,可选的行动可能会随着状态的变化而变化,比如在平地的位置上可以选择左右移动或跳起,遇到右侧有障碍物时就无法选择向右的行动,获得火焰花道具变身后就可以选择发射火焰弹的行动等。 ·奖励(Reward):马里奥在选择特定的行动后获得即时的反馈,通常与目标相关联。如果反馈是负向的,也可以被描述为惩罚。马里奥的游戏目标是到达终点通关,因而每次通过都可以获得奖励分数,而每次失败都会被扣除奖励分数。如果目标是获得尽量多的金币,奖励也可以与金币数量挂钩,这样训练出的马里奥AI不会去尝试通过终点,而是拼命在关卡里搜集金币。 ·目标(Goal):在合理设置奖励后,目标应该可以被表示为最大化奖励之和,例如马里奥的通关次数最多。  图2-5 强化学习构成元素及其关系 整个强化学习的过程,是为了学到好的策略(Policy),本质上就是学习在某个状态下应该选择什么样的行动
强化学习就是让人工智能通过不断的学习试错,找到合适的策略去选择一系列行动,来达成目标。在构建策略时,还有一个需要考虑的关键因素叫作价值(Value),它反映的是将来能够获得所有奖励的期望值。例如,马里奥为了达成目标,获得更多的奖励,所以应该选择多进入高价值的状态,并且在高价值状态下选择能够产生高价值的行动。
强化学习其实可以看作一个从试错到反馈的过程,通过不断地试错,来找到一个合适的策略
 图2-6 深度学习与无监督学习、监督学习及强化学习的关系
 图2-7 生成对抗过程示意图
表2-2 GAN的部分常见AIGC应用方式  续表 
从数学的角度来说,可以将“注意力”理解为一种“权重”,在理解图片或文本时,大脑会赋予对于认知有重要意义的内容高权重
之所以不影响阅读,应该是由于读者已经对语言文字表达规则有认知,并具备了语意的自我识别及矫正能力~
[插图]
 图2-13 网络上广泛流传的一段话 阅读完这段话之后,你一定发现,虽然图片上的语句是乱序的,但是并没有干扰你的阅读,这种现象原理与人工智能的自注意力(Self-Attention)机制非常相近,下面我们用通俗易懂的语言对这套机制进行分析。首先,你的眼睛捕捉到了第一个字“研”,并且扫过那一行的后续文字“表”“究”“明”。然后,大脑在过去学习的认知库里去搜寻“研表”“研究”“研明”等,发现“研究”两个字关联最为紧密,所以就给了它较高的权重进行编码计算,并按类似的方式完成后续内容的编码。编码完毕后,按照权重对内容进行重新组装,信息也就组合成了“研究表明”这一常见用法。通过这种自注意力机制,人工智能可以很好地捕捉文本内在的联系并进行再表示。而除了自注意力机制,另外一种广泛应用于人工智能领域的注意力机制叫作多头注意力(Multi-Head Attention)机制。多头注意力机制主要通过多种变换进行加权计算,然后将计算结果综合起来,增强自注意力机制的效果。
 图2-14 Transformer结构简化图
GPT(Generative Pre-trained Transformer,生成型预训练变换器)是由OpenAI研发的大型文本生成类深度学习模型,可以用于对话AI、机器翻译、摘要生成、代码生成等复杂的自然语言处理任务。GPT系列模型使用了不断堆叠Transformer的思想,通过不断提升训练语料的规模与质量,以及不断增加网络参数来实现GPT的升级迭代
 图2-15 ChatGPT的训练过程示意图
BERT(Bidirectional Encoder Representations from Transformers,变换器的双向编码器表示)模型由谷歌在2018年提出,其基本思想是既然编码器能够将语义很好地抽离出来,那直接将编码器独立出来也许可以很好地对语言做出表示。
第三章 AIGC的职能应用
AIGC在产品研发方面主要有四种应用方式: ·通过辅助编程提高代码生产效率。 ·生成应用直接将需求变成产品。 ·创建和维护文档注释,提高沟通效率。 ·测试代码,纠正错误。
使用Bubble这一开发工具意味着人们无需代码或者写很少量的代码就可以完成一个应用的开发,但是人们仍然需要学习使用图形化编程工具以及使用图形和流程图表达他们所希望开发的逻辑和数据流。
Components.ai便是这样一个工具,而且在此基础之上它还可以帮助设计师生成所对应的前端代码,让设计师更好地与前端工程师进行沟通互动
海外营销工具Copy.ai就帮助了大量市场人员创作不同场景下的推广文字内容。
对外销售大概分为三个部分:线索发现、客户触达、客户转化。
Seamless.ai便为众多企业提供了这样的服务,通过简单描述客户的特征,例如行业、体量、收入规模、地区等信息,它便可以建立一个销售名单。
以Oliv.ai为代表的工具可以通过学习大量的企业销售视频、录音以及文字稿,分析销售话术中的优缺点,进而不断帮助企业优化和完善销售话术,提高转化率。
最值得一提的是销售科技巨头Salesforce,其旗下爱因斯坦AI可以自动生成众多内容并推荐给客户服务工作人员作为回答话术,它甚至可以提前预测正在咨询的客户的需求。
第四章 AIGC的行业应用
电商服饰领域通常会采用“小单快返”的模式,即先小批量生产多种样式的服饰产品投入市场,快速获取市场销售反馈,对好的产品快速返单继续生产,在试出爆款的同时减小库存压力。
第五章 AIGC的产业地图
 图5-1 AIGC产业地图
 图5-2 上游数据服务层产业地图
根据数据查询与处理的时效,可以将涉及这个环节的公司分为两类:异步处理型公司和实时处理型公司。
截至2022年12月初,数据查询与异步处理型公司中有两家公司发展势头迅猛,值得关注:一是Databricks,当时的最新估值是380亿美元;二是Starburst,当时的最新估值是33.5亿美元。
截至2022年12月初,数据查询与实时处理型公司中有两家公司值得关注:一是ClickHouse,当时的最新估值是20亿美元;二是Imply,当时的最新估值是11亿美元。
数据的处理主要包括提取(Extract,简称E)、加载(Load,简称L)和转换(Transform,简称T)三个模块,因此产业界通常将该环节称为ELT或ETL,也就是三个模块的英文首字母缩写,L和T的顺序则取决于实际操作流程中哪个环节在前面。这三个模块的含义如下所示: ·提取:从各种来源获取数据。 ·加载:将数据移动至目标位置。 ·转换:处理和组织数据,使其具备业务可用性。
Scale之所以可以从最初看似技术含量不高的数据标注环节向更具附加价值的中下游环节扩张,主要受益于规模经济、客户黏性和资源垄断。 ·规模经济:Scale的客户越多,处理的数据量和数据维度也越多,对于不同任务的处理经验也更加丰富,相关的标注算法工具也更加完备,从而处理效率和质量就越高。因此,随着时间的推移,Scale作为先发者相较于跟进者而言就可以以更低的成本提供更高质量的服务,做“时间的朋友”。 ·客户黏性:数据标注服务本身很难建立起高度的客户黏性,而Scale之所以可以留住客户,得益于它在2020年4月推出的Scale Document。Scale Document不仅为数据贴标签,还与客户合作建立定制模型。这使得客户切换服务商的成本变高,因为需要重新训练模型。 ·资源垄断:这里所说的资源垄断指的不是垄断数据而是垄断人才,数据的所有权是客户的,即使通过Scale来完成打标签过程,也不能把这些数据误认为是Scale的资产。但随着数据流过Scale平台,这些数据同样训练了Scale平台标注算法的模型能力,也沉淀了这个领域的众多人才,人才是这个领域的宝贵资源。
 图5-3 中游算法模型层产业地图
在AIGC产业的下游,可以将AIGC相关应用拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理
 图5-4 下游应用拓展层产业地图
根据AIGC对代码处理环节的渗透程度,可以将代码型文本处理公司分为三类:代码生成型公司(辅助代码撰写)、代码文档型公司(代码转化成文档)、代码开发型公司(直接参与代码开发)。
音频处理主要分为三类:音乐型音频处理、讲话型音频处理、解决方案型音频处理
AdCreative.ai是一家广告型图像处理公司,其产品能够通过AI高效地生成创意、横幅、标语等,还能够在连接谷歌广告和Facebook广告账户后实时监测广告效果,但更多时候它需要依靠模板,采取的商业模式也是常见的付费订阅制。
从原理上来说,视频的本质是由一帧帧图像组成的,所以视频处理本身就与图像处理有一定的重合性。
在用户输入静态文本之后,AI可以根据输入的内容按照预先设定好的主题将文本转换为视频,并添加母语的自动配音。
第六章 AIGC的未来
基于人类通过学习而获得智能,诞生了机器学习;基于人类在学习过程中会有激励和惩罚,这些激励和惩罚会不断强化人类的能力,出现了强化学习;基于人类在接受信息时往往会将注意力集中在重要的信息上,产生了当代主流大模型的根基——Transformer;基于人类在学习认图时并非学习照片细节的纹路,而是直接被不断告知关于图片中物体的描述,诞生了AI绘画的奠基性模型——CLIP模型。
借鉴强化学习思想的RLHF方法就是减少人工智能生成危害性内容的典型措施,前面反复提及的ChatGPT就是采用这种方式训练的。在RLHF的框架下,开发人员会在人工智能做出符合人类预期回答时给予奖励,而在做出有害内容的回答时施加惩罚,这种根据人类反馈信号直接优化语言模型的方法可以给予AI积极的引导。然而,即便采用这种方式,AI生成的内容也有可能在刻意诱导的情况下输出有害的内容。以ChatGPT为例,在一位工程师的诱导下,它写出了步骤详细的毁灭人类计划书,详细到入侵各国计算机系统、控制武器、破坏通讯和交通系统,等等。
绝大多数AIGC初创平台都还属于快速积累原始用户的阶段,同时不少创业者还面临着快速变现的压力,需要稳定的现金流才能使团队有能力不断迭代产品。因此,许多AIGC创业公司并不是在产品研发完成之后,而是要在设计产品之初就考虑可行的商业模式,在这种情况下,照搬Stability AI和Midjourney的模式就并非好的选择。 目前来看,相较于针对C端用户,AIGC在B端服务方面的变现模式反而更具有可行性。传统产业迫切需要AIGC技术来实现降本增效,许多公司对于能够提升业务效率或显著降低业务成本的技术具备极高的付费意愿。而且,因为行业及业务逻辑存在明显的差异,而主流的AIGC模型都较为通用,如果能针对特定的业务需求研发产品,仍然存在很大的机会。所以,对于创业者来说,找到一个可以落地的商业场景,并且锁定一个细分场景对AIGC进行训练,做出产品在特定领域的差异化,这是商业化落地的最好方式。 比如海外初创公司Jasper就提供了生成Instagram标题、编写TikTok视频脚本、编写广告营销文本等针对B端媒体场景的定制化服务。
对于当前的AIGC领域,投资人依然需要避免陷入“拿着锤子找钉子”的误区。一个好的投资标的未必是运用先进技术的公司,而是可以确定实际的终端用户需求到底是什么、技术如何更好地制作产品并满足用户需求的公司。即便市场的普遍认知更加看好大模型的未来发展,但商业化最终的理想出路究竟是“更大”还是“更专”尚未有定数,一些技术并不亮眼但能更好地解决用户痛点的公司同样值得关注。
当用户习惯于生成效果,新鲜感冷却之后,非常容易被新的竞品吸引而离开。在这个技术尚不能构成核心技术壁垒的赛道,如何让用户有动力持续使用产品才是制胜的关键。而从B端来看,AIGC产品的“生产力工具”属性将更加浓厚,区别于C端消费主义色彩更加浓厚的应用方式,B端的AIGC公司直面的是一群理性至极的客户群体,能够更好地回答“产品是怎样为企业降本增效”这一核心问题的公司将更加受到投资人的青睐。切实提升业务生产效率或者降低业务成本的公司将具备难以想象的成长潜能,借助“合作伙伴+生态+赋能行业”的传统打法,这类公司很容易就在这个新兴赛道杀出一片天地
知名知识管理领域的独角兽Notion推出的AI写作助手就非常值得投资人的关注。
AIGC所产生的风险主要集中在版权问题、欺诈问题和违禁内容三个方面。
附录二 AIGC术语及解释
AIGC术语及解释  续表