excel学习库-AIGC 行业应用畅想：预训练模型从单模态走向多模态

原创 | 文BFT机器人

随着ChatGPT等语言大模型落地，AIGC技术落地在各行各业中得到发展和推进。根据模型的分类，AIGC的应用可被分为单模态和多模态两类。

单模态模型可以助力各个应用，提升原有的能力和生产力。

诸如ChatGPT已与Bing结合，使搜索更智能化。同时，搜索引擎又能很好地弥补语言模型预训练时不具备的数据实时性。单模态模型与操作系统的连接也能改变传统的人机交互模式，使系统响应更智能，软件间的数据流通更广泛；与游戏应用的结合可以使NPC更鲜活，与玩家的对话更真实；应用于文学作品可以激发创作灵感，提高写作效率，掀起AI电子书热潮；应用于客服场景可以提升原智能客服的多轮对话能力，个性化回答能力。

多模态的模型是AIGC的发展趋势。

现有的DALL-E或Stable Diffusion已经在文本到图像的跨模态领域很好地落地，可以更容易地生成高质量海报和提升三维场景重建的效果；与视频剪辑应用的结合降低视频制作的门槛，拓展影视领域的空间；Google的多模态模型PaLM-E将丰富机器人操作场景，智能化机器人反馈。最新的GPT4多模态模型与Office办公软件的结合将显著提升生产力，使办公软件间的联动更智能；GPT4可以赋能教育科研领域，缓解教育资源短缺，降低获取知识的门槛；GPT4可以赋能数字人，使数字人落地场景更丰富，交互更拟人；GPT4还能助力应用开发，简化发开周期，降低开发的门槛。

单模态大模型应用

AIGC/ChatGPT+搜索引擎

重定义搜索引擎，更加智能高效。

微软将大模型ChatGPT强大的语言理解和生成能力注入现有的搜索引擎Bing，结合了语言大模型的优势，同时搜索引擎又能很好地弥补语言模型预训练时不具备的数据实时性。

将ChatGPT智能的问答交互方式替换传统的机械式搜索方式上，强大的语言理解能力让搜索引擎更精准的捕捉用户的需求，使“搜索”变为“请求”，高效的内容总结归纳能力让搜索引擎更全面的解答用户的疑惑，使“结果”变为“讲解”。重新构造了传统的搜索模式，让用户可以通过问答的方式深入探索更加全面又准确的内容，提升了用户体验，提高了搜索质量。

Bing恰好能提供更加完整、准确、具有实时性的内容，弥补了ChatGPT先天的不足。由于ChatGPT基于的大模型GPT3在是在2021完成的预训练，其预训练时的训练数据决定了ChatGPT不具备感知2021年之后的新闻事件。相比单个ChatGPT的交互模式，Bing的加入还可以为生成的内容提供所对应的链接，使用户检索更便捷。

用户通过Bing产生的交互内容又可以用于语言大模型的微调迭代，不断优化，从而进一步提升用户体验。

接入ChatGPT的新Bing

新Bing问题解答

AIGC/GPT4+办公软件

办公软件编辑更效率，软件间联动解放生产力

微软把大模型GPT4接入Office办公软件，将GPT4强大的语言理解和多元的文本生成能力赋能Office软件。

将GPT4赋能Office Word软件，改变了以往传统的word编辑方式，新一代的Word根据用户需求智能地生成多样的文本供用户参考或删改，用户不需要从零开始编辑，快速提升文本编辑效率。

将GPT4赋能Office Excel，用户不需要学习复杂的操作和函数，新一代的Excel将快速处理数据，生成清晰的表格，甚至还可以发现数据之间的相关性，提出假设方案和建议，极大的降低了数据分析的使用门槛。

软件间数据流传更流畅，功能联动进一步解放生产力。用户既可以根据文本和Excel表格让Word起草文案，也可以使用Word中的文案一键让PPT生成幻灯片，节省了数据搬运，文稿构思，布局编排的过程。

GPT4利用自身的生成能力，结合Office微软各自的优势，增加了办公场景的解决方案，进一步提高用户的产出质量和效率。

GPT4接入Office Word

根据Word文本生成PPT

AIGC/ChatGPT+操作系统

操作系统交互更智能，数据流通更广阔

微软目前将集成ChatGPT驱动的Bing嵌入到Windows 11操作系统的任务栏，更新完的操作系统可以在任务栏界面快速呼唤带有ChatGPT的Bing，生成的内容将会在Edge浏览器中的Bing聊天中。

操作系统建立在硬件和软件之间，也筑起了人与软件之间的互动。所有的应用软件底层的数据都需要通过操作系统的调度才能在正常地响应用户的操作。ChatGPT可以借助操作系统的特性，将自身的智能注入各个应用软件，大大提升用户的操作体验，软件间的数据流通也将更便利，生态覆盖将更广阔，因此将类ChatGPT的AIGC技术赋能操作系统是最关键也是集大成的一步。

PC端的发展史折射出人机交互方式将从复杂到简单，从最初通过鼠标、键盘等媒介的复杂操作到如今语音交互的简单操作，而这其中就需要。通过人工智能介入使机器更接近人。AIGC则是将操作系统的输出更加泛化，使“机与人”交互更加接近“人与人”

PC端人机交互发展史

带ChatGPT的Bing嵌入Win11

AIGC/ChatGPT+游戏

ChatGPT让游戏NPC“活起来”

RPG（角色扮演）游戏中，世界观、背景设定以及NPC交互是重要环节，智能交互让NPC更鲜活，让世界更深入人心。开发者Bloc用ChatGPT开发MOD，使NPC能够根据玩家问题与背景设定进行智能交互，Bloc认为这是RPG游戏的未来。其他文字类游戏同样可以利用大模型使对话内容更具真实感，灵动的智能交互将大幅提升游戏沉浸感。

《骑马与砍杀2》NPC智能交互

➢ 网易“玉言”模型将运用于《逆水寒》手游

网易伏羲的”玉言“大模型曾在中文语言理解领域最权威评测CLUE的1.1分类任务排行榜中登顶第一，均分首次超越人类。网易是国内首个将语言大模型接入游戏的企业，让智能NPC能与玩家自由生成对话，并基于对话内容，给出一定行为反馈，能够增强可玩性、增加用户粘性。

AIGC还能够辅助游戏设计，游戏策划可以利用ChatGPT生成游戏机制，开发者用ChatGPT生成简易游戏代码，辅助代码Debug，提升游戏开发效率。AIGC+游戏还包括智能生成游戏攻略、教学手册，在创作工坊中无重复自动创建高交互性、高可玩性关卡等方面。

《逆水寒》手游

AIGC/ChatGPT+文学作品

ChatGPT掀起AI电子书热潮

利用ChatGPT的文本生成能力，非作家也能在数小时内制作一本30页带插图的儿童电子书，大大提高出版速度。

路透社报道，截至 2 月中旬，亚马逊Kindle商店中有200多本电子书将ChatGPT列为作者或合著者，这个数字还在持续增加。ChatGPT在辅助写作小说上能力突出，只需要输入“我是谁，我需要做什么”就能够自动生成故事情节，能为作家代笔、激发灵感、提高写作效率。已经有专业作家拥抱拥抱AI，用其快速完成标题、导语、背景设定甚至小说情节。

AIGC为剧本创作带来新思路

AIGC让剧本创作门槛更低、成本更低、效率更高。早在2020年美国查普曼大学生就利用GPT-3模型创作剧本，并制作有跌宕起伏剧情的短片《律师》；DeepMind发布的Dramatron大型语言模型能够通过剧本纲要、关键词等生成基础剧本，让写作更简单。

专业剧本创作依赖优质编剧团队实现剧本生产，生成效率有限，成本较高。2021年3月，GPT-3日均文本生成量就达到45亿，生成效率非常高，而2021整年阅文集团新增文字量仅360亿。基于生成式AI，剧本创作有望降本增效，并开拓创作者思维。

ChatGPT生成设定与情节

Dramatron生成剧本内容

AIGC/ChatGPT+智能客服

ChatGPT多轮对话能力解决智能客服痛点

在沙利文《2021年中国智能客服市场报告》中，仅30％企业使用智能客服感受整体服务效率提升，中国青年报社会调查中心数据显示仅41.3％的受访者，觉得智能客服好用。这暴露出过去智能客服的痛点——不够“智能”，在短文本多轮对话能力、处理预设流程外问题能力上尤为突出。

ChatGPT扮演牙科客服

而ChatGPT能够流畅进行多轮对话、跨主题对话，准确理解短文本中的复杂意图。这可以提高智能客服的复杂场景应变能力，能够基于用户的个人信息和历史交互，提供更个性化的回答，提升用户体验。

Viable基于GPT-4的客户反馈

ChatGPT本身蕴含了大量泛知识内容，能够灵活处理预设流程外的问题，这种知识存储能力也将对现有知识图谱生态造成冲击。

智能客服未来探索

基于ChatGPT，未来智能客服将会有以下优势：

个性化，更好地理解客户需求，并以独特地方式解决
相比过去知识库、知识图谱类的智能客服，大模型摆脱了主流的，仍需要以人工拆解问法和答案的知识维护模式，能够更快速、低成本地学习新知识
更快速更准确地处理大量客户查询，进一步减少人工客服需求，降低成本
多语种是ChatGPT最大优势之一，在企业的国际化场景上很有潜力。
从客户反馈中快速识别主题和情绪，提取摘要、提供见解

目前国外已有企业接入ChatGPT API并测试实现智能客服的方法，如Thankful.lnc，以及用GPT-4实现客户反馈提取的Viable。

AIGC/ChatGPT+虚拟人

虚拟人交互能力有待提升

虚拟数字人的应用场景广泛，其中虚拟直播、虚拟偶像已得到明确的商业价值验证。虚拟主播主要赋能直播带货，相比真人直播，其拥有能够7*24小时直播、加速品牌年轻化进程、人设稳定可控不会崩塌三大优势。但目前的虚拟主播大部分只能完成预设内容，互动体验非常初级。在虚拟偶像、手机助手、个人语音助手等领域，过去的NLP技术能让虚拟人根据背后的知识图谱、知识库进行回答，但其对话、任务理解能力实际体验仍有提升空间。

虚拟直播

ChatGPT画出“点睛之笔”

虚拟人同样受益于ChatGPT强大的多轮对话能力与复杂意图理解能力，可以显著提高虚拟人在场景应用中的识别感知能力和分析决策能力，从而提升交互能力，为虚拟人画出点睛之笔。Fable Studio已经用GPT-3赋予新虚拟数字人Charlie andDeck角色生命，使其与人进行自然对话。同时，虚拟偶像从真人驱动型向计算驱动型有了更深的技术基础；各类语音助手将更加智能，将更具备通用场景应用能力，在通过专业数据训练后特定场景回复的专业性也能够更高。

Fable Studio的虚拟人Charlie

多模态大模型应用

预训练模型从单模态走向多模态，增强AIGC内容生产多样性

多模态预训练模型融合文字、图片、音视频等多种内容形式，增强AIGC通用性

预训练模型包括：

自然语言处理（NLP）预训练模型，如谷歌的LaMDA和PaLM、Open AI的GPT系列；
计算机视觉（CV）预训练模型，如微软的Florence;
多模态预训练模型，即融合文字、图片、音视频等多种内容形式。

多模态预训练模型致力于处理不同模态、不同来源、不同任务的数据和信息，相较于ChatGPT等NLP预训练模型，多模态的预训练模型是一种全新的交互、生成模式，满足AIGC场景下更多的创作需求和应用场景。

多模态预训练模型拥有两种能力，一是寻找不同模态数据之间的对应关系，比如将文字描述与图像对应起来；二是实现不同模态数据之间的相互转化与生成，比如将文字描述转化为图像。

谷歌和OpenAI分别于3月7日和3月14日公布了视觉语言模型PaLM-E和大型语言模型GPT-4，在多模态方面方面具有出色表现。

国外主要的AIGC多模态预训练模型

AIGC＋图像：AIGC可实现文本与二维图像、三维模型转换

多模态预训练模型使AIGC拥有更通用的能力，可实现文本与二维图像、三维模型之间的转换。

文本生成图片

英伟达的研究人员于2022年11月发布了Magic 3D，可以根据“一只蓝色毒箭蛙坐在睡莲上”等提示创建3D模型。

文本生成三维模型

谷歌研究人员开发基于浏览器的rǝ平台，可以根据历史地图和老照片，重建城市旧景的三维场景。此外包括谷歌在内的国内外科技公司正在探索使用互联网上商家和用户上传的照片生成并渲染不同餐厅、街道和景点的三维全景。

由二维图片还原三维场景

按照技术原理划分，图像生成领域的技术场景可分为：

图像属性编辑，指图片去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻/修改图像风格、提升分辨率等功能；
图像局部生成及更改，包括更改图像部分构成、修改面部特征（Metaphysics可调节自身照片的情绪、年龄、微笑等；Deepfake可实现图像换脸）；
端到端的图像生成，包括创意图像生成和功能性图像生成两类场景，前者大多以NFT等形式体现，后者大多以营销类海报/界面、logo、模特图、用户头像为主。

AIGC+影视：提升视频质量，拓展影视空间

AIGC能够实现智能视频剪辑，提升视频质量

通过使用视频字幕生成、视频集锦、视频拆条、视频超分等视频智能化剪辑工具，高效节省人力时间成本，最大化版权内容价值。

2020年两会期间，人民日报社利用“智能云剪辑师”快速生成视频，并能实现自动匹配字幕、人物实时追踪、画面抖动修复、横屏速转竖屏等技术操作，适应多平台分发要求。

智能云剪辑师的智能剪辑

2022年冬奥会期间，央视频使用AI智能内容生产剪辑系统，在短时间内将海量的比赛内容自动浓缩成几分钟的集锦，并定向发布，为深度开发体育媒体版权内容价值创造更多可能性。

AI智能剪辑视频第一时间生成谷爱凌夺冠视频

AIGC+影视：提升视频质量，拓展影视空间

AIGC能够创作角色和场景，拓展影视空间

一是通过人工智能合成人脸、声音等相关内容，实现“数字复活”已故演员、替换“劣迹艺人” 、多语言译制片音画同步、演员角色年龄的跨越、高难度动作合成等，减少演员自身局限对影视作品的影响。如《了不起的儿科医生》中主角人物的学历事件影响到影视作品的宣传与发行，于是采用智能影视换脸技术替换主角人物，减少了影视作品创作过程中的损失。《阿凡达》等科幻作品中也多次运用换脸技术，为观众带来更好的观影体验。

《阿凡达》中的换脸技术

二是通过人工智能合成虚拟物理场景，生成无法实拍或成本过高的场景，拓宽影视作品想象力，为观众带来更极致的视听效果。如《流浪地球2》中太空电梯升降的场景需要在重机械等物理设备辅助下，结合数字技术将相关场景虚拟出来，后期加持数字绘景和合成技术，实现虚拟场景光影融合的效果。

人工智能合成《流浪地球2》中的太空电梯

多模态大模型PaLM-E + 机器人

多模态模型使机器人操控场景更丰富，反馈更智能

Google发布的多模态大模型PaLM-E拥有5620亿参数，是至今最大规模视觉语言模型。Google将PaLM-E赋能机器人，将机器人的视觉感知与文本任务作为大模型的多模态输入，通过模型推理智能操控机器人完成指定任务。

ViT+PaLM 模型

PaLM-E是将预训练语言大模型PaLM和视觉感知模型ViT融合，因此PaLM-E既拥有PaLM准确的语言理解能力和逻辑推理能力，也能结合Vit感知得到的视觉信息，经过模型的推理计算，输出合理的指令控制机器人，使机器人响应更加智能。

PaLM-E 模型原理与应用

图像和文本多模态的结合使机器人更像人类一样感知环境与思考，使任务场景更丰富，执行的准确性更高。

将模型结合控制环使机器人在外部环境的干扰或变化下依然可以顺利地完成任务，提升了机器人执行任务时的鲁棒性和反馈的智能性。

多模态大模型GPT4 + 教育/科研

多模态模型缓解教育资源短缺，降低获取知识门槛

近日，OpenAI发布了大型多模态模型GPT4，与先前的ChatGPT（GPT3.5）相比，GPT4可以接受图像和文本结合的输入，并给出更准确的文本回复。

由于模型的输入可以是文本与图像多模态，GPT4对输入的内容会有更深入和多元的理解，可以胜任更多任务场景。实验测试表明GPT4在各种专业测试和学术基准上的表现与人类水平相当，例如通过了模拟律师考试，且分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。因此，将GPT4应用于现有的职业教培领域或是科研辅助将有效解决教育资源的短缺。

GPT近几个版本在不同考试中表现

多模态的GPT4可以辅助科研，帮助研究人员快速总结或提炼论文的要点，针对细分的问题也能依据论文给出准确的解释，节省了大量的阅读时间，方便知识的梳理和检索，降低获取知识的门槛。

GPT4读论文

GPT4根据具体问题解释论文细节

多模态大模型GPT4 + 数字人

多模态模型使数字人交互更智能，落地场景更多样

数字人是由感知识别，决策分析，表达生成，终端显示几个重要部分构成。以往的数字人大多只会机械式的读文本，并不能真正感知环境并做出对应的输出。而GPT4既能识别用户输入，也能感知环境的变化，从而通过模型的推理判断生成合理的内容，将GPT4赋能数字人将多元化数字人的感知层，智能化交互。

数字人的构成

GPT4的可控性显著提升，系统允许 API 用户在一定范围内定制化实现不同的用户体验，满足多样的场景与任务需求，正好与用户对数字人的期望契合。用户根据需求提供不同的描述，通过GPT4可以赋能数字人扮演各种场景中的角色，助力数字人在影视、传媒、游戏、电商、金融以及文娱产业落地。

GPT4扮演苏格拉底

数字人多场景落地需求

多模态大模型GPT4 + 应用开发

多模态模型加速开发周期，降低开发门槛

以往OpenAI开发的AI代码生成工具GitHub Copilot可以集成在各个开发环境IDE里，用户可以通过文本提升让Copilot自动生成代码，使程序员可以聚焦在高级架构层而减少低级代码的编写，简化了流程，极大的提升了开发效率。

GPT4的多模态则将开发流程简化至端到端。开发者仅需提供简略的可视化的网页设计图稿，无需再深入开发中的每一步流程，GPT4识别并理解网页图稿中的文字和格式排版，一步生成开发者最终想达到的效果所需要的HTML代码。

GPT4根据网页设计图稿生成HTML代码

GPT4还具备极强的Debug功能，除生成源代码外，查找和修复Bug在日常开发中占据了大量的时间，而借助GPT4，开发者仅将整段代码和需求作为输入，GPT4可以迅速诊断代码并提出解决方案。GPT4的代码生成能力将进一步加速开发周期，极大地降低了开发应用软件的门槛。

GPT4诊断Bug并给出解决方法

文章参考：华福证券

更多精彩内容请关注公众号：BFT机器人

本文为原创文章，版权归BFT机器人所有，如需转载请与我们联系。若您对该文章内容有任何疑问，请与我们联系，将及时回应。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

AIGC 行业应用畅想：预训练模型从单模态走向多模态2024-02-29 02:59:06