excel学习库-AI大模型：多模态进展迅速，微软AI应用百花齐放

（报告出品方：国泰君安）

1. AI 大模型与 AI 应用齐头并进

1.1. 多模态需求引领大模型不断进化

语言处理领域的大模型发展已较为成熟。GPT-3 模型的强大表现在自然语言处理领域，GPT-3 问世也引发了一系列后续大语言模型的涌现，随着不断的层层迭代和进步，大语言模型在文字交流方面达到了极致的表现。然而，人们并不满足于此，新大模型在多模态交流方面也正在取得飞速进展。

多模态的布局由来已久。人们希望大语言模型不仅能理解文字，还能理解音频、图片、视频等多种模态。这并非空穴来风，OpenAI 从一开始就针对不同的模态开发了多个模型。其中包括针对文字对话的 GPT、针对图像理解的 DALL·E，以及针对音频的 Whisper 等。

这些工作为具备多模态能力的 GPT-4 打下了基础。谷歌最新推出的 PaLM-E 模型也是一个可以同时处理视觉与文字指令输入的大模型。它能将输入转化为动作输出，从而指导机器人完成指定任务。谷歌还计划不久后推出的 Gemin 被定位为一个多模态大模型，它将成为一个多模态智能网络，能够处理各种任务、数据驱动的需求，包括图像、音频、视频、3D 模型甚至图形。

此外，微软在 2023 年推出了 CoDi，它能够从任意输入模态的任意组合中生成语言、图像、视频或音频等多种输出模态。这标志着人机交互迈出了重要的一步，使其更具吸引力和全面性。展望未来的两年，多模态将成为大模型发展的主旋律，大模型将继续在多种模态下展现出更加出色的能力，以应对不断增长的需求和挑战。

多模态引发大模型结构、训练方式的变化。要实现多模态的输入和输出，需要提高大模型对不同形式输入的理解能力。为此，基础的大模型需要额外添加一些结构，以帮助模型将图片、视频和音频等多模态输入转换为可分析和理解的形式。同样地，还需要一些结构将模型生成的结果转换为多模态输出。

这个结构通常被称为多模态解码器-编码器，其主要功能是实现多模态信息与公共语义空间信息之间的转换。现有的多模态大模型，如 CoDi 和 PaLM-E，在其架构中都包含了解码器-编码器结构。然而，要成功构建这样的结构并非易事。公开网络上缺乏高质量的多模态训练数据集，特别是图像-音频和视频-音频之间对应转换的数据集更是凤毛麟角。因此，研究人员必须花费心思来解决这些训练问题。

例如，微软 CoDi 模型就采用了一种巧妙的方法来应对转换数据集缺乏的问题。它将缺乏转换数据集的模态都转换成文本形式，并利用这些模态转换的文本信息进行桥接，从而实现模态之间的转换。这种方法充分利用了文本作为多模态信息之间的中介，弥补了缺乏真实转换数据的不足。

这样一来，模型可以通过处理文本数据来学习多模态之间的关联，进而实现多模态输入和输出的转换。尽管构建多模态解码器-编码器结构存在一定的困难，但随着研究人员的努力，我们可以期待更多的高质量多模态训练数据集的开发和公开，这将进一步为实现更广泛的多模态交互和应用提供有力支持。

大模型参数上升，算力发展支持模型进化。随着多模态大语言模型的不断发展，模型结构变得更加复杂，模型参数量也持续上升。以谷歌的 PaLM-E 模型为例，其参数量高达 3400 亿，训练参数包含了 3.6 万亿个 tokens。根据媒体 semianalysis 透露，GPT4 拥有 1.8 万亿个参数，同时其训练数据中包含了 13 万亿个 tokens。相比之下，GPT3 仅有 1750 亿参数。

这种模型参数量和复杂度的增加导致了训练成本的迅速上升。然而，近年来，以英伟达为领导的人工智能算力取得了飞速的发展。英伟达推出了 A100GPU 芯片，并陆续推出了 H100 和 GH200 芯片，这些芯片在推理速度和训练速度方面都有巨大的提升。此外，英伟达还与其他云计算厂商合作推出了 DGX Cloud 等云计算服务，使得人工智能厂商无需购买服务器也能享受到强大的算力支持。只有当算力能够跟上大模型的发展进度，才有可能保证大模型的可持续发展。因此，这种人工智能算力的飞速发展对于推动大模型的进步至关重要。

1.2. OpenAI 大模型为基，与微软携手引领 AI 应用产品落地

微软大规模注资 OpenAI 开展深度合作，模型与应用双线发展。自 2019 年起，微软与 OpenAI 展开合作，微软首次注资 OpenAI 并在其 Azure 云计算服务上开发人工智能超级计算技术。OpenAI 逐渐将云计算服务从谷歌云迁移到 Azure，并每年在微软云服务上进行模型训练，成为微软投资的重要组成部分。2020 年，微软购买了 GPT-3 基础技术的许可，并获得了技术集成的优先授权，将 GPT-3 应用于 Office、Bing 搜索引擎和 Microsoft design 等产品中，以改进现有工具和优化产品功能。总而言之， OpenAI 帮助微软不断提升其多模态 AI 能力，而微软则为 OpenAI 最新功能提供了强大的流量入口和使用迭代环境，二者相互结合，形成能力闭环。

2021 年，微软再次投资 OpenAI，双方合作关系进入第二阶段，从合作探索期进入蜜月期。微软作为 OpenAI 的云提供商，在 Azure 中集中部署 OpenAI 开发的各类工具，形成了 OpenAI 的收入来源之一。微软开始将 OpenAI 工具与自有产品进行深度集成，并推出相应产品。

其中，基于 Codex 的 AI 代码补全工具 GitHub Copilot 于 2021 年 6 月推出。2022 年，微软通过 Edge 浏览器和 Bing 搜索引擎在部分国家和地区提供基于 AI 图像生成工具 DALLE 开发的 Image creator 新功能。2022 年 6 月， GitHub Copilot 正式上线。2022 年 10 月，微软宣布将推出视觉设计工具 Microsoft designer。随后，在 2022 年 11 月 30 日，OpenAI 发布了基于 GPT-3.5 系列大型语言模型微调而成的全新对话式 AI 模型 ChatGPT。

2023 年 1 月 7 日，外媒爆料微软计划将 OpenAI 的 AI 模型引入 Word、 PowerPoint、Excel、Outlook 等软件。随着合作的深入，微软于 2023 年 2 月 1 日宣布推出 Microsoft Teams Premium，由 ChatGPT 提供技术支持，为 Teams 的高级付费版本，可提供自动生成会议纪要、生成会议模板等功能。同月，微软短暂上线了由 ChatGPT 提供支持的新版 Bing 搜索引擎，随后于 2 月 8 日正式上线了新版 Bing 搜索引擎和 Edge 浏览器，以提升用户的搜索效率。

在 2023 年 3 月 8 日，微软宣布以公共预览形式推出 AI 计算机视觉模型 Florence。最后，在 2023 年 3 月 17 日，微软公布了 Microsoff 365 Copilot，计划将 GPT-4 全面接入微软 Office 全家桶。

OpenAI 选择微软也不单单是商务关系促成，更来源于微软 Azure 的高性能计算能力。在微软还没有拥抱开源和 Linux 的时候，为了与 Linux 这个占据了市场份额超过 90%的竞争对手竞争，微软决定在性能上要超越 linux，后来在云计算出来以后，微软在 InfiniBand 和虚拟化作业方面进行了大量的优化，在虚拟化环境中实现了网络性能的无损传输，正因为性能优势，OpenAI 也选择了 Azure 的高性能计算。

从本质上看，25 瓦左右的脑袋的学习能力要高于插上电就几百上千瓦的大模型，因为给一个小孩看一张老虎照片，很快他就能从成千上万张中筛选出老虎，但还未训练的大模型不行。但大模型有一个优点，就是它利用 GPU 可以直接复制这些已经存在的知识，然后将学到的知识相互交换以提高效率，这个过程就需要高性能计算。

AI 应用加速落地，“AI+办公”增长态势最为明显。随着大语言模型的迅猛发展，人工智能软件应用作为商业化的最直接方式迅速落地。根据 SensorTower 发布的《2023 年 AI 应用市场洞察》数据，随着 ChatGPT 和 Stable Diffusion 等人工智能算法的不断更新迭代，全球人工智能市场迅速升温。仅在 2023 年上半年，AI 应用的下载量同比增长了 114%，突破了 3 亿次，超过了整个 2022 年的总下载量。同时，AI 应用内购收入同比激增了 175%，接近了 4 亿美元。AI 与 Chatbot 以及 AI 与图像的结合成为了热门的人工智能发展方向。

AI 与 Chatbot 应用的下载量占全球前 100名AI 应用总下载量的49%，而AI 与图像应用的下载量占比为31%。 AI 与办公软件的结合成为了这一波人工智能应用浪潮中的核心受益方向。这一波人工智能应用浪潮的引爆点是基于自然语言处理大模型技术的文字创作工具 ChatGPT 迅速成长为全球热门应用的现象级产品。随后，基于对图像、视频、音频等多模态数据进行处理的大模型应用也迅速推广起来。生成式人工智能天然适用于文字、音视频、图像等内容的自主创作场景，因此可以直接提升现有各类型办公软件的产品能力，推动办公软件的迭代升级。

OpenAI 大模型独领风骚，单月访问量一骑绝尘。2020 年 3 月 OpenAI 推出 GPT-3，引发了世界大语言模型研究的浪潮，在此之后，OpenAI 不断推出更新版本，于 2023 年 3 月 14 日发布最新的 GPT-4，凭借其巨大的模型规模、预训练和微调的训练策略、Transformer 架构的优势以及多模态输入支持，一直处于大模型进展的最前沿，在全球各个研究组织推出的大模型排行榜上，GPT 模型必定名列前茅。

GPT 模型在自然语言处理和生成式人工智能领域的应用和研究中发挥着重要的作用，并为人们提供了强大的语言模型和智能助手。美国风险投资 a16z 对每月访问量前 50 的生成式 AI 网络产品进行了排名，其中 OpenAI 推出的 ChatGPT 访问量一骑绝尘。截止 2023 年 6 月，ChatGPT 占据了整个前 50 名列表月流量的 60%，月访问量约为 16 亿，月用户数为 2 亿，这也使得 ChatGPT 成为全球访问量排名第 24 名的网站。除了排名第二的配套平台 CharacterAI，没有其他任何一款产品拥有和 ChatGPT 一样的增长趋势。

2. OpenAI 各大模型性能提升迅速，多模态取得突破

2.1. OpenAI 推出 GPT-4，继续领跑 GPT 模型

GPT-4 是 OpenAI 在深度学习扩展方面的最新里程碑，语音和图像交互功能也得到了更新。2023 年 3 月 14 日，OpenAI 正式发布 GTP-4。根据官网发布的 GPT-4 论文，GPT-4 已经可被视为一个通用人工智能的早期版本。2023 年 8 月 28 日，OpenAI 发布了企业版 ChatGPT，其直接对接 GPT-4，并提供无限制访问、高级数据分析功能、定制服务等服务，也支持处理更长文本输入的长上下文窗口，同时企业数据隐私和安全也能得到保证。

2023 年 9 月 25 日，OpenAI 更新了 GPT-4 了语音和图像功能，使得用户能通过语音与 GPT-4 交流，也能以多张图像的形式与 ChatGPT 交互。至此，GPT-4 是一个真正的大型多模态模型，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中表现出人类水平的性能。例如，它在模拟律师资格考试中的成绩位于前 10％的考生，而 GPT-3.5 的成绩在后 10％。GPT-4 不仅在文学、医学、法律、数学、物理科学和程序设计等不同领域表现出高度熟练程度，而且它还能够将多个领域的技能和概念统一起来，并能理解其复杂概念。

除了生成能力，GPT-4 还具有解释性、组合性、可控性与空间性能力。在视觉范畴内，虽然 GPT-4 只接受文本训练，但 GPT-4 不仅从训练数据中的类似示例中复制代码，而且能够处理真正的视觉任务，充分证明了该模型操作图像的强大能力。另外，GPT-4 在草图生成方面，能够结合运用 Stable Difusion 的能力，同时 GPT-4 针对音乐以及编程的学习创造能力也得到了验证。另外，OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整，GPT-4 具有了更高的真实性、可控性。

GPT-4 的训练数据集包括了 13 万亿个 tokens。但由于没有高质量的训练 token，这 13 万亿个 tokens 中包含了许多自循环的 epoch 数据。据 semianalysis 官网论述，GPT-4 针对文本数据进行了 2 个 epoch 的训练，针对代码数据进行了 4 个 epoch 的训练。即便网络上存在着大量高质量的文本、视频、音频 token，以正规方式获取数据并非如简单的网页抓取那样容易。

GPT-4 参数量显著提升，OpenAI 使用混合专家模型控制成本。GPT-4 的规模是 GPT-3 的 10 倍以上。GPT-4 拥有大约 1.8 万亿个参数，分布在 120 个神经网络层之上。相比之下，GPT-3 大约只有 1750 亿个参数。 Transformer 作为 GPT 系列的基础模型本身具有扩展性较差的问题，强行扩展规模需要巨大成本。OpenAI 通过使用混合专家模型（MoE）成功将成本控制在合理范围内。MoE 可以实现训练数据在不同专家模型的分配，使每个模型专注处理其最擅长的部分，从而实现模型的稀疏性。GPT- 4 中一共部署了 16 个专家模型，模型的每一次前向专递都由两个专家模型进行路由。

GPT-4 采用并行性策略横跨全部 A100GPU 同时展开训练。OpenAI 采用了 8 路张量并行训练，达到了英伟达设定的 NVLink 上线。同时，考虑到 GPU 内存容量限制，OpenAI 还采用了 15 路流水线并行训练。除此之外，semianalysis 官网推测还使用了 ZeRo Stage1、块级 FSDP 或者混合共享数据并行化完成训练。

GPT-4 训练成本高昂，单次训练成本高达 6300 万美元。尽管 GPT-4 的前馈参数仅为 175B 参数的 Davinchi 模型的 1.6 倍，但其成本却是 Davinchi 模型的 3 倍。这主要是因为 GPT-4 需要更大规模的集群，并且利用率较低。故障数量过多是导致利用率低的原因之一，一旦出现故障就需要重新从之前的检查点开始训练。已知 GPT-4 所使用的浮点操作数约为 2.15x10^25，其在大约 25000 个英伟达 A100 上训练了 90-100 天，利用率在 32%-36%之间。倘若 OpenAI 每小时使用每一张 A100 芯片的云计算成本为 1 美元，则本次训练的成本约为 6300 万美元。

伴随成本与价格提升，GPT-4 定价水涨船高。GPT 产品可分为 ChatGPT 与 GPT API 两部分，前者是通过 OpenAI 官网访问 GPT 模型，后者则可用于搭建第三方外部访问途径。目前，官网 ChatGPT Plus 版定价为每月 20 美元，开通后即可对话 GPT-4 模型，但并非没有限制，官方定制了每 3 小时最多 25 个提问的数量上限。倘若不开通 Plus 版则只能使用 GPT- 3，但提问数量没有限制。GPT-4 API 的定价策略与之前模型不同，其根据响应类型分开定价，分别收取 0.03 美元/1k prompt token，0.06 美元/1k 生成响应 token。该价格相比 GPT-3.5 的 0.002 美元/1k tokens 价格上涨了至少 14 倍。

OpenAI 为搭建 GPT-4 付出众多，持续设置技术壁垒。OpenAI 并未公布模型架构、硬件、训练计算、数据集构造、训练方法的具体细节，这并不是因为对人类的某种存在风险，而是 GPT-4 的架构是可复制的。但可以明确的是，OpenAI 为开发 GPT-4 付出了巨大的努力。为搭建 GPT- 4，OpenAI 与 Azure 合作从头开始设计了一台超级计算机，并重新搭建了整个深度学习堆栈。同时，OpenAI 开源了 OPenAI Evals 自动评估 AI 模型性能的框架，以让所有人都能指出模型中的缺点，以帮助 OpenAI 进一步改进模型。

2.2. GPT-5 已提上日程，AI 大模型将持续颠覆更行各业

GPT-5 将是基于 GPT-4 的改进版本。美国专利商标局的文件显示， OpenAI 已与 2023 年 7 月 18 日提交了“GPT-5”的商标申请，且申请已被正式接收，这意味着 GTP-5 的训练极有可能已经展开，此时距离 GPT- 4 发布才过去不到半年时间。从申请书中的说明来看，GPT-5 的大多数功能是 GPT-4 已经具有的。从某种程度上而言，GPT-5 将会是 GPT-4 的改进版本。

GPT-5 的诞生前，算力紧缺是 OpenAI 面对的一大难题。OpenAI CEO Sam Altman 此前在人工智能风险监管听证会上曾表示，OpenAI 目前并没有足够的 GPU 以支持用户的高频访问。GPT-4 的训练使用了 25000 张英伟达 A100 显卡，耗时 90 余天，而 GPT-5 对算力的需求将远超 GPT- 4。据马斯克推断，GPT-5 或将需要 3-5 万张英伟达 H100 显卡。

摩根斯坦利同样预测 GPT-5 将使用到 2.5 万张以上 H100 显卡。H100 显卡作为英伟达最新 GPU 产品之一，其 16 位推理速度较 A100 提升 3.5 倍，16 位训练速度提升约 2.3 倍。由于目前受到了供应链限制，英伟达虽然正在努力提高 GPU 产能，担任无法满足所有客户需求。但好消息是，英伟达于 2023 年 5 月 29 日发布了最新的 GH200 超级芯片，倘若在未来能够实现量产，各类大模型的训练时间将会明显缩短。

GPT-5 将会在多模态分析方面取得突破。目前 GPT-4 只能处理文本与图像两种类型的数据，因此外界普遍期望 GPT-5 能够在视频、音频等其他模态上有所突破。关于此，OpenAI 在提交的 GPT-5 商标说明中也有涉及，并重点放在了文字模态与语音模态之间的转换。GPT-5 将是一个用于自然语言处理、生成、理解与分析的大型语言模型，即它在能接受音视频模态输入的同时，也能自主生成音视频模态的输出。微软先前推出的 CoDi 模型在多模态处理上拥有极其优异的表现，所以 OpenAI 极有可能与微软进一步展开合作，推动 GPT 模型在多模态分析上的进步。根据当前技术演化进度，未来希望能看到的场景是，人们只需向 GPT-5 输入一个有趣的 memo 或者一张模糊的概念图，GPT-5 就能根据时下流行趋势自动创作使用者所需的形式内容，包括但不限于 3D 模型、视频、文字、音频等等。

GPT-5 有望垂直渗透各行各业，颠覆传统工作模式。OpenAI Startup Fund 在近期投资了多家企业，其中包括影视公司 Descript。GPT-5 在未来可将 AI 技术引入影视创作领域，这将完全颠覆影视制作的方式，并开启全新的交互式媒体时代。GPT-5 作为 AI 技术的重要代表，可以理解用户拍摄的影响，感知用户需要表达的情绪、构图并提供拍摄建议，甚至自行创造特效，从而使视频内容更加真实，人机交互更加自然。OpenAI Startup Fund 同样还投资了挪威机器人公司 1XTechnologies，该公司正在研发一款能够在日常场景中与人安全协作的人形机器人。GPT-5 的多模态处理能力能够帮助机器人更好地感知与理解人类的情感和语言，从而实现更流畅的人类交互与协作。可以看到，我们将迎来更加智能化、智慧化、个性化的 AI 服务，使人们的生活更加便捷舒适。

2.3. DALL-E 系列模型进展迅速，文图映射性能快速提升

DALL-E 是一个能够根据自然语言描述创建逼真图像和艺术作品的人工智能系统。它能够根据使用者输入的提示信息创建具有特定尺寸的新图像、编辑现有图像或者创建用户提供的图像变体。2022 年 9 月 28 日， OpenAI 正式对外公开的 DALL-E 第二代，并于同年 11 月开放 DALL-E2 API。与前一代不同，DALL-E2 的参数量仅有原来的 30%，约 35 亿个，但其生成的图像分辨率是原来的四倍。同时，DALL- E2 在真实感与字母匹配方面做的更好。DALL-E2 目前可以免费使用，但有一定次数限制。除了初始的 50 个使用积分，每个月用户还可以额外获得 15 积分，每使用一次 DALL-E2 就会消耗一个积分。

DALL-E2 经过 CLIP 训练实现文本到图片的映射。DALL-E 2 中的文本语义与其视觉表征之间的联系是由另一个名为 CLIP 的 OpenAI 模型学习的。CLIP 接受了数亿张图像及其相关标题的训练，以了解给定文本片段与图像的关联程度。在此之后，DALL-E2 将文本 prompt 映射到表征空间的文本编码器中，并将文本编码映射到关联度高的图像编码中，捕捉文章编码中 prompt 包含的语义信息。最终图像编码模型随机生成图像，输出对该语义信息的视觉表现。

DALL-E3 将集成 ChatGPT，上下文理解力全面提升。据 OpenAI 官网消息，第三代 DALL-E 模型将于 2023 年 10 月正式公开。从公开的 demo 来看，DALL-E3 比以往系统更能理解细微差别和细节，并将自己的想法转化为非常准确的图像。除了更好的作图效果外，DALL-E 将于 ChatGPT 集成，利用 ChatGPT 来创建、拓展、优化 prompt，来帮助用户更快速地向 DALL-E3 发出详细的绘图指令。

3. OpenAI 各类模型催生各领域创新应用

OpenAI 大模型作为一项颠覆性的技术，正在广泛应用于各个行业，并对人们的生活工作产生了深远的影响。从图像搜索到营销、软件开发和智能机器人等多个领域，大模型的应用正在改变着生活方式和工作方式。例如 DALL·E 模型能够识别和理解图像内容，从海量的图像数据库中准确搜索出相关的图像。这项技术不仅在媒体和设计领域有着广泛的应用，还可以为医学影像诊断、安防监控等提供更准确和高效的解决方案。

GPT 模型在营销领域的应用正在改变着市场推广的方式，通过分析大数据和用户行为模式提供个性化的营销策略和精准的目标用户定位，从而提高广告的投放效果和销售转化率，甚至还能够自动化营销过程，实现智能化的广告投放和客户关系管理，为企业带来更高的市场竞争力；通过自动化技术，GPT 能够辅助开发人员完成繁琐的编码任务和软件测试，提高开发效率和质量，还能够通过自动化的方式生成代码和设计模型，加速软件开发周期，推动技术创新和产品迭代。

智能机器人的发展也是 GPT 应用的重要领域之一。智能机器人能够通过感知、学习和决策等能力，执行各种任务，如家庭服务、医疗护理、生产制造等。它们能够与人类进行交互和合作，提供更智能、便捷的服务。总之，AI 大模型的应用为企业提供了更智能、高效的解决方案，推动了商业模式的创新和升级，同时也为个人带来了更智能化、便利化的生活体验，从智能助理到智能家居，人们的生活正逐渐被 AI 技术所赋能。

3.1. New Bing+DALL·E3 推动图像生成类应用崛起

New Bing+DALL·E3：搜索引擎被赋予图像生成功能与信息搜寻功能。 2023 年 3 月 22 日，微软宣布必应搜索引擎已集成 OpenAI 的 DALL·E2 模型，以增强其生成图像的能力。换句话说，通过与 ChatGPT 的整合，必应的功能得到了进一步加强。同时，现在 Bing Image Creator 可以利用 DALL·E2 模型生成图像，用户只需提供图像描述，并提供位置或活动等额外语境，然后选择艺术风格，Image Creator 将根据用户的想象生成图像。

必应提供三种响应模式：创意模式、平衡模式和精确模式。创意模式下生成的结果通常是独特且富有创意的，而精确模式则更注重准确性和相关性，以获得更真实和简洁的答案。在 2023 年 9 月 11 日的发布会上，微软宣布 Bing 将搭载 OpenAI 最新推出的 DALL·E3 模型，旨在增强其通过图像搜索获取信息的能力。

Bing 将能够根据用户的搜索历史记录提供更个性化的答案、全新的 AI 驱动购物体验，以及更具移动化和可视化的 Bing Chat Enterprise 智能聊天功能。Image Creator 图像创建功能将因 DALL·E3 模型而变得更加强大，提供更美丽的创作和更好的细节渲染，同时能更好地理解用户需求并提供更准确的图像。例如，用户可以直接在与Bing聊天中修改新生成的游戏头像，AI 平面设计工具Microsoft Designer 也已整合到 Bing 中。目前，Image Creator 仍然免费向用户开放，每个账号初始都会获得 25 次免费生成点数。

Midjourney 是一款基于 Dall·E2 的可以通过文字描述绘制图像的 AI 应用。用户可以输入任何自己想象的场景、物体、人物、风格等，不受限于预设的类别或模板。AI 只需要大约一分钟就可以生成四个图像选项供用户选择。除了核心功能外，Midjourney 还提供了其他功能，包括放大、编辑、保存和分享。放大功能可以让用户更清楚地查看生成图像的优点和缺点，也能发现一些意想不到的细节和惊喜。编辑功能允许修改生成图像的颜色、亮度、对比度等参数，或添加滤镜、文字、贴纸等元素。

同时，用户可将生成图像保存到设备或上传到云端存储，或将其发送给其他 Discord 用户或群组，或复制链接分享到其他社交媒体或网站。 Midjourney 目前处于测试阶段，需要通过 Discord 平台注册和使用。注册后，用户可以免费试用 Midjourney 的所有功能，但次数有限制。每次使用命令生成图像或对图像进行放大、编辑等操作，都会消耗一个 Job。免费试用期内用户可使用大约 25 个 Job。

此外，Midjourney 还提供两种付费服务：每月订阅 9.99 美元，使用 Midjourney 的所有功能无限次。该应用在 2021 年创建，团队仅有 11 人，没有任何融资，截止 2023 年 7 月已经有 1000 万用户，一年有 1 亿美元的收入，属 AIGC 现象级应用。

3.2. 在企业管理、营销和销售领域，AIGC 大有作为

Sprinklr AI+是一款生成式 AI 驱动的研究平台，加快数据分析过程。它将自身的 AI 技术与 OpenAI 的生成式 AI 相结合，以增强用户体验，并确保企业级治理、安全性和数据隐私。Sprinklr AI+利用超过 1,250 个行业特定的 AI 模型，支持 100 多种语言，并在 150 个国家/地区运营。该技术使 Sprinklr 能够处理大量非结构化数据，包括文本、音频、视频、图像、指标和时间序列数据，以使客户能够获取有价值的信息。

通过 Sprinklr AI+，企业可以利用来自 30 多个数字渠道的非结构化数据，这些渠道包括社交平台、消息传递平台和可公开访问的来源，如新闻、博客和评论网站。通过将生成式 AI 集成到平台中，Sprinklr AI+ 使企业能够生成内容，增强反馈和帮助，并快速识别有价值的信息，以便迅速采取行动。同时，Sprinklr AI+可以从知识库中自动提取答案，通过对大规模对话的自动质量评分和情绪分析，质量管理功能也得到增强。

此外， Sprinklr AI+还通过生成 AI 功能丰富了现有的对话 AI 机器人、聊天平台和知识库，用于编写、翻译和摘要等任务。目前 Sprinklr 已经获得了总计高达 350 亿美元的融资。

3.4. 机器人感知能力与执行效率通过生成式 AI 优化增强

EVE（AI 加持的人型机器人）由 OpenAI 支持的机器人公司 1x 出品，部分软件功能由 ChatGPT 提供支持。EVE 是一款拥有两臂、两眼和四轮底盘的机器人，可以在各种环境中执行多种任务，如巡逻、监控、搬运等。

EVE 机器人由人类安保人员通过虚拟现实来控制，如果遇到任何问题，他们可以立即“进入”机器人的身体。EVE 机器人还有一个 LED “脸”，可以向人们展示反应，操作者也可以通过它“说话”，它的敏捷度惊人，可以打开门窗、抓取物品，执行与人类类似的任务，EVE 还作为护士或护理人员接受过测试。打造实体机器人的目的就是帮助解决劳动力不足的问题，尤其是保安、监狱、养老院等领域。该公司已经完成了 2350 万美元的 A2 轮融资，由 OpenAI 创业基金领投，Tiger Global、 Alliance Venture、Investinor 和其他投资者跟投。

3.5. 微软借助 LLM 通过管理现有 AI 模型可以实现复杂任务

大语言模型（LLM）充当控制器可以让 LLM 来管理现有 AI 模型，来完成多模态的复杂 AI 任务。在实际应用场景中，一些复杂任务通常由多个子任务组成，因此需要多个模型的调度和协作，这也超出了语言模型的能力范围。对于一些具有挑战性的任务，LLM 在零样本或少样本设置下表现出优异的结果，但它们仍然比一些专家弱（如微调模型）。

针对这些问题，微软亚洲研究院和浙江大学研究团队在 2023 年 4 月发布的《 HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》论文中介绍了一个大模型协作系统，该系统提出了一种让 LLM 充当控制器的新方法，让 LLM 来管理现有的 AI 模型，来完成多模态的复杂 AI 任务，并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区（例如 HuggingFace）中各种 AI 模型以解决复杂 AI 任务的系统。

微软“JARVIS”基于 HuggingGPT 论文成果构建，该系统由 LLM 作为控制器和众多专家模型（HuggingFace 社区）作为协作执行者组成。 “JARVIS”旨在将开源社区和 ChatGPT 的力量结合在一起，Jarvis 能够调用姿势检测模型、图像生成模型、图像分类模型、图像字幕模型和文本到语音转换模型等。虽然 JARVIS 调用的模型并不新颖，并且多年来一直是开源社区的中流砥柱，但将它们组合在一起是解决复杂问题的新方法。尽管给定的提示有多个执行阶段，每个步骤中都有不同的任务，但架构可以完美地处理它。Jarvis 项目目前已经在 Github 上开源，可以免费获取，用于非商用用途。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

本报告共计：45页。受篇幅限制,仅列举部分内容。

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

AI大模型：多模态进展迅速，微软AI应用百花齐放2024-04-26 19:17:37

1. AI 大模型与 AI 应用齐头并进

« 2024年12月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31