1. Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
在人工智能领域,构建通用目的的agent是一个长期愿景。现有的agent在许多领域取得了显著进步,但它们仍然在开放世界的长期任务中遇到挑战。我们将其归因于缺乏必要的世界知识和多模态经验,这些知识和经验可以指导代理完成各种长期任务。在本文中,我们提出了一种混合多模态记忆模块来解决上述挑战。它1)将知识转化为层次化引导知识图谱,允许agent明确表示和学习世界知识,2)将历史信息总结为抽象化的多模态经验池,为agent提供丰富的上下文学习参考。
在混合多模态记忆模块的基础上,我们构建了一个名为Optimus-1的专用多模态代理,它配备了知识引导规划者和经验驱动反思者,有助于在Minecraft等面对长期任务时进行更好的规划和反思。广泛的实验结果显示,Optimus-1在挑战性的长期任务基准上显著优于所有现有agent,并在许多任务上表现出接近人类水平的性能。此外,我们引入了各种多模态大型语言模型(MLLMs)作为Optimus-1的基础。实验结果显示,Optimus-1在混合多模态记忆模块的帮助下展现出强大的泛化能力,多项任务上超越了GPT-4V基准线。
论文: https://arxiv.org/pdf/2408.03615
2. Achieving Human Level Competitive Robot Table Tennis
在实际世界任务中实现人类级别的速度和性能是机器人研究社区追求的北极星目标。本文工作在向这个目标迈进,并展示了第一个通过学习达到业余人类级别的竞技乒乓球性能的机器人agent。乒乓球是一项对身体要求很高的运动,需要经过多年的训练,才能达到高级的专业水平。在这篇论文中,我们贡献了(1)一个层次化和模块化的策略结构,包括(i)低层控制器及其详细的技能描述,这些描述帮助跨越模拟到现实的差距,以及(ii)一个高层控制器,选择低层技能,(2)零次模拟到现实的技术,包括定义在现实世界中立足的任务分布的迭代方法,以及定义自动课程的方法,以及(3)对未见过的对手的实时适应。策略性能通过29场机器人与人类的比赛得到了评估,机器人赢得了45%的比赛(13/29)。所有的人类玩家都是未曾见过的,他们的技能水平从初学者到锦标赛级别的不等。尽管在与最先进玩家的所有比赛中,机器人都输了,但在与初学者的比赛中,机器人赢得了全部比赛;在与中级玩家的比赛中,赢得了55%的比赛。这证明了机器人具有稳定的、业余人类级别的性能。比赛的视频可以在以下链接观看:https://sites.google.com/view/competitive-robot-table-tennis
论文: https://arxiv.org/pdf/2408.03906
3. Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling
近期的图像生成模型在从简短描述创建高质量图像方面表现出色。然而,当遇到长篇描述时,它们在图像中的多个实例一致性方面存在不足。这种不一致性主要归因于现有训练数据集中缺乏对实例特征的精细标注。为解决这些问题,我们引入了Openstory++,这是一个大规模的数据集,结合了额外的实例级注解,同时包含图像和文本。此外,我们开发了一种训练方法,强调以实体为中心的图像文本生成,确保模型能够有效地整合视觉和文本信息。具体而言,Openstory++简化了从开放域视频中提取关键帧的过程,利用视觉语言模型生成描述,然后通过大型语言模型进行润色以确保叙述连贯性。与之前的数据库相比,我们的工作使用了更广泛的开放域资源,包括自动描述、针对实例数量的高分辨率图像以及时间一致性所需的大量帧序列。此外,我们还提出了Cohere-Bench,这是一个开创性的基准框架,用于评估在提供长多模态上下文时的图像生成任务,包括在给定上下文中保持背景、风格和实例的一致性。与现有基准相比,我们的工作填补了多模态生成的关键空白,推动了能够适应开放域环境生成和理解复杂叙述的模型的发展。在Cohere-Bench中的实验确认了Openstory++在培养高质量视觉叙事模型方面的优势,增强了它们执行开放域生成任务的能力。更多详细信息请参阅https://openstorypp.github.io/
论文: https://arxiv.org/pdf/2408.03695
4. RayGauss: Volumetric Gaussian-Based Ray Casting for Photorealistic Novel View Synthesis
基于Gaussian-Based方法在新颖视图合成方面取得了显著进展。一方面,创新方法用局部参数化结构替换了神经辐射场(NeRF)网络,实现了物理一致性表述,能够提供全频谱颜色表示的高质量渲染,在合理的时间内完成。另一方面,方法利用了可微分散射(differentiable splatting)而不是NeRF的射线投射,通过高斯核快速优化辐射场,允许对场景进行精细适应。然而,对不规则高斯核的可微分光线投射投射研究较少,尽管能够提供快速渲染时间,但它容易产生明显可见的纹理。
我们的工作填补了这个空白,提供了一种物理上一致的发射辐射c和密度σ的表述,通过与球面高斯函数/谐波相关联的高斯函数分解,实现了全频谱颜色表示。我们还引入了一种方法,允许使用一种算法对不规则分布的高斯核进行可微分光线投射,该算法逐层整合辐射场,并利用BVH结构。这使得我们的方法能够对场景进行精细适应,同时避免了散射纹理的缺陷。因此,我们实现了与最先进的方法相比的更高质量渲染,同时保持了合理的训练时间,并在Blender数据集上达到了25 FPS的推理速度。项目页面包含视频和代码:[项目页面链接]。
论文: https://arxiv.org/pdf/2408.03356
5. Fast Sprite Decomposition from Animated Graphics
本文提出了一种将动画图形分解为sprites的方法,sprites是一组基本元素或层的集合。我们的方法基于对sprites参数的优化,以适应矢量视频。为了提高效率,我们假设sprites具有静态纹理,以减少搜索空间,同时使用纹理先验模型防止出现视觉上的缺陷。为了进一步加速优化过程,我们引入了利用预训练的视频对象分割模型和单帧标注对sprites参数进行初始化的方法。
为了研究,我们从一个在线设计服务构建了Crello Animation数据集,并定义了定量指标来衡量提取sprites的质量。实验结果显示,我们提出的方法在质量/权衡的权衡方面显著超越了类似的分解任务的基准方法。
论文: https://arxiv.org/pdf/2408.03923
6. CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases
大型语言生成模型在如HumanEval和MBPP这样的独立代码评估任务中表现出色,但在处理整个代码库时却遇到挑战。这一挑战促使研究者探索在仓库级别上增强LLM与代码库交互的方法。当前的解决方案主要依赖于基于相似性检索或手动工具与API的集成,每种方法都有明显的局限性,降低了它们在不同代码任务和实际应用中的通用性。
为了减轻这些限制,我们引入了CodexGraph,将LLM代理与从代码仓库提取的图形数据库接口集成。通过利用图形数据库的结构特性和图形查询语言的灵活性,CodexGraph使LLM代理能够构建并执行查询,从而实现精确的、基于代码结构的上下文检索和代码导航。我们通过三个基准测试评估CodexGraph:CrossCodeEval、SWE-bench和EvoCodeBench。此外,我们还开发了五个实际应用的编码示例。借助统一的图形数据库架构,CodexGraph在学术及实际应用中均具有竞争力和潜力,展现了其在软件工程领域的多样性和实用性。
我们的应用演示:
https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。
论文: https://arxiv.org/pdf/2408.03910
7. Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields
3D高斯散射(3DGS)最近作为一种替代表示形式崭露头角,它利用了基于3D高斯的表示形式,并引入了近似体积渲染,实现了非常快的渲染速度和有前景的图像质量。此外,后续的研究成功地将3DGS扩展到了动态场景,展示了其广泛的应用范围。然而,一个显著的缺点是,为了保持渲染图像的高保真度,3DGS及其后续方法需要大量的高斯点,这需要大量的内存和存储。
为了解决这个关键问题,我们特别强调了两个关键目标:在不牺牲性能的情况下减少高斯点的数量,并压缩高斯属性,如视点依赖颜色和协方差。为此,我们提出了一个可学习的掩码策略,该策略显著减少了高斯点的数量,同时保持了高性能。此外,我们通过使用网格神经场,而不是依赖于球谐函数,提出了一个紧凑但有效的视点依赖颜色表示方法。最后,我们学习了代码本,通过残差向量化学习来紧凑地表示几何和时间属性。
通过模型压缩技术,如量化和熵编码,我们始终展示了在静态场景中25倍以上的存储减少和加速渲染速度,同时保持了场景表示的质量。对于动态场景,我们的方法实现了超过12倍的存储效率,并与现有的最先进的方法相比,保持了高质量的重建。
我们的工作提供了一个全面的3D场景表示框架,实现了高性能、快速训练、紧凑性和实时渲染。我们的项目页面可以在https://maincold2.github.io/c3dgs/访问。
论文: https://arxiv.org/pdf/2408.03822
8. EXAONE 3.0 7.8B Instruction Tuned Language Model
我们推出了EXAONE 3.0指令优化语言模型的发布,这是LG AI研究开发的大型语言模型家族中的首个开源模型。在不同的模型规模中,我们公开发布了7.8B指令优化模型,以促进开源研究和创新。通过在广泛公开和内部基准测试上的大量评估,EXAONE 3.0展示了与同类规模的其他先进开源模型相比,在实际世界性能和遵循指令能力方面的高度竞争力。
我们的对比分析表明,在韩语方面,EXAONE 3.0表现出色,同时在一般任务和复杂推理方面也取得了令人满意的性能。凭借其强大的实际世界效果和双语熟练度,我们希望EXAONE能够持续为专家AI的发展做出贡献。
EXAONE 3.0指令优化模型可在https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct 访问。
论文: https://arxiv.org/pdf/2408.03541
9. WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models
全面的AI安全测试工具包,WalledEval,旨在评估大型语言模型。它支持多种不同的模型,包括开放权重模型和API基础模型,并包含超过35个安全评估标准,在多语言安全、夸张安全以及提示注入等领域进行评估。该框架支持对LLM和评判基准的测试,并整合了自定义突变器,用于测试针对各种文本样式突变(如将来时态和改述)的安全性。此外,WalledEval推出了WalledGuard,这是一种新的小型高效内容审核工具,以及SGXSTest基准,评估文化背景下的夸张安全。访问地址公开提供在 https://github.com/walledai/walledevalA。
论文: https://arxiv.org/pdf/2408.03837
10. Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
我们提出的是Speech-MASSIVE,一个包含MASSIVE文本语料库中一部分语音对应的多语言语音理解(Multilingual Speech Understanding)数据集。Speech-MASSIVE涵盖了来自不同家族的12种语言,并从MASSIVE继承了用于意图预测和槽填充任务的注释。我们的扩展旨在应对大规模多语言SLU数据集稀缺的问题,以及对能够跨语言和任务评估基础模型(LLMs,语音编码器)的需求。我们提供了一个多模态、多任务、多语言的数据集,并在层次化和端到端架构的分层架构以及端到端架构的训练场景下(零样本、少量样本和全量微调)报告了SLU基准线。
数据集、模型和代码已公开于:
https://github.com/hlt-mt/Speech-MASSIVE
论文: https://arxiv.org/pdf/2408.03900