字节发布统一多模态模型Show-o!苹果发布PDS复杂算术任务精度爆涨近20%!Jamba-1.5无损支持256K上下文长度
论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。
字节发布统一多模态模型Show-o!苹果发布PDS复杂算术任务精度爆涨近20%!Jamba-1.5无损支持256K上下文长度
原创 一只小鸭子,咿呀 AI for Research 2024年08月24日 13:30 广东
前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。
1. Show-o:统一多模态理解和生成的Transformer模型
标题:Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
机构:字节跳动、新加坡国立大学
关键词:统一多模态、自回归建模、离散扩散建模、多模态任务
作者:Jinheng Xie, Weijia Mao, Zechen Bai
分析:该论文提出了一种统一的多模态理解和生成模型Show-o,该模型结合了自回归和离散扩散建模技术,能够自适应处理各种和混合模态的输入和输出。该模型不仅支持广泛的视觉语言任务,如视觉问答、文本到图像生成等,而且展示出了在性能上的优势,可能成为下一代基础模型的有力候选者。
地址:https://arxiv.org/pdf/2408.12528
代码:https://github.com/showlab/Show-o
2. 数字序列的位置描述方案
标题:Positional Description for Numerical Normalization
机构:Apple
关键词:数字序列、位置描述方案、文本规范化、神经模型
作者:Deepanshu Gupta, Javier Latorre
分析:本文提出了一种针对数字序列的定位描述方案(PDS),通过为每个数字整合占位符信息,解决了子词分词算法在处理数值任务时遇到的文本规范化问题。该方案通过简单的预处理,保持了模型架构的完整性,同时显著简化了数字归一化的过程,使得问题变得可解决。此外,该论文的研究发现,PDS能够增强语言模型的算术处理能力,使其在复杂算术任务上的相对精度提高了23%到51%。该论文证明了PDS有效地缓解了神经模型中的致命数字归一化错误,只需要少量的训练数据即可,无需使用基于有限状态Transformer的规则基础方法。该论文的研究表明,PDS对于TTS和语音识别的文字处理过程至关重要,能够在生产限制下实现有效的文本规范化。
地址:https://arxiv.org/pdf/2408.12430
3. Jamba-1.5: 支持大规模运行的混合Transformer-Mamba模型
标题:Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
关键词:混合模型、指令调用、量化技术、成本效益推理
作者:Jamba Team: Barak Lenz, Alan Arazi, Amir Bergman
分析:本文介绍了一种基于Jamba架构的新一代指令调用大型语言模型——Jamba-1.5。Jamba采用了一种混合Transformer-Mamba的混合专家体系结构,在各个上下文长度下提供了高吞吐量和低内存使用率,同时保持与Transformer模型相同或更好的质量。该论文发布了两个模型大小:Jamba-1.5-Large,拥有94B个活动参数,以及Jamba-1.5-Mini,拥有12B个活动参数。这些模型都针对各种对话和指令遵循能力进行了精细调优,拥有256K个令牌的最有效上下文长度,这是开放权重模型中最大的。为了支持成本效益的推理,引入了一种名为ExpertsInt8的新量化技术,允许将Jamba-1.5-Large部署在8个80GB GPU的机器上,在处理256K个令牌的上下文时,无需降低质量。在学术基准和聊天机器人基准方面,Jamba-1.5模型表现出卓越的性能,同时提供了高吞吐量,特别是在长上下文基准上,其性能超过了其他开放权重模型。
地址:https://arxiv.org/pdf/2408.12570
4. A Percolation Model of Emergence:基于形式语言训练的Transformer的研究
标题:A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language
关键词:涌现现象、渗透模型、Transformer模型、数据生成过程
作者:Ekdeep Singh Lubana, Kyogo Kawaguchi, Robert P. Dick
分析:这篇论文研究神经网络中的涌现现象,提出一种基于形式语言训练的Transformer模型的渗透模型。该模型通过学习和理解数据的生成过程,能够突然获得某些特定任务的性能提升。论文通过实证研究发现,一旦模型学习到语言的底层语法和语境敏感性结构,其在狭窄任务上的性能会突然提升。此外,论文还将网络的学习动态与二分图上的渗透过程进行类比,建立了正式的相变模型,可以预测在改变数据结构时涌现现象的变化。该研究为更好地定义、表征和预测神经网络的涌现现象提供了理论和实验框架。
地址:https://arxiv.org/pdf/2408.12578
5. Vintern-1B: 多模态越南大模型的一亿参数可靠模型
标题:Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
关键词:Vintern-1B、越南语、多模态、语言模型
作者:Khang T. Doan, Bao G. Huynh, Dung T. Hoang
分析:本报告介绍了Vintern-1B,这是一个专为越南语任务设计的功能全面的一亿参数多模态大型语言模型。通过将Qwen2-0.5B-Instruct语言模型与InternViT-300M-448px视觉模型结合起来,Vintern-1B优化适用于多种应用,包括光学字符识别(OCR)、文档提取和越南语语境下的一般问题回答。该模型在包含数百万个图像-问题-答案对的广泛数据集上进行微调,适用于越南多个语言基准测试如OpenViVQA和ViTextVQA,展现出稳健的性能和可靠的结果。
地址:https://arxiv.org/pdf/2408.12480
代码:https://huggingface.co/5CD-AI/Vintern-1B-v2
6. MuMA-ToM: 多模态多代理理论思维
标题:MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
机构:约翰霍普金斯大学
关键词:多模态、多代理、理论思维、LIMP模型
作者:Haojun Shi, Suyu Ye, Xinyu Fang
分析:本文主要介绍了多模态多代理理论思维(MuMA-ToM),这是一个评估多模态情境下多代理互动中心理推理能力的基准。通过提供现实家庭环境中的视频和文本描述,让该论文从现实情境出发,思考人们的目标、信念以及关于他人目标的信念。该研究对于使得AI系统能在现实环境中安全、有效地与人类交互有着重要作用,它引入的模型LIMP(以语言模型为基础的多代理逆向规划模型)显著超越了现有技术,包括像GPT-4o、Gemini-1.5 Pro这样的大型多模态模型,以及近期的多模态理论思维模型BIP-ALM。
地址:https://arxiv.org/pdf/2408.12574
7. 知识擦除增强大模型编辑中的多跳推理
标题:Enhancing Multi-hop Reasoning through Knowledge Erasure in Large Language Model Editing
机构:中国科学院自动化研究所
关键词:大型语言模型,知识编辑,多跳推理,知识擦除,模型结构改进
作者:Mengqi Zhang, Bowen Fang, Qiang Liu
分析:这篇论文主要探讨了大型语言模型在面对内部知识不准确和过时信息时的问题,并提出了知识编辑的方法来解决这些问题。论文通过一系列实验验证了知识编辑技术在多跳推理任务中的有效性,提出了一种新的知识编辑方法,即结合知识擦除机制的大型语言模型编辑(KELE)方法。该方法包括设计用于擦除残留知识的擦除函数和用于注入新知识的注入函数。实验表明,KELE方法可以显著提高编辑后的多跳推理能力。
地址:https://arxiv.org/pdf/2408.12456
8. 解码时幻觉与真实比较器改进大模型的真实性
标题:Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators
机构:腾讯、复旦大学、字节跳动
关键词:大型语言模型,解码,幻觉与真实比较器,模型评估
作者:Dingkang Yang, Dongling Xiao, Jinjie Wei
分析:这篇论文主要解决大型语言模型易产生与事实相悖的幻觉内容的问题。论文提出一种Comparator-driven Decoding-Time(CDT)框架,通过构建幻觉和真实的比较器,在解码过程中对比模型输出与真实事实的差异,从而提高模型的响应真实性。该框架通过多任务微调样本构建比较器,并采用专家策略增强比较器捕捉不同任务指令下的幻觉或真实性模式的能力。实验证明,该框架能显著提高模型性能和响应的真实性。
地址:https://arxiv.org/pdf/2408.12325
9. GarmentAligner: 通过检索增强的多级校正的文本到服装生成
标题:GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections
机构:中山大学、鹏城实验室
关键词:GarmentAligner、文本到服装生成、语义对齐、检索增强
作者:Shiyue Zhang, Zheng Chong, Xujie Zhang
分析:本文提出GarmentAligner,一种通过检索增强的多级校正的文本到服装扩散模型。论文旨在解决在服装生成任务中,尤其是在服装部件的量、位置和关系上存在的细粒度语义不匹配问题。它引入自动组件提取方法获取衣物部件的尺寸和空间信息,并利用基于组件相似性排名的检索增强和对比学习提升模型对正负样本组件的认识。通过多级校正损失,提高语义、空间和数量层次的部件一致性。实验结果表明,GarmentAligner在精度和部件语义对齐方面优于现有竞争对手。
地址:https://arxiv.org/pdf/2408.12352
10. 大模型作为下一代密集检索的基础:全面的经验评估
标题:Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment
机构:北京AI研究院、中国科学院自动化研究所
关键词:大型语言模型、密集检索、模型评估、预训练
作者:Kun Luo, Minghao Qin, Zheng Liu
分析:论文对大型语言模型(LLMs)在密集检索中的表现进行了全面的经验评估。研究发现,LLMs作为检索器表现出优异性能,尤其在域准确性、数据效率、zero-shot泛化、长期检索、指令基于的检索和多任务学习等方面有巨大潜力。此外,更大的模型和更长时间的预训练持续提高了域准确性和数据效率。研究为LLMs在密集检索领域作为通用和有效的骨干编码器提供了有价值的见解。
地址:https://arxiv.org/pdf/2408.12194
11. 证据核查:使用RAG和LLM的少数样本上下文学习
标题:Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs
机构:加州大学、斯坦福大学、Amazon
关键词:证据核查、大型语言模型、知识图谱
作者:Ronit Singhal, Pransh Patwa, Parth Patwa
分析:这篇论文主要研究了如何利用自动化工具进行在线信息的真实性核查。作者提出了一个系统,该系统利用Averitec数据集来评估声明的真实性,并从数据集中提取支持性证据。他们还开发了一个检索和生成(RAG)流程,用于从知识库中提取相关证据句子,然后将这些句子与声明一起输入大型语言模型(LLM)进行分类。此外,他们还评估了多个LLM的少数样本上下文学习能力。结果显示,他们的系统在Averitec数据集上的得分为0.33,比基线提高了22%。
地址:https://arxiv.org/pdf/2408.12060
代码:https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms
12. Generalized SAM:可变输入图像大小的SAM高效微调
标题:Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes
机构:麻省理工学院
关键词:Segment Anything Model(SAM)、可变输入图像大小、高效微调、随机裁剪
作者:Sota Kato, Hinako Mitsuoka, Kazuhiro Hotta
分析:论文提出了一种新的高效微调方法,允许Segment Anything Model(SAM)的输入图像大小可变。SAM是一个在大型数据集上训练的图像分割基础模型,但需要微调以识别任意类别。固定输入图像大小可能导致图像信息丢失。为解决此问题,论文提出Generalized SAM(GSAM),通过随机裁剪训练图像,显著降低了SAM的训练计算成本,同时实现了与SAM和其他微调方法相当或更高的精度。
地址:https://arxiv.org/pdf/2408.12406
13. xGen-VideoSyn-1:基于压缩表示的高保真文本到视频合成
标题:xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations
机构:Salesforce AI
关键词:文本到视频生成、潜在扩散模型、视频变分自编码器、数据处理管道
作者:Can Qin, Congying Xia, Krithika Ramakrishnan
分析:这篇论文提出了一种文本到视频的生成模型xGen-VideoSyn-1,能够基于文本描述生成逼真的场景。论文探索了潜在扩散模型架构,并引入了视频变分自编码器(VidVAE)来压缩视频数据,显著减少了视觉标记的长度和生成长序列视频的计算需求。此外,论文还提出了一种分割和合并策略,以保持视频片段的时间一致性。论文的创新点包括数据处理管道的设计以及超过13M高质量视频-文本对的收集。训练VidVAE和扩散Transform(DiT)模型需要大量的计算资源,但它们支持端到端生成720p的14秒视频。该模型表现出与最新文本到视频模型的竞争力。
地址:https://arxiv.org/pdf/2408.12590
14. 高效多变量时间序列异常检测通过迁移学习大型Web服务
标题:Efficient Multivariate Time Series Anomaly Detection Through Transfer Learning for Large-Scale Web services
机构:微软、清华大学、北京国家信息科学技术研究中心
关键词:Self-Evolution、模型蒸馏、语言模型、领域知识
作者:Shenglin Zhang, Pengtian Zhu, Minghua Ma
分析:论文提出一种名为 Self-Evolution 的框架,通过迭代微调轻量级开源语言模型,在缺乏领域知识的情况下提高语言模型的性能。该框架在大量中国移动相关文件的基础上对 Qwen1.5-7B-Chat 进行训练,并在117天内部署在实际操作维护中,效率提高18.6%以上。
地址:https://arxiv.org/pdf/2408.12247
代码:https://github.com/Zero-Pointer/Self-Evolution
15. Better Debugging:结合静态分析和LLMs为可解释的崩溃故障定位
标题:Better Debugging: Combining Static Analysis and LLMs for Explainable Crashing Fault Localization
机构:Google
关键词:故障定位、可解释性、LLMs、静态分析
作者:Jiwei Yan, Jinhao Huang, Chunrong Fang
分析:论文提出了结合静态分析和LLMs的故障定位方法。该方法基于对框架代码中异常抛出语句语义的理解,提取关键要素,并通过静态分析确定和排序可能的buggy方法。而LLMs则用于提高定位结果的可解释性。实验在Android框架崩溃故障定位上表现良好,提升了用户满意度。
地址:https://arxiv.org/pdf/2408.12070
16. Balancing Act:用于LLM设计的奖励函数的优先级策略
标题:Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards
机构:哈佛大学、谷歌研究院
作者:Shresth Verma, Niclas Boehmer, Lingkai Kong
分析:这篇论文主要关注使用语言模型(LLM)设计奖励函数以满足人类偏好的问题。在强化学习(RL)中,这种方法越来越多地被用来设计奖励函数,以适应人类的需求。在公共卫生等领域,这种方法赋予基层卫生工作者根据社区需求定制自动化分配决策的能力。在存在多个代理人的情况下,根据人类偏好改变奖励函数可能会对不同的子群体产生非常不同的影响,导致复杂的权衡问题和多目标资源分配问题。这是该论文首次提出了一个名为“社会选择语言模型”的方法,用于处理这些权衡问题,特别是对于多代理人和不安乐队的LLM设计的奖励函数。该模型的新颖之处在于其外部有一个透明且可配置的选择组件,称为评判者,该组件通过用户选择的社会福利函数来控制复杂的权衡。该论文的实验证明了该论文的模型能够可靠地选择更有效、一致和平衡的奖励函数,与纯粹基于LLM的方法相比具有显著优势。
地址:https://arxiv.org/pdf/2408.12112
17. Virgo: GPU微架构的改进
标题:Virgo: Cluster-level Matrix Unit Integration in GPUs for Scalability and Energy Efficiency
机构:UC伯克利分校
关键词:GPU微架构、矩阵单元、SIMT核心、可扩展性
作者:Hansung Kim, Ruohan Yan, Joshua You
分析:该论文提出了一种新的GPU微架构,名为Virgo。这种微架构将专门的矩阵单元集成到了SIMT核心集群级别,从而消除了现有的矩阵单元设计与SIMT核心之间的紧密耦合所带来的可扩展性限制。这种改变提高了硬件的操作粒度,不仅提升了数据复用率,也减少了SIMT核心中处理的指令数量。因此,这降低了核心流水线中的能耗,从而提高了系统级的能效。实验结果表明,Virgo可以使系统级功率降低66.3%,能量消耗降低77.2%。
地址:https://arxiv.org/pdf/2408.12073
18. 人类水平预测中的推理和工具
标题:Reasoning and Tools for Human-Level Forecasting
机构:UC伯克利分校
关键词:语言模型、预测任务、推理能力、RTF框架
作者:Elvis Hsieh, Preston Fu, Jonathan Chen
分析:该论文研究了一个关于推理和预测的框架,重点探讨了语言模型在预测任务中的推理能力。论文提出了一个名为RTF的框架,该框架结合了推理和行动能力,使模型能够动态获取更新信息并进行数值模拟。论文通过竞争预测平台的问题评估了模型性能,并证明了该模型具有与人类预测竞争的能力,表明语言模型在拥有适当的工具后,可以像人类一样思考和适应,为现实世界的决策提供了有价值的见解。
地址:https://arxiv.org/pdf/2408.12036
19. 金融应用的开放式多模态大模型
标题:Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
机构:英伟达、武汉大学、南京大学
关键词:金融大型语言模型、预训练、多模态、金融应用
作者:Qianqian Xie, Dong Li, Mengxi Xiao
分析:这篇论文介绍了一系列金融应用的大型语言模型(LLMs),称为Open-FinLLMs。针对LLMs在财务应用中缺乏足够的金融知识和处理多模态输入(如表格和时间序列数据)的挑战,论文提出了解决方案。通过预训练、指令微调和多模态训练,FinLLaMA系列模型在理解和处理财务文本、表格和图表方面表现出卓越的性能。论文还展示了这些模型在交易模拟中的实际应用效果。
地址:https://arxiv.org/pdf/2408.11878
20. FlexEdit:将自由形状蒙版与VLLM结合以实现灵活的图像编辑
标题:FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing
机构:乔治亚理工学院、卡内基梅隆大学、中国科学院-深圳
关键词:自由形状蒙版、图像编辑、Vision Large Language Model、多模态
作者:Jue Wang, Yuxiang Lin, Tianshuo Yuan
分析:这篇论文提出了一种名为FlexEdit的端到端图像编辑方法,它结合了自由形状蒙版和语言指令,通过Vision Large Language Models(VLLM)来理解和处理用户指令。它还引入了Mask Enhance Adapter(MEA)来融合模型对图像数据和蒙版信息的理解。该方法旨在解决语言指令无法精确传达用户需求的问题,尤其在使用自由形状蒙版添加或替换图像特定区域元素时。论文还构建了针对自由形状蒙版的基准测试集FSMI-Edit,并在基于LLM的图像编辑任务中取得了最先进的性能。
地址:https://arxiv.org/pdf/2408.12429
代码:https://github.com/A-new-b/flex_edit
21. 腹部CT器官和泛癌分割:FLARE 2023挑战
标题:Automatic Organ and Pan-cancer Segmentation in Abdomen CT: the FLARE 2023 Challenge
机构:多伦多大学、麻省理工学院、上海交通大学
作者:Jun Ma, Yao Zhang, Song Gu
分析:腹部计算机断层扫描(CT)器官和癌症分割是精确癌症诊断和治疗的先决条件。当前大多数现有基准和算法都是针对特定癌症类型的,这限制了它们提供全面癌症分析的能力。本文提出了首个国际腹部器官和泛癌分割竞赛,通过提供一个大规模和多样化的数据集,包括来自40多个医疗中心的4650个具有各种癌症类型的CT扫描,首次在隐藏的多国测试集中建立了一个新的最先进水平,获胜团队使用了一个基于深度学习的级联框架,在隐藏的多国测试集中实现了器官和病变的平均Dice相似性系数得分为92.3%,病变得分为64.9%。顶尖团队的数据集和代码已公开发布,为进一步创新提供了一个基准平台 https://codalab.lisn.upsaclay.fr/competitions/12239。
地址:https://arxiv.org/pdf/2408.12534
代码:https://codalab.lisn.upsaclay.fr/competitions/12239
22. 基于潜在一致性蒸馏的潜在扩散模型歌唱声音转换
标题:LCM-SVC: Latent Diffusion Model Based Singing Voice Conversion with Inference Acceleration via Latent Consistency Distillation
机构:腾讯AI实验室、中国科学技术大学
关键词:LCM-SVC、潜在扩散模型、潜在一致性蒸馏、声音转换
作者:Shihao Chen, Yu Gu, Jianwei Cui
分析:该论文提出了一种基于潜在一致性蒸馏的潜在扩散模型(LCM-SVC),旨在解决扩散模型在歌唱声音转换(SVC)中的低效率问题。通过蒸馏预训练的LDM模型,实现了在保持高性能的同时,实现了一步或几步推理加速。该方法具有音色解耦和音质优势。
地址:https://arxiv.org/pdf/2408.12354
代码:https://sounddemos.github.io/lcm-svc
23. AutoTest:利用测试用例进行进化的代码解决方案选择
标题:AutoTest: Evolutionary Code Solution Selection with Test Cases
机构:斯坦福大学
关键词:AutoTest、代码解决方案、进化遗传算法、测试用例
作者:Zhihua Duan, Jialin Wang
分析:本文提出了一种创新技术AutoTest,结合自动代码生成和代码解决方案执行,使用进化遗传算法优化代码解决方案的选择过程。AutoTest使用大型预训练语言模型提供代码解决方案及其相应的测试用例。然后,通过执行代码解决方案并在测试用例上评估其性能形成共识集。使用进化遗传算法的精选、变异和交叉机制实现对代码解决方案的细微排名,通过调整alpha和beta参数。最终选择最佳代码解决方案。AutoTest在HumanEval基准测试中展示了显著的性能提升。该测试包括164个编程问题,AutoTest的通过@1得分相比于基础方法大约提高了10%。
地址:https://arxiv.org/pdf/2408.12125
24. From Glucose Patterns to Health Outcomes:可泛化的基础模型用于连续血糖监测数据分析
标题:From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis
机构:英伟达、特拉维夫大学、MBZUAI大学
关键词:基础模型、连续血糖监测、健康结果、自监督学习
作者:Guy Lutsker, Gal Sapir, Anastasia Godneva
分析:最近,自监督学习的进步使医疗AI模型,即基础模型(FMs)具有了从各种生物医学数据中描述健康特征的巨大潜力。连续血糖监测(CGM)提供了丰富的、时间相关的血糖模式数据,但其预测更广泛健康结果的全部潜力仍未充分利用。在这篇论文中,该论文提出了GluFormer,这是一种基于Transformer架构的生物医学时序数据的生成性基础模型,并在其上进行了1000多万次来自10812名非糖尿病患者的CGM测量的训练。该论文对CGM的训练数据进行了标记,并使用生成的自回归方式在GluFormer中进行了下一个标记的训练。该论文证明GluFormer有效地泛化到15个不同的外部数据集,包括4936名来自5个不同地理区域、6种不同的CGM设备和几种代谢疾病(包括正常糖耐量、前期糖尿病和糖尿病人群,以及妊娠期糖尿病和肥胖者)的人群,以及那些患有肝相关参数、血液脂质和睡眠相关指数等临床参数的人。值得注意的是,GluFormer甚至可以提前4年预测未来的健康结果。该论文还表明,RCTs干预前期间的CGM嵌入优于其他方法,可以预测主要和次要结果。当该论文将饮食数据集成到GluFormer中时,该论文证明增强的模型可以仅根据饮食摄入数据准确生成CGM数据,模拟饮食干预的结果,并预测个体对特定食物的反应。总的来说,该论文证明GluFormer准确地预测了泛化到不同人群代谢状况的健康结果。
地址:https://arxiv.org/pdf/2408.11876
25. MedDiT:用于虚拟模拟病人动态医学图像生成的知识控制扩散Transformer框架
标题:MedDiT: A Knowledge-Controlled Diffusion Transformer Framework for Dynamic Medical Image Generation in Virtual Simulated Patient
机构:腾讯、武汉大学、北大王选计算机研究所
关键词:MedDiT、知识图谱、医学图像生成、模拟病人
作者:Yanzeng Li, Cheng Zeng, Jinchao Zhang
分析:这篇论文提出了一种名为MedDiT的新型知识控制扩散Transformer框架,旨在解决医学教育中模拟病人(SPs)招募成本高、医学影像数据集多样性缺乏的问题。该框架通过集成患者知识图谱(KGs),动态地控制和提示大型语言模型(LLMs)的行为,以及利用Diffusion Transformer模型生成符合模拟病人症状的医学图像,以实现多样化的诊断技能训练。
地址:https://arxiv.org/pdf/2408.12236
26. 多工具集成应用数学推理大模型
标题:Multi-tool Integration Application for Math Reasoning Using Large Language Model
机构:斯坦福大学
关键词:多工具集成、数学推理、大型语言模型、协同作用
作者:Zhihua Duan, Jialin Wang
分析:这篇论文提出了一种新的多工具应用框架,用于数学推理,利用大型语言模型(LLMs)和多个外部工具的协同作用来实现更全面、准确的数学推理。该框架首先使用Math Tool在推理过程中通过与LLM的交互进行基本的数学计算,然后使用Code Tool生成符合语法规则并可执行的代码片段以支持复杂的数学问题。然后,通过CoT Tool的迭代推理增强了数学推理的逻辑连贯性和准确性。最后,通过使用自一致性工具根据不同的参数选择最终答案,提高了推理的一致性和可靠性。通过这些工具的协同作用,该框架在数学推理任务上实现了显著的性能改进。实验结果显示,基于Math Tool、Code Tool和CoT Tool的方法在Task 4任务上的精度达到了89.09%,相比于GPT3+FewShot基线提升了49.09%,相比于微调Fine-tuning基线提升了52.29%。
地址:https://arxiv.org/pdf/2408.12148
27. 大模型可控文本生成综述
标题:Controllable Text Generation for Large Language Models: A Survey
机构:中国人民大学
关键词:大型语言模型、可控生成、内容控制、样式模仿
作者:Xun Liang, Hanyu Wang, Yezhaohui Wang
分析:本文详述了大型语言模型(LLMs)下可控文本生成(CTG)的发展,应对用户特殊需求如风格模仿、诗意丰富等挑战。主要讨论了内容控制和属性控制下的关键方法,如模型重训练、提示工程、以及评估方法。解决复杂控制条件与高生成质量的平衡难题。
地址:https://arxiv.org/pdf/2408.12599
代码:https://github.com/IAAR-Shanghai/CTGSurvey
28. VTON-HandFit:基于手部先验嵌入的任意手部姿态虚拟试穿
标题:VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding
机构:腾讯、厦门大学
关键词:手部遮挡问题、虚拟试穿、手姿态分析、结构重建
作者:Yujie Liang, Xiaobin Hu, Boyuan Jiang
分析:这篇论文提出了一种解决手部遮挡问题的方法,即在虚拟试穿中应用手部先验进行外观和结构重建。针对现实中广泛存在的手部遮挡问题,论文通过设计Handpose Aggregation Net和Hand-feature Disentanglement Embedding模块,利用手部先验信息解决手遮挡情况下的衣物穿戴效果。此外,论文还定制了手Canny约束损失,更好地从模型图像的手模板中学习结构边缘知识。该方法在公共数据集和自定义的手遮挡数据集Handfit-3K上表现优异。
地址:https://arxiv.org/pdf/2408.12340
29. MaVEn:多模态大模型的多粒度视觉编码框架
标题:MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model
机构:北京大学、阿里巴巴集团
关键词:多模态、大型语言模型、视觉编码框架、多图像推理
作者:Chaoya Jiang, Jia Hongrui, Haiyang Xu
分析:这篇论文提出了一种创新的多粒度视觉编码框架,旨在增强多模态大型语言模型在多图像推理中的功能。当前的大型语言模型主要关注单一图像的视觉理解,限制了其解释和整合来自多个图像的信息的能力。MaVEn通过结合离散的视觉符号序列(抽象粗粒度语义概念)和传统的连续表示序列(模型细粒度特征),这种双重方法弥合了视觉和文本数据的语义差距,从而提高了模型有效地处理和解释来自多个图像的信息的能力。此外,该论文设计了一个动态降维机制,用于减少长序列连续特征的计算,以提高多图像处理的效率。实验结果表明,MaVEn显著增强了大型语言模型在复杂多图像场景的理解能力,同时也提高了单图像场景中的表现。
地址:https://arxiv.org/pdf/2408.12321
30. S-EPOA:技能增强的偏好优化算法
标题:S-EPOA: Overcoming the Indivisibility of Annotations with Skill-Driven Preference-Based Reinforcement Learning
机构:清华大学
关键词:技能增强的偏好优化算法、偏好强化学习、标注不透明
作者:Ni Mu, Yao Luan, Yiqin Yang
分析:本文提出了一种新的技能增强的偏好优化算法(S-EPOA),该算法通过将技能机制融入到偏好学习框架中,解决了传统偏好强化学习方法中标注不透明的问题。首先,进行无监督预训练以学习有用的技能;然后,提出一个新的查询选择机制,在学习的技能空间中平衡信息增益和区分度。实验结果表明,S-EPOA在机器人操作和运动等任务上显著优于传统的偏好强化学习方法,显示出技能驱动学习在克服标注不透明问题方面的功效。
地址:https://arxiv.org/pdf/2408.12130
31. uMedSum:推进医学摘要性概述的统一框架
标题:uMedSum: A Unified Framework for Advancing Medical Abstractive Summarization
机构:帝国理工学院、南洋理工大学
关键词:医学摘要、uMedSum框架、忠诚性、信息量
地址:https://arxiv.org/pdf/2408.12095
32. DreamCinema:具有自由摄像和3D角色的电影制作
标题:DreamCinema: Cinematic Transfer with Free Camera and 3D Character
机构:清华大学
地址:https://arxiv.org/pdf/2408.12601
33. 医学教育智能伴侣基于多智能体框架
标题:MEDCO: Medical Education Copilots Based on A Multi-Agent Framework
机构:香港大学、香港中文大学
关键词:多智能体、医学教育、交互式学习、协作学习
地址:https://arxiv.org/pdf/2408.12496
34. 大模型在结构化数据中推理事实知识的研究
标题:Reasoning Factual Knowledge in Structured Data with Large Language Models
机构:香港大学、香港科技大学
关键词:大型语言模型(LLMs)、结构化数据、事实知识推理、基准测试
地址:https://arxiv.org/pdf/2408.12188
代码:https://github.com/EganGu/StructFact
35. MegaFake:大模型生成假新闻的理论驱动数据集
标题:MegaFake: A Theory-Driven Dataset of Fake News Generated by Large Language Models
机构:香港理工大学
关键词:大型语言模型、假新闻生成、LLM-Fake Theory、MegaFake
地址:https://arxiv.org/pdf/2408.11871
36. SparseGPT的复杂度分析改进
标题:A Tighter Complexity Analysis of SparseGPT
机构:香港大学、威斯康星大学、Adobe Research
关键词:SparseGPT、复杂度分析、懒惰更新行为、运行时间优化
地址:https://arxiv.org/pdf/2408.12151
37. 地学空间人工智能的自监督学习:综述
标题:Self-supervised Learning for Geospatial AI: A Survey
机构:南洋理工大学
关键词:自我监督学习、地理空间数据、地学空间AI
地址:https://arxiv.org/pdf/2408.12133
38. RuleAlign:让大模型成为更好的医生——通过诊断规则对齐
标题:RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment
机构:浙江大学
关键词:大型语言模型(LLM),医疗诊断,模型结构改进,诊断规则对齐
地址:https://arxiv.org/pdf/2408.12579
39. 利用有效可信蒸馏教养老语言模型
标题:FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation
机构:武汉大学、普渡大学、香港科技大学
关键词:可信蒸馏、语言模型、模型可靠性、准确性提升
地址:https://arxiv.org/pdf/2408.12168
40. 基于生成扩散模型的增强序列推荐统一框架DimeRec
标题:DimeRec: A Unified Framework for Enhanced Sequential Recommendation via Generative Diffusion Models
机构:中山大学、中国科学技术大学
关键词:序列推荐、生成扩散模型、用户偏好、物品表示
地址:https://arxiv.org/pdf/2408.12153
41. 朝向真实可信的放射学报告生成:跨模态疾病线索增强的大模型
标题:TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model
机构:香港理工大学、澳门理工学院
关键词:放射学报告生成、跨模态、大型语言模型、疾病线索注入
地址:https://arxiv.org/pdf/2408.12141
42. ND-SDF: 学习高保真室内重建的法线偏转场
标题:ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction
机构:浙江大学、上海AI实验室
关键词:神经显式重建、体积渲染、法线偏转场、几何细节
地址:https://arxiv.org/pdf/2408.12598
43. 高阶解释深度代码:一种学习反馈代码
标题:Higher-order Interpretations of Deepcode, a Learned Feedback Code
机构:伊利诺伊大学
关键词:高阶解释、深度代码、学习反馈代码、错误校正
地址:https://arxiv.org/pdf/2408.11907
44. 面向多跳问答的分层检索增强生成模型重新思考
标题:Hierarchical Retrieval-Augmented Generation Model with Rethink for Multi-hop Question Answering
机构:东北大学
关键词:多跳问答、分层检索、生成模型、模型结构改进
地址:https://arxiv.org/pdf/2408.11875
代码:https://github.com/2282588541a/HiRAG
45. 时空序列感知模型
标题:Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition
机构:浙江大学
关键词:时空序列感知模型、少量样本动作识别、大型语言模型
地址:https://arxiv.org/pdf/2408.12475
46. 4D扩散对于动态蛋白质结构预测以及参考引导运动对齐
标题:4D Diffusion for Dynamic Protein Structure Prediction with Reference Guided Motion Alignment
机构:复旦大学、南京大学
关键词:4D扩散模型、蛋白质结构预测、原子分组、侧链旋转角预测
地址:https://arxiv.org/pdf/2408.12419
47. LLMs在生物医学信息提取中并非零次训练推理器
标题:LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction
机构:帝国理工学院、曼彻斯特大学、新加坡国立大学
关键词:大型语言模型(LLMs)、生物医学信息提取、标准提示法、链式思维
地址:https://arxiv.org/pdf/2408.12249
48. 扩散式视觉艺术创作:综述与新视角
标题:Diffusion-Based Visual Art Creation: A Survey and New Perspectives
机构:香港科技大学
关键词:扩散式视觉艺术创作、生成AI、视觉艺术
地址:https://arxiv.org/pdf/2408.12128
49. 大模型在医学专业资格考试(tus)中是否比人类更胜一筹?
标题:Tipta uzmanlik sinavinda (tus) b\"uy\"uk d\.il modeller\.i \.insanlardan daha mi ba\c{s}arili?
关键词:人工智能、模型评估
地址:https://arxiv.org/pdf/2408.12305
50. Video-Foley: 基于时序事件条件和帧级强度包络特征的视频到声音生成
标题:Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound
机构:韩国科学技术院
关键词:视频到声音生成、自监督学习、模型蒸馏、时序同步
地址:https://arxiv.org/pdf/2408.11915
代码:https://jnwnlee.github.io/video-foley-demo)
51. LOUD:合成最强和最弱的规范
标题:LOUD: Synthesizing Strongest and Weakest Specifications
机构:威斯康星大学
关键词:LOUD、最强规范、最弱规范、指令微调
地址:https://arxiv.org/pdf/2408.12539
52. 细胞本体论指导下的转录组基础模型
标题:Cell-ontology guided transcriptome foundation model
机构:麦吉尔大学、康奈尔大学
关键词:转录组基础模型,细胞本体论,预训练,细胞类型特定表示
地址:https://arxiv.org/pdf/2408.12373
53. 基于偏好引导的反射采样语言模型对齐技术研究
标题:Preference-Guided Reflective Sampling for Aligning Language Models
机构:新加坡国立大学
关键词:偏好引导反射采样(PRS)、语言模型对齐、强化学习人类反馈(RLHF)、高效采样
地址:https://arxiv.org/pdf/2408.12163
54. 基于行为模式挖掘的多行为推荐系统
标题:Behavior Pattern Mining-based Multi-Behavior Recommendation
机构:澳大利亚悉尼麦考瑞大学
关键词:行为模式挖掘、多行为推荐系统、推荐算法、用户与物品交互
地址:https://arxiv.org/pdf/2408.12152
代码:https://github.com/rookitkitlee/BPMR
55. 基于提示的未标注数据压缩技术:通过代理关系图
标题:PRG: Prompt-Based Distillation Without Annotation via Proxy Relational Graph
机构:吉林大学
关键词:模型压缩、机器学习、大型模型、知识蒸馏
地址:https://arxiv.org/pdf/2408.12248
56. SimBench:基于规则的多轮交互基准测试,评估大模型生成数字双胞胎的能力
标题:SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins
关键词:SimBench、大型语言模型、数字双胞胎、模拟测试
地址:https://arxiv.org/pdf/2408.11987
代码:https://github.com/uwsbel/SimBench
57. 从统计学习理论角度研究大模型的上下文学习效能
标题:Transformers are Minimax Optimal Nonparametric In-Context Learners
关键词:语言模型、上下文学习、预训练、模型评估风险
地址:https://arxiv.org/pdf/2408.12186
58. 自我提示增强SAM:SAM-SP模型
标题:SAM-SP: Self-Prompting Makes SAM Great Again
关键词:视觉基础模型(SAM)、自我提示、医疗图像、自我微调
地址:https://arxiv.org/pdf/2408.12364
59. 从数据核心视角探索大模型在特征选择中的应用
标题:Exploring Large Language Models for Feature Selection: A Data-centric Perspective
关键词:大语言模型、特征选择、数据驱动、文本驱动
地址:https://arxiv.org/pdf/2408.12025
60. Beyond Labels:大模型与人类理性推理的对齐
标题:Beyond Labels: Aligning Large Language Models with Human-like Reasoning
关键词:大型语言模型,伦理对齐,微调策略,数据集
地址:https://arxiv.org/pdf/2408.11879
代码:https://github.com/apurba-nsu-rnd-lab/DFAR
61. Sapiens:人类视觉模型的基础
标题:Sapiens: Foundation for Human Vision Models
关键词:Sapiens、人类视觉模型、自我监督、模型结构改进
地址:https://arxiv.org/pdf/2408.12569
62. 可扩展自回归图像生成 with Mamba
标题:Scalable Autoregressive Image Generation with Mamba
关键词:Mamba、自回归图像生成、AR模型、状态空间模型
地址:https://arxiv.org/pdf/2408.12245
代码:https://github.com/hp-l33/AiM
63. 偏好强化学习的进展综述
标题:Advances in Preference-based Reinforcement Learning: A Review
机构:滑铁卢大学
关键词:偏好强化学习、奖励函数、理论保证、基准工作
地址:https://arxiv.org/pdf/2408.11943
64. Poplar:高效扩展异构GPU集群上的分布式DNN训练
标题:Poplar: Efficient Scaling of Distributed DNN Training on Heterogeneous GPU Clusters
关键词:分布式训练、异构GPU、ZERO、计算效率
地址:https://arxiv.org/pdf/2408.12596
65. PolyRouter:多语言模型查询系统
标题:PolyRouter: A Multi-LLM Querying System
关键词:多语言模型、查询系统、性能优化、动态路由
地址:https://arxiv.org/pdf/2408.12320
66. Weight Scope Alignment:一种令人沮丧的简单模型融合方法
标题:Weight Scope Alignment: A Frustratingly Easy Method for Model Merging
关键词:模型融合、权重范围对齐、正则化方法、模型连通性
地址:https://arxiv.org/pdf/2408.12237
67. UNCO:通过大模型实现结合组合优化问题
标题:UNCO: Towards Unifying Neural Combinatorial Optimization through Large Language Model
关键词:统一神经组合优化、大型语言模型、自然语言编码、冲突梯度擦除强化学习
地址:https://arxiv.org/pdf/2408.12214
68. 基于RAG技术优化的西藏旅游大模型
标题:RAG-Optimized Tibetan Tourism LLMs: Enhancing Accuracy and Personalization
关键词:RAG技术、西藏旅游、个性化推荐、内容生成准确性提升
地址:https://arxiv.org/pdf/2408.12003
69. 1比特大模型时代的乘法还是矩阵
标题:Matmul or No Matmal in the Era of 1-bit LLMs
机构:南卡罗来纳大学
关键词:1比特大语言模型、阿姆达尔定律
地址:https://arxiv.org/pdf/2408.11939
70. MedS-Bench:评估和构建适用于医疗领域的多功能大模型
标题:Towards Evaluating and Building Versatile Large Language Models for Medicine
地址:https://arxiv.org/pdf/2408.12547
代码:https://henrychur.github.io/MedS-Bench/; https://henrychur.github.io/MedS-Bench/
71. Large Language Models Are Self-Taught Reasoners:通过针对性强的解决问题的示范提升LLM应用
标题:Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations
关键词:自学习、个性化、问题解决、多领域
地址:https://arxiv.org/pdf/2408.12315
72. 代码优化的基于搜索的LLMs
标题:Search-Based LLMs for Code Optimization
关键词:代码优化、基于搜索的LLMs、进化搜索
地址:https://arxiv.org/pdf/2408.12159
73. 增强持续数据适配系通过改进提出延长模型编辑
标题:Enhance Lifelong Model Editing with Continuous Data-Adapter Association
关键词:elongated model editing、LoRA、Lifelong model
地址:https://arxiv.org/pdf/2408.11869
74. 对比微调和小数据集专家评分增强嵌入模型
标题:Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores
关键词:对比微调、专家评分、文本嵌入模型、语义文本相似性
地址:https://arxiv.org/pdf/2408.11868
75. 简化的Mamba及其在长时序预测中的应用
标题:Simplified Mamba with Disentangled Dependency Encoding for Long-Term Time Series Forecasting
地址:https://arxiv.org/pdf/2408.12068
76. 如何分离不确定性?
标题:How disentangled are your classification uncertainties?
关键词:不确定性、机器学习
地址:https://arxiv.org/pdf/2408.12175
今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~
更多推荐
所有评论(0)