仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
2025-01-15
清华大学、香港大学和上海AI Lab联合提出了一种新的多模态大模型位置编码方法——Variable Vision Position Embedding (V2PE),解决了视觉-语言模型(VLMs)在长上下文场景下的性能瓶颈问题。通过为视觉token分配可变位置增量,V2PE显著提升了模型处理超长上下文任务的能力,尤其是在32K至1M长度的序列中表现优异。研究团队还构建了增强的长上下文多模态数据集,验证了V2PE的有效性。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表
官方立场,不构成投资建议。如需阅读详细说明,请点击此处
