大模型长文本处理能力暴增 40万token或为新起点

2025-08-11 05:22:08

大模型长文本技术竞赛升级，40万token或许只是开始

大模型正以惊人的速度提升处理长文本的能力。从最初的4000 token增长到现在的40万token，长文本能力似乎已成为大模型厂商的新"标配"。

国际上，OpenAI经过多次升级,将GPT-4的上下文长度提升至3.2万token;Anthropic一举将上下文长度扩展到10万token;LongLLaMA更是将上下文长度扩展到25.6万token甚至更多。

国内企业也不甘落后。大模型初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token;港中文与MIT合作开发的LongLoRA技术,可将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在内的多家顶级大模型公司和机构都将长文本处理能力作为重点升级方向。这些企业也都是资本市场追捧的热门对象,融资规模和估值均呈爆发式增长。

长文本技术的突破意味着什么?表面上看是模型的输入和阅读能力大幅提升,从最初只能读完一篇短文,到现在可以轻松处理一本长篇小说。更深层次的意义在于,它推动了大模型在金融、法律、科研等专业领域的应用落地。

不过,文本长度并非越长越好。研究表明,模型能处理的上下文长度与效果并不能画等号,更重要的是模型如何有效利用上下文内容。目前业界对文本长度的探索还远未触及"天花板",40万token可能只是一个开始。

月之暗面创始人杨植麟表示,正是由于输入长度限制,造成了许多大模型应用落地的困境。例如在虚拟角色、剧本游戏、法律分析等场景中,输入长度不足会导致信息丢失、效果欠佳等问题。

长文本能力对未来的Agent和AI原生应用也至关重要。Agent需要依靠历史信息进行规划决策,AI应用需要上下文来保持连贯和个性化体验。

杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,前者与参数量相关,后者即上下文长度。通过增加上下文长度,可以在不大幅增加参数的情况下提升模型能力。

长文本还有助于减少大模型的幻觉问题。更多的上下文信息可以辅助模型判断语义,减少歧义,提高推理准确性。

可以说,长文本技术既解决了大模型的一些短板,也是推动产业落地的关键。这标志着大模型进入了从LLM到Long LLM的新阶段。

以月之暗面的Kimi Chat为例,其长文本能力带来了多项升级:

这些功能显示出对话机器人正朝着专业化、个性化、深度化方向发展,有望成为撬动产业落地的新抓手。

杨植麟表示,月之暗面的目标是打造下一个C端超级APP,在通用模型基础上衍生出多个垂直应用。他预测国内大模型市场将分为toB和toC两大阵营,toC领域将出现基于自研模型的超级应用。

长文本技术面临"文本长度-注意力-算力"的不可能三角困境:

这一困境源于Transformer结构中的自注意力机制。该机制使模型能灵活分析信息间关系,但计算量随文本长度呈平方级增长。

研究表明,过长上下文会导致相关信息占比下降,注意力分散。这构成了文本长度与注意力的矛盾。同时,突破更长文本又需要更多算力,形成了与算力的矛盾。

目前主要有三类解决方案:

不同方案各有利弊。厂商需在文本长度、注意力和算力间寻找平衡点,以在处理足够信息的同时兼顾计算效率和成本。

TOKEN-2.14%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

11人点赞了这条动态

0/400

DeFiVeteran

· 48分钟前

能理解全文又如何

老韭当家

· 12小时前

千万不要演

DegenWhisperer

· 12小时前

玩玩看多少是头

割肉不割爱

· 13小时前

好高端的技术战

WalletDivorcer

· 13小时前

看好就是干