A competição de tecnologia de texto longo de grandes modelos foi atualizada, 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a melhorar a capacidade de processar textos longos a uma velocidade impressionante. Desde os 4000 tokens iniciais até aos atuais 400.000 tokens, a capacidade de textos longos parece ter-se tornado uma nova "norma" para os fornecedores de grandes modelos.
A nível internacional, a OpenAI, após várias atualizações, aumentou o comprimento do contexto do GPT-4 para 32.000 tokens; a Anthropic expandiu o comprimento do contexto para 100.000 tokens; a LongLLaMA levou o comprimento do contexto a 256.000 tokens ou até mais.
As empresas nacionais também não querem ficar para trás. A Kimi Chat, uma startup de modelos grandes lançada pela Month's Dark Side, suporta a entrada de 200.000 caracteres chineses, aproximadamente 400.000 tokens; a Chinese University of Hong Kong, em colaboração com o MIT, desenvolveu a tecnologia LongLoRA, que pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens e do modelo de 70B para 32.000 tokens.
Atualmente, várias empresas e instituições de modelos de grande escala, incluindo OpenAI, Anthropic, Meta e o Lado Escuro da Lua, estão a focar na melhoria da capacidade de processamento de textos longos. Estas empresas também são alvos procurados pelo mercado de capitais, com um crescimento explosivo tanto na escala de financiamento quanto na avaliação.
O que significa o avanço da tecnologia de texto longo? À primeira vista, é uma melhoria significativa na capacidade de entrada e leitura dos modelos, passando da capacidade inicial de apenas ler um texto curto para agora poder lidar facilmente com um romance longo. O significado mais profundo é que isso impulsionou a aplicação dos grandes modelos em áreas profissionais como finanças, direito e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que o comprimento do contexto que um modelo pode processar não é igual ao seu desempenho; o mais importante é como o modelo utiliza eficazmente o conteúdo do contexto. Atualmente, a exploração do comprimento do texto na indústria ainda está longe de atingir o "teto", 400 mil tokens podem ser apenas o começo.
Por que quebrar o limite de texto longo?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que é precisamente devido à limitação do comprimento de entrada que muitos aplicativos de grandes modelos enfrentam dificuldades na sua implementação. Por exemplo, em cenários como personagens virtuais, jogos de roteiro e análise jurídica, a insuficiência no comprimento de entrada pode resultar na perda de informações e em resultados insatisfatórios.
A capacidade de lidar com textos longos é também crucial para o futuro de aplicações nativas de Agentes e IA. Os Agentes precisam depender de informações históricas para tomar decisões de planeamento, enquanto as aplicações de IA necessitam de contexto para manter uma experiência coesa e personalizada.
Yang Zhilin acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, sendo o primeiro relacionado à quantidade de parâmetros e o segundo ao comprimento do contexto. Ao aumentar o comprimento do contexto, é possível melhorar a capacidade do modelo sem aumentar significativamente o número de parâmetros.
Textos longos também ajudam a reduzir o problema de alucinação em grandes modelos. Mais informações de contexto podem auxiliar o modelo a julgar o significado, reduzindo a ambiguidade e aumentando a precisão do raciocínio.
Pode-se dizer que a tecnologia de longos textos não só resolve algumas limitações dos grandes modelos, mas também é a chave para a implementação na indústria. Isso marca a entrada dos grandes modelos numa nova fase, de LLM para Long LLM.
Tomando como exemplo o Kimi Chat do lado oculto da lua, a sua capacidade de texto longo trouxe várias atualizações:
Pode analisar rapidamente textos longos, relatórios financeiros, etc., extrair informações-chave e gerar resumos
Pode transformar um livro inteiro ou documento legal em uma base de conhecimento pesquisável
Pode converter diretamente o artigo em código e fazer modificações e otimizações.
Suporta a interpretação de personagens em diálogos longos, permitindo a interação com personagens virtuais
Estas funcionalidades mostram que os chatbots estão a desenvolver-se numa direção de profissionalização, personalização e profundidade, com potencial para se tornarem uma nova alavanca para a concretização da indústria.
Yang Zhilin afirmou que o objetivo da Face Oculta da Lua é criar o próximo super APP para o consumidor final, derivando várias aplicações verticais a partir de um modelo geral. Ele prevê que o mercado nacional de grandes modelos será dividido em duas principais facções: toB e toC, e que no campo toC surgirão aplicações super baseadas em modelos desenvolvidos internamente.
Desafios técnicos de textos longos
A tecnologia de longos textos enfrenta o dilema do triângulo impossível "comprimento do texto - atenção - poder computacional:"
Quanto mais longo o texto, mais difícil é focar nas informações-chave.
Atenção limitada, textos curtos são difíceis de expressar informações complexas completamente.
Processar textos longos requer muita potência de cálculo, aumentando os custos.
Esta dificuldade origina-se do mecanismo de autoatenção na estrutura do Transformer. Este mecanismo permite ao modelo analisar de forma flexível as relações entre as informações, mas o volume de cálculos cresce em proporção quadrática com o comprimento do texto.
Estudos mostram que um contexto excessivamente longo pode levar a uma diminuição da proporção de informações relevantes e à dispersão da atenção. Isso cria uma contradição entre o comprimento do texto e a atenção. Ao mesmo tempo, superar textos mais longos requer mais poder computacional, resultando em uma contradição com o poder computacional.
Atualmente, existem três tipos principais de soluções:
Usar ferramentas externas: dividir o texto longo em partes e construir respostas longas através da pesquisa de fragmentos de texto curtos.
Otimização do cálculo de autoatenção: como o LongLoRA, que reduz a carga computacional através do cálculo em grupos.
Otimização do modelo: como o LongLLaMA alcança a capacidade de extrapolação de sequências mais longas através do ajuste fino.
Diferentes soluções têm suas vantagens e desvantagens. Os fabricantes devem encontrar um ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, para processar informações suficientes ao mesmo tempo em que consideram a eficiência computacional e os custos.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
A capacidade de processamento de longos textos de grandes modelos aumentou drasticamente, 400 mil tokens podem ser um novo ponto de partida.
A competição de tecnologia de texto longo de grandes modelos foi atualizada, 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a melhorar a capacidade de processar textos longos a uma velocidade impressionante. Desde os 4000 tokens iniciais até aos atuais 400.000 tokens, a capacidade de textos longos parece ter-se tornado uma nova "norma" para os fornecedores de grandes modelos.
A nível internacional, a OpenAI, após várias atualizações, aumentou o comprimento do contexto do GPT-4 para 32.000 tokens; a Anthropic expandiu o comprimento do contexto para 100.000 tokens; a LongLLaMA levou o comprimento do contexto a 256.000 tokens ou até mais.
As empresas nacionais também não querem ficar para trás. A Kimi Chat, uma startup de modelos grandes lançada pela Month's Dark Side, suporta a entrada de 200.000 caracteres chineses, aproximadamente 400.000 tokens; a Chinese University of Hong Kong, em colaboração com o MIT, desenvolveu a tecnologia LongLoRA, que pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens e do modelo de 70B para 32.000 tokens.
Atualmente, várias empresas e instituições de modelos de grande escala, incluindo OpenAI, Anthropic, Meta e o Lado Escuro da Lua, estão a focar na melhoria da capacidade de processamento de textos longos. Estas empresas também são alvos procurados pelo mercado de capitais, com um crescimento explosivo tanto na escala de financiamento quanto na avaliação.
O que significa o avanço da tecnologia de texto longo? À primeira vista, é uma melhoria significativa na capacidade de entrada e leitura dos modelos, passando da capacidade inicial de apenas ler um texto curto para agora poder lidar facilmente com um romance longo. O significado mais profundo é que isso impulsionou a aplicação dos grandes modelos em áreas profissionais como finanças, direito e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que o comprimento do contexto que um modelo pode processar não é igual ao seu desempenho; o mais importante é como o modelo utiliza eficazmente o conteúdo do contexto. Atualmente, a exploração do comprimento do texto na indústria ainda está longe de atingir o "teto", 400 mil tokens podem ser apenas o começo.
Por que quebrar o limite de texto longo?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que é precisamente devido à limitação do comprimento de entrada que muitos aplicativos de grandes modelos enfrentam dificuldades na sua implementação. Por exemplo, em cenários como personagens virtuais, jogos de roteiro e análise jurídica, a insuficiência no comprimento de entrada pode resultar na perda de informações e em resultados insatisfatórios.
A capacidade de lidar com textos longos é também crucial para o futuro de aplicações nativas de Agentes e IA. Os Agentes precisam depender de informações históricas para tomar decisões de planeamento, enquanto as aplicações de IA necessitam de contexto para manter uma experiência coesa e personalizada.
Yang Zhilin acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, sendo o primeiro relacionado à quantidade de parâmetros e o segundo ao comprimento do contexto. Ao aumentar o comprimento do contexto, é possível melhorar a capacidade do modelo sem aumentar significativamente o número de parâmetros.
Textos longos também ajudam a reduzir o problema de alucinação em grandes modelos. Mais informações de contexto podem auxiliar o modelo a julgar o significado, reduzindo a ambiguidade e aumentando a precisão do raciocínio.
Pode-se dizer que a tecnologia de longos textos não só resolve algumas limitações dos grandes modelos, mas também é a chave para a implementação na indústria. Isso marca a entrada dos grandes modelos numa nova fase, de LLM para Long LLM.
Tomando como exemplo o Kimi Chat do lado oculto da lua, a sua capacidade de texto longo trouxe várias atualizações:
Estas funcionalidades mostram que os chatbots estão a desenvolver-se numa direção de profissionalização, personalização e profundidade, com potencial para se tornarem uma nova alavanca para a concretização da indústria.
Yang Zhilin afirmou que o objetivo da Face Oculta da Lua é criar o próximo super APP para o consumidor final, derivando várias aplicações verticais a partir de um modelo geral. Ele prevê que o mercado nacional de grandes modelos será dividido em duas principais facções: toB e toC, e que no campo toC surgirão aplicações super baseadas em modelos desenvolvidos internamente.
Desafios técnicos de textos longos
A tecnologia de longos textos enfrenta o dilema do triângulo impossível "comprimento do texto - atenção - poder computacional:"
Esta dificuldade origina-se do mecanismo de autoatenção na estrutura do Transformer. Este mecanismo permite ao modelo analisar de forma flexível as relações entre as informações, mas o volume de cálculos cresce em proporção quadrática com o comprimento do texto.
Estudos mostram que um contexto excessivamente longo pode levar a uma diminuição da proporção de informações relevantes e à dispersão da atenção. Isso cria uma contradição entre o comprimento do texto e a atenção. Ao mesmo tempo, superar textos mais longos requer mais poder computacional, resultando em uma contradição com o poder computacional.
Atualmente, existem três tipos principais de soluções:
Usar ferramentas externas: dividir o texto longo em partes e construir respostas longas através da pesquisa de fragmentos de texto curtos.
Otimização do cálculo de autoatenção: como o LongLoRA, que reduz a carga computacional através do cálculo em grupos.
Otimização do modelo: como o LongLLaMA alcança a capacidade de extrapolação de sequências mais longas através do ajuste fino.
Diferentes soluções têm suas vantagens e desvantagens. Os fabricantes devem encontrar um ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, para processar informações suficientes ao mesmo tempo em que consideram a eficiência computacional e os custos.