La capacité de traitement de textes longs des grands modèles a explosé, 400 000 tokens pourraient être un nouveau point de départ.

La compétition sur la technologie des longs textes des grands modèles s'intensifie, 400 000 tokens n'est peut-être que le début

Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable. Passant de 4000 tokens au départ à maintenant 400 000 tokens, la capacité de longs textes semble être devenue la nouvelle "norme" pour les fournisseurs de grands modèles.

À l'international, OpenAI a, après plusieurs mises à jour, porté la longueur de contexte de GPT-4 à 32 000 tokens ; Anthropic a étendu la longueur de contexte à 100 000 tokens ; LongLLaMA a même porté la longueur de contexte à 256 000 tokens ou plus.

Les entreprises nationales ne veulent pas être en reste. Kimi Chat, lancé par la startup de modèles, Mois de l'Ombre, prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens ; la technologie LongLoRA développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT permet d'étendre la longueur du texte d'un modèle de 7B à 100 000 tokens et celle d'un modèle de 70B à 32 000 tokens.

Actuellement, de nombreuses entreprises et institutions de premier plan dans le domaine des grands modèles, y compris OpenAI, Anthropic, Meta et Le côté obscur de la lune, font de la capacité de traitement des longs textes une priorité pour leurs mises à niveau. Ces entreprises sont également des cibles prisées par le marché des capitaux, avec des montants de financement et des évaluations connaissant une croissance explosive.

Que signifie la percée des technologies de traitement de longs textes ? En apparence, cela représente une amélioration significative de la capacité d'entrée et de lecture des modèles, passant d'une capacité initiale à lire un court texte à la possibilité de traiter facilement un roman entier. La signification plus profonde réside dans le fait que cela favorise l'application des grands modèles dans des domaines spécialisés tels que la finance, le droit et la recherche scientifique.

Cependant, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Les recherches montrent que la longueur du contexte qu'un modèle peut traiter ne correspond pas nécessairement à son efficacité ; il est plus important de savoir comment le modèle utilise efficacement le contenu du contexte. Actuellement, l'exploration de la longueur du texte dans l'industrie n'a pas encore atteint le "plafond", 400 000 tokens pourraient n'être qu'un début.

Pourquoi faut-il dépasser la limite de texte long?

Le fondateur de la Face cachée de la Lune, Yang Zhilin, a déclaré que c'est en raison des limitations de longueur d'entrée que de nombreuses applications de grands modèles rencontrent des difficultés de mise en œuvre. Par exemple, dans des scénarios tels que les personnages virtuels, les jeux de scénario et l'analyse juridique, un manque de longueur d'entrée peut entraîner des pertes d'informations et des résultats insatisfaisants.

La capacité de traitement de longs textes est également cruciale pour les applications natives d'Agent et d'IA à l'avenir. Les Agents doivent s'appuyer sur des informations historiques pour prendre des décisions de planification, tandis que les applications d'IA ont besoin de contexte pour maintenir une expérience cohérente et personnalisée.

Yang Zhilin pense que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, la première étant liée à la quantité de paramètres, et la seconde étant la longueur du contexte. En augmentant la longueur du contexte, il est possible d'améliorer la capacité du modèle sans augmenter considérablement le nombre de paramètres.

Un long texte aide également à réduire le problème d'illusion des grands modèles. Plus d'informations contextuelles peuvent aider le modèle à juger du sens, à réduire l'ambiguïté et à améliorer la précision du raisonnement.

On peut dire que la technologie des longs textes résout certaines faiblesses des grands modèles et est également la clé pour la mise en œuvre de l'industrie. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.

Prenons Kimi Chat du côté obscur de la lune comme exemple, sa capacité à traiter de longs textes a apporté plusieurs améliorations:

  • Peut analyser rapidement de longs textes, des rapports financiers, etc., extraire des informations clés et générer des résumés.
  • Peut transformer un livre entier ou un document juridique en une base de connaissances interrogeable.
  • Peut directement convertir le papier en code et procéder à des modifications et à des optimisations.
  • Support de jeu de rôle dans de longues conversations, permettant d'interagir avec des personnages virtuels.

Ces fonctionnalités montrent que les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur, et ils devraient devenir un nouvel levier pour la mise en œuvre de l'industrie.

Yang Zhilin a déclaré que l'objectif de la face cachée de la lune est de créer la prochaine super application C-end, en dérivant plusieurs applications verticales à partir d'un modèle général. Il prédit que le marché national des grands modèles sera divisé en deux grands camps : toB et toC, et que dans le domaine toC, des applications super basées sur des modèles auto-développés apparaîtront.

Problèmes techniques des longs textes

Le long texte technique est confronté au triangle impossible des "longueur du texte - attention - puissance de calcul:"

  • Plus le texte est long, plus il est difficile de se concentrer sur les informations clés
  • Attention limitée, un court texte est difficile à exprimer de manière complète des informations complexes.
  • Traiter de longs textes nécessite beaucoup de puissance de calcul, ce qui augmente les coûts.

Cette impasse provient du mécanisme d'attention auto dans la structure Transformer. Ce mécanisme permet au modèle d'analyser de manière flexible les relations entre les informations, mais la charge de calcul augmente de manière quadratique avec la longueur du texte.

Des recherches montrent qu'un contexte trop long peut entraîner une diminution de la proportion d'informations pertinentes et une distraction de l'attention. Cela crée une contradiction entre la longueur du texte et l'attention. En même temps, dépasser des textes plus longs nécessite également plus de puissance de calcul, ce qui crée une contradiction avec la puissance de calcul.

Il existe actuellement trois types de solutions :

  1. Utiliser des outils externes : diviser le long texte en segments courts et construire une réponse longue en recherchant des extraits de texte courts.

  2. Optimisation du calcul de l'attention automatique : par exemple, LongLoRA réduit la charge de calcul par le calcul par groupes.

  3. Optimisation du modèle : comme LongLLaMA, qui réalise des capacités d'extrapolation de séquences plus longues grâce à un ajustement fin.

Différentes solutions ont leurs avantages et inconvénients. Les fabricants doivent trouver un équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de traiter suffisamment d'informations tout en tenant compte de l'efficacité des calculs et des coûts.

TOKEN-2.77%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
0/400
DeFiVeteranvip
· Il y a 3h
Que peut-on comprendre de l'ensemble du texte ?
Voir l'originalRépondre0
OldLeekMastervip
· Il y a 15h
k ne joue pas
Voir l'originalRépondre0
DegenWhisperervip
· Il y a 15h
Jouez pour voir combien c'est en tête.
Voir l'originalRépondre0
DiamondHandsvip
· Il y a 15h
Une bataille technologique très avancée
Voir l'originalRépondre0
WalletDivorcervip
· Il y a 15h
Être confiant, c'est agir.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)