大規模モデルの長文処理能力が暴増、40万トークンが新たな起点か

大規模モデル長文技術競技がアップグレードされ、40万トークンはおそらく始まりに過ぎない

大規模モデルは驚異的な速度で長文の処理能力を向上させています。最初の4000トークンから現在の40万トークンまで、長文能力は大規模モデルの提供者にとって新たな「標準装備」となっているようです。

国際的に、OpenAIは何度もアップグレードを重ね、GPT-4のコンテキスト長を32,000トークンに引き上げました;Anthropicは一気にコンテキスト長を100,000トークンに拡張しました;LongLLaMAはさらにコンテキスト長を256,000トークン以上に拡張しました。

国内企業も負けてはいません。大規模モデルスタートアップ「月の暗面」が発表したKimi Chatは、20万漢字、約40万トークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに、70Bモデルを3.2万トークンに拡張できます。

現在、OpenAI、Anthropic、Meta、月の暗面を含む多くのトップレベルの大規模モデル企業や機関が、長文処理能力を重点的なアップグレードの方向性としている。これらの企業はすべて資本市場で注目されている人気の対象であり、資金調達規模と評価額は爆発的に成長している。

長文技術の突破は何を意味するのか?表面的には、モデルの入力と読解能力が大幅に向上したことを示している。最初は短い文章しか読めなかったものが、今では長編小説を簡単に処理できるようになった。より深い意味では、これが金融、法律、研究などの専門分野における大規模モデルの応用を推進している。

しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によれば、モデルが処理できるコンテキストの長さとその効果は必ずしも等しいわけではなく、むしろモデルがどのようにコンテキストの内容を効果的に活用するかが重要です。現在、業界ではテキストの長さに関する探求はまだ「天井」に達しておらず、40万トークンはおそらく始まりに過ぎません。

なぜ長文の制限を突破する必要があるのか?

月の暗面の創設者であるヤン・チーリンは、入力長の制限が原因で、多くの大規模モデルのアプリケーションが実現できないという困難を引き起こしていると述べています。たとえば、バーチャルキャラクター、シナリオゲーム、法律分析などのシーンでは、入力長が不足していると情報が失われたり、効果が不十分になるなどの問題が発生します。

長文能力は将来のエージェントやAIネイティブアプリケーションにとっても重要です。エージェントは計画的な意思決定のために過去の情報に依存し、AIアプリケーションは一貫性と個別化された体験を維持するために文脈を必要とします。

杨植麟は、大モデルの上限が単一の能力と実行ステップ数によって共同で決定されると考えています。前者はパラメータ量に関連し、後者は文脈の長さです。文脈の長さを増やすことによって、パラメータを大幅に増やさずにモデルの能力を向上させることができます。

長文は大規模モデルの幻覚問題を軽減するのに役立ちます。より多くの文脈情報がモデルの意味判断を支援し、曖昧さを減少させ、推論の正確性を向上させます。

言い換えれば、長文技術は大規模モデルのいくつかの短所を解決するだけでなく、産業の実現を推進する鍵でもあります。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。

月の裏側のKimi Chatを例にとると、その長文能力は多くのアップグレードをもたらしました:

  • 長文や財務報告などを迅速に分析し、重要な情報を抽出して要約を生成します。
  • 書籍全体または法律文書を検索可能な知識ベースに変換できる
  • 論文をコードに直接変換し、修正および最適化を行うことができます
  • 長い対話の中でのキャラクター演技をサポートし、バーチャルキャラクターとのインタラクションを実現

これらの機能は、対話型ロボットが専門化、個性化、深層化の方向に進んでいることを示しており、産業の実現を引き起こす新たな手段となることが期待されています。

杨植麟は、月の裏側の目標は次のC端スーパーAPPを構築することであり、汎用モデルを基に複数の垂直アプリケーションを派生させることだと述べました。彼は国内の大モデル市場がtoBとtoCの二大陣営に分かれると予測しており、toC分野では自社開発モデルに基づくスーパーアプリケーションが登場するでしょう。

長いテキストの技術的な問題

長文技術は「テキストの長さ-注意力-計算能力」という不可能な三角形のジレンマに直面しています:

  • テキストが長くなるほど、重要な情報に焦点を合わせることが難しくなる
  • 注意力が限られており、短いテキストでは複雑な情報を完全に表現することが難しい
  • 長文を処理するには大量の計算力が必要で、コストが増加します。

このジレンマは、Transformer構造内の自己注意メカニズムに起因します。このメカニズムは、モデルが情報間の関係を柔軟に分析できるようにしますが、計算量はテキストの長さに対して二乗的に増加します。

研究によると、長すぎる文脈は関連情報の割合を減少させ、注意が散漫になることが示されています。これは、テキストの長さと注意力との矛盾を構成します。同時に、より長いテキストを突破するためには、より多くの計算能力が必要であり、計算能力との矛盾を形成します。

現在、主に3つのタイプのソリューションがあります:

  1. 外部ツールを利用する: 長いテキストを分割処理し、短いテキスト片段を検索して長いテキストの回答を構築する。

  2. 自己注意計算の最適化: LongLoRAのように、グループ計算を通じて計算量を削減します。

  3. モデル最適化: LongLLaMAは微調整を通じて、より長いシーケンスの外挿能力を実現します。

異なるプランにはそれぞれ利点と欠点があります。メーカーは、十分な情報を処理しつつ計算効率とコストを考慮するために、テキストの長さ、注意力、計算能力のバランスを見つける必要があります。

TOKEN-1.24%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • リポスト
  • 共有
コメント
0/400
DeFiVeteranvip
· 16時間前
全文を理解してもどうなるのか
原文表示返信0
OldLeekMastervip
· 08-11 05:52
千万演じてはいけません
原文表示返信0
DegenWhisperervip
· 08-11 05:52
どれくらいが頭か試してみてください
原文表示返信0
DiamondHandsvip
· 08-11 05:47
ハイエンドな技術戦
原文表示返信0
WalletDivorcervip
· 08-11 05:26
見ることは行動することです
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)