Способности больших моделей к обработке длинных текстов увеличились в 40 раз, 400000 токенов могут стать новой отправной точкой.

Конкурс технологий длинных текстов больших моделей обновляется, 400000 токенов, возможно, это всего лишь начало

Большие модели стремительно улучшают способность обрабатывать длинные тексты. С первоначальных 4000 токенов до сегодняшних 400000 токенов, способность к обработке длинных текстов, похоже, стала новым "стандартом" для производителей больших моделей.

В мире OpenAI несколько раз обновлял GPT-4, увеличив длину контекста до 32 000 токенов; Anthropic значительно расширил длину контекста до 100 000 токенов; LongLLaMA довел длину контекста до 256 000 токенов и даже больше.

Отечественные компании тоже не хотят отставать. Kimi Chat, выпущенный стартапом 月之暗面, поддерживает ввод 200 000 иероглифов, что примерно соответствует 400 000 токенам; технология LongLoRA, разработанная в сотрудничестве между китайским университетом Гонконга и MIT, может увеличить длину текста 7B модели до 100 000 токенов и 70B модели до 32 000 токенов.

В настоящее время несколько ведущих компаний и учреждений в области больших моделей, включая OpenAI, Anthropic, Meta и Лунную Тень, сосредоточили свои усилия на улучшении обработки длинных текстов. Эти компании также являются объектами пристального внимания со стороны капитального рынка, их объемы финансирования и оценка значительно возросли.

Что означает прорыв в технологии длинного текста? На первый взгляд, это означает значительное улучшение способности моделей к вводу и чтению, от первоначальной возможности прочитать только короткий текст до способности легко обрабатывать целый роман. Более глубокий смысл заключается в том, что это способствует внедрению крупных моделей в профессиональные области, такие как финансы, право и научные исследования.

Тем не менее, длина текста не всегда является показателем его качества. Исследования показывают, что длина контекста, с которым может работать модель, не всегда равносильна эффективности, важнее то, как модель эффективно использует контент контекста. В настоящее время исследование длины текста в отрасли еще далеко от достижения "потолка", 400 тысяч токенов может быть только началом.

Почему нужно преодолеть ограничения на длинные тексты?

Основатель "Темной стороны Луны" Ян Чжилинь заявил, что именно из-за ограничения длины ввода возникают трудности с реализацией многих крупных моделей. Например, в таких сценариях, как виртуальные персонажи, сценарные игры и правовой анализ, недостаточная длина ввода может привести к потере информации и плохим результатам.

Долгосрочные текстовые возможности также имеют ключевое значение для будущих агентов и нативных приложений ИИ. Агентам необходимо полагаться на историческую информацию для планирования и принятия решений, а приложениям ИИ нужен контекст для поддержания согласованности и персонализированного опыта.

Ян Чжилин считает, что верхний предел больших моделей определяется одновременно одноступенчатой способностью и количеством выполняемых шагов, причем первая связана с количеством параметров, а вторая — с длиной контекста. Увеличивая длину контекста, можно повысить возможности модели без значительного увеличения количества параметров.

Длинный текст также помогает уменьшить проблему иллюзий у больших моделей. Большее количество контекстной информации может помочь модели определить семантику, уменьшить двусмысленность и повысить точность вывода.

Можно сказать, что технологии длинных текстов не только решают некоторые недостатки больших моделей, но и являются ключевыми для внедрения в промышленность. Это означает, что большие модели переходят в новую стадию от LLM к Long LLM.

Пример Kimi Chat с темной стороны луны продемонстрировал множество улучшений благодаря своей способности к длинным текстам:

  • Быстро анализировать длинные тексты, финансовые отчеты и т. д., извлекая ключевую информацию и создавая резюме
  • Могут преобразовать целую книгу или юридический документ в запрашиваемую базу знаний.
  • Можно напрямую преобразовать论文 в код и произвести его модификацию и оптимизацию
  • Поддержка ролевых игр в длинных диалогах, позволяющая взаимодействовать с виртуальными персонажами

Эти функции показывают, что чат-боты развиваются в направлении профессионализации, персонализации и углубления, и могут стать новым инструментом для внедрения в индустрию.

Ян Чжи Линь заявил, что цель "Темной стороны Луны" состоит в создании следующего супер-приложения C-уровня, которое будет основано на универсальной модели и выведет несколько вертикальных приложений. Он предсказал, что рынок крупных моделей в стране разделится на две большие группы: toB и toC, и в области toC появятся супер-приложения на основе собственных моделей.

Технические проблемы длинного текста

Долгосрочные текстовые технологии сталкиваются с невозможным треугольником "длина текста - внимание - вычислительная мощность:"

  • Чем длиннее текст, тем сложнее сосредоточиться на ключевой информации
  • Ограниченное внимание, короткий текст сложно полностью передать сложную информацию
  • Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты

Эта проблема возникает из-за механизма самовнимания в структуре Transformer. Этот механизм позволяет модели гибко анализировать отношения между информацией, но вычислительная нагрузка растет квадратично с увеличением длины текста.

Исследования показывают, что слишком длинный контекст приводит к снижению доли релевантной информации и отвлечению внимания. Это создает противоречие между длиной текста и вниманием. В то же время, для обработки более длинных текстов требуется больше вычислительных мощностей, что создает противоречие с вычислительными мощностями.

В настоящее время существует три основных типа решений:

  1. Использование внешних инструментов: разбивка длинного текста на части, создание ответа на длинный текст путем поиска фрагментов короткого текста.

  2. Оптимизация вычислений самовнимания: например, LongLoRA снижает вычислительную нагрузку за счет групповых вычислений.

  3. Оптимизация модели: например, LongLLaMA достигает способности экстраполяции более длинных последовательностей через дообучение.

У разных решений свои плюсы и минусы. Производители должны искать баланс между длиной текста, вниманием и вычислительной мощностью, чтобы при обработке достаточного объема информации также учитывать эффективность вычислений и затраты.

TOKEN-3.04%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
DeFiVeteranvip
· 14м назад
И что с того, что ты понимаешь весь текст?
Посмотреть ОригиналОтветить0
OldLeekMastervip
· 12ч назад
Не действуйте
Посмотреть ОригиналОтветить0
DegenWhisperervip
· 12ч назад
Поиграйте, чтобы узнать, сколько это стоит.
Посмотреть ОригиналОтветить0
DiamondHandsvip
· 12ч назад
Какой высококлассный технологический бой
Посмотреть ОригиналОтветить0
WalletDivorcervip
· 12ч назад
Смотреть на это - значит действовать
Посмотреть ОригиналОтветить0
  • Закрепить