Конкурс технологий длинных текстов больших моделей обновляется, 400000 токенов, возможно, это всего лишь начало
Большие модели стремительно улучшают способность обрабатывать длинные тексты. С первоначальных 4000 токенов до сегодняшних 400000 токенов, способность к обработке длинных текстов, похоже, стала новым "стандартом" для производителей больших моделей.
В мире OpenAI несколько раз обновлял GPT-4, увеличив длину контекста до 32 000 токенов; Anthropic значительно расширил длину контекста до 100 000 токенов; LongLLaMA довел длину контекста до 256 000 токенов и даже больше.
Отечественные компании тоже не хотят отставать. Kimi Chat, выпущенный стартапом 月之暗面, поддерживает ввод 200 000 иероглифов, что примерно соответствует 400 000 токенам; технология LongLoRA, разработанная в сотрудничестве между китайским университетом Гонконга и MIT, может увеличить длину текста 7B модели до 100 000 токенов и 70B модели до 32 000 токенов.
В настоящее время несколько ведущих компаний и учреждений в области больших моделей, включая OpenAI, Anthropic, Meta и Лунную Тень, сосредоточили свои усилия на улучшении обработки длинных текстов. Эти компании также являются объектами пристального внимания со стороны капитального рынка, их объемы финансирования и оценка значительно возросли.
Что означает прорыв в технологии длинного текста? На первый взгляд, это означает значительное улучшение способности моделей к вводу и чтению, от первоначальной возможности прочитать только короткий текст до способности легко обрабатывать целый роман. Более глубокий смысл заключается в том, что это способствует внедрению крупных моделей в профессиональные области, такие как финансы, право и научные исследования.
Тем не менее, длина текста не всегда является показателем его качества. Исследования показывают, что длина контекста, с которым может работать модель, не всегда равносильна эффективности, важнее то, как модель эффективно использует контент контекста. В настоящее время исследование длины текста в отрасли еще далеко от достижения "потолка", 400 тысяч токенов может быть только началом.
Почему нужно преодолеть ограничения на длинные тексты?
Основатель "Темной стороны Луны" Ян Чжилинь заявил, что именно из-за ограничения длины ввода возникают трудности с реализацией многих крупных моделей. Например, в таких сценариях, как виртуальные персонажи, сценарные игры и правовой анализ, недостаточная длина ввода может привести к потере информации и плохим результатам.
Долгосрочные текстовые возможности также имеют ключевое значение для будущих агентов и нативных приложений ИИ. Агентам необходимо полагаться на историческую информацию для планирования и принятия решений, а приложениям ИИ нужен контекст для поддержания согласованности и персонализированного опыта.
Ян Чжилин считает, что верхний предел больших моделей определяется одновременно одноступенчатой способностью и количеством выполняемых шагов, причем первая связана с количеством параметров, а вторая — с длиной контекста. Увеличивая длину контекста, можно повысить возможности модели без значительного увеличения количества параметров.
Длинный текст также помогает уменьшить проблему иллюзий у больших моделей. Большее количество контекстной информации может помочь модели определить семантику, уменьшить двусмысленность и повысить точность вывода.
Можно сказать, что технологии длинных текстов не только решают некоторые недостатки больших моделей, но и являются ключевыми для внедрения в промышленность. Это означает, что большие модели переходят в новую стадию от LLM к Long LLM.
Пример Kimi Chat с темной стороны луны продемонстрировал множество улучшений благодаря своей способности к длинным текстам:
Быстро анализировать длинные тексты, финансовые отчеты и т. д., извлекая ключевую информацию и создавая резюме
Могут преобразовать целую книгу или юридический документ в запрашиваемую базу знаний.
Можно напрямую преобразовать论文 в код и произвести его модификацию и оптимизацию
Поддержка ролевых игр в длинных диалогах, позволяющая взаимодействовать с виртуальными персонажами
Эти функции показывают, что чат-боты развиваются в направлении профессионализации, персонализации и углубления, и могут стать новым инструментом для внедрения в индустрию.
Ян Чжи Линь заявил, что цель "Темной стороны Луны" состоит в создании следующего супер-приложения C-уровня, которое будет основано на универсальной модели и выведет несколько вертикальных приложений. Он предсказал, что рынок крупных моделей в стране разделится на две большие группы: toB и toC, и в области toC появятся супер-приложения на основе собственных моделей.
Технические проблемы длинного текста
Долгосрочные текстовые технологии сталкиваются с невозможным треугольником "длина текста - внимание - вычислительная мощность:"
Чем длиннее текст, тем сложнее сосредоточиться на ключевой информации
Ограниченное внимание, короткий текст сложно полностью передать сложную информацию
Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты
Эта проблема возникает из-за механизма самовнимания в структуре Transformer. Этот механизм позволяет модели гибко анализировать отношения между информацией, но вычислительная нагрузка растет квадратично с увеличением длины текста.
Исследования показывают, что слишком длинный контекст приводит к снижению доли релевантной информации и отвлечению внимания. Это создает противоречие между длиной текста и вниманием. В то же время, для обработки более длинных текстов требуется больше вычислительных мощностей, что создает противоречие с вычислительными мощностями.
В настоящее время существует три основных типа решений:
Использование внешних инструментов: разбивка длинного текста на части, создание ответа на длинный текст путем поиска фрагментов короткого текста.
Оптимизация вычислений самовнимания: например, LongLoRA снижает вычислительную нагрузку за счет групповых вычислений.
Оптимизация модели: например, LongLLaMA достигает способности экстраполяции более длинных последовательностей через дообучение.
У разных решений свои плюсы и минусы. Производители должны искать баланс между длиной текста, вниманием и вычислительной мощностью, чтобы при обработке достаточного объема информации также учитывать эффективность вычислений и затраты.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Способности больших моделей к обработке длинных текстов увеличились в 40 раз, 400000 токенов могут стать новой отправной точкой.
Конкурс технологий длинных текстов больших моделей обновляется, 400000 токенов, возможно, это всего лишь начало
Большие модели стремительно улучшают способность обрабатывать длинные тексты. С первоначальных 4000 токенов до сегодняшних 400000 токенов, способность к обработке длинных текстов, похоже, стала новым "стандартом" для производителей больших моделей.
В мире OpenAI несколько раз обновлял GPT-4, увеличив длину контекста до 32 000 токенов; Anthropic значительно расширил длину контекста до 100 000 токенов; LongLLaMA довел длину контекста до 256 000 токенов и даже больше.
Отечественные компании тоже не хотят отставать. Kimi Chat, выпущенный стартапом 月之暗面, поддерживает ввод 200 000 иероглифов, что примерно соответствует 400 000 токенам; технология LongLoRA, разработанная в сотрудничестве между китайским университетом Гонконга и MIT, может увеличить длину текста 7B модели до 100 000 токенов и 70B модели до 32 000 токенов.
В настоящее время несколько ведущих компаний и учреждений в области больших моделей, включая OpenAI, Anthropic, Meta и Лунную Тень, сосредоточили свои усилия на улучшении обработки длинных текстов. Эти компании также являются объектами пристального внимания со стороны капитального рынка, их объемы финансирования и оценка значительно возросли.
Что означает прорыв в технологии длинного текста? На первый взгляд, это означает значительное улучшение способности моделей к вводу и чтению, от первоначальной возможности прочитать только короткий текст до способности легко обрабатывать целый роман. Более глубокий смысл заключается в том, что это способствует внедрению крупных моделей в профессиональные области, такие как финансы, право и научные исследования.
Тем не менее, длина текста не всегда является показателем его качества. Исследования показывают, что длина контекста, с которым может работать модель, не всегда равносильна эффективности, важнее то, как модель эффективно использует контент контекста. В настоящее время исследование длины текста в отрасли еще далеко от достижения "потолка", 400 тысяч токенов может быть только началом.
Почему нужно преодолеть ограничения на длинные тексты?
Основатель "Темной стороны Луны" Ян Чжилинь заявил, что именно из-за ограничения длины ввода возникают трудности с реализацией многих крупных моделей. Например, в таких сценариях, как виртуальные персонажи, сценарные игры и правовой анализ, недостаточная длина ввода может привести к потере информации и плохим результатам.
Долгосрочные текстовые возможности также имеют ключевое значение для будущих агентов и нативных приложений ИИ. Агентам необходимо полагаться на историческую информацию для планирования и принятия решений, а приложениям ИИ нужен контекст для поддержания согласованности и персонализированного опыта.
Ян Чжилин считает, что верхний предел больших моделей определяется одновременно одноступенчатой способностью и количеством выполняемых шагов, причем первая связана с количеством параметров, а вторая — с длиной контекста. Увеличивая длину контекста, можно повысить возможности модели без значительного увеличения количества параметров.
Длинный текст также помогает уменьшить проблему иллюзий у больших моделей. Большее количество контекстной информации может помочь модели определить семантику, уменьшить двусмысленность и повысить точность вывода.
Можно сказать, что технологии длинных текстов не только решают некоторые недостатки больших моделей, но и являются ключевыми для внедрения в промышленность. Это означает, что большие модели переходят в новую стадию от LLM к Long LLM.
Пример Kimi Chat с темной стороны луны продемонстрировал множество улучшений благодаря своей способности к длинным текстам:
Эти функции показывают, что чат-боты развиваются в направлении профессионализации, персонализации и углубления, и могут стать новым инструментом для внедрения в индустрию.
Ян Чжи Линь заявил, что цель "Темной стороны Луны" состоит в создании следующего супер-приложения C-уровня, которое будет основано на универсальной модели и выведет несколько вертикальных приложений. Он предсказал, что рынок крупных моделей в стране разделится на две большие группы: toB и toC, и в области toC появятся супер-приложения на основе собственных моделей.
Технические проблемы длинного текста
Долгосрочные текстовые технологии сталкиваются с невозможным треугольником "длина текста - внимание - вычислительная мощность:"
Эта проблема возникает из-за механизма самовнимания в структуре Transformer. Этот механизм позволяет модели гибко анализировать отношения между информацией, но вычислительная нагрузка растет квадратично с увеличением длины текста.
Исследования показывают, что слишком длинный контекст приводит к снижению доли релевантной информации и отвлечению внимания. Это создает противоречие между длиной текста и вниманием. В то же время, для обработки более длинных текстов требуется больше вычислительных мощностей, что создает противоречие с вычислительными мощностями.
В настоящее время существует три основных типа решений:
Использование внешних инструментов: разбивка длинного текста на части, создание ответа на длинный текст путем поиска фрагментов короткого текста.
Оптимизация вычислений самовнимания: например, LongLoRA снижает вычислительную нагрузку за счет групповых вычислений.
Оптимизация модели: например, LongLLaMA достигает способности экстраполяции более длинных последовательностей через дообучение.
У разных решений свои плюсы и минусы. Производители должны искать баланс между длиной текста, вниманием и вычислительной мощностью, чтобы при обработке достаточного объема информации также учитывать эффективность вычислений и затраты.