Kompetisi Teknologi Teks Panjang Model Besar Ditingkatkan, 400.000 token mungkin hanya permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang luar biasa. Dari awal 4000 token tumbuh menjadi 400.000 token sekarang, kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi penyedia model besar.
Secara internasional, OpenAI telah melakukan beberapa peningkatan, meningkatkan panjang konteks GPT-4 hingga 32.000 token; Anthropic berhasil memperluas panjang konteks hingga 100.000 token; LongLLaMA bahkan memperluas panjang konteks hingga 256.000 token atau bahkan lebih.
Perusahaan domestik juga tidak ingin ketinggalan. Kimi Chat yang diluncurkan oleh perusahaan rintisan model besar, Moon's Dark Side, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token; teknologi LongLoRA yang dikembangkan oleh Universitas Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan dan lembaga model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan kemampuan pengolahan teks panjang sebagai arah peningkatan utama. Perusahaan-perusahaan ini juga merupakan objek yang sangat diminati di pasar modal, dengan skala pendanaan dan valuasi yang meningkat secara eksponensial.
Apa arti terobosan teknologi teks panjang? Secara superficial, ini berarti kemampuan input dan membaca model meningkat pesat, dari awal yang hanya bisa membaca sebuah artikel pendek, kini dapat dengan mudah menangani sebuah novel panjang. Makna yang lebih mendalam adalah, ini mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa panjang konteks yang dapat diproses oleh model tidak selalu sebanding dengan efektivitasnya, yang lebih penting adalah bagaimana model memanfaatkan konten konteks dengan efektif. Saat ini, eksplorasi panjang teks di industri masih jauh dari "langit-langit", 400.000 token mungkin hanya merupakan awal.
Mengapa harus melewati batasan teks panjang?
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa keterbatasan panjang input telah menyebabkan banyak tantangan dalam penerapan model besar. Misalnya, dalam skenario seperti karakter virtual, permainan skenario, dan analisis hukum, panjang input yang tidak mencukupi dapat menyebabkan kehilangan informasi dan hasil yang kurang optimal.
Kemampuan teks panjang sangat penting untuk aplikasi Agent dan AI yang asli di masa depan. Agent perlu bergantung pada informasi sejarah untuk perencanaan keputusan, aplikasi AI memerlukan konteks untuk menjaga pengalaman yang koheren dan dipersonalisasi.
Yang Zhilin berpendapat bahwa batasan model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana yang pertama terkait dengan jumlah parameter, dan yang terakhir adalah panjang konteks. Dengan meningkatkan panjang konteks, kemampuan model dapat ditingkatkan tanpa secara signifikan menambah jumlah parameter.
Teks panjang juga membantu mengurangi masalah ilusi pada model besar. Lebih banyak informasi konteks dapat membantu model menilai makna, mengurangi ambiguitas, dan meningkatkan akurasi penalaran.
Dapat dikatakan bahwa teknologi teks panjang tidak hanya mengatasi beberapa kekurangan model besar, tetapi juga merupakan kunci untuk mendorong penerapan industri. Ini menandakan bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Sebagai contoh Kimi Chat di sisi gelap bulan, kemampuannya dalam teks panjang membawa beberapa peningkatan:
Dapat menganalisis teks panjang, laporan keuangan, dll. dengan cepat, mengekstrak informasi kunci dan menghasilkan ringkasan
Dapat mengubah seluruh buku atau dokumen hukum menjadi basis pengetahuan yang dapat dicari
Dapat langsung mengubah makalah menjadi kode dan melakukan modifikasi serta optimasi
Mendukung peran dalam dialog panjang, mewujudkan interaksi dengan karakter virtual
Fitur-fitur ini menunjukkan bahwa robot percakapan sedang berkembang ke arah profesionalisasi, personalisasi, dan kedalaman, diharapkan menjadi alat baru yang dapat memicu penerapan industri.
Yang Zhilin menyatakan bahwa tujuan dari sisi gelap bulan adalah untuk menciptakan super APP C-end berikutnya, yang akan menghasilkan beberapa aplikasi vertikal berdasarkan model umum. Ia memprediksi bahwa pasar model besar domestik akan dibagi menjadi dua kamp toB dan toC, dan di bidang toC akan muncul aplikasi super yang berbasis model yang dikembangkan sendiri.
Tantangan teknis dari teks panjang
Teks panjang menghadapi dilema segitiga "panjang teks-perhatian-daya komputasi" yang tidak mungkin:
Semakin panjang teks, semakin sulit untuk fokus pada informasi kunci
Perhatian terbatas, teks pendek sulit untuk mengekspresikan informasi kompleks secara lengkap.
Mengolah teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya
Kondisi ini berasal dari mekanisme perhatian diri dalam struktur Transformer. Mekanisme ini memungkinkan model untuk menganalisis hubungan antara informasi dengan fleksibel, tetapi beban komputasi meningkat secara kuadrat seiring dengan panjang teks.
Penelitian menunjukkan bahwa konteks yang terlalu panjang dapat menyebabkan penurunan proporsi informasi yang relevan dan penyebaran perhatian. Ini membentuk kontradiksi antara panjang teks dan perhatian. Pada saat yang sama, untuk mengatasi teks yang lebih panjang memerlukan lebih banyak daya komputasi, membentuk kontradiksi dengan daya komputasi.
Saat ini ada tiga jenis solusi utama:
Menggunakan alat eksternal: Memecah teks panjang, menggunakan potongan teks pendek untuk membangun jawaban teks panjang.
Optimasi perhitungan perhatian diri: seperti LongLoRA yang mengurangi beban perhitungan melalui perhitungan terkelompok.
Optimasi Model: seperti LongLLaMA yang mencapai kemampuan ekstrapolasi urutan yang lebih panjang melalui fine-tuning.
Berbagai skema memiliki kelebihan dan kekurangan masing-masing. Pabrikan harus mencari titik keseimbangan antara panjang teks, perhatian, dan kekuatan komputasi, untuk memproses informasi yang cukup sambil mempertimbangkan efisiensi dan biaya perhitungan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Kemampuan pemrosesan teks panjang model besar meningkat pesat, 400 ribu token mungkin menjadi titik awal baru.
Kompetisi Teknologi Teks Panjang Model Besar Ditingkatkan, 400.000 token mungkin hanya permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang luar biasa. Dari awal 4000 token tumbuh menjadi 400.000 token sekarang, kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi penyedia model besar.
Secara internasional, OpenAI telah melakukan beberapa peningkatan, meningkatkan panjang konteks GPT-4 hingga 32.000 token; Anthropic berhasil memperluas panjang konteks hingga 100.000 token; LongLLaMA bahkan memperluas panjang konteks hingga 256.000 token atau bahkan lebih.
Perusahaan domestik juga tidak ingin ketinggalan. Kimi Chat yang diluncurkan oleh perusahaan rintisan model besar, Moon's Dark Side, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token; teknologi LongLoRA yang dikembangkan oleh Universitas Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan dan lembaga model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan kemampuan pengolahan teks panjang sebagai arah peningkatan utama. Perusahaan-perusahaan ini juga merupakan objek yang sangat diminati di pasar modal, dengan skala pendanaan dan valuasi yang meningkat secara eksponensial.
Apa arti terobosan teknologi teks panjang? Secara superficial, ini berarti kemampuan input dan membaca model meningkat pesat, dari awal yang hanya bisa membaca sebuah artikel pendek, kini dapat dengan mudah menangani sebuah novel panjang. Makna yang lebih mendalam adalah, ini mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa panjang konteks yang dapat diproses oleh model tidak selalu sebanding dengan efektivitasnya, yang lebih penting adalah bagaimana model memanfaatkan konten konteks dengan efektif. Saat ini, eksplorasi panjang teks di industri masih jauh dari "langit-langit", 400.000 token mungkin hanya merupakan awal.
Mengapa harus melewati batasan teks panjang?
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa keterbatasan panjang input telah menyebabkan banyak tantangan dalam penerapan model besar. Misalnya, dalam skenario seperti karakter virtual, permainan skenario, dan analisis hukum, panjang input yang tidak mencukupi dapat menyebabkan kehilangan informasi dan hasil yang kurang optimal.
Kemampuan teks panjang sangat penting untuk aplikasi Agent dan AI yang asli di masa depan. Agent perlu bergantung pada informasi sejarah untuk perencanaan keputusan, aplikasi AI memerlukan konteks untuk menjaga pengalaman yang koheren dan dipersonalisasi.
Yang Zhilin berpendapat bahwa batasan model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana yang pertama terkait dengan jumlah parameter, dan yang terakhir adalah panjang konteks. Dengan meningkatkan panjang konteks, kemampuan model dapat ditingkatkan tanpa secara signifikan menambah jumlah parameter.
Teks panjang juga membantu mengurangi masalah ilusi pada model besar. Lebih banyak informasi konteks dapat membantu model menilai makna, mengurangi ambiguitas, dan meningkatkan akurasi penalaran.
Dapat dikatakan bahwa teknologi teks panjang tidak hanya mengatasi beberapa kekurangan model besar, tetapi juga merupakan kunci untuk mendorong penerapan industri. Ini menandakan bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Sebagai contoh Kimi Chat di sisi gelap bulan, kemampuannya dalam teks panjang membawa beberapa peningkatan:
Fitur-fitur ini menunjukkan bahwa robot percakapan sedang berkembang ke arah profesionalisasi, personalisasi, dan kedalaman, diharapkan menjadi alat baru yang dapat memicu penerapan industri.
Yang Zhilin menyatakan bahwa tujuan dari sisi gelap bulan adalah untuk menciptakan super APP C-end berikutnya, yang akan menghasilkan beberapa aplikasi vertikal berdasarkan model umum. Ia memprediksi bahwa pasar model besar domestik akan dibagi menjadi dua kamp toB dan toC, dan di bidang toC akan muncul aplikasi super yang berbasis model yang dikembangkan sendiri.
Tantangan teknis dari teks panjang
Teks panjang menghadapi dilema segitiga "panjang teks-perhatian-daya komputasi" yang tidak mungkin:
Kondisi ini berasal dari mekanisme perhatian diri dalam struktur Transformer. Mekanisme ini memungkinkan model untuk menganalisis hubungan antara informasi dengan fleksibel, tetapi beban komputasi meningkat secara kuadrat seiring dengan panjang teks.
Penelitian menunjukkan bahwa konteks yang terlalu panjang dapat menyebabkan penurunan proporsi informasi yang relevan dan penyebaran perhatian. Ini membentuk kontradiksi antara panjang teks dan perhatian. Pada saat yang sama, untuk mengatasi teks yang lebih panjang memerlukan lebih banyak daya komputasi, membentuk kontradiksi dengan daya komputasi.
Saat ini ada tiga jenis solusi utama:
Menggunakan alat eksternal: Memecah teks panjang, menggunakan potongan teks pendek untuk membangun jawaban teks panjang.
Optimasi perhitungan perhatian diri: seperti LongLoRA yang mengurangi beban perhitungan melalui perhitungan terkelompok.
Optimasi Model: seperti LongLLaMA yang mencapai kemampuan ekstrapolasi urutan yang lebih panjang melalui fine-tuning.
Berbagai skema memiliki kelebihan dan kekurangan masing-masing. Pabrikan harus mencari titik keseimbangan antara panjang teks, perhatian, dan kekuatan komputasi, untuk memproses informasi yang cukup sambil mempertimbangkan efisiensi dan biaya perhitungan.