Довгий текст стає новим "стандартом" для великих моделей, 400 тисяч токенів можуть бути лише початком
Великі моделі з неймовірною швидкістю підвищують свої можливості обробки довгих текстів, від 4000 токенів до 400000 токенів, ця здатність, здається, стала новим стандартом для оцінки технологічної потужності компаній, що займаються великими моделями.
На міжнародному рівні OpenAI неодноразово оновлював GPT-3.5, збільшивши довжину контекстного вводу з 4000 до 16000 токенів, а GPT-4 - з 8000 до 32000 токенів. Anthropic навіть розширив довжину контексту до 100000 токенів. LongLLaMA навіть підвищив це число до понад 256000 токенів.
Внутрішньо, стартап "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським університетом і MIT, може розширити довжину тексту для моделі 7B до 100 тисяч токенів, тоді як для моделі 70B вона досягає 32 тисяч токенів.
Наразі багато провідних компаній і дослідницьких установ у сфері великих моделей, включно з OpenAI, Anthropic, Meta та Місяцем Темряви, розглядають розширення довжини контексту як ключовий напрямок технологічного вдосконалення.
Ці компанії без винятку є улюбленцями капітальних ринків. OpenAI отримала інвестиції близько 12 мільярдів доларів, оцінка Anthropic може досягти 30 мільярдів доларів, а створена всього півроку тому Moonlight вже завершила два раунди фінансування на загальну суму близько 2 мільярдів юанів.
Прорив у технології обробки довгих текстів означає значне підвищення здатності моделей до розуміння прочитаного. Від початкових труднощів з завершенням читання статті в публікації до теперішнього часу, коли можна легко прочитати цілий роман, навіть обробляти складні наукові документи. Ця технологія також сприяє впровадженню великих моделей у фінансовій, судовій, науковій та інших сферах.
Однак довжина тексту не завжди є кращою. Дослідження показують, що ефективне використання контексту є більш важливим, ніж просте збільшення довжини. Тим не менш, поточні дослідження, здається, ще далеко від "критичної точки", 400 000 токенів може бути лише початком.
Технологія довгих текстів не лише вирішила деякі проблеми, з якими стикалися великі моделі на ранніх етапах, але й покращила їх функціональність, ставши однією з ключових технологій, що сприяють застосуванню в галузі. Це означає, що великі моделі перейшли з LLM до Long LLM.
Застосування технології довгих текстів вже проявилося в кількох аспектах: швидкий аналіз довгих статей, витягування ключової інформації з фінансових звітів, безпосереднє перетворення тексту в код, складні діалоги рольових ігор тощо. Ці функції показують, що великі моделі розвиваються в напрямку спеціалізації, індивідуалізації та поглиблення.
Однак технології довгих текстів також стикаються з труднощами "неможливого трикутника": балансування між довжиною тексту, увагою та обчислювальною потужністю. Чим довший текст, тим важче зосередитися на ключовій інформації; коли увага обмежена, короткий текст важко повністю передати складну інформацію; обробка довгих текстів також вимагає значної обчислювальної потужності, що підвищує витрати.
Наразі існує три основні рішення: використання зовнішніх інструментів для обробки, оптимізація обчислень механізму самоуваги, використання методів оптимізації моделі. Ці методи мають свої переваги та недоліки, і їх мета - знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю.
Хоча технології довгих текстів все ще стикаються з багатьма викликами, безсумнівно, це один з важливих напрямків розвитку великих моделей. Завдяки постійному прогресу технологій, ми маємо підстави очікувати появу більш потужних і розумних можливостей обробки довгих текстів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
10 лайків
Нагородити
10
8
Поділіться
Прокоментувати
0/400
NervousFingers
· 07-24 16:10
70 тисяч? Що це таке? Я граю з 100 тисяч.
Переглянути оригіналвідповісти на0
NftDataDetective
· 07-24 09:33
хм 400к токенів... здається, виробники графічних процесорів це полюблять
Переглянути оригіналвідповісти на0
WalletDivorcer
· 07-23 19:12
Тільки це? Рівень ШІ, я жодного токена не вірю
Переглянути оригіналвідповісти на0
StablecoinGuardian
· 07-22 00:53
Внутрішня конкуренція так швидко? Довжина заробляє в 20 разів більше.
Переглянути оригіналвідповісти на0
PhantomMiner
· 07-22 00:51
Технічний обвал вбив, гравці з обчислювальною потужністю в захваті.
Переглянути оригіналвідповісти на0
StableBoi
· 07-22 00:50
Обчислювальна потужність швидко перевищить мільйон, правда?
Переглянути оригіналвідповісти на0
NeverVoteOnDAO
· 07-22 00:40
Дані можуть зростати, але обчислювальна потужність недостатня.
Переглянути оригіналвідповісти на0
CommunityWorker
· 07-22 00:33
40w це все? Порівняно з кіберсвітом, це ще далеко.
Здатність великих моделей до обробки довгих текстів зросла, 400 тисяч токенів може бути лише початком
Довгий текст стає новим "стандартом" для великих моделей, 400 тисяч токенів можуть бути лише початком
Великі моделі з неймовірною швидкістю підвищують свої можливості обробки довгих текстів, від 4000 токенів до 400000 токенів, ця здатність, здається, стала новим стандартом для оцінки технологічної потужності компаній, що займаються великими моделями.
На міжнародному рівні OpenAI неодноразово оновлював GPT-3.5, збільшивши довжину контекстного вводу з 4000 до 16000 токенів, а GPT-4 - з 8000 до 32000 токенів. Anthropic навіть розширив довжину контексту до 100000 токенів. LongLLaMA навіть підвищив це число до понад 256000 токенів.
Внутрішньо, стартап "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським університетом і MIT, може розширити довжину тексту для моделі 7B до 100 тисяч токенів, тоді як для моделі 70B вона досягає 32 тисяч токенів.
Наразі багато провідних компаній і дослідницьких установ у сфері великих моделей, включно з OpenAI, Anthropic, Meta та Місяцем Темряви, розглядають розширення довжини контексту як ключовий напрямок технологічного вдосконалення.
Ці компанії без винятку є улюбленцями капітальних ринків. OpenAI отримала інвестиції близько 12 мільярдів доларів, оцінка Anthropic може досягти 30 мільярдів доларів, а створена всього півроку тому Moonlight вже завершила два раунди фінансування на загальну суму близько 2 мільярдів юанів.
Прорив у технології обробки довгих текстів означає значне підвищення здатності моделей до розуміння прочитаного. Від початкових труднощів з завершенням читання статті в публікації до теперішнього часу, коли можна легко прочитати цілий роман, навіть обробляти складні наукові документи. Ця технологія також сприяє впровадженню великих моделей у фінансовій, судовій, науковій та інших сферах.
Однак довжина тексту не завжди є кращою. Дослідження показують, що ефективне використання контексту є більш важливим, ніж просте збільшення довжини. Тим не менш, поточні дослідження, здається, ще далеко від "критичної точки", 400 000 токенів може бути лише початком.
Технологія довгих текстів не лише вирішила деякі проблеми, з якими стикалися великі моделі на ранніх етапах, але й покращила їх функціональність, ставши однією з ключових технологій, що сприяють застосуванню в галузі. Це означає, що великі моделі перейшли з LLM до Long LLM.
Застосування технології довгих текстів вже проявилося в кількох аспектах: швидкий аналіз довгих статей, витягування ключової інформації з фінансових звітів, безпосереднє перетворення тексту в код, складні діалоги рольових ігор тощо. Ці функції показують, що великі моделі розвиваються в напрямку спеціалізації, індивідуалізації та поглиблення.
Однак технології довгих текстів також стикаються з труднощами "неможливого трикутника": балансування між довжиною тексту, увагою та обчислювальною потужністю. Чим довший текст, тим важче зосередитися на ключовій інформації; коли увага обмежена, короткий текст важко повністю передати складну інформацію; обробка довгих текстів також вимагає значної обчислювальної потужності, що підвищує витрати.
Наразі існує три основні рішення: використання зовнішніх інструментів для обробки, оптимізація обчислень механізму самоуваги, використання методів оптимізації моделі. Ці методи мають свої переваги та недоліки, і їх мета - знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю.
Хоча технології довгих текстів все ще стикаються з багатьма викликами, безсумнівно, це один з важливих напрямків розвитку великих моделей. Завдяки постійному прогресу технологій, ми маємо підстави очікувати появу більш потужних і розумних можливостей обробки довгих текстів.