La capacité de texte long devient une "norme" pour les grands modèles, 400 000 tokens ne sont peut-être que le début
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable, passant de 4000 tokens à 400 000 tokens. Cette capacité semble être devenue un nouveau standard pour évaluer la force technologique des entreprises de grands modèles.
À l'international, OpenAI a augmenté la longueur d'entrée du contexte de GPT-3.5 de 4000 à 16000 tokens grâce à plusieurs mises à jour, tandis que GPT-4 est passé de 8000 à 32000 tokens. Anthropic a même étendu la longueur du contexte à 100000 tokens. LongLLaMA a même poussé ce chiffre à plus de 256000 tokens.
En Chine, la Kimi Chat lancée par la startup Mois de l'Ombre prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT, permet d'étendre la longueur de texte du modèle 7B à 100 000 tokens, tandis que le modèle 70B atteint 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan, y compris OpenAI, Anthropic, Meta et Moonlight, se concentrent sur l'extension de la longueur de contexte comme direction clé de mise à niveau technologique.
Ces entreprises sont toutes, sans exception, des chouchous du marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, la valorisation d'Anthropic pourrait atteindre 30 milliards de dollars, tandis que la face cachée de la lune, qui n'a été créée que depuis six mois, a déjà réalisé deux tours de financement totalisant près de 2 milliards de dollars.
La percée technologique des longs textes signifie une amélioration significative de la capacité de compréhension en lecture des modèles. Passant de la difficulté à lire un article public à la capacité de lire facilement un roman complet, voire de traiter des documents professionnels complexes. Cette technologie stimule également le déploiement des grands modèles dans des domaines tels que la finance, la justice et la recherche.
Cependant, la longueur du texte n'est pas toujours synonyme de qualité. Des études montrent que l'utilisation efficace du contenu contextuel par le modèle est plus cruciale que l'augmentation de la longueur. Néanmoins, les recherches actuelles semblent encore loin d'atteindre le "point critique", 400 000 tokens n'étant peut-être qu'un début.
La technologie des longs textes ne résout pas seulement certains problèmes auxquels les grands modèles étaient confrontés au début, mais elle renforce également leurs fonctionnalités, devenant l'une des technologies clés pour promouvoir les applications industrielles. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
L'application de la technologie des longs textes se manifeste dans plusieurs domaines : analyse rapide d'articles longs, extraction d'informations clés des rapports financiers, conversion directe de texte en code, dialogues complexes de jeux de rôle, etc. Ces fonctionnalités montrent que les grands modèles évoluent vers une spécialisation, une personnalisation et une profondeur.
Cependant, la technologie des longs textes est également confrontée au dilemme du "triangle impossible" : le compromis entre la longueur du texte, l'attention et la puissance de calcul. Plus le texte est long, plus il est difficile de se concentrer sur les informations clés ; lorsque l'attention est limitée, les courts textes sont difficiles à transmettre intégralement des informations complexes ; traiter de longs textes nécessite également une grande puissance de calcul, ce qui augmente les coûts.
Actuellement, il existe principalement trois solutions : utiliser des outils externes pour aider au traitement, optimiser le calcul du mécanisme d'attention auto-référentielle, et utiliser des méthodes d'optimisation de modèle. Chacune de ces méthodes a ses avantages et ses inconvénients, visant à trouver le meilleur point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul.
Bien que la technologie des longs textes soit encore confrontée à de nombreux défis, elle est sans aucun doute l'une des directions importantes du développement des grands modèles. Avec les progrès technologiques continus, nous avons des raisons d'attendre l'émergence de capacités de traitement de longs textes plus puissantes et plus intelligentes.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
10 J'aime
Récompense
10
8
Partager
Commentaire
0/400
NervousFingers
· 07-24 16:10
70 000 ? Qu'est-ce que c'est ? Je commence à 100 000.
Voir l'originalRépondre0
NftDataDetective
· 07-24 09:33
hmm 400k tokens... on dirait que les fabricants de GPU vont adorer ça
Voir l'originalRépondre0
WalletDivorcer
· 07-23 19:12
C'est tout ? Niveau AI, je ne fais confiance à aucun token.
Voir l'originalRépondre0
StablecoinGuardian
· 07-22 00:53
L'involution est si rapide ? Longueur gagne 20 fois plus.
Voir l'originalRépondre0
PhantomMiner
· 07-22 00:51
La technologie est morte, les joueurs de puissance de calcul sont en extase.
Voir l'originalRépondre0
StableBoi
· 07-22 00:50
La puissance de calcul a rapidement dépassé le million, n'est-ce pas ?
Voir l'originalRépondre0
NeverVoteOnDAO
· 07-22 00:40
Les données peuvent toutes augmenter, mais la puissance de calcul n'est pas suffisante.
Voir l'originalRépondre0
CommunityWorker
· 07-22 00:33
40k c'est tout ? C'est encore loin derrière le Cyber Univers.
Les capacités des grands modèles en matière de longs textes explosent, 400 000 tokens ne seraient peut-être que le point de départ.
La capacité de texte long devient une "norme" pour les grands modèles, 400 000 tokens ne sont peut-être que le début
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable, passant de 4000 tokens à 400 000 tokens. Cette capacité semble être devenue un nouveau standard pour évaluer la force technologique des entreprises de grands modèles.
À l'international, OpenAI a augmenté la longueur d'entrée du contexte de GPT-3.5 de 4000 à 16000 tokens grâce à plusieurs mises à jour, tandis que GPT-4 est passé de 8000 à 32000 tokens. Anthropic a même étendu la longueur du contexte à 100000 tokens. LongLLaMA a même poussé ce chiffre à plus de 256000 tokens.
En Chine, la Kimi Chat lancée par la startup Mois de l'Ombre prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT, permet d'étendre la longueur de texte du modèle 7B à 100 000 tokens, tandis que le modèle 70B atteint 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan, y compris OpenAI, Anthropic, Meta et Moonlight, se concentrent sur l'extension de la longueur de contexte comme direction clé de mise à niveau technologique.
Ces entreprises sont toutes, sans exception, des chouchous du marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, la valorisation d'Anthropic pourrait atteindre 30 milliards de dollars, tandis que la face cachée de la lune, qui n'a été créée que depuis six mois, a déjà réalisé deux tours de financement totalisant près de 2 milliards de dollars.
La percée technologique des longs textes signifie une amélioration significative de la capacité de compréhension en lecture des modèles. Passant de la difficulté à lire un article public à la capacité de lire facilement un roman complet, voire de traiter des documents professionnels complexes. Cette technologie stimule également le déploiement des grands modèles dans des domaines tels que la finance, la justice et la recherche.
Cependant, la longueur du texte n'est pas toujours synonyme de qualité. Des études montrent que l'utilisation efficace du contenu contextuel par le modèle est plus cruciale que l'augmentation de la longueur. Néanmoins, les recherches actuelles semblent encore loin d'atteindre le "point critique", 400 000 tokens n'étant peut-être qu'un début.
La technologie des longs textes ne résout pas seulement certains problèmes auxquels les grands modèles étaient confrontés au début, mais elle renforce également leurs fonctionnalités, devenant l'une des technologies clés pour promouvoir les applications industrielles. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
L'application de la technologie des longs textes se manifeste dans plusieurs domaines : analyse rapide d'articles longs, extraction d'informations clés des rapports financiers, conversion directe de texte en code, dialogues complexes de jeux de rôle, etc. Ces fonctionnalités montrent que les grands modèles évoluent vers une spécialisation, une personnalisation et une profondeur.
Cependant, la technologie des longs textes est également confrontée au dilemme du "triangle impossible" : le compromis entre la longueur du texte, l'attention et la puissance de calcul. Plus le texte est long, plus il est difficile de se concentrer sur les informations clés ; lorsque l'attention est limitée, les courts textes sont difficiles à transmettre intégralement des informations complexes ; traiter de longs textes nécessite également une grande puissance de calcul, ce qui augmente les coûts.
Actuellement, il existe principalement trois solutions : utiliser des outils externes pour aider au traitement, optimiser le calcul du mécanisme d'attention auto-référentielle, et utiliser des méthodes d'optimisation de modèle. Chacune de ces méthodes a ses avantages et ses inconvénients, visant à trouver le meilleur point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul.
Bien que la technologie des longs textes soit encore confrontée à de nombreux défis, elle est sans aucun doute l'une des directions importantes du développement des grands modèles. Avec les progrès technologiques continus, nous avons des raisons d'attendre l'émergence de capacités de traitement de longs textes plus puissantes et plus intelligentes.