Le 22 mars 2024 à 21:44:12 :
Le 22 mars 2024 à 21:42:39 :
Le 22 mars 2024 à 21:39:51 :
Le 22 mars 2024 à 21:37:25 :
Le 22 mars 2024 à 21:33:23 :
> Le 22 mars 2024 à 21:29:57 :
>> Le 22 mars 2024 à 21:27:38 :
> >> Le 22 mars 2024 à 21:26:33 :
> > >> Le 22 mars 2024 à 21:24:51 :
> > > >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
> > > > >
> > > > > Le MLOPS est primordial maintenant en recherche
> > > >
> > > > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
> > >
> > > Tu confonds framework de travail et pipeline ou je rêve ?
> >
> > moi je suis chercheur kheyou
>
> Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée
Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur
j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi
Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps
non absolument pas ...
Si si, d'ailleurs tu n'as toujours pas expliqué ce qui motivait le multitête hein (intuitivement, quel est l'intérêt du multitête?) donc je sais pas pourquoi tu récuses.
Le 22 mars 2024 à 21:47:33 :
Le 22 mars 2024 à 21:45:24 :
Le 22 mars 2024 à 21:44:35 :
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
> Le 22 mars 2024 à 21:31:34 :
>> Le 22 mars 2024 à 21:28:40 :
> >> Le 22 mars 2024 à 21:26:36 :
> > >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
> > >
> > > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
> >
> > Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
> >
>
> c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
>
> > Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
>
> sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
> tu parles de trucs que tu connais même pas ...
Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
dans 99.9% des LLM y a une seule loss
Pour la milliardième de fois j'ai pas parlé pas de LLM. Je t'ai justement questionné sur les details du mécanisme d'attention multitête pour vérifier que tu es formé bas niveau
Et oui il y a une seule loss, c'est l'intérêt du multitête comme je l'ai dit plus haut, ça rend le transformers performant mais moins expliquable
y a zéro rapport entre multihead et une seule loss
Le 22 mars 2024 à 21:48:18 :
Le 22 mars 2024 à 21:44:12 :
Le 22 mars 2024 à 21:42:39 :
Le 22 mars 2024 à 21:39:51 :
Le 22 mars 2024 à 21:37:25 :
> Le 22 mars 2024 à 21:33:23 :
>> Le 22 mars 2024 à 21:29:57 :
> >> Le 22 mars 2024 à 21:27:38 :
> > >> Le 22 mars 2024 à 21:26:33 :
> > > >> Le 22 mars 2024 à 21:24:51 :
> > > > >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
> > > > > >
> > > > > > Le MLOPS est primordial maintenant en recherche
> > > > >
> > > > > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
> > > >
> > > > Tu confonds framework de travail et pipeline ou je rêve ?
> > >
> > > moi je suis chercheur kheyou
> >
> > Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
>
> MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée
Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur
j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi
Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps
non absolument pas ...
Si si, d'ailleurs tu n'as toujours pas expliqué ce qui motivait le multitête hein (intuitivement, quel est l'intérêt du multitête?) donc je sais pas pourquoi tu récuses.
je te l'ai dit 15 fois, c'est juste un softmax en parallèle pour sélectionner plusieurs positions ...
Le 22 mars 2024 à 21:44:35 :
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
> Le 22 mars 2024 à 21:26:36 :
>> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
>
> j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
Je comprends pas comment on peut être chercheur en IA sans maitriser le coeur des réseaux de neurone. Il y a pas que ADAM hein
Mais tu crois vraiment que tous les gens en IA sont specialistes en optimisateurs (ca peut arriver d'en utiliser des plus exotiques que d'autres) ? En loss (ça peut arriver d'en créer une custom) ? ... Les blocs de bases en DL ? non a un moment chacun sa spécialité, tu as l'air plus dans la théorie du DL de ce que je comprends et grand bien t'en fasse mais perso je suis pas spécialiste, juste j'utilise. Je dirais que je fais plus de l'IA appliquée comme on peut voir en math ou en physique, t'as la partie théorique et pratique/appliquée/industrielle (choisis le terme que tu préfères)
Pour revenir sur un classique, voici un exemple, 2014, +65000 citations, "Generative Adversarial Networks
Ian J. Goodfellow"
Le 22 mars 2024 à 21:50:10 :
Le 22 mars 2024 à 21:44:35 :
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
> Le 22 mars 2024 à 21:28:40 :
>> Le 22 mars 2024 à 21:26:36 :
> >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
> >
> > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
>
> Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
>
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
> Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
Je comprends pas comment on peut être chercheur en IA sans maitriser le coeur des réseaux de neurone. Il y a pas que ADAM hein
Mais tu crois vraiment que tous les gens en IA sont specialistes en optimisateurs (ca peut arriver d'en utiliser des plus exotiques que d'autres) ? En loss (ça peut arriver d'en créer une custom) ? ... Les blocs de bases en DL ? non a un moment chacun sa spécialité, tu as l'air plus dans la théorie du DL de ce que je comprends et grand bien t'en fasse mais perso je suis pas spécialiste, juste j'utilise. Je dirais que je fais plus de l'IA appliquée comme on peut voir en math ou en physique, t'as la partie théorique et pratique/appliquée/industrielle (choisis le terme que tu préfères)
Pour revenir sur un classique, voici un exemple, 2014, +65000 citations, "Generative Adversarial Networks
Ian J. Goodfellow"
ouf enfin un khey qui comprend
Le 22 mars 2024 à 21:49:10 :
Le 22 mars 2024 à 21:47:33 :
Le 22 mars 2024 à 21:45:24 :
Le 22 mars 2024 à 21:44:35 :
Le 22 mars 2024 à 21:42:09 :
> Le 22 mars 2024 à 21:33:46 :
>> Le 22 mars 2024 à 21:31:34 :
> >> Le 22 mars 2024 à 21:28:40 :
> > >> Le 22 mars 2024 à 21:26:36 :
> > > >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
> > > >
> > > > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
> > >
> > > Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
> > >
> >
> > c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
> >
> > > Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
> >
> > sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
> > tu parles de trucs que tu connais même pas ...
>
> Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
>
> Je peux te citer le papier classique de Desederi sinon :
> https://www.sciencedirect.com/science/article/pii/S1631073X12000738
>
> PCGrad, PaMal, ça te dit rien ?
>
> Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
dans 99.9% des LLM y a une seule loss
Pour la milliardième de fois j'ai pas parlé pas de LLM. Je t'ai justement questionné sur les details du mécanisme d'attention multitête pour vérifier que tu es formé bas niveau
Et oui il y a une seule loss, c'est l'intérêt du multitête comme je l'ai dit plus haut, ça rend le transformers performant mais moins expliquable
y a zéro rapport entre multihead et une seule loss
Si parce que la motivation première du multitête, ce pour quoi il a été inventé, c'est pour faire " plusieurs tâches " à la fois
Quand on illustre l'attention multitête on utilise d'ailleurs plusieurs filtres sur une image
https://paperswithcode.com/method/multi-head-attention
Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
Ton niveau est catastrophique
Le 22 mars 2024 à 21:50:10 :
Le 22 mars 2024 à 21:44:35 :
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
> Le 22 mars 2024 à 21:28:40 :
>> Le 22 mars 2024 à 21:26:36 :
> >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
> >
> > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
>
> Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
>
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
> Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
Je comprends pas comment on peut être chercheur en IA sans maitriser le coeur des réseaux de neurone. Il y a pas que ADAM hein
Mais tu crois vraiment que tous les gens en IA sont specialistes en optimisateurs (ca peut arriver d'en utiliser des plus exotiques que d'autres) ? En loss (ça peut arriver d'en créer une custom) ? ... Les blocs de bases en DL ? non a un moment chacun sa spécialité, tu as l'air plus dans la théorie du DL de ce que je comprends et grand bien t'en fasse mais perso je suis pas spécialiste, juste j'utilise. Je dirais que je fais plus de l'IA appliquée comme on peut voir en math ou en physique, t'as la partie théorique et pratique/appliquée/industrielle (choisis le terme que tu préfères)
Pour revenir sur un classique, voici un exemple, 2014, +65000 citations, "Generative Adversarial Networks
Ian J. Goodfellow"
Sauf qu'avec ton relativisme niais on arrive à un " docteur en IA " qui ne comprend pas ce qui motive intuitivement l'idée de multitête pour le mécanisme d'attention
Tu trouves ça normal ?
Le 22 mars 2024 à 21:40:27 :
Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés
Je suis un énorme profane en ce qui concerne l'intelligence artificielle, je l'admets
Les principaux dirigeants des startups en intelligence artificielle, tels que Sam Altman, ne cessent de nous répéter que les LLM pourraient conduire à l'émergence d'une AGI.
Mais de ce que je comprends, les LLM ne sont que des modèles de langage probabilistes, donc au mieux, ils ne sont que des "perroquets stochastiques".
En conséquence, nous sommes d'accord que Sam Altman et ses pairs se moquent de nous lorsqu'ils affirment que ces modèles pourraient donner naissance à une intelligence artificielle générale ?
Si tu pouvais éclairer ma lanterne à ce sujet.
Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
Ayaaa mais c'est exactement ce que je dis depuis 4 pages
Pour rappel j'ai écrit ça :
le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
Le 22 mars 2024 à 21:53:59 :
Le 22 mars 2024 à 21:40:27 :
Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés
Je suis un énorme profane en ce qui concerne l'intelligence artificielle, je l'admet
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Les principaux dirigeants des startups en intelligence artificielle, tels que Sam Altman, ne cessent de nous répéter que les LLM pourraient conduire à l'émergence d'une AGI.
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
Mais de ce que je comprends, les LLM ne sont que des modèles de langage probabilistes, donc au mieux, ils ne sont que des "perroquets stochastiques".https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg En conséquence, nous sommes d'accord que Sam Altman et ses pairs se moquent de nous lorsqu'ils affirment que ces modèles pourraient donner naissance à une intelligence artificielle générale ?
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg J'apprécirai si tu pouvais éclairer ma lanterne à propos de ce sujet
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
les LLM sont des super n-gram, des super perroquets stochastiques comme tu dis.
ce sont aussi implicitement des super machines à compresser l'information (un modèle génératif + ou - égal à un compresseur)
Donc mis bout à bout on peut avoir l'impression d'une "intelligence"
Le 22 mars 2024 à 21:54:00 :
Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
Ayaaa mais c'est exactement ce que je dis depuis 4 pages
Pour rappel j'ai écrit ça :le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
J'ai surtout l'impression que tu recraches ton cours sans aucun recul intuitif sur tel ou tel algo.
Je te demande pourquoi on utilise le multitête, et c'est pour avoir un transformers entrainé " à plusieurs tâches " , ce qui permet de se passer des plusieurs loss, c'est tout.
Le 22 mars 2024 à 21:54:00 :
Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
Ayaaa mais c'est exactement ce que je dis depuis 4 pages
Pour rappel j'ai écrit ça :le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
Stop le feed aussi
Le 22 mars 2024 à 21:56:09 :
Le 22 mars 2024 à 21:54:00 :
Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
Ayaaa mais c'est exactement ce que je dis depuis 4 pages
Pour rappel j'ai écrit ça :le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
J'ai surtout l'impression que tu recraches ton cours sans aucun recul intuitif sur tel ou tel algo.
Je te demande pourquoi on utilise le multitête, et c'est pour avoir un transformers entrainé " à plusieurs tâches " , ce qui permet de se passer des plusieurs loss, c'est tout.
absolument pas
tu peux mettre un RNN à la place d'un transformer qui n'a aucune notion de tête/multitête, avoir des perfs similaires et ça sera toujours une seul loss
Le 22 mars 2024 à 21:57:14 :
Le 22 mars 2024 à 21:54:00 :
Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
Ayaaa mais c'est exactement ce que je dis depuis 4 pages
Pour rappel j'ai écrit ça :le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
Stop le feed aussi
tu as raison j'ai trop feed ...
C'est pour bientôt la singularité ? On s'ennuie sec là. Vous attendez quoi pour la faire pop ?
Le 22 mars 2024 à 21:53:59 :
Le 22 mars 2024 à 21:40:27 :
Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés
Je suis un énorme profane en ce qui concerne l'intelligence artificielle, je l'admet
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Les principaux dirigeants des startups en intelligence artificielle, tels que Sam Altman, ne cessent de nous répéter que les LLM pourraient conduire à l'émergence d'une AGI.
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
Mais de ce que je comprends, les LLM ne sont que des modèles de langage probabilistes, donc au mieux, ils ne sont que des "perroquets stochastiques".https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg En conséquence, nous sommes d'accord que Sam Altman et ses pairs se moquent de nous lorsqu'ils affirment que ces modèles pourraient donner naissance à une intelligence artificielle générale ?
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Si tu pouvais éclairer ma lanterne à ce sujet.
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
Tu as tout à fait bien compris la vulgarisation d'un LLM, khey, j'ai rien à ajouter.
Quant aux " AGI ", c'est plus un projet, un objectif, un idéal de l'IA, mais avec nos connaissances actuelles je vois plus ça comme un mélange des meilleurs modèles pour chaque tâche (langue, image, video, raisonnement, etc.) ce qui permettrait de tout faire au mieux
Je vois pas trop ça comme de la science fiction
Le 22 mars 2024 à 21:58:13 :
C'est pour bientôt la singularité ? On s'ennuie sec là. Vous attendez quoi pour la faire pop ?https://image.noelshack.com/fichiers/2022/49/4/1670535141-tareent.png
il me faut encore un millier de H100 et on y est
Sauf qu'avec ton relativisme niais on arrive à un " docteur en IA " qui ne comprend pas ce qui motive intuitivement l'idée de multitête pour le mécanisme d'attention
Tu trouves ça normal ?
Je suis d'accord qu'il faut savoir certaines choses mais comme je t'ai dit tu ne peux pas utiliser un article de 2004 avec moins de 200 citations comme base pour questionner quelqu'un que tu connais ni d'eve ni d'adam ( petit jeu de mot t'as vu )
Apres attention a ta vision, certains pourraient dire on ne fait rien qu'avec de la théorie (je ne sais pas ce que tu fais, j'essaye juste de pousser ta réflexion) et que des fois il faut faire des choses plus indus et donc mixer avec d'autres connaissances pour faire de l'interdisciplinaire et in fine tu ne peux pas demander à qqn de tout maitriser
Le 22 mars 2024 à 21:58:38 :
Le 22 mars 2024 à 21:53:59 :
Le 22 mars 2024 à 21:40:27 :
Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés
Je suis un énorme profane en ce qui concerne l'intelligence artificielle, je l'admet
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Les principaux dirigeants des startups en intelligence artificielle, tels que Sam Altman, ne cessent de nous répéter que les LLM pourraient conduire à l'émergence d'une AGI.
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
Mais de ce que je comprends, les LLM ne sont que des modèles de langage probabilistes, donc au mieux, ils ne sont que des "perroquets stochastiques".https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg En conséquence, nous sommes d'accord que Sam Altman et ses pairs se moquent de nous lorsqu'ils affirment que ces modèles pourraient donner naissance à une intelligence artificielle générale ?
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Si tu pouvais éclairer ma lanterne à ce sujet.
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg Tu as tout à fait bien compris la vulgarisation d'un LLM, khey, j'ai rien à ajouter.
Quant aux " AGI ", c'est plus un projet, un objectif, un idéal de l'IA, mais avec nos connaissances actuelles je vois plus ça comme un mélange des meilleurs modèles pour chaque tâche (langue, image, video, raisonnement, etc.) ce qui permettrait de tout faire au mieux
Je vois pas trop ça comme de la science fiction
ton avis n'était pas nécessaire
Le 22 mars 2024 à 21:57:42 :
Le 22 mars 2024 à 21:56:09 :
Le 22 mars 2024 à 21:54:00 :
Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
Ayaaa mais c'est exactement ce que je dis depuis 4 pages
Pour rappel j'ai écrit ça :le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
J'ai surtout l'impression que tu recraches ton cours sans aucun recul intuitif sur tel ou tel algo.
Je te demande pourquoi on utilise le multitête, et c'est pour avoir un transformers entrainé " à plusieurs tâches " , ce qui permet de se passer des plusieurs loss, c'est tout.
absolument pas
tu peux mettre un RNN à la place d'un transformer qui n'a aucune notion de tête/multitête, avoir des perfs similaires et ça sera toujours une seul loss
Mais de quoi tu parles ?
Je te parle pas de perfs mais DE CE QUI MOTIVE INTITUIVEMENT L'UTILISATION D'UN MECANISME D'ATTENTION MULTITÊTE bordel