Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
Le 22 mars 2024 à 21:26:36 :
Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,
Le 22 mars 2024 à 21:33:23 :
Le 22 mars 2024 à 21:29:57 :
Le 22 mars 2024 à 21:27:38 :
Le 22 mars 2024 à 21:26:33 :
Le 22 mars 2024 à 21:24:51 :
> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
>
> Le MLOPS est primordial maintenant en recherche
j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
Tu confonds framework de travail et pipeline ou je rêve ?
moi je suis chercheur kheyou
Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée
Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur
Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?
momentum adaptatif
Bonne réponse, tu as au moins survecu jusqu'au M2
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?
Le 22 mars 2024 à 21:35:21 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
Le 22 mars 2024 à 21:26:36 :
> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,
C'est pas de la littérature de niche mais des papiers classiques sur les problèmes que traverse le deep learning en 2024, notamment à cause de la NLP, de l'artificial vision.
Le 22 mars 2024 à 21:37:25 :
Le 22 mars 2024 à 21:33:23 :
Le 22 mars 2024 à 21:29:57 :
Le 22 mars 2024 à 21:27:38 :
Le 22 mars 2024 à 21:26:33 :
> Le 22 mars 2024 à 21:24:51 :
>> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
> >
> > Le MLOPS est primordial maintenant en recherche
>
> j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
Tu confonds framework de travail et pipeline ou je rêve ?
moi je suis chercheur kheyou
Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée
Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur
j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi
Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés
Le 22 mars 2024 à 21:39:43 :
Le 22 mars 2024 à 21:35:21 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
> Le 22 mars 2024 à 21:26:36 :
>> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
>
> j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,C'est pas de la littérature de niche mais des papiers classiques sur les problèmes que traverse le deep learning en 2024, notamment à cause de la NLP, de l'artificial vision.
l'artificial vision
Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
les LLM sont n-grams géants rien de plus rien de moins
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
Le 22 mars 2024 à 21:26:36 :
Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....
Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Le 22 mars 2024 à 21:39:43 :
Le 22 mars 2024 à 21:35:21 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
> Le 22 mars 2024 à 21:26:36 :
>> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
>
> j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,C'est pas de la littérature de niche mais des papiers classiques sur les problèmes que traverse le deep learning en 2024, notamment à cause de la NLP, de l'artificial vision.
jamais entendu ton truc
Le 22 mars 2024 à 21:39:51 :
Le 22 mars 2024 à 21:37:25 :
Le 22 mars 2024 à 21:33:23 :
Le 22 mars 2024 à 21:29:57 :
Le 22 mars 2024 à 21:27:38 :
> Le 22 mars 2024 à 21:26:33 :
>> Le 22 mars 2024 à 21:24:51 :
> >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
> > >
> > > Le MLOPS est primordial maintenant en recherche
> >
> > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
>
> Tu confonds framework de travail et pipeline ou je rêve ?
moi je suis chercheur kheyou
Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée
Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur
j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi
Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
Le 22 mars 2024 à 21:26:36 :
> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
ah enfin un khey réaliste, tu fais quoi mon kheyou comme sous-sous-sous filière ?
Le 22 mars 2024 à 21:42:39 :
Le 22 mars 2024 à 21:39:51 :
Le 22 mars 2024 à 21:37:25 :
Le 22 mars 2024 à 21:33:23 :
Le 22 mars 2024 à 21:29:57 :
> Le 22 mars 2024 à 21:27:38 :
>> Le 22 mars 2024 à 21:26:33 :
> >> Le 22 mars 2024 à 21:24:51 :
> > >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
> > > >
> > > > Le MLOPS est primordial maintenant en recherche
> > >
> > > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
> >
> > Tu confonds framework de travail et pipeline ou je rêve ?
>
> moi je suis chercheur kheyou
Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée
Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur
j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi
Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps
non absolument pas ...
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
Le 22 mars 2024 à 21:26:36 :
> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
Je comprends pas comment on peut être chercheur en IA sans maitriser le coeur des réseaux de neurone. Il y a pas que ADAM hein
Le 22 mars 2024 à 21:44:35 :
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
> Le 22 mars 2024 à 21:26:36 :
>> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
>
> j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
dans 99.9% des LLM y a une seule loss
Le 22 mars 2024 à 21:45:24 :
Combien de nips/icml/iclr ? Décline ton scholar
en premier auteur 1 ICLR
Le 22 mars 2024 à 21:45:24 :
Le 22 mars 2024 à 21:44:35 :
Le 22 mars 2024 à 21:42:09 :
Le 22 mars 2024 à 21:33:46 :
Le 22 mars 2024 à 21:31:34 :
> Le 22 mars 2024 à 21:28:40 :
>> Le 22 mars 2024 à 21:26:36 :
> >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
> >
> > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
>
> Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
>
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
> Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement
Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:
un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre
Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.
Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation
dans 99.9% des LLM y a une seule loss
Pour la milliardième de fois j'ai pas parlé pas de LLM. Je t'ai justement questionné sur les details du mécanisme d'attention multitête pour vérifier que tu es formé bas niveau
Et oui il y a une seule loss, c'est l'intérêt du multitête comme je l'ai dit plus haut, ça rend le transformers performant mais moins expliquable