[PhD] Je suis docteur en intelligence artificielle, je réponds aux questions

ProutRecurrent
2024-03-22 21:35:21

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,

GusFrimousse
2024-03-22 21:37:25

Le 22 mars 2024 à 21:33:23 :

Le 22 mars 2024 à 21:29:57 :

Le 22 mars 2024 à 21:27:38 :

Le 22 mars 2024 à 21:26:33 :

Le 22 mars 2024 à 21:24:51 :

> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

>

> Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur

Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?

momentum adaptatif

Bonne réponse, tu as au moins survecu jusqu'au M2

AnneFrankeuh
2024-03-22 21:39:00

Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

PhantomSpectre
2024-03-22 21:39:34

Non, tu es cacadétruire

GusFrimousse
2024-03-22 21:39:43

Le 22 mars 2024 à 21:35:21 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,

C'est pas de la littérature de niche mais des papiers classiques sur les problèmes que traverse le deep learning en 2024, notamment à cause de la NLP, de l'artificial vision.

ProutRecurrent
2024-03-22 21:39:51

Le 22 mars 2024 à 21:37:25 :

Le 22 mars 2024 à 21:33:23 :

Le 22 mars 2024 à 21:29:57 :

Le 22 mars 2024 à 21:27:38 :

Le 22 mars 2024 à 21:26:33 :

> Le 22 mars 2024 à 21:24:51 :

>> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

> >

> > Le MLOPS est primordial maintenant en recherche

>

> j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur

j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi

GusFrimousse
2024-03-22 21:40:27

Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés

ProutRecurrent
2024-03-22 21:41:12

Le 22 mars 2024 à 21:39:43 :

Le 22 mars 2024 à 21:35:21 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

> Le 22 mars 2024 à 21:26:36 :

>> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

>

> j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,

C'est pas de la littérature de niche mais des papiers classiques sur les problèmes que traverse le deep learning en 2024, notamment à cause de la NLP, de l'artificial vision.

l'artificial vision :rire: :rire:

ProutRecurrent
2024-03-22 21:42:02

Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

les LLM sont n-grams géants rien de plus rien de moins

nychta
2024-03-22 21:42:09

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

ProutRecurrent
2024-03-22 21:42:36

Le 22 mars 2024 à 21:39:43 :

Le 22 mars 2024 à 21:35:21 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

> Le 22 mars 2024 à 21:26:36 :

>> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

>

> j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,

C'est pas de la littérature de niche mais des papiers classiques sur les problèmes que traverse le deep learning en 2024, notamment à cause de la NLP, de l'artificial vision.

jamais entendu ton truc

GusFrimousse
2024-03-22 21:42:39

Le 22 mars 2024 à 21:39:51 :

Le 22 mars 2024 à 21:37:25 :

Le 22 mars 2024 à 21:33:23 :

Le 22 mars 2024 à 21:29:57 :

Le 22 mars 2024 à 21:27:38 :

> Le 22 mars 2024 à 21:26:33 :

>> Le 22 mars 2024 à 21:24:51 :

> >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

> > >

> > > Le MLOPS est primordial maintenant en recherche

> >

> > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

>

> Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur

j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi

Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps

Banni2FoisAjd
2024-03-22 21:43:04

Docteur en ia ça veut dire que tu soignes des robots ?

ProutRecurrent
2024-03-22 21:43:35

Le 22 mars 2024 à 21:42:09 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

ah enfin un khey réaliste, tu fais quoi mon kheyou comme sous-sous-sous filière ?

ProutRecurrent
2024-03-22 21:44:12

Le 22 mars 2024 à 21:42:39 :

Le 22 mars 2024 à 21:39:51 :

Le 22 mars 2024 à 21:37:25 :

Le 22 mars 2024 à 21:33:23 :

Le 22 mars 2024 à 21:29:57 :

> Le 22 mars 2024 à 21:27:38 :

>> Le 22 mars 2024 à 21:26:33 :

> >> Le 22 mars 2024 à 21:24:51 :

> > >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

> > > >

> > > > Le MLOPS est primordial maintenant en recherche

> > >

> > > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

> >

> > Tu confonds framework de travail et pipeline ou je rêve ?

>

> moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur

j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi

Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps

non absolument pas ...

GusFrimousse
2024-03-22 21:44:35

Le 22 mars 2024 à 21:42:09 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.

Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation

Je comprends pas comment on peut être chercheur en IA sans maitriser le coeur des réseaux de neurone. Il y a pas que ADAM hein

ProutRecurrent
2024-03-22 21:45:24

Le 22 mars 2024 à 21:44:35 :

Le 22 mars 2024 à 21:42:09 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

> Le 22 mars 2024 à 21:26:36 :

>> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

>

> j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.

Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation

dans 99.9% des LLM y a une seule loss

Buscarron
2024-03-22 21:45:24

Combien de nips/icml/iclr ? Décline ton scholar

ProutRecurrent
2024-03-22 21:47:04

Le 22 mars 2024 à 21:45:24 :
Combien de nips/icml/iclr ? Décline ton scholar

en premier auteur 1 ICLR :oui:

GusFrimousse
2024-03-22 21:47:33

Le 22 mars 2024 à 21:45:24 :

Le 22 mars 2024 à 21:44:35 :

Le 22 mars 2024 à 21:42:09 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

> Le 22 mars 2024 à 21:28:40 :

>> Le 22 mars 2024 à 21:26:36 :

> >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

> >

> > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

>

> Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

>

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

> Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.

Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation

dans 99.9% des LLM y a une seule loss

Pour la milliardième de fois j'ai pas parlé pas de LLM. Je t'ai justement questionné sur les details du mécanisme d'attention multitête pour vérifier que tu es formé bas niveau

Et oui il y a une seule loss, c'est l'intérêt du multitête comme je l'ai dit plus haut, ça rend le transformers performant mais moins expliquable

Infos
Gestion du forum

contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

    Partenaire: JVFlux
    Ce site n'est pas associé à Jeuxvideo.com ou Webedia. Nous utilisons seulement des archives publiques.
    Il est inutile de me spammer par e-mail pour supprimer un topic. Au contraire, en conséquence, je mettrais votre topic dans le bloc ci-dessous.
Non-assumage
    Personne n'a pas assumé de topic pour le moment.