[PhD] Je suis docteur en intelligence artificielle, je réponds aux questions
ProutRecurrent
2024-03-22 21:21:19
Le 22 mars 2024 à 21:12:49 :
Cite moi les 3 meilleures interfaces MLOPs
moi je parle pas le novlangue de startuper
Qu'est ce qui motive le multi-tête dans un apprentissage par mécanisme d'attention, quelle différence concrète avec le multi-objectif ?
le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
GusFrimousse
2024-03-22 21:21:28
Le 22 mars 2024 à 21:18:35 :
Le 22 mars 2024 à 21:17:19 :
Le 22 mars 2024 à 21:15:06 :
Le 22 mars 2024 à 21:10:22 :
Explique moi comment faire la backpropagation dans un hypernetwork alors qu'on utilise la loss du main network.
ça me rappelle un vieux truc des années 2016 mais je peux pas t'en dire plus
Euh ok ?
On adapte simplement la chain rule.
Pourquoi quand on fait du multi-objectif, il ne faut pas faire la moyenne des loss ?
parce que les échelles des loss sont potentiellement différentes
Non, c'est parce que les gradients peuvent être conflictuels.
ça veut rien dire "conflictuel" et ça n'a pas de rapport avec la moyenne
Explique moi la différence entre ADAM et MGDA
connais pas MGDA
MGDA maximise le produit scalaire ce qui résout le problème de conflictualité
ok
Si si on appelle ça des gradients conflictuels quand leur produit scalaire est nul, ce qui mène aux extrêmes du front de pareto
Exemple sur un article au pif :
https://arxiv.org/abs/2110.14048
A major challenge in optimizing a multi-task model is the conflicting gradients, where gradients of different task objectives are not well aligned so that following the average gradient direction can be detrimental to specific tasks' performance.
Tu es sûr que tu es chercheur ?
GusFrimousse
2024-03-22 21:23:44
Le 22 mars 2024 à 21:21:19 :
Le 22 mars 2024 à 21:12:49 :
Cite moi les 3 meilleures interfaces MLOPs
moi je parle pas le novlangue de startuper
Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
Le MLOPS est primordial maintenant en recherche
Qu'est ce qui motive le multi-tête dans un apprentissage par mécanisme d'attention, quelle différence concrète avec le multi-objectif ?
le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss
Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
ProutRecurrent
2024-03-22 21:24:51
Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
Le MLOPS est primordial maintenant en recherche
j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
GusFrimousse
2024-03-22 21:25:39
Et si ça un rapport avec la moyenne evidemment, vu que si tu prends deux gradients opposés bah la moyenne est nulle ce qui est catastrophique
GusFrimousse
2024-03-22 21:26:33
Le 22 mars 2024 à 21:24:51 :
Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
Le MLOPS est primordial maintenant en recherche
j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
Tu confonds framework de travail et pipeline ou je rêve ?
ProutRecurrent
2024-03-22 21:26:36
Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
ProutRecurrent
2024-03-22 21:27:19
Le 22 mars 2024 à 21:25:39 :
Et si ça un rapport avec la moyenne evidemment, vu que si tu prends deux gradients opposés bah la moyenne est nulle ce qui est catastrophique
t'es au courant que si le produit scalaire est nul (dixit toi plus haut) les gradients ne sont pas opposés mais orthogonaux ?
ProutRecurrent
2024-03-22 21:27:38
Le 22 mars 2024 à 21:26:33 :
Le 22 mars 2024 à 21:24:51 :
Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
Le MLOPS est primordial maintenant en recherche
j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
Tu confonds framework de travail et pipeline ou je rêve ?
moi je suis chercheur kheyou
Dorukx
2024-03-22 21:28:16
Je suis accro à Chat GPT
Quels conseils peux-tu me promulguer ?
GusFrimousse
2024-03-22 21:28:40
Le 22 mars 2024 à 21:26:36 :
Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
ProutRecurrent
2024-03-22 21:28:54
Le 22 mars 2024 à 21:28:16 :
Je suis accro à Chat GPT
Quels conseils peux-tu me promulguer ?
d'arrêter
Dark-vg2
2024-03-22 21:29:30
Que penses tu du ppml ?
GusFrimousse
2024-03-22 21:29:57
Le 22 mars 2024 à 21:27:38 :
Le 22 mars 2024 à 21:26:33 :
Le 22 mars 2024 à 21:24:51 :
Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
Le MLOPS est primordial maintenant en recherche
j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
Tu confonds framework de travail et pipeline ou je rêve ?
moi je suis chercheur kheyou
Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?
Dorukx
2024-03-22 21:31:25
Le 22 mars 2024 à 21:28:54 :
Le 22 mars 2024 à 21:28:16 :
Je suis accro à Chat GPT
Quels conseils peux-tu me promulguer ?
d'arrêter
Conseil au top de 2024
Je te remercie, heureusement que tu es là, khey !
BacPlus14
2024-03-22 21:31:31
Pour quand la singularité ?
https://image.noelshack.com/fichiers/2017/34/6/1503755126-bogda.png
ProutRecurrent
2024-03-22 21:31:34
Le 22 mars 2024 à 21:28:40 :
Le 22 mars 2024 à 21:26:36 :
Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...
ProutRecurrent
2024-03-22 21:33:23
Le 22 mars 2024 à 21:29:57 :
Le 22 mars 2024 à 21:27:38 :
Le 22 mars 2024 à 21:26:33 :
Le 22 mars 2024 à 21:24:51 :
Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups
Le MLOPS est primordial maintenant en recherche
j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois
Tu confonds framework de travail et pipeline ou je rêve ?
moi je suis chercheur kheyou
Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?
MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée
Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?
momentum adaptatif
GusFrimousse
2024-03-22 21:33:46
Le 22 mars 2024 à 21:31:34 :
Le 22 mars 2024 à 21:28:40 :
Le 22 mars 2024 à 21:26:36 :
Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité
j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.
Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google
c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal
Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé
sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...
Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers
Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738
PCGrad, PaMal, ça te dit rien ?
Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...
Dorukx
2024-03-22 21:35:06
Tu es une merde
Les mecs, le croyait pas, c'est un foutu mytho
Je me casse, faites de même. Point barre !