[PhD] Je suis docteur en intelligence artificielle, je réponds aux questions

ProutRecurrent
2024-03-22 21:21:19

Le 22 mars 2024 à 21:12:49 :
Cite moi les 3 meilleures interfaces MLOPs

moi je parle pas le novlangue de startuper

Qu'est ce qui motive le multi-tête dans un apprentissage par mécanisme d'attention, quelle différence concrète avec le multi-objectif ?

le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss

GusFrimousse
2024-03-22 21:21:28

Le 22 mars 2024 à 21:18:35 :

Le 22 mars 2024 à 21:17:19 :

Le 22 mars 2024 à 21:15:06 :

Le 22 mars 2024 à 21:10:22 :
Explique moi comment faire la backpropagation dans un hypernetwork alors qu'on utilise la loss du main network.

ça me rappelle un vieux truc des années 2016 mais je peux pas t'en dire plus

Euh ok ?

On adapte simplement la chain rule.

Pourquoi quand on fait du multi-objectif, il ne faut pas faire la moyenne des loss ?

parce que les échelles des loss sont potentiellement différentes

Non, c'est parce que les gradients peuvent être conflictuels.

ça veut rien dire "conflictuel" et ça n'a pas de rapport avec la moyenne

Explique moi la différence entre ADAM et MGDA

connais pas MGDA

MGDA maximise le produit scalaire ce qui résout le problème de conflictualité

ok

Si si on appelle ça des gradients conflictuels quand leur produit scalaire est nul, ce qui mène aux extrêmes du front de pareto

Exemple sur un article au pif :
https://arxiv.org/abs/2110.14048

A major challenge in optimizing a multi-task model is the conflicting gradients, where gradients of different task objectives are not well aligned so that following the average gradient direction can be detrimental to specific tasks' performance.

Tu es sûr que tu es chercheur ?

GusFrimousse
2024-03-22 21:23:44

Le 22 mars 2024 à 21:21:19 :

Le 22 mars 2024 à 21:12:49 :
Cite moi les 3 meilleures interfaces MLOPs

moi je parle pas le novlangue de startuper

Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

Le MLOPS est primordial maintenant en recherche

Qu'est ce qui motive le multi-tête dans un apprentissage par mécanisme d'attention, quelle différence concrète avec le multi-objectif ?

le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

ProutRecurrent
2024-03-22 21:24:51

Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

GusFrimousse
2024-03-22 21:25:39

Et si ça un rapport avec la moyenne evidemment, vu que si tu prends deux gradients opposés bah la moyenne est nulle ce qui est catastrophique

GusFrimousse
2024-03-22 21:26:33

Le 22 mars 2024 à 21:24:51 :

Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

ProutRecurrent
2024-03-22 21:26:36

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

ProutRecurrent
2024-03-22 21:27:19

Le 22 mars 2024 à 21:25:39 :
Et si ça un rapport avec la moyenne evidemment, vu que si tu prends deux gradients opposés bah la moyenne est nulle ce qui est catastrophique

t'es au courant que si le produit scalaire est nul (dixit toi plus haut) les gradients ne sont pas opposés mais orthogonaux ?

ProutRecurrent
2024-03-22 21:27:38

Le 22 mars 2024 à 21:26:33 :

Le 22 mars 2024 à 21:24:51 :

Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Dorukx
2024-03-22 21:28:16

Je suis accro à Chat GPT

Quels conseils peux-tu me promulguer ?

GusFrimousse
2024-03-22 21:28:40

Le 22 mars 2024 à 21:26:36 :

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

ProutRecurrent
2024-03-22 21:28:54

Le 22 mars 2024 à 21:28:16 :
Je suis accro à Chat GPT

Quels conseils peux-tu me promulguer ?

d'arrêter

Dark-vg2
2024-03-22 21:29:30

Que penses tu du ppml ?

GusFrimousse
2024-03-22 21:29:57

Le 22 mars 2024 à 21:27:38 :

Le 22 mars 2024 à 21:26:33 :

Le 22 mars 2024 à 21:24:51 :

Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?

Dorukx
2024-03-22 21:31:25

Le 22 mars 2024 à 21:28:54 :

Le 22 mars 2024 à 21:28:16 :
Je suis accro à Chat GPT

Quels conseils peux-tu me promulguer ?

d'arrêter

Conseil au top de 2024

Je te remercie, heureusement que tu es là, khey !

BacPlus14
2024-03-22 21:31:31

Pour quand la singularité ?
https://image.noelshack.com/fichiers/2017/34/6/1503755126-bogda.png

ProutRecurrent
2024-03-22 21:31:34

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

ProutRecurrent
2024-03-22 21:33:23

Le 22 mars 2024 à 21:29:57 :

Le 22 mars 2024 à 21:27:38 :

Le 22 mars 2024 à 21:26:33 :

Le 22 mars 2024 à 21:24:51 :

Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?

momentum adaptatif

GusFrimousse
2024-03-22 21:33:46

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Dorukx
2024-03-22 21:35:06

Tu es une merde

Les mecs, le croyait pas, c'est un foutu mytho

Je me casse, faites de même. Point barre !

Infos
Gestion du forum

contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

    Partenaire: JVFlux
    Ce site n'est pas associé à Jeuxvideo.com ou Webedia. Nous utilisons seulement des archives publiques.
    Il est inutile de me spammer par e-mail pour supprimer un topic. Au contraire, en conséquence, je mettrais votre topic dans le bloc ci-dessous.
Non-assumage
    Personne n'a pas assumé de topic pour le moment.