Messages de GusFrimousse

Le 22 mars 2024 à 22:06:11 :

Le 22 mars 2024 à 22:05:17 :

Le 22 mars 2024 à 22:04:43 :

Le 22 mars 2024 à 22:02:54 :

Le 22 mars 2024 à 22:01:02 :

> Le 22 mars 2024 à 21:58:46 :

>> Le 22 mars 2024 à 21:58:13 :

> >C'est pour bientôt la singularité ? On s'ennuie sec là. Vous attendez quoi pour la faire pop ?https://image.noelshack.com/fichiers/2022/49/4/1670535141-tareent.png

>

> il me faut encore un millier de H100 et on y est :oui:

C'est quoi un H100 ?https://image.noelshack.com/fichiers/2023/03/6/1674322118-picsart-23-01-18-22-21-57-848-adobe-express.jpg

c'est le successeur du A100 :oui:

C'est quoi un A100 ?https://image.noelshack.com/fichiers/2023/03/6/1674322118-picsart-23-01-18-22-21-57-848-adobe-express.jpg

Une CGU très puissante de NVidia pour faire du deep learning

C'est intéressant ce que tu dis clé. Il suffirait donc d'un très grand nombre de CGU pour arriver à la singularité ?

GPU* je me suis trompé

Et non je crois qu'il te trollait

Le 22 mars 2024 à 22:04:43 :

Le 22 mars 2024 à 22:02:54 :

Le 22 mars 2024 à 22:01:02 :

Le 22 mars 2024 à 21:58:46 :

Le 22 mars 2024 à 21:58:13 :
C'est pour bientôt la singularité ? On s'ennuie sec là. Vous attendez quoi pour la faire pop ?https://image.noelshack.com/fichiers/2022/49/4/1670535141-tareent.png

il me faut encore un millier de H100 et on y est :oui:

C'est quoi un H100 ?https://image.noelshack.com/fichiers/2023/03/6/1674322118-picsart-23-01-18-22-21-57-848-adobe-express.jpg

c'est le successeur du A100 :oui:

C'est quoi un A100 ?https://image.noelshack.com/fichiers/2023/03/6/1674322118-picsart-23-01-18-22-21-57-848-adobe-express.jpg

Une CGU très puissante de NVidia pour faire du deep learning

Le 22 mars 2024 à 21:59:03 :

Sauf qu'avec ton relativisme niais on arrive à un " docteur en IA " qui ne comprend pas ce qui motive intuitivement l'idée de multitête pour le mécanisme d'attention

Tu trouves ça normal ?

Je suis d'accord qu'il faut savoir certaines choses mais comme je t'ai dit tu ne peux pas utiliser un article de 2004 avec moins de 200 citations comme base pour questionner quelqu'un que tu connais ni d'eve ni d'adam ( petit jeu de mot t'as vu :) )

Apres attention a ta vision, certains pourraient dire on ne fait rien qu'avec de la théorie (je ne sais pas ce que tu fais, j'essaye juste de pousser ta réflexion) et que des fois il faut faire des choses plus indus et donc mixer avec d'autres connaissances pour faire de l'interdisciplinaire et in fine tu ne peux pas demander à qqn de tout maitriser

Citer le nombre de citation de Desideri est malhonnête, c'est pas un chercheur en IA mais un chercheur en algorithmique et optimisation.

Pour être plus juste faut prendre les articles d'implementation dans le contexte de backpropagation.

Sinon je suis d'accord avec toi sur le fond hein, mais l'OP a tout l'air d'être une grosse fraude

Le 22 mars 2024 à 22:00:03 :
Bon pour remonter le niveau vous en pensez quoi de la position de Le Cun qui prétend que les modèles génératifs autoregressifs sont "condamnés", comme ils peuvent pas "prévoir à l'avance" leurs prédictions et apprennent juste à reproduire les données d'entrainement ?

Le mec cite des tweets et il espère " remonter le niveau "

Le 22 mars 2024 à 21:59:06 :

Le 22 mars 2024 à 21:58:38 :

Le 22 mars 2024 à 21:53:59 :

Le 22 mars 2024 à 21:40:27 :

Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés

Je suis un énorme profane en ce qui concerne l'intelligence artificielle, je l'admethttps://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Les principaux dirigeants des startups en intelligence artificielle, tels que Sam Altman, ne cessent de nous répéter que les LLM pourraient conduire à l'émergence d'une AGI.https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
Mais de ce que je comprends, les LLM ne sont que des modèles de langage probabilistes, donc au mieux, ils ne sont que des "perroquets stochastiques".https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

En conséquence, nous sommes d'accord que Sam Altman et ses pairs se moquent de nous lorsqu'ils affirment que ces modèles pourraient donner naissance à une intelligence artificielle générale ?
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Si tu pouvais éclairer ma lanterne à ce sujet.https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Tu as tout à fait bien compris la vulgarisation d'un LLM, khey, j'ai rien à ajouter.

Quant aux " AGI ", c'est plus un projet, un objectif, un idéal de l'IA, mais avec nos connaissances actuelles je vois plus ça comme un mélange des meilleurs modèles pour chaque tâche (langue, image, video, raisonnement, etc.) ce qui permettrait de tout faire au mieux

Je vois pas trop ça comme de la science fiction

ton avis n'était pas nécessaire :rire:

Le médiocre a le seum, cocasse car je suis formé en hypernetwork, c'est sûrement moi qui peut le plus parler d'AGI sur ce topic

Le 22 mars 2024 à 21:57:42 :

Le 22 mars 2024 à 21:56:09 :

Le 22 mars 2024 à 21:54:00 :

Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).

Ayaaa mais c'est exactement ce que je dis depuis 4 pages :fou:
Pour rappel j'ai écrit ça :

le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss

J'ai surtout l'impression que tu recraches ton cours sans aucun recul intuitif sur tel ou tel algo.

Je te demande pourquoi on utilise le multitête, et c'est pour avoir un transformers entrainé " à plusieurs tâches " , ce qui permet de se passer des plusieurs loss, c'est tout.

absolument pas :rire: :rire:
tu peux mettre un RNN à la place d'un transformer qui n'a aucune notion de tête/multitête, avoir des perfs similaires et ça sera toujours une seul loss :rire:

Mais de quoi tu parles ?

Je te parle pas de perfs mais DE CE QUI MOTIVE INTITUIVEMENT L'UTILISATION D'UN MECANISME D'ATTENTION MULTITÊTE bordel

Le 22 mars 2024 à 21:53:59 :

Le 22 mars 2024 à 21:40:27 :

Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés

Je suis un énorme profane en ce qui concerne l'intelligence artificielle, je l'admethttps://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Les principaux dirigeants des startups en intelligence artificielle, tels que Sam Altman, ne cessent de nous répéter que les LLM pourraient conduire à l'émergence d'une AGI.https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg
Mais de ce que je comprends, les LLM ne sont que des modèles de langage probabilistes, donc au mieux, ils ne sont que des "perroquets stochastiques".https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

En conséquence, nous sommes d'accord que Sam Altman et ses pairs se moquent de nous lorsqu'ils affirment que ces modèles pourraient donner naissance à une intelligence artificielle générale ?
https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Si tu pouvais éclairer ma lanterne à ce sujet.https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Tu as tout à fait bien compris la vulgarisation d'un LLM, khey, j'ai rien à ajouter.

Quant aux " AGI ", c'est plus un projet, un objectif, un idéal de l'IA, mais avec nos connaissances actuelles je vois plus ça comme un mélange des meilleurs modèles pour chaque tâche (langue, image, video, raisonnement, etc.) ce qui permettrait de tout faire au mieux

Je vois pas trop ça comme de la science fiction

Le 22 mars 2024 à 21:54:00 :

Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).

Ayaaa mais c'est exactement ce que je dis depuis 4 pages :fou:
Pour rappel j'ai écrit ça :

le multihead permet au modèle de sélectionner plusieurs endroits dans la séquence, je comprend pas ta question ensuite ça n'a aucun sens de comparer le multihead de l'attention avec "multi objectif" qui veut grosso modo dire on a plusieurs loss

J'ai surtout l'impression que tu recraches ton cours sans aucun recul intuitif sur tel ou tel algo.

Je te demande pourquoi on utilise le multitête, et c'est pour avoir un transformers entrainé " à plusieurs tâches " , ce qui permet de se passer des plusieurs loss, c'est tout.

Le 22 mars 2024 à 21:50:10 :

Le 22 mars 2024 à 21:44:35 :

Le 22 mars 2024 à 21:42:09 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

> Le 22 mars 2024 à 21:28:40 :

>> Le 22 mars 2024 à 21:26:36 :

> >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

> >

> > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

>

> Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

>

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

> Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.

Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation

Je comprends pas comment on peut être chercheur en IA sans maitriser le coeur des réseaux de neurone. Il y a pas que ADAM hein

Mais tu crois vraiment que tous les gens en IA sont specialistes en optimisateurs (ca peut arriver d'en utiliser des plus exotiques que d'autres) ? En loss (ça peut arriver d'en créer une custom) ? ... Les blocs de bases en DL ? non a un moment chacun sa spécialité, tu as l'air plus dans la théorie du DL de ce que je comprends et grand bien t'en fasse mais perso je suis pas spécialiste, juste j'utilise. Je dirais que je fais plus de l'IA appliquée comme on peut voir en math ou en physique, t'as la partie théorique et pratique/appliquée/industrielle (choisis le terme que tu préfères)

Pour revenir sur un classique, voici un exemple, 2014, +65000 citations, "Generative Adversarial Networks
Ian J. Goodfellow"

Sauf qu'avec ton relativisme niais on arrive à un " docteur en IA " qui ne comprend pas ce qui motive intuitivement l'idée de multitête pour le mécanisme d'attention

Tu trouves ça normal ?

Le 22 mars 2024 à 21:49:10 :

Le 22 mars 2024 à 21:47:33 :

Le 22 mars 2024 à 21:45:24 :

Le 22 mars 2024 à 21:44:35 :

Le 22 mars 2024 à 21:42:09 :

> Le 22 mars 2024 à 21:33:46 :

>> Le 22 mars 2024 à 21:31:34 :

> >> Le 22 mars 2024 à 21:28:40 :

> > >> Le 22 mars 2024 à 21:26:36 :

> > > >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

> > > >

> > > > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

> > >

> > > Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

> > >

> >

> > c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

> >

> > > Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

> >

> > sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...

> > tu parles de trucs que tu connais même pas ...

>

> Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

>

> Je peux te citer le papier classique de Desederi sinon :

> https://www.sciencedirect.com/science/article/pii/S1631073X12000738

>

> PCGrad, PaMal, ça te dit rien ?

>

> Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.

Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation

dans 99.9% des LLM y a une seule loss

Pour la milliardième de fois j'ai pas parlé pas de LLM. Je t'ai justement questionné sur les details du mécanisme d'attention multitête pour vérifier que tu es formé bas niveau

Et oui il y a une seule loss, c'est l'intérêt du multitête comme je l'ai dit plus haut, ça rend le transformers performant mais moins expliquable

y a zéro rapport entre multihead et une seule loss :rire:

Si parce que la motivation première du multitête, ce pour quoi il a été inventé, c'est pour faire " plusieurs tâches " à la fois :pf:

Quand on illustre l'attention multitête on utilise d'ailleurs plusieurs filtres sur une image
https://paperswithcode.com/method/multi-head-attention

Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).

Ton niveau est catastrophique

Le 22 mars 2024 à 21:44:12 :

Le 22 mars 2024 à 21:42:39 :

Le 22 mars 2024 à 21:39:51 :

Le 22 mars 2024 à 21:37:25 :

Le 22 mars 2024 à 21:33:23 :

> Le 22 mars 2024 à 21:29:57 :

>> Le 22 mars 2024 à 21:27:38 :

> >> Le 22 mars 2024 à 21:26:33 :

> > >> Le 22 mars 2024 à 21:24:51 :

> > > >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

> > > > >

> > > > > Le MLOPS est primordial maintenant en recherche

> > > >

> > > > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

> > >

> > > Tu confonds framework de travail et pipeline ou je rêve ?

> >

> > moi je suis chercheur kheyou

>

> Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur

j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi

Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps

non absolument pas ...

Si si, d'ailleurs tu n'as toujours pas expliqué ce qui motivait le multitête hein (intuitivement, quel est l'intérêt du multitête?) donc je sais pas pourquoi tu récuses.

Le 22 mars 2024 à 21:45:24 :

Le 22 mars 2024 à 21:44:35 :

Le 22 mars 2024 à 21:42:09 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

> Le 22 mars 2024 à 21:28:40 :

>> Le 22 mars 2024 à 21:26:36 :

> >> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

> >

> > j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

>

> Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

>

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

> Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.

Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation

dans 99.9% des LLM y a une seule loss

Pour la milliardième de fois j'ai pas parlé pas de LLM. Je t'ai justement questionné sur les details du mécanisme d'attention multitête pour vérifier que tu es formé bas niveau

Et oui il y a une seule loss, c'est l'intérêt du multitête comme je l'ai dit plus haut, ça rend le transformers performant mais moins expliquable

Le 22 mars 2024 à 21:42:09 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Première fois que je vois un papier qui ne soit pas 100% en anglais khey, sorti en 2004, 191 citations, paye la tete de ton "classique". Apres peut-être pour ta niche ca l'est ? Mais tu donnes l'impression que tu fais un focus sur que ce que tu connais seulement

Perso je suis moi meme en phd (je suis a l'etranger donc c'est vraiment le nom de mon programme :) ) en IA et quand je parle à d'autres gens en phd en IA, c'est simple on ne comprend rien de ce que fait l'autre:

un en IA appliquée en cybersécu,
un en XAI avec des GNN
l'autre en optique
....

Et a chaque fois on parle une langue différente, normal que OP ne puisse répondre a chaque fois précisément ou que vous ne puissiez pas vous comprendre

Yep c'est pour ça que c'est un classique, c'est le premier à avoir traité du problème de la moyenne des loss avant l'explosion du deep learning.

Le fait que tu le connaisses pas t'exonère pas hein, il est très connu, MGDA servant de base pour tous les algorithmes de backpropagation

Je comprends pas comment on peut être chercheur en IA sans maitriser le coeur des réseaux de neurone. Il y a pas que ADAM hein

Le 22 mars 2024 à 21:39:51 :

Le 22 mars 2024 à 21:37:25 :

Le 22 mars 2024 à 21:33:23 :

Le 22 mars 2024 à 21:29:57 :

Le 22 mars 2024 à 21:27:38 :

> Le 22 mars 2024 à 21:26:33 :

>> Le 22 mars 2024 à 21:24:51 :

> >> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

> > >

> > > Le MLOPS est primordial maintenant en recherche

> >

> > j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

>

> Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur

j'ai développé des LLM à complexité linéaire qui ont un ppl dans un mouchoir de poche d'un transformer de même taille, jamais entendu qqun parler de ton barratin de MTL jsp quoi

Oui car tu es au mieux ingénieur, mais le multi-tâche c'est littéralement ce qui motive le multihead, un peu comme le pooling des CNNs en leur temps

Le 22 mars 2024 à 21:39:00 :
Es-tu d'accord avec le fait que les LLM ont atteint leurs limites intrinsèques, et que l'IAG reste inextinguible a l'humanité dans le paradigme productif actuel ? Et que par conséquent le substrat biologique restera dominant en termes d'intelligence, pour encore au moins un siècle de plus ?https://image.noelshack.com/fichiers/2019/12/3/1553090920-untitled-1.jpg

Ce que tu dis n'a aucun sens car tu ne comprends pas dans quel but les LLMs sont entrainés

Le 22 mars 2024 à 21:35:21 :

Le 22 mars 2024 à 21:33:46 :

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

> Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

ah my bad j'ai cru que tu avais écrit gradient nul
+ je m'en blc de ta littérature de niche arrête de faire le fou,

C'est pas de la littérature de niche mais des papiers classiques sur les problèmes que traverse le deep learning en 2024, notamment à cause de la NLP, de l'artificial vision.

Le 22 mars 2024 à 21:33:23 :

Le 22 mars 2024 à 21:29:57 :

Le 22 mars 2024 à 21:27:38 :

Le 22 mars 2024 à 21:26:33 :

Le 22 mars 2024 à 21:24:51 :

> Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

>

> Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

MVA + j'ai train des LLM donc ma pipeline était souvent simple et imposée

Mais tu es docteur de mon cul alors. Tu es au mieux ML Engineer tu comprends rien au moteur

Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?

momentum adaptatif

Bonne réponse, tu as au moins survecu jusqu'au M2

Le 22 mars 2024 à 21:31:34 :

Le 22 mars 2024 à 21:28:40 :

Le 22 mars 2024 à 21:26:36 :

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

c'est pas un concept clé khey c'est un truc que t'as lu dans un papier random et apparemment ça veut juste dire gradients orthogonal :rire:

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé

sur les LLM (99% des transformers) on parle pas de MTL mais de ICL, et les deux termes sont vagues et difficelement mesurables à part sur des taches synthétiques ...
tu parles de trucs que tu connais même pas ...

Non ça veut pas dire gradient orthogonal, c'est catastrophique, et non ce n'est pas random c'est utilisé dans l'algorithme de descente du gradient des transformers

Je peux te citer le papier classique de Desederi sinon :
https://www.sciencedirect.com/science/article/pii/S1631073X12000738

PCGrad, PaMal, ça te dit rien ?

Et non MTL c'est pas flou du tout, ça veut juste dire que tu définis differentes loss. Et pourquoi tu parles de LLM ? Je parle de la base là, déjà que tu as mal a expliquer le fonctionnement intuitif d'un mecanisme d'attention multitête...

Le 22 mars 2024 à 21:27:38 :

Le 22 mars 2024 à 21:26:33 :

Le 22 mars 2024 à 21:24:51 :

Dommage pour toi ça vient des GAFAMS, Vertax AI et Sagemaker en tête, le contraire des startups

Le MLOPS est primordial maintenant en recherche

j'ai fait un stage chez google paris jamais entendu parler de ça, j'ai fait du JAX pendant 6 mois

Tu confonds framework de travail et pipeline ou je rêve ?

moi je suis chercheur kheyou

Je suis chercheur aussi et avoir une pipeline qui fonctionne est d'autant plus nécessaire, tu as eu ton diplôme dans un mouchoir de sperme ?

Je te donne une derniere chance, niveau M2 : quel est le progrès de ADAM par rapport à une backpropagation classique ?

Le 22 mars 2024 à 21:26:36 :

Non pas du tout tu as tout faux, le multi-tête permet juste d'avoir plusieurs objectifs, plusieurs filtres. La différence avec le MTL c'est que tu fixes pas les tasks en avance avec la bonne loss, ce qui rend le transformers très performant mais il perd en expliquabilité

j'ai l'impression que tu recraches un cours que tu connais pas, multi head ça veut juste dire que le softmax en calculé en parallèle sur une dimension additionnelle du tenseur de sorte qu'ils sélectionnent plusieurs points de la séquence.

Tu réponds à côté en permanence, justement j'essaie d'eviter des cours pour verifier que tu te cultives pas avec Google

Il y a des motivations derrière le multitête, en rapport avec le MTL. C'est ça ma question. Mais tu sembles complètement paumé, tu as même dit que les gradients conflictuels ne veulent rien dire alors que si c'est un concept clé