[PhD] Je suis docteur en intelligence artificielle, je réponds aux questions
ProutRecurrent
2024-03-22 21:06:36
Le 22 mars 2024 à 21:05:55 :
c'est un mythe l'iag ?
oui, ça veut juste dire gros modèle multimodal moins con qu'aujourd'hui
ProutRecurrent
2024-03-22 21:08:54
Le 22 mars 2024 à 21:08:28 :
Docteur ou doctorant ?
jeune docteur
GusFrimousse
2024-03-22 21:10:22
Explique moi comment faire la backpropagation dans un hypernetwork alors qu'on utilise la loss du main network.
Pourquoi quand on fait du multi-objectif, il ne faut pas faire la moyenne des loss ?
Explique moi la différence entre ADAM et MGDA
GusFrimousse
2024-03-22 21:12:49
Cite moi les 3 meilleures interfaces MLOPs
Qu'est ce qui motive le multi-tête dans un apprentissage par mécanisme d'attention, quelle différence concrète avec le multi-objectif ?
GusFrimousse
2024-03-22 21:14:19
Le transformers et le RNN sont tous les deux sequentiels en NLP, quelle est leur difference ?
ProutRecurrent
2024-03-22 21:15:06
Le 22 mars 2024 à 21:10:22 :
Explique moi comment faire la backpropagation dans un hypernetwork alors qu'on utilise la loss du main network.
ça me rappelle un vieux truc des années 2016 mais je peux pas t'en dire plus
Pourquoi quand on fait du multi-objectif, il ne faut pas faire la moyenne des loss ?
parce que les échelles des loss sont potentiellement différentes
Explique moi la différence entre ADAM et MGDA
connais pas MGDA
PasDhonneur
2024-03-22 21:16:10
Que penses-tu du docteur Noseman?
ProutRecurrent
2024-03-22 21:16:39
Le 22 mars 2024 à 21:14:19 :
Le transformers et le RNN sont tous les deux sequentiels en NLP, quelle est leur difference ?
transformers sont sans état ce qui les rend très facile à paralléliser (l'opération seq seq est juste une sorte de matrice d'autosimilarité).
les RNN sont des modèles AR à états, récemment y eu des grosses avancées
M0nsieurG
2024-03-22 21:16:40
Es tu cacadetruire
ProutRecurrent
2024-03-22 21:17:11
Le 22 mars 2024 à 21:16:10 :
Que penses-tu du docteur Noseman?
il a l'air vraiment limité
GusFrimousse
2024-03-22 21:17:19
Le 22 mars 2024 à 21:15:06 :
Le 22 mars 2024 à 21:10:22 :
Explique moi comment faire la backpropagation dans un hypernetwork alors qu'on utilise la loss du main network.
ça me rappelle un vieux truc des années 2016 mais je peux pas t'en dire plus
Euh ok ?
On adapte simplement la chain rule.
Pourquoi quand on fait du multi-objectif, il ne faut pas faire la moyenne des loss ?
parce que les échelles des loss sont potentiellement différentes
Non, c'est parce que les gradients peuvent être conflictuels. (Produit scalaire négatif)
Explique moi la différence entre ADAM et MGDA
connais pas MGDA
MGDA maximise le produit scalaire ce qui résout le problème de conflictualité
Takata__
2024-03-22 21:18:29
L’IA va remplacer les devs ?
ProutRecurrent
2024-03-22 21:18:35
Le 22 mars 2024 à 21:17:19 :
Le 22 mars 2024 à 21:15:06 :
Le 22 mars 2024 à 21:10:22 :
Explique moi comment faire la backpropagation dans un hypernetwork alors qu'on utilise la loss du main network.
ça me rappelle un vieux truc des années 2016 mais je peux pas t'en dire plus
Euh ok ?
On adapte simplement la chain rule.
Pourquoi quand on fait du multi-objectif, il ne faut pas faire la moyenne des loss ?
parce que les échelles des loss sont potentiellement différentes
Non, c'est parce que les gradients peuvent être conflictuels.
ça veut rien dire "conflictuel" et ça n'a pas de rapport avec la moyenne
Explique moi la différence entre ADAM et MGDA
connais pas MGDA
MGDA maximise le produit scalaire ce qui résout le problème de conflictualité
ok
ProutRecurrent
2024-03-22 21:18:47
Le 22 mars 2024 à 21:18:29 :
L’IA va remplacer les devs ?
non
MuguDesChenaies
2024-03-22 21:20:07
Plus pédant que les Français qui disent "J'ai un PhD" au lieu de "J'ai un doctorat", ça existe ?
BlowBlue
2024-03-22 21:20:37
Tu fais quoi concrètement dans ton travail ?