[PhD] Je suis docteur en intelligence artificielle, je réponds aux questions

SuceurDeBonbon
2024-01-30 21:18:55

Le 30 janvier 2024 à 21:10:26 :

Le 30 janvier 2024 à 21:02:51 :

Le 30 janvier 2024 à 20:58:08 :
quelle est la relation entre learning rate et batch size ?

y a pas de '"relation" mais l'idée c'est qu'on peut augmenter le LR si on augmente la BS car on fait baisser la variance. Et si on fixe la variance et qu'on multiplie la BS par K on peut théoriquement augmenter le LR de sqrt(k)

quelle justification donne tu à ce sqrt(k) ?

bah Var(X1+...+Xn/sqrt(n)) = Var(x)

donne moi 3 manières d'augmenter la batch size effective à mémoire égale

gradient accumulation ou gradient checkpointing

donne une justification théorique de pourquoi les modèles de diffusion marchent

plot twist yen a pas

non aucune justification solide mais y'a quand même la relation entre les modèles de diffusion et les méthodes de score matching, qui apprenent le gradient d'une distribution de données plutôt que la distribution elle même, et évitent d'utiliser des modèles normalisés comme les flow matching ou les autoencodeurs

je ne pense pas que ça soit vraiment l'intérêt principal des modèles de diffusion. pour moi un modèle de diffusion c'est juste un moyen de simplifier le problème en introduisant une approche séquentielle là ou yen a pas

SuceurDeBonbon
2024-01-30 21:19:29

Le 30 janvier 2024 à 21:18:48 :

Le 30 janvier 2024 à 21:10:34 :

Le 30 janvier 2024 à 21:08:50 :
Tu as déjà pense a faire de la génération d'images pour gagner des sous avec onlyfans ou mymn ?

non c'est profondément inintéressant + je bosse plutôt sur les LLM

Quel framework d'inférence tu conseilles ?

j'en sais rien moi je fais de la recherche donc je suis un jean pytorch

SuceurDeBonbon
2024-01-30 21:23:59

Le 30 janvier 2024 à 21:13:56 :

Le 30 janvier 2024 à 21:09:59 :

Le 30 janvier 2024 à 21:07:31 :
dans les recentes publications, est ce qu'il y a encore des preuves théoriques ? ou c'est juste bah je sais pas trop pourquoi le modèle marche mais après avoir teste des dizaines de modeles j'ai aps trouve mieux

assez peu, en quand y en a c'est rarement intéressant
pour moi le deep c'est avant tout un problème d''informatique
en gros l'état de l'art c'est : data + modèle scalable >>>> tout le reste
donc autant se concentrer sur la partie scalable

est ce que la recherche est domine par les grosses entreprises qui ont accès a la grande source de data + ressource de calcul ? google microsoft...

je dirais dominé oui mais beaucoup de belles contributions viennent de l'académique (ou juste d'ailleurs) + google et facebook n'ont pas l’apanage

Le 30 janvier 2024 à 21:14:38 :
À part détecter prédire, classer et générer, que peut on faire d'autre avec le machine learning?

pas beaucoup plus mais ça fait quand même déjà beaucoup

Le machine learning en gros c'est dire que chaque problème peut être résolu en trouvant une formule mathématique par lequel passerai toute les solutions du problème ?

deep learning = data + model gpu scalable

Python est il réellement le langage le plus adapté à l'IA ? Si oui comment gérer la lenteur de ce langage ?

oui de loin. il n'est pas si lent, les frameworks et le langage sont assez optimisés et le gros du calcul ne se passe pas en python. l'overhead python (par rapport disons au C) est largement absorbé par l'IO
après pour faire des modèles plus finement y a d'autres frameworks comme Triton pour concurrencer CUDA
par contre en inférence oui python est trop lent mais c'est pas mon domaine

Quels sont les principales différences et problématiques entre créer un modèle avec données d'entraînement fournis et créer un modèle qui s'entraîne directement sur le terrain ?

rien compris

Citranus
2024-01-30 21:24:01

Ordre de grandeur des latences et vitesses de tranfert dans les cas suivants :
RAM <-> SSD M2
SSD M2 <-> RAM
SSD M2 <-> GPU (si ça existe)

Il y a des mouvements de mémoire à l'intérieur du GPU à prendre en compte?

Citranus
2024-01-30 21:25:35

Le 30 janvier 2024 à 21:23:59 :

Le 30 janvier 2024 à 21:13:56 :

Le 30 janvier 2024 à 21:09:59 :

Le 30 janvier 2024 à 21:07:31 :
dans les recentes publications, est ce qu'il y a encore des preuves théoriques ? ou c'est juste bah je sais pas trop pourquoi le modèle marche mais après avoir teste des dizaines de modeles j'ai aps trouve mieux

assez peu, en quand y en a c'est rarement intéressant
pour moi le deep c'est avant tout un problème d''informatique
en gros l'état de l'art c'est : data + modèle scalable >>>> tout le reste
donc autant se concentrer sur la partie scalable

est ce que la recherche est domine par les grosses entreprises qui ont accès a la grande source de data + ressource de calcul ? google microsoft...

je dirais dominé oui mais beaucoup de belles contributions viennent de l'académique (ou juste d'ailleurs) + google et facebook n'ont pas l’apanage

Le 30 janvier 2024 à 21:14:38 :
À part détecter prédire, classer et générer, que peut on faire d'autre avec le machine learning?

pas beaucoup plus mais ça fait quand même déjà beaucoup

Le machine learning en gros c'est dire que chaque problème peut être résolu en trouvant une formule mathématique par lequel passerai toute les solutions du problème ?

deep learning = data + model gpu scalable

Python est il réellement le langage le plus adapté à l'IA ? Si oui comment gérer la lenteur de ce langage ?

oui de loin. il n'est pas si lent, les frameworks et le langage sont assez optimisés et le gros du calcul ne se passe pas en python. l'overhead python (par rapport disons au C) est largement absorbé par l'IO
après pour faire des modèles plus finement y a d'autres frameworks comme Triton pour concurrencer CUDA
par contre en inférence oui python est trop lent mais c'est pas mon domaine

Quels sont les principales différences et problématiques entre créer un modèle avec données d'entraînement fournis et créer un modèle qui s'entraîne directement sur le terrain ?

rien compris

Heu, dans l'entrainement il y a de l'inférence non?

SuceurDeBonbon
2024-01-30 21:25:46

Le 30 janvier 2024 à 21:24:01 :
Ordre de grandeur des latences et vitesses de tranfert dans les cas suivants :
RAM <-> SSD M2
SSD M2 <-> RAM
SSD M2 <-> GPU (si ça existe)

j'en ai aucune idée et ce classement n'a aucun intéret puisque c'est complétement dicté par le matériel

Il y a des mouvements de mémoire à l'intérieur du GPU à prendre en compte?

Oui ! Entre HBM et SRAM, et c'est crucial à prendre en compte (contrairement aux autres)

SuceurDeBonbon
2024-01-30 21:26:55

Le 30 janvier 2024 à 21:25:35 :

Le 30 janvier 2024 à 21:23:59 :

Le 30 janvier 2024 à 21:13:56 :

Le 30 janvier 2024 à 21:09:59 :

Le 30 janvier 2024 à 21:07:31 :
dans les recentes publications, est ce qu'il y a encore des preuves théoriques ? ou c'est juste bah je sais pas trop pourquoi le modèle marche mais après avoir teste des dizaines de modeles j'ai aps trouve mieux

assez peu, en quand y en a c'est rarement intéressant
pour moi le deep c'est avant tout un problème d''informatique
en gros l'état de l'art c'est : data + modèle scalable >>>> tout le reste
donc autant se concentrer sur la partie scalable

est ce que la recherche est domine par les grosses entreprises qui ont accès a la grande source de data + ressource de calcul ? google microsoft...

je dirais dominé oui mais beaucoup de belles contributions viennent de l'académique (ou juste d'ailleurs) + google et facebook n'ont pas l’apanage

Le 30 janvier 2024 à 21:14:38 :
À part détecter prédire, classer et générer, que peut on faire d'autre avec le machine learning?

pas beaucoup plus mais ça fait quand même déjà beaucoup

Le machine learning en gros c'est dire que chaque problème peut être résolu en trouvant une formule mathématique par lequel passerai toute les solutions du problème ?

deep learning = data + model gpu scalable

Python est il réellement le langage le plus adapté à l'IA ? Si oui comment gérer la lenteur de ce langage ?

oui de loin. il n'est pas si lent, les frameworks et le langage sont assez optimisés et le gros du calcul ne se passe pas en python. l'overhead python (par rapport disons au C) est largement absorbé par l'IO
après pour faire des modèles plus finement y a d'autres frameworks comme Triton pour concurrencer CUDA
par contre en inférence oui python est trop lent mais c'est pas mon domaine

Quels sont les principales différences et problématiques entre créer un modèle avec données d'entraînement fournis et créer un modèle qui s'entraîne directement sur le terrain ?

rien compris

Heu, dans l'entrainement il y a de l'inférence non?

non

Citranus
2024-01-30 21:27:11

Le 30 janvier 2024 à 21:25:46 :

Le 30 janvier 2024 à 21:24:01 :
Ordre de grandeur des latences et vitesses de tranfert dans les cas suivants :
RAM <-> SSD M2
SSD M2 <-> RAM
SSD M2 <-> GPU (si ça existe)

j'en ai aucune idée et ce classement n'a aucun intéret puisque c'est complétement dicté par le matériel

Il y a des mouvements de mémoire à l'intérieur du GPU à prendre en compte?

Oui ! Entre HBM et SRAM, et c'est crucial à prendre en compte (contrairement aux autres)

J'ai demandé des ordres de grandeur, ils ne sont pas censés varier pour du matériel récent.

Tu peux détailler pour ces problèmes de mémoire HBM et SRAM? En pytorch on le contrôle ou c'est fait automatiquement?

Citranus
2024-01-30 21:27:59

Le 30 janvier 2024 à 21:26:55 :

Le 30 janvier 2024 à 21:25:35 :

Le 30 janvier 2024 à 21:23:59 :

Le 30 janvier 2024 à 21:13:56 :

Le 30 janvier 2024 à 21:09:59 :

> Le 30 janvier 2024 à 21:07:31 :

>dans les recentes publications, est ce qu'il y a encore des preuves théoriques ? ou c'est juste bah je sais pas trop pourquoi le modèle marche mais après avoir teste des dizaines de modeles j'ai aps trouve mieux

assez peu, en quand y en a c'est rarement intéressant
pour moi le deep c'est avant tout un problème d''informatique
en gros l'état de l'art c'est : data + modèle scalable >>>> tout le reste
donc autant se concentrer sur la partie scalable

est ce que la recherche est domine par les grosses entreprises qui ont accès a la grande source de data + ressource de calcul ? google microsoft...

je dirais dominé oui mais beaucoup de belles contributions viennent de l'académique (ou juste d'ailleurs) + google et facebook n'ont pas l’apanage

Le 30 janvier 2024 à 21:14:38 :
À part détecter prédire, classer et générer, que peut on faire d'autre avec le machine learning?

pas beaucoup plus mais ça fait quand même déjà beaucoup

Le machine learning en gros c'est dire que chaque problème peut être résolu en trouvant une formule mathématique par lequel passerai toute les solutions du problème ?

deep learning = data + model gpu scalable

Python est il réellement le langage le plus adapté à l'IA ? Si oui comment gérer la lenteur de ce langage ?

oui de loin. il n'est pas si lent, les frameworks et le langage sont assez optimisés et le gros du calcul ne se passe pas en python. l'overhead python (par rapport disons au C) est largement absorbé par l'IO
après pour faire des modèles plus finement y a d'autres frameworks comme Triton pour concurrencer CUDA
par contre en inférence oui python est trop lent mais c'est pas mon domaine

Quels sont les principales différences et problématiques entre créer un modèle avec données d'entraînement fournis et créer un modèle qui s'entraîne directement sur le terrain ?

rien compris

Heu, dans l'entrainement il y a de l'inférence non?

non

Alors inférer, c'est différent de faire une prédiction?

SuceurDeBonbon
2024-01-30 21:30:04

Le 30 janvier 2024 à 21:27:11 :

Le 30 janvier 2024 à 21:25:46 :

Le 30 janvier 2024 à 21:24:01 :
Ordre de grandeur des latences et vitesses de tranfert dans les cas suivants :
RAM <-> SSD M2
SSD M2 <-> RAM
SSD M2 <-> GPU (si ça existe)

j'en ai aucune idée et ce classement n'a aucun intéret puisque c'est complétement dicté par le matériel

Il y a des mouvements de mémoire à l'intérieur du GPU à prendre en compte?

Oui ! Entre HBM et SRAM, et c'est crucial à prendre en compte (contrairement aux autres)

J'ai demandé des ordres de grandeur, ils ne sont pas censés varier pour du matériel récent.

j'en sais rien et je m'en branle pour les raisons données ...

Tu peux détailler pour ces problèmes de mémoire HBM et SRAM? En pytorch on le contrôle ou c'est fait automatiquement?

transfert HBM/SRAM est un bottleneck
on ne peut pas le gérer en pytorch d'où triton etc

mcts
2024-01-30 21:30:06

Le 30 janvier 2024 à 21:15:13 :

Le 30 janvier 2024 à 21:03:27 :

Le 30 janvier 2024 à 20:59:12 :
doctorat en france ou à l'étranger ?
t'es resté dans le monde académique ou tu travailles dans une boite ou une startup ?

france + académique avec partenariats industriels

tu fais quoi d'utile en académique + LLM ?

Citranus
2024-01-30 21:32:24

Tu utilises quels outils pour rechercher les bottlenecks lors de l'entrainement?

SuceurDeBonbon
2024-01-30 21:33:53

Le 30 janvier 2024 à 21:27:59 :

Le 30 janvier 2024 à 21:26:55 :

Le 30 janvier 2024 à 21:25:35 :

Le 30 janvier 2024 à 21:23:59 :

Le 30 janvier 2024 à 21:13:56 :

> Le 30 janvier 2024 à 21:09:59 :

>> Le 30 janvier 2024 à 21:07:31 :

> >dans les recentes publications, est ce qu'il y a encore des preuves théoriques ? ou c'est juste bah je sais pas trop pourquoi le modèle marche mais après avoir teste des dizaines de modeles j'ai aps trouve mieux

>

> assez peu, en quand y en a c'est rarement intéressant

> pour moi le deep c'est avant tout un problème d''informatique

> en gros l'état de l'art c'est : data + modèle scalable >>>> tout le reste

> donc autant se concentrer sur la partie scalable

est ce que la recherche est domine par les grosses entreprises qui ont accès a la grande source de data + ressource de calcul ? google microsoft...

je dirais dominé oui mais beaucoup de belles contributions viennent de l'académique (ou juste d'ailleurs) + google et facebook n'ont pas l’apanage

Le 30 janvier 2024 à 21:14:38 :
À part détecter prédire, classer et générer, que peut on faire d'autre avec le machine learning?

pas beaucoup plus mais ça fait quand même déjà beaucoup

Le machine learning en gros c'est dire que chaque problème peut être résolu en trouvant une formule mathématique par lequel passerai toute les solutions du problème ?

deep learning = data + model gpu scalable

Python est il réellement le langage le plus adapté à l'IA ? Si oui comment gérer la lenteur de ce langage ?

oui de loin. il n'est pas si lent, les frameworks et le langage sont assez optimisés et le gros du calcul ne se passe pas en python. l'overhead python (par rapport disons au C) est largement absorbé par l'IO
après pour faire des modèles plus finement y a d'autres frameworks comme Triton pour concurrencer CUDA
par contre en inférence oui python est trop lent mais c'est pas mon domaine

Quels sont les principales différences et problématiques entre créer un modèle avec données d'entraînement fournis et créer un modèle qui s'entraîne directement sur le terrain ?

rien compris

Heu, dans l'entrainement il y a de l'inférence non?

non

Alors inférer, c'est différent de faire une prédiction?

bah non justement

SuceurDeBonbon
2024-01-30 21:34:08

Le 30 janvier 2024 à 21:32:24 :
Tu utilises quels outils pour rechercher les bottlenecks lors de l'entrainement?

deepspeed

pacesman
2024-01-30 21:34:17

Comment tu expliques cet énorme flop que deviennent les IA de type chatbox? Chat-GPT est une catastrophe aujourd'hui, même Chat GPT 4 :(

Pourtant on nous a parler d'apocalypse, de révolution comme on en a jamais vu :(

PoufPouetPouf
2024-01-30 21:34:42

Par quelles initiales abrège-t-on "intelligence artificielle" ?https://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png

SuceurDeBonbon
2024-01-30 21:36:14

Le 30 janvier 2024 à 21:34:17 :
Comment tu expliques cet énorme flop que deviennent les IA de type chatbox? Chat-GPT est une catastrophe aujourd'hui, même Chat GPT 4 :(

Pourtant on nous a parler d'apocalypse, de révolution comme on en a jamais vu :(

Marketing à l'américaine, beaucoup de "fake it until make it" d'où des déceptions je dirais
Après je ne doute pas que les LLM (qui seront de moins en moins "large") ont effectivement un potentiel d'automatisation énorme

waeko
2024-01-30 21:37:54

tu as la pression pour publier un article? tu as deja publie?

apres tes etudes, recherches en entreprise ou scolaire?

SuceurDeBonbon
2024-01-30 21:39:09

Le 30 janvier 2024 à 21:37:54 :
tu as la pression pour publier un article? tu as deja publie?

au début oui énormément (pression que je me mettais tout seul) mais quand tu as comrpis l'escroquerie massive de ce système tu stresses beaucoup moins :hap:

apres tes etudes, recherches en entreprise ou scolaire?

entreprise 100%

duriano
2024-01-30 21:41:58

Ton avis sur le RL et l'application avec les LLM ?

Infos
Gestion du forum

contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

    Partenaire: JVFlux
    Ce site n'est pas associé à Jeuxvideo.com ou Webedia. Nous utilisons seulement des archives publiques.
    Il est inutile de me spammer par e-mail pour supprimer un topic. Au contraire, en conséquence, je mettrais votre topic dans le bloc ci-dessous.
Non-assumage
    Personne n'a pas assumé de topic pour le moment.