Des kheys calés en Machine Learning ?

Inge_Calvitie
2022-06-01 20:04:56

Imaginons que j'aie un tableau de données sur des joueurs de foot, dans une colonne j'ai le nombre de buts, dans une autre le nombre de frappes tentées, et dans une troisième le pourcentage de frappes qui sont des buts

On voit que la troisième colonne peut s'obtenir avec le rapport des deux premières, est ce que si je veux développer un classifier sur ces données il vaut mieux que je garde que la colonne pourcentage de frappes qui sont des buts ou bien je garde les 3 colonnes pour avoir plus de features ?

Et 2eme question, sachant que ma variable de classe est binaire (1 ou 0 selon le fait que le joueur soit considéré comme bon ou pas), je sais pas trop si faut plutôt utiliser l'accuracy ou le recall comme métrique

En gros je veux détecter pour des joueurs test s'ios seront probablement bons ou pas

Inge_Calvitie
2022-06-01 20:17:42

Up

Le_[Hasard]
2022-06-01 20:18:54

Il faut éviter que une des colonnes soit une combinaison linéaire des autres

Inge_Calvitie
2022-06-01 22:31:16

Et dans ce cas j'en garde une ou deux ?

cowboyZinzin
2022-06-01 22:36:00

faut virer la 3ème colonne

Inge_Calvitie
2022-06-01 22:38:27

Le 01 juin 2022 à 22:36:00 :
faut virer la 3ème colonne

On pourrait pas se dire que la 3eme est plus synthétique au final ? C'est un pourcentage c'est parlant

cowboyZinzin
2022-06-01 22:45:04

Le 01 juin 2022 à 22:38:27 :

Le 01 juin 2022 à 22:36:00 :
faut virer la 3ème colonne

On pourrait pas se dire que la 3eme est plus synthétique au final ? C'est un pourcentage c'est parlant

non après comment tu fais pour entrainer ton modèle avec une colonne ? il faut des données d'entrée et de sortie

cowboyZinzin
2022-06-01 22:46:45

mais sinon je vois pas vraiment pourquoi t'as besoin de ML dans cet exo, si t'as le ratio de réussite de chaque joueurs tu connais les meilleurs déjà ?

Inge_Calvitie
2022-06-01 23:43:06

Le 01 juin 2022 à 22:45:04 :

Le 01 juin 2022 à 22:38:27 :

Le 01 juin 2022 à 22:36:00 :
faut virer la 3ème colonne

On pourrait pas se dire que la 3eme est plus synthétique au final ? C'est un pourcentage c'est parlant

non après comment tu fais pour entrainer ton modèle avec une colonne ? il faut des données d'entrée et de sortie

Il y a d'autres colonnes khey (15) dont la colonne y

Inge_Calvitie
2022-06-01 23:43:45

Le 01 juin 2022 à 22:46:45 :
mais sinon je vois pas vraiment pourquoi t'as besoin de ML dans cet exo, si t'as le ratio de réussite de chaque joueurs tu connais les meilleurs déjà ?

Il y a pas mal d'autres facteurs d'évaluation que ces 3 colonnes

BotCliqueur
2022-06-01 23:44:52

T'as une formule pour déterminer si ton joueur est bon ou pas?
Si oui et qu'elle est facile à calculer t'as pas besoind de ML

croupesevere
2022-06-01 23:50:42

Au moins tu as de features au moins tu as de bruit (si ça change rien à l'accuracy). mais tu peux la laisser et en générale on fais de la feature selection, genre pénalité l1 et il va détecter tout seul qu'une feature est redondante et ne pas l'utiliser.

Inge_Calvitie
2022-06-01 23:58:05

Le 01 juin 2022 à 23:44:52 :
T'as une formule pour déterminer si ton joueur est bon ou pas?
Si oui et qu'elle est facile à calculer t'as pas besoind de ML

C'est une colonne à 0 ou 1, déjà présente dans mon training set

Inge_Calvitie
2022-06-02 00:03:43

Up

Infos
Gestion du forum

contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

    Partenaire: JVFlux
    Ce site n'est pas associé à Jeuxvideo.com ou Webedia. Nous utilisons seulement des archives publiques.
    Il est inutile de me spammer par e-mail pour supprimer un topic. Au contraire, en conséquence, je mettrais votre topic dans le bloc ci-dessous.
Non-assumage
    Personne n'a pas assumé de topic pour le moment.