Des kheys calés en Machine Learning ?
Inge_Calvitie
2022-06-01 20:04:56
Imaginons que j'aie un tableau de données sur des joueurs de foot, dans une colonne j'ai le nombre de buts, dans une autre le nombre de frappes tentées, et dans une troisième le pourcentage de frappes qui sont des buts
On voit que la troisième colonne peut s'obtenir avec le rapport des deux premières, est ce que si je veux développer un classifier sur ces données il vaut mieux que je garde que la colonne pourcentage de frappes qui sont des buts ou bien je garde les 3 colonnes pour avoir plus de features ?
Et 2eme question, sachant que ma variable de classe est binaire (1 ou 0 selon le fait que le joueur soit considéré comme bon ou pas), je sais pas trop si faut plutôt utiliser l'accuracy ou le recall comme métrique
En gros je veux détecter pour des joueurs test s'ios seront probablement bons ou pas
Le_[Hasard]
2022-06-01 20:18:54
Il faut éviter que une des colonnes soit une combinaison linéaire des autres
Inge_Calvitie
2022-06-01 22:31:16
Et dans ce cas j'en garde une ou deux ?
Inge_Calvitie
2022-06-01 22:38:27
Le 01 juin 2022 à 22:36:00 :
faut virer la 3ème colonne
On pourrait pas se dire que la 3eme est plus synthétique au final ? C'est un pourcentage c'est parlant
cowboyZinzin
2022-06-01 22:45:04
Le 01 juin 2022 à 22:38:27 :
Le 01 juin 2022 à 22:36:00 :
faut virer la 3ème colonne
On pourrait pas se dire que la 3eme est plus synthétique au final ? C'est un pourcentage c'est parlant
non après comment tu fais pour entrainer ton modèle avec une colonne ? il faut des données d'entrée et de sortie
cowboyZinzin
2022-06-01 22:46:45
mais sinon je vois pas vraiment pourquoi t'as besoin de ML dans cet exo, si t'as le ratio de réussite de chaque joueurs tu connais les meilleurs déjà ?
Inge_Calvitie
2022-06-01 23:43:06
Le 01 juin 2022 à 22:45:04 :
Le 01 juin 2022 à 22:38:27 :
Le 01 juin 2022 à 22:36:00 :
faut virer la 3ème colonne
On pourrait pas se dire que la 3eme est plus synthétique au final ? C'est un pourcentage c'est parlant
non après comment tu fais pour entrainer ton modèle avec une colonne ? il faut des données d'entrée et de sortie
Il y a d'autres colonnes khey (15) dont la colonne y
Inge_Calvitie
2022-06-01 23:43:45
Le 01 juin 2022 à 22:46:45 :
mais sinon je vois pas vraiment pourquoi t'as besoin de ML dans cet exo, si t'as le ratio de réussite de chaque joueurs tu connais les meilleurs déjà ?
Il y a pas mal d'autres facteurs d'évaluation que ces 3 colonnes
BotCliqueur
2022-06-01 23:44:52
T'as une formule pour déterminer si ton joueur est bon ou pas?
Si oui et qu'elle est facile à calculer t'as pas besoind de ML
croupesevere
2022-06-01 23:50:42
Au moins tu as de features au moins tu as de bruit (si ça change rien à l'accuracy). mais tu peux la laisser et en générale on fais de la feature selection, genre pénalité l1 et il va détecter tout seul qu'une feature est redondante et ne pas l'utiliser.
Inge_Calvitie
2022-06-01 23:58:05
Le 01 juin 2022 à 23:44:52 :
T'as une formule pour déterminer si ton joueur est bon ou pas?
Si oui et qu'elle est facile à calculer t'as pas besoind de ML
C'est une colonne à 0 ou 1, déjà présente dans mon training set