Data Science, Python, Economie ...

Accueil

df.fillna()

Méthode permettant de remplacer les valeurs NaN par d'autres valeurs. On utilisera df.dropna()df.dropna()
df.dropna() permet de supprimer les lignes contenant une valeur np.nan d'un dataframe.

Dans le cas d'un jeu de données contenant des valeurs "?" correspondant à une information manquante :

# Convert '?' to NaN
df[df == '?'] = np.nan

# Print shape of original DataFrame
print("Shape of Original DataFrame: {}".format(df.shape))

> Shape of Original DataFrame: (435, 17)

# Drop missing values and print shape of new DataFrame
df = df.dropna()

# Print shape of new DataFrame
print("Shape of D...
si l'on désire les supprimer.

On peut spécifier en valeur une valeur unique, mais aussi une Série ou un dataframe.

fillna() choisira dans ce cas la valeur à remplir en fonction de l'index de la ligne et de la colonne. Il est aussi possible de choisir un algorithme de remplacement (prochaine / précédente valeur par exemple).

# Remplacer les valeurs manquantes par 0
df.fillna(0)
# Remplacer les valeurs manquantes par la moyenne
df.fillna(df.mean(), inplace=True)