Mon carnet de notes virtuel
Data Science, Python, Economie ...
À propos
Tags
Refs
Accueil
Format datetime
pd.to_datetime() est utilisée pour transposer une donnée au format temporel. parsed_date = pd.to_datetime('January 1st, 2017') On peut...
Scinder et rassembler les données dans une colonne
Comment scinder ou concaténer les colonnes d'un [[dataframe]] ou d'une série ? Series.str.split() - Scinder en plusieurs colonnes La mé...
df.append() - ajouter une ligne
df.append() est une méthode permettant d'ajouter une ligne de données ou un [[dataframe]] à un autre dataframe. df.append() ne possède p...
df.apply()
La fonction df.apply() est l'équivalent pandas de [[map()]], elle permet d'appliquer une fonction à toutes les lignes ou colonnes d'un [[...
df.drop() - retirer une colonne d'un dataset
Méthode permettant de retirer une colonne d'un dataset. En pratique, on peut s'en servir pour séparer un jeu de données entre variable ob...
df.dropna()
df.dropna() permet de supprimer les lignes contenant une valeur np.nan d'un dataframe. Dans le cas d'un jeu de données contenant des val...
df.duplicated() - trouver les doublons
Retourne un [[dataframe]] rempli de booléens, True si l'entrée existe en double (est dupliquée), False si la ligne est unique. Utile, pa...
df.fillna()
Méthode permettant de remplacer les valeurs NaN par d'autres valeurs. On utilisera [[df.dropna()]] si l'on désire les supprimer. On peu...
df.isin() - vérifier le contenu d'une ligne
df.isin(liste) permet de vérifier pour chaque ligne du [[dataframe]] (ou de la colonne, si l'on appelle la méthode dessus) si elle contie...
df.isna(), df.isnull() - trouver les valeurs manquantes
Retourne un [[dataframe]] rempli de booléens, True si l'entrée existe et False si elle est NaN. On peut l'utiliser avec [[df.sum()]] ou [...
df.query() - filtrer un dataframe
Méthode permettant de filtrer un [[dataframe]] avec une condition retournant un booléen. df_q = df.query('total > 1_000_000_000') O...
df.to_sql()
Transfère un [[dataframe]] vers une base de données [[SQL]]. La syntaxe est la suivante : cxtn = sqlite3.connect('my_db') df.to_sql(na...
pd.concat() - ajouter des lignes et des colonnes
La concaténation de table simple consiste à ajouter les lignes ou les colonnes d'un [[dataframe]]) un autre. En pratique, on définit une...
pd.cut() - créer une variable catégorielle
pd.cut() assigne pour chaque ligne d'une variable quantitative une étiquette correspondant à un intervalle donné. La syntaxe est la suiv...
pd.factorize() - transformer une variable str en int
Cette méthode est utile pour passer d'une variable textuelle à une variable numérique. Elle peut être utilisée comme une méthode de class...
series.str.split()
.str.split() agit sur les données de format string en les séparant selon une clé spécifiée. La méthode s'appelle sur les series et non l...
Licence MIT