Mon carnet de notes virtuel
Data Science, Python, Economie ...
À propos
Tags
Refs
Argparse - créer une interface en ligne de commande
Argparse est un module de python permettant au programme d'interagir avec la ligne de command...
Cartopy
Cartopy est un package permettant de réaliser des projections cartographiques. Il succède à Basem...
Importer et exporter des données CSV dans une base SQL
La commande centrale pour l'import et l'export des données SQL est COPY. Import On peut...
JOINdre des tables SQL entre elles
SQL repose sur le concept de bases de données relationnelles : les tableaux peuvent être reliés e...
Manipuler les formats longs et larges de données
Les données tabulaires peuvent se présenter sous deux aspects : "long" ou "large&q...
Opérations mathématiques avec SQL
SQL peut être utilisé pour réaliser des calculs simples ainsi que de calculer des statistiques de...
Packager un projet python
Packager un projet python permet de rendre les scripts qu'il contient exécutables de manière ...
Pickle
Pickle est un module permettant de sérialiser des objets pythons en vue de leur conservation et ...
Régression logistique
La régression logistique estime la probabilité qu'une variable binaire soit égale à 1 sachant...
Test Bootstrap
Les tests classiques tel que le test de Student nécessitent un minimum de calculs, les hypothèses...
Types de données SQL
Cette note a pour but d'expliquer les types de données rencontrée dans un tableau. String L...
Selenium
Selenium est un outil émulant un navigateur et permettant de simuler automatiquement l'intera...
Spacy
Bienvenue sur la méganote Spacy 🔥 ! SpaCy est une bibliothèque python facilitant les étapes du NL...
Afficher les tables existantes dans une base SQL
Dans le cas d'[[SQLite]], avec le module [[SQLite3]] : def show_tables(connection_object...
Analyse discriminante
L'analyse discriminante est une méthode de classification proche de la [[Régression logistiqu...
Associer des noms de lieux à des coordonnées géographiques
Cette note recense les bibliothèques python et les services permettant de trouver les coordonnées...
BeautifulSoup
BeautifulSoup permet de parser les fichiers Html et d'en extraire le contenu de manière ordon...
Conversion des données catégorielles
Certaines colonnes de données peuvent être composées de valeurs qualitatives : nationalité, sexe,...
Créer un fichier de configuration avec ConfigParse
ConfigParse est un module de python permettant de définir des paramètres d'un programme par d...
Ecrire un script shell
Un script shell est un fichier texte en .sh contenant les informations à passer à un terminal qui...
Imputation des valeurs manquantes
Les valeurs manquantes d'une observation posent problème pour son utilisation et son évaluati...
Indicateurs de performance des classificateurs
Comment évaluer une classification ? Selon le contexte, on le but de la classification peut être ...
Inertie
L'inertie, dans le cadre du [[clustering]] par [[K-neighbors]], correspond à somme du carré d...
Les doublons dans un tableau SQL
Trois types de doublons existent : Doublon absolu : Il correspond aux combinaisons identiques...
Modifier les données d'un tableau SQL
Au cas où, penser à faire [[Création de tableau SQL|une sauvegarde de la table]] ! Cette note tr...
Norme d'un vecteur
La norme est un élément de la définition d'un vecteur correspondant à sa longueur. Définitio...
Obtenir toutes les clés d'un dictionnaire
La fonction zip() prend en paramètre un ou des itérables, et retourne un [[Différence itérable-it...
Opérations sur données aggrégées dans SQL
SQL donne la possibilité d'aggréger les données par groupes avec GROUP BY col. On peut ensuit...
Préparer Ansible en ligne de commande
Ansible est un outil d'automatisation permettant le déploiement d'une infrastructure sur ...
Rêgle de Tukey pour exclure les valeurs aberrantes
La règle de Tukey, propose de retirer les valeurs comprises hors de l'intervalle : [Q1 - 1.5...
SELECTionner des données SQL
Introduction Obtenir l'intégralité du tableau : * La commande SELECT permet de sélectionner l...
Scinder et rassembler les données dans une colonne
Comment scinder ou concaténer les colonnes d'un [[dataframe]] ou d'une série ? Series.st...
Se connecter à une base SQL
Il est possible de se connecter à une base de données [[SQL]] avec le package [[SQLite3]] ou [[sq...
Supprimer un tableau SQL
Simplement : DROP TABLE table_name
Séparer les données entre des données d'entrainement et de test
Pour tester notre régression de manière simple, on peut séparer les données disponibles pour obte...
Test de Permutation
Un test de permutation est une méthode de la famille du [[Test Bootstrap]] permet de comprendre s...
Théorème de Bayes
Soit deux évènements, A et B. On a : $P(A)$ la probabilité marginale de $A$ indépendamment de ...
Dbscan
df.duplicated() - trouver les doublons
Retourne un [[dataframe]] rempli de booléens, True si l'entrée existe en double (est dupliqué...
df.isin() - vérifier le contenu d'une ligne
df.isin(liste) permet de vérifier pour chaque ligne du [[dataframe]] (ou de la colonne, si l'...
df.to_sql()
Transfère un [[dataframe]] vers une base de données [[SQL]]. La syntaxe est la suivante : cxtn ...
pd.concat() - ajouter des lignes et des colonnes
La concaténation de table simple consiste à ajouter les lignes ou les colonnes d'un [[datafra...
pd.cut() - créer une variable catégorielle
pd.cut() assigne pour chaque ligne d'une variable quantitative une étiquette correspondant à ...
pd.factorize() - transformer une variable str en int
Cette méthode est utile pour passer d'une variable textuelle à une variable numérique. Elle p...
series.str.split()
.str.split() agit sur les données de format string en les séparant selon une clé spécifiée. La m...
sklearn.cluster.Kmeans
sklearn.cluster.Kmeans applique l'algorithme des [[K-neighbors]]. L'algorithme K-means e...
sklearn
Scikit-Learn est une bibliothèque de code utilisée pour appliquer les principaux algorithmes de m...
sklearn.metrics - Evaluer les modèles
sklearn.metrics contient un très grand nombre de méthodes visant à réaliser des mesures sur la qu...
SQLite3
Sqlite3 est un module python donnant accès à la base de données [[SQLite]]. Il est compris dans l...
Ajouter un programme à la variable $PATH
Solution temporaire : (Sur Ubuntu) On commence par inspecter la variable path: echo $PATH Ce ...
Calculer des distances terrestres
L'espace entre les points sur le globe étant courbé, il est nécessaire d'utiliser quelque...
Chaines de markov
Les chaines de Markov sont des modèles mathématiques modélisant pour un objet le fait de passer d...
Clés et contraintes dans SQL
Clés primaires Une clé primaire correspond à une colonne ou une série de colonnes dont la valeur ...
Comprehension
Les comprehensions permettent de construire des [[liste|listes]], [[dictionnaire|dictionnaires]] ...
Connexion SSH avec un notebook jupyter
Utiliser un notebook jupyter déporté sur un serveur a pour avantage d'externaliser les calcul...
Correction de Bonferroni
La correction de Bonferroni vise à baisser la valeur alpha afin de prendre en compte l'accroi...
Création de tableau SQL
Créer un nouveau tableau Un tableau SQL est un objet utilisé pour stocker des donner, tel un réc...
Différence itérable-itérateur-itération
L'itération est une opération consistant à agir sur un élément après l'autre, séquentiell...
Détecter la langue d'un texte
Il peut être utile de trouver la langue d'un texte, afin de pouvoir le comparer à d'autre...
Détecter les valeurs extrêmes
Les valeurs extrêmes (outliers) ne sont pas nécessairement des valeurs aberrantes. Elles peuvent ...
Evaluation des modèles en pratique
Cet article traite de la mise en pratique de l'évaluation de modèles. Pour les questions théo...
Faire un nuage de mots
La bibliothèque python wordcloud donne la possibilité de créer des nuages de mots avec l'APi ...
Fonction lambda
Une fonction lambda prend la forme suivante : objet = lambda paramètres : expression. Ce type d...
Format datetime
pd.to_datetime() est utilisée pour transposer une donnée au format temporel. parsed_date = pd.to...
Générateur
Les générateurs sont des objets [[Différence itérable-itérateur-itération|itérables]] qui ne gard...
Heatmaps
Les Heatmaps permettent de comparer les valeurs associées à deux attributs, par exemple la corrél...
Homoscédasticité et Hétéroscédasticité
On appelle homscédasticité l'égalité de la variance d'une variable quelque soit l'éch...
Indépendance linéaire
Définition1 : Un jeu de vecteurs est dit linéairement indépendant si aucun des vecteurs qui le co...
Installer node.js
Un échantillon simple pour installer une version à jour de node.js sur Ubuntu/Debian, la version...
Insérer des données dans un tableau SQL
Une fois le tableau [[Création de tableau SQL|créé]], on peut y ajouter es données avec la comman...
K-neighbors
L'algorithme dit des K-neighbors regroupe une famille d'algorithmes utilisés pour classif...
Les pipelines de traitement de données
Le chemin pour arriver à résultat comprenant de nombreuses étapes, il est possible de les lier en...
Les sous-requêtes SQL
Les sous-requêtes SQL sont déclarées comme des requêtes entre paranthèses, nichées à l'intér...
Les transactions SQL
Une transaction permet de regrouper les opérations et requêtes pour les exécuter en bloc à condit...
Loi normale
La densité d'une variable aléatoire $X$ d'espérance $\mu$ et d'écart-type $\sigma$ (n...
matplotlib
Matplotlib est une bilbliothèque de visualisation de données qui s"intègre avec Pandas et d&...
Nettoyer un texte avant analyse
Un snippet intéressant trouvé sur Stackoverflow et qui comprend notamment les émojis : import em...
Obtenir des données de test facilement
[[sklearn]] contient des jeux de données permettant de tester les algorithmes de ML. Certains son...
Regex - Sélectionner un mot entre deux caractères
On veut sélectionner le mot pomme dans la phrase La [pomme] est tombée de l'arbre. Pour ce f...
Régression linéaire
La régression linéaire est une technique de base de l'analyse de données permettant d'est...
Régularisation
La régularisation consiste à modifier la fonction de coût d'une régression. Le but est de cha...
Similarité cosinus
Permet de calculer la similarité entre deux vecteurs [[Norme d'un vecteur|normalisés]]. $$ \...
Similarité
Le but des méthodes d'analyse de la similarité est de créer une mesure unique permettant de c...
Str - méthodes
Cette note regroupe les explications des méthodes liées au objets de type string dans Python. Une...
Valeurs propres
Définition : Une transformation $\mathrm{t}: \mathrm{V} \rightarrow \mathrm{V}$ possède une valeu...
Centroïde
Le centroïde d'une figure géométrique correspond à la moyenne de tous les points appartenant ...
csv
Les fichiers .csv correspondent à des fichiers texte représentant des données sous forme tabulair...
df.append() - ajouter une ligne
df.append() est une méthode permettant d'ajouter une ligne de données ou un [[dataframe]] à u...
df.apply()
La fonction df.apply() est l'équivalent pandas de [[map()]], elle permet d'appliquer une ...
df.drop() - retirer une colonne d'un dataset
Méthode permettant de retirer une colonne d'un dataset. En pratique, on peut s'en servir ...
df.dropna()
df.dropna() permet de supprimer les lignes contenant une valeur np.nan d'un dataframe. Dans ...
df.fillna()
Méthode permettant de remplacer les valeurs NaN par d'autres valeurs. On utilisera [[df.drop...
df.isna(), df.isnull() - trouver les valeurs manquantes
Retourne un [[dataframe]] rempli de booléens, True si l'entrée existe et False si elle est Na...
df.query() - filtrer un dataframe
Méthode permettant de filtrer un [[dataframe]] avec une condition retournant un booléen. df_q = ...
df.reset_index
dict.update()
.update() est une méthode appliquée sur un [[dictionnary dictionnaire]] qui met à jour les ...
filter()
La méthode filter() construit un itérateur à partir d'un [[Différence itérable-itérateur-itér...
iter()
La fonction iter() retourne un objet [[Différence itérable-itérateur-itération|itérateur]] à part...
np.flatnonzero()
np.flatnonzero() retourne les indices des valeurs différentes de 0 dans un array numpy 1D. On pe...
np.linspace(start, end, step)
np.linspace(start, end, step) crée un array numpy de taille step et le peuple de nombre distribué...
scipy.spatial.distance.euclidian()
Permet de calculer la [[Norme d'un vecteur distance euclidienne]] entre deux arrays. ...
sys.exit()
Commande utile pour arrêter l'exécution d'un programme python. import sys sys.exit()
Licence MIT