Guy Anthony N.

Data Scientist

Moves to Clermont-Ferrand, Lyon, Clermont-Ferrand, Paris

  • 45.7796
  • 3.0868
Propose a project The project will only begin when you accept Guy Anthony's quote.
Propose a project The project will only begin when you accept Guy Anthony's quote.

Location and geographical scope

Location
Clermont-Ferrand, France
Can work in your office at
  • Clermont-Ferrand and 50km around
  • Lyon and 100km around
  • Clermont-Ferrand and 100km around
  • Paris and 100km around

Preferences

Project length
  • ≤ 1 week
  • ≤ 1 month
  • Between 1-3 months
Business sector
  • Energy & Utilities
  • Transportation
  • Internet of Things
  • High Tech
  • Environment
+1 autres

Verifications

Influence

Languages

Categories

Skills (23)

  • BigData
  • Beginner Intermediate Advanced
  • Data Science
  • Beginner Intermediate Advanced
  • NLP
    Beginner Intermediate Advanced

Guy Anthony in a few words

Data scientist depuis 3 ans, développeur et entrepreneur, j'ai réalisé de nombreux applications sur des données volumineuses et de différentes natures (structurées ou pas). Mon champs de compétences comprend : apprentissage automatique, développement back-end (python/django, php/symfony, mysql, etc...). J'ai aussi un expertise CMS pour vous accompagner sur cet outil. Je travaille avec des open-sources car j'accorde une grande importance aux méthodes à l'état de l'art

Portfolio

Portfolio only available to registered users

Experience

Association santé publique

Health, Wellness & Fitness

Proposition d’application en lien avec l’alimentation au service de la santé publique.

Paris, France

October 2019 - November 2019

Données OpenFoodFacts : https://world.openfoodfacts.org/

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows - Anaconda - Jupyter Notebook
- Librairies : Pandas - Numpy - Matplotlib - Seaborn - Scikit-Learn - Scipy - re - nltk - Wordcloud

Travaux réalisés :
- Suppression des variables inutiles, des doublons
- Sélection des variables pertinentes à l'application
- Imputation des variables explicatives
- Suppression des ponctuations, accents, chiffres puis lemmatisation des variables textuelles.
- Analyse univariée : distplot et pie pour la distribution des variables numérique(resp. catégorielles).
- Détection et suppression des outliers : boxplot et test de Grubb
- Analyse multivariée : pairplot, matrice de corrélation, ANOVA
- Suppression des mots courants(stopwords), nuage de mots(wordcloud)
- Vectorisation Tf, cosinus de similarité
- Prédiction du grade nutritionnel avec l'algorithme k-NN.

OpenClassrooms - Openclassrooms

Civil Engineering

Prédire les émissions de CO2 et la consommation totale d’énergie de bâtiments en se basant sur des bases de données existantes.

Paris, France

November 2019 - December 2019

Données : https://www.kaggle.com/city-of-seattle/sea-building-energy-benchmarking

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – Jupyter Notebook
- Librairies : Pandas – Numpy – Pandas – Matplotlib – Seaborn – Scikit-Learn

Travaux réalisés :
- Prendre en compte la fuite de données pour les prédictions.
- Automatisation des processus : Pipeline
- Normalisation des variables de relevés de différentes années
- Imputation avec ColumnTransformer
- Passage au log(1+x) des variables expliqués
- Encodage variables catégorielles : OneHotEncoding, CountEncoding, TargetEncoding, CatBoostEncoding
- Standardisation des variables : StandardScaler
- Choix de la métrique RMSE fonction du problème
- Sélection de l' encodage avec la meilleure RMSE moyenne testée sur plusieurs modèles
- Sélection de variables pertinentes : Lasso ou régularisation L1, RFE
- Modèles baselines, hyper-paramétrage des modèles SVM, Ridge, Random Forest, Gradient Boosting de Scikit-Learn avec GridSearchCV
- Analyse des résultats : RMSE, temps d’exécution, importance des features, courbe d'apprentissage.

OLIST

E-commerce

Segmentez des clients d'un site e-commerce.

Clermont-Ferrand, France

December 2019 - February 2020

Comprendre les différents types d’utilisateurs grâce à leur comportement et à leurs données personnelles.
Maintenance de la stabilité des segments au cours du temps

Données : https://www.kaggle.com/olistbr/brazilian-ecommerce

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – Jupyter Notebook
- Librairies : Pandas – Numpy – Matplotlib – Seaborn – Scikit-Learn – Scipy – Kmodes – Plotly

Travaux réalisés :
- Jointure naturelle des tables et analyse statistiques des données
- Méthode analytique : les quantiles et la table RFM Score
- Méthode automatique : K-means avec la réduction de dimension ACP et TSNE, K-modes
- Visualisation graphique des techniques de réduction de dimension : ACP, TSNE, DBSCAN, Clusterisation agglomérative
- Définition du tableau de bord des segments facilement exploitable par l’équipe marketing.
- ANOVA pour déterminer l'importance relative des variables de chaque cluster.
- Sankey : diagramme de flux de clients entre segments avec Plotly
- Détermination de l’intervalle de temps pour la maintenance du modèle par l’analyse de flux

OpenClassrooms - Openclassrooms

Education & E-learning

Computer vision

Paris, France

March 2020 - May 2020

2 external recommendations

Check out Guy Anthony's recommendations

Education