Search for a freelancer Post a project

Welcome to Guy Anthony's freelance profile!

Malt gives you access to the best freelancers for your projects. Contact Guy Anthony to discuss your project or search for other freelancer profiles on Malt.

Guy Anthony N.

Data Scientist

Can work in or around Clermont-Ferrand, Lyon, Clermont-Ferrand, Paris

  • 45.7796
  • 3.0868
Propose a project The project will begin once you accept Guy Anthony's quote.
Propose a project The project will begin once you accept Guy Anthony's quote.

Location and workplace preferences

Location
Clermont-Ferrand, France
Can work on-site in your office in
  • around Clermont-Ferrand and 50km
  • Around Lyon and 100km
  • Around Clermont-Ferrand and 100km
  • Around Paris and 100km

Preferences

Project length
  • ≤ 1 week
  • ≤ 1 month
  • Between 1-3 months
Business sector
  • Energy & Utilities
  • Transportation
  • Internet of Things (IoT)
  • Tech
  • Environmental
+1 autres

Verifications

Freelancer code of conduct signed
Read the Malt code of conduct

Verified email

Reputation

Languages

Categories

Skills (23)

  • BigData
  • Beginner Intermediate Advanced
  • Data Science
  • Beginner Intermediate Advanced
  • NLP
    Beginner Intermediate Advanced

Guy Anthony in a few words

Data scientist depuis 3 ans, développeur et entrepreneur, j'ai réalisé de nombreux applications sur des données volumineuses et de différentes natures (structurées ou pas). Mon champs de compétences comprend : apprentissage automatique, développement back-end (python/django, php/symfony, mysql, etc...). J'ai aussi un expertise CMS pour vous accompagner sur cet outil. Je travaille avec des open-sources car j'accorde une grande importance aux méthodes à l'état de l'art

Portfolio

Portfolio is only available to registered users

Experience

Association santé publique

Health & Wellness

Proposition d’application en lien avec l’alimentation au service de la santé publique.

Paris, France

October 2019 - November 2019 (1 month)

Données OpenFoodFacts : https://world.openfoodfacts.org/

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows - Anaconda - Jupyter Notebook
- Librairies : Pandas - Numpy - Matplotlib - Seaborn - Scikit-Learn - Scipy - re - nltk - Wordcloud

Travaux réalisés :
- Suppression des variables inutiles, des doublons
- Sélection des variables pertinentes à l'application
- Imputation des variables explicatives
- Suppression des ponctuations, accents, chiffres puis lemmatisation des variables textuelles.
- Analyse univariée : distplot et pie pour la distribution des variables numérique(resp. catégorielles).
- Détection et suppression des outliers : boxplot et test de Grubb
- Analyse multivariée : pairplot, matrice de corrélation, ANOVA
- Suppression des mots courants(stopwords), nuage de mots(wordcloud)
- Vectorisation Tf, cosinus de similarité
- Prédiction du grade nutritionnel avec l'algorithme k-NN.

OpenClassrooms - Openclassrooms

Civil Engineering

Prédire les émissions de CO2 et la consommation totale d’énergie de bâtiments en se basant sur des bases de données existantes.

Paris, France

November 2019 - December 2019 (1 month)

Données : https://www.kaggle.com/city-of-seattle/sea-building-energy-benchmarking

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – Jupyter Notebook
- Librairies : Pandas – Numpy – Pandas – Matplotlib – Seaborn – Scikit-Learn

Travaux réalisés :
- Prendre en compte la fuite de données pour les prédictions.
- Automatisation des processus : Pipeline
- Normalisation des variables de relevés de différentes années
- Imputation avec ColumnTransformer
- Passage au log(1+x) des variables expliqués
- Encodage variables catégorielles : OneHotEncoding, CountEncoding, TargetEncoding, CatBoostEncoding
- Standardisation des variables : StandardScaler
- Choix de la métrique RMSE fonction du problème
- Sélection de l' encodage avec la meilleure RMSE moyenne testée sur plusieurs modèles
- Sélection de variables pertinentes : Lasso ou régularisation L1, RFE
- Modèles baselines, hyper-paramétrage des modèles SVM, Ridge, Random Forest, Gradient Boosting de Scikit-Learn avec GridSearchCV
- Analyse des résultats : RMSE, temps d’exécution, importance des features, courbe d'apprentissage.

OLIST

E-commerce

Segmentez des clients d'un site e-commerce.

Clermont-Ferrand, France

December 2019 - February 2020 (2 months)

Comprendre les différents types d’utilisateurs grâce à leur comportement et à leurs données personnelles.
Maintenance de la stabilité des segments au cours du temps

Données : https://www.kaggle.com/olistbr/brazilian-ecommerce

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – Jupyter Notebook
- Librairies : Pandas – Numpy – Matplotlib – Seaborn – Scikit-Learn – Scipy – Kmodes – Plotly

Travaux réalisés :
- Jointure naturelle des tables et analyse statistiques des données
- Méthode analytique : les quantiles et la table RFM Score
- Méthode automatique : K-means avec la réduction de dimension ACP et TSNE, K-modes
- Visualisation graphique des techniques de réduction de dimension : ACP, TSNE, DBSCAN, Clusterisation agglomérative
- Définition du tableau de bord des segments facilement exploitable par l’équipe marketing.
- ANOVA pour déterminer l'importance relative des variables de chaque cluster.
- Sankey : diagramme de flux de clients entre segments avec Plotly
- Détermination de l’intervalle de temps pour la maintenance du modèle par l’analyse de flux

OpenClassrooms - Openclassrooms

Education & E-learning

Computer vision

Paris, France

March 2020 - May 2020 (2 months)

7 projects on Malt

(3 ratings)

Check out Guy Anthony's project reviews

3 external recommendations

Check out Guy Anthony's recommendations

Education