Guy Anthony N.

Data Scientist

Moves to Clermont-Ferrand, Lyon, Clermont-Ferrand, Paris

  • 45.7796
  • 3.0868
  • Indicative rate €350 / day
  • Experience 2-7 years
Propose a project The project will only begin when you accept Guy Anthony's quote.

Availability not confirmed

Part time, 4 days a week

Propose a project The project will only begin when you accept Guy Anthony's quote.

Location and geographical scope

Location
Clermont-Ferrand, France
Can work in your office at
  • Clermont-Ferrand and 50km around
  • Lyon and 100km around
  • Clermont-Ferrand and 100km around
  • Paris and 100km around

Preferences

Project length
  • ≤ 1 week
  • ≤ 1 month
  • Between 1-3 months
Business sector
  • Energy & Utilities
  • Transportation
  • Internet of Things
  • High Tech
  • Environment
+1 autres

Verifications

Influence

Languages

  • Français

    Native or bilingual

  • Anglais

    Limited working proficiency

Skills (23)

  • BigData
  • Beginner Intermediate Advanced
  • Frameworks
  • Beginner Intermediate Advanced
  • Beginner Intermediate Advanced
  • Beginner Intermediate Advanced
  • Databases
  • Beginner Intermediate Advanced
  • Languages
  • Beginner Intermediate Advanced
  • SQL
    Beginner Intermediate Advanced

Guy Anthony in a few words

Data scientist depuis 3 ans, développeur et entrepreneur, j'ai réalisé de nombreux applications sur des données volumineuses et de différentes natures (structurées ou pas). Mon champs de compétences comprend : apprentissage automatique, développement back-end (python/django, php/symfony, mysql, etc...). J'ai aussi un expertise CMS pour vous accompagner sur cet outil. Je travaille avec des open-sources car j'accorde une grande importance aux méthodes à l'état de l'art

Portfolio

Experience

Association santé publique

Health, Wellness & Fitness

Proposition d’application en lien avec l’alimentation au service de la santé publique.

Paris, France

October 2019 - November 2019

Données OpenFoodFacts : https://world.openfoodfacts.org/

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows - Anaconda - Jupyter Notebook
- Librairies : Pandas - Numpy - Matplotlib - Seaborn - Scikit-Learn - Scipy - re - nltk - Wordcloud

Travaux réalisés :
- Suppression des variables inutiles, des doublons
- Sélection des variables pertinentes à l'application
- Imputation des variables explicatives
- Suppression des ponctuations, accents, chiffres puis lemmatisation des variables textuelles.
- Analyse univariée : distplot et pie pour la distribution des variables numérique(resp. catégorielles).
- Détection et suppression des outliers : boxplot et test de Grubb
- Analyse multivariée : pairplot, matrice de corrélation, ANOVA
- Suppression des mots courants(stopwords), nuage de mots(wordcloud)
- Vectorisation Tf, cosinus de similarité
- Prédiction du grade nutritionnel avec l'algorithme k-NN.

OpenClassrooms - Openclassrooms

Civil Engineering

Prédire les émissions de CO2 et la consommation totale d’énergie de bâtiments en se basant sur des bases de données existantes.

Paris, France

November 2019 - December 2019

Données : https://www.kaggle.com/city-of-seattle/sea-building-energy-benchmarking

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – Jupyter Notebook
- Librairies : Pandas – Numpy – Pandas – Matplotlib – Seaborn – Scikit-Learn

Travaux réalisés :
- Prendre en compte la fuite de données pour les prédictions.
- Automatisation des processus : Pipeline
- Normalisation des variables de relevés de différentes années
- Imputation avec ColumnTransformer
- Passage au log(1+x) des variables expliqués
- Encodage variables catégorielles : OneHotEncoding, CountEncoding, TargetEncoding, CatBoostEncoding
- Standardisation des variables : StandardScaler
- Choix de la métrique RMSE fonction du problème
- Sélection de l' encodage avec la meilleure RMSE moyenne testée sur plusieurs modèles
- Sélection de variables pertinentes : Lasso ou régularisation L1, RFE
- Modèles baselines, hyper-paramétrage des modèles SVM, Ridge, Random Forest, Gradient Boosting de Scikit-Learn avec GridSearchCV
- Analyse des résultats : RMSE, temps d’exécution, importance des features, courbe d'apprentissage.

OLIST

E-commerce

Segmentez des clients d'un site e-commerce.

Clermont-Ferrand, France

December 2019 - February 2020

Comprendre les différents types d’utilisateurs grâce à leur comportement et à leurs données personnelles.
Maintenance de la stabilité des segments au cours du temps

Données : https://www.kaggle.com/olistbr/brazilian-ecommerce

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – Jupyter Notebook
- Librairies : Pandas – Numpy – Matplotlib – Seaborn – Scikit-Learn – Scipy – Kmodes – Plotly

Travaux réalisés :
- Jointure naturelle des tables et analyse statistiques des données
- Méthode analytique : les quantiles et la table RFM Score
- Méthode automatique : K-means avec la réduction de dimension ACP et TSNE, K-modes
- Visualisation graphique des techniques de réduction de dimension : ACP, TSNE, DBSCAN, Clusterisation agglomérative
- Définition du tableau de bord des segments facilement exploitable par l’équipe marketing.
- ANOVA pour déterminer l'importance relative des variables de chaque cluster.
- Sankey : diagramme de flux de clients entre segments avec Plotly
- Détermination de l’intervalle de temps pour la maintenance du modèle par l’analyse de flux

OpenClassrooms - Openclassrooms

Education & E-learning

Computer vision

Paris, France

March 2020 - May 2020

Phase 1 : Développez un modèle de haute performance de référence
- Préparation de la donnée : split en train, validation, test pour l'évaluation de façon pertinente et détecter l'overfitting
- Pré-traitement des images : whitening, equalization avec openCV
- Data augmentation : cropping, mirroring, contraste, redimensionnement avec ImageDataGenerator
- Mise en oeuvre par Transfer Learning d'un modèle CNN adapté à la problématique : Inception ResNetV2
- Mise en oeuvre de 2 modèles CNN from scratch
- Adaptation des hyper-paramètres des layers (kernel size, dropout, méthode d'activation des layers cachés, méthode d'activation du layer final, ...)
- Adaptation des hyper-paramètres de compilation du modèle (optimizer, loss, ...)
- Adaptation des hyper-paramètres d'exécution du modèle (batch size, nombre d'epochs, ...)
- Analyse des mal classées et amélioration du modèle

Phase 2 : preuve de concept
- Consultation des sources de connaissances reconnues du domaine de la data science (suffisamment récent)
- Mise en oeuvre d'une démarche structurée pour réaliser sa preuve de concept (nouvelle méthode, dataset, méthode baseline, bibliographiques, etc...) et explications des choix.
- La nouvelle méthode est correctement testée (train/test et/ou cross-validation au besoin). Evaluer plusieurs valeurs des paramètres
- Test des performances de la nouvelle méthode avec une métrique adaptée.
- La preuve de concept a porté sur l'état de l'art des méthodes de la classification d'images et la méthode FixRes
- Résultat obtenu : je suis passé de 91% à 94,7% par rapport à une précédente mission sur le même dataset.

kaggle

High Tech

Classification de commentaires toxiques multilingues - Jigsaw Conversation IA

Clermont-Ferrand, France

May 2020 - June 2020

Données : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data

Outils utilisés :
- Langage : Python 3.6
- Environnement : Ubuntu – TPU – Google Colaboratory – Kaggle
- Librairies : Pandas – Numpy – Matplotlib – Tensorflow – Keras – Transformers (HuggingFace) – tensorflow_hub – Multiprocessing

Travaux réalisés :
- Prétraitement en parallèle de la donnée : les mots avec astérisques, les mots mal orthographiés, les urls, les emojis, l'encodage des caractères, détection des langues, la traduction, etc..
- Échantillonnage et analyse des distributions entre le dataset d'entrainement et de test.
- Modélisation des représentations vectorielles de mots (tokeniseur, encodeur, taille de vecteurs, portabilité des entrées encodées, etc...)
- Construction du modèle par transfer learning et adaptation des hyper-paramètres des layers (kernel size, dropout, méthode d'activation des layers cachés et du layer final, ...)
- Adaptation des hyper-paramètres de compilation du modèle (optimizer, loss, ...)
- Mise en place d'un pipeline efficace pour les données d'entrées : tf.data.Dataset
- Chargement du modèle sur TPU
- Adaptation des hyper-paramètres d'exécution du modèle (batch size, nombre d'epochs, ...)
- Développement d'une stratégie d'entraînement adaptée aux données multilingues.
- Prédiction et évaluation du modèle sur la métrique auc. Résultat obtenu de 92.53%

Stack Overflow

High Tech

Catégorisez automatiquement des questions

Paris, France

February 2019 - March 2020

Développer un système de suggestion de tag pour les débutants sur le site Stack Overflow, ainsi que la recommandation des mots clés.

Données : https://data.stackexchange.com/stackoverflow/query/new

Outils utilisés :
- Langage : Python 3.6
- Environnement : Ubuntu – Google Colaboratory – GPU
- Librairies : Pandas – Numpy – Matplotlib – Scikit-Learn – BeautifulSoup – Spacy – nltk – wordcloud – re – pickle – gensim(Word2Vec, LdaModel, FastText) – faiss – lightgbm – catboost – xgboost – DistilBert – Flask

Travaux réalisés :
- Nettoyage et analyse du texte : lowercase, abréviations, html tags, contractions, ponctuations, stopwords, lemmatisation, bad symbols, nombres, espaces multiples, catégories grammaticales
- Distribution de N-grammes et worcloud
- Vectorisation du texte (Bag of words) : Tf, Tf-Idf
- Représentation vectorielle de mots (Word Embedding) : Word2Vec, DistilBert, Glove, FastText
- Sélection de la métrique de classification multi-classes : jaccard, matrice de confusion
- Sélection de la meilleure vectorisation Bag of words et la meilleure représentation word2vec
- Faiss, Hyper-paramétrage des modèles XGBoost, Catboost, LightGBM et Naive_bayes MultinomialNB pour trouver le meilleur modèle.
- Mettre en place une LDA pour extraire les mots clés
- Prédire les tags (supervisé) et de recommander des mots clés (approche non supervisé)
- Déploiement en local avec Flask

Chemseddine Nabti - Openclassrooms

9/4/2020

J'ai eu la chance de travailler avec Guy Anthony sur des projets en data science (NLP, Traitement d'images, etc.). Il est très impliqué. Toujours un bon travaille, et il maitrise bien les concepts du machine learning et deep learning. Je recommande vivement Guy Anthony

Julien Heiduk - Julien Heiduk

9/1/2020

J'ai pu mentoré Guy Anthony NAMA NYAM pendant plusieurs mois sur le parcours Machine Learning Engineer d'Openclassroom. Cela a été un plaisir de travailler avec lui. Il est le meilleur élève que j'ai pu avoir jusqu'à maintenant ! Sa capacité à s'adapter, apprendre de nouveaux concepts complexes et sa rigueur font de lui un très bon Data Scientist ! Je le recommande vivement !

Education

charter modal image

Success is a team effort

Contribute to this success and the community's professionalism by signing the Freelancer Code of conduct

Sign the code