Arnault G.

data scientist - machine learning - NLP

Remote from Paris

  • 48.85661400000001
  • 2.3522219000000177
  • Indicative rate €550 / day
  • Experience 2-7 years
  • Response rate 100%
  • Response time 12h
Propose a project The project will only begin when you accept Arnault's quote.

Availability not confirmed

Propose a project The project will only begin when you accept Arnault's quote.

Location and geographical scope

Location
Paris, France
Remote only
Works remotely most of the time

Preferences

Project length
  • ≤ 1 week
  • ≤ 1 month
  • Between 1-3 months
  • Between 3-6 months
  • ≥ 6 months
Business sector
  • Food Industry
  • Banking & Insurance
  • Consulting & Auditing
  • E-commerce
  • Software Publisher
+8 autres

Verifications

Influence

Languages

  • Anglais

    Full professional proficiency

  • Espagnol

    Full professional proficiency

  • Français

    Native or bilingual

Categories

Skills (23)

Arnault in a few words

Ingénieur data scientist avec 4 ans d'expérience spécialisé en NLP. J'ai travaillé dans les secteurs edtech, éthique des données, greentech, fintech et medtech mais suis ouvert à d'autres secteurs, même si je suis plus sensible aux sujets d'impact social. Autonome et allant au bout des choses, j'ai également une expérience entrepreneuriale.

Je suis spécialisé en machine learning / deep learning et en traitement du langage. Je conçois des algorithmes qui vous permettent d'automatiser vos tâches. Voici quelques exemples de problématiques que j'ai déjà rencontrées et traitées :

- Automatisation de tâches de classifications ou prédictions quantitatives
- Classification de textes (revues, tweets...)
- Reconnaissance d'entités (entreprises, noms, sur mesures...)
- Identification les liens entre concepts ou entités dans un texte (sujet, temporalité...)
- Création d'architecture deep learning pour des prédictions (utilisation de séquences et d'historique médicaux pour prévoir le futur d'un patient...)
- Segmentation clients (Profiling, scoring...)
- Analyses d'images (reconnaissance, classification...)
- Détection d'anomalies quelconques (Fraudes, burn-out...)
- Pricing de produits (détermination dynamique des prix)

Je suis diplômé de l'ENSAE et ai également un diplôme en économique quantitative (théorie de la décision).

Je ne travaille qu'à distance et suis disponible néanmoins pour des points réguliers.

Portfolio

Experience

Eticas

Consulting & Auditing

Audit d'un modèle NLP pour les services publiques

Barcelone, Espagne

December 2019 - June 2020

Eticas est une entreprise de LegalTech spécialisée dans le domaine de l'éthique et des biais sociaux.

Dans le cadre de cette mission, Eticas avait besoin d'un Data Scientist spécialisé en NLP afin d'auditer un modèle d'analyses de textes pour l'ajuntament (mairie) de Barcelone.

L'algorithme en question récupère les entretiens des citoyens qui effectuent une requête d'allocation sociale, traite les textes puis définit l'allocation idéale pour le citoyen.

Nous avons travaillé sur l'identification de biais de cet algorithme : nous avons identifié quels groupes sociaux étaient désavantagés lors de l'octroi d'allocations.
Par exemple, après avoir déterminé sémantiquement les groupes sociaux protégés, nous avons étudié les résultats de l'algorithme sur les familles monoparentales afin de mesurer si celles-ci avaient les mêmes chances que des familles biparentales d'avoir accès aux allocations ou si elles étaient désavantagées. L'objectif étant de vérifier que l'algorithme soit équitables pour tous les groupes sociaux protégés (femmes seules, LGBTQ+, étrangers...)

Lors de l'audit j'ai effectué les tâches suivantes :
- Analyses descriptives des allocations sociales: demandes / problèmes / ressources
- Implémentation et reproduction des algorithmes Deep Learning
- Définition des groupes sociaux protégés
- Segmentation des citoyens en groupes sociaux protégés en fonction du contenu des entretiens
- Création de groupes de contrôle
- Analyses des biais de l'algorithme en fonction des groupes sociaux
- Recommandation pour éliminer le biais

Linalgo

Education & E-learning

Data Scientist

Télétravail

February 2020 - February 2020

Correction de biais symétrique automatique

Dans le cadre de son travail, Linalgo fait annoter des textes à des consultants externes. Les annotations consistent à choisir entre 4 réponses sur un énoncé en anglais. Il est important lors de ces annotations de récupérer un maximum de réponses annotées avec une confiance maximale sur les annotations avant éventuellement d'automatiser le processus.

Dans le cadre de cette mission, j'ai mis en place un algorithme permettant de corriger automatiquement les biais des annotateurs. En d'autres termes, en fonction des réponses de chaque annotateur question, il est possible d'estimer la bonne réponse la plus vraisemblable.
Concrètement, cela permet lorsque vos annotateurs répondent différemment à la même question, de déterminer quelle la bonne réponse la plus plausible.

OpenClassrooms - Openclassrooms

Education & E-learning

Mentor Data Science

Télétravail

March 2019 - Today

- Prise en main d'étudiant en formation en Data Science
- Management d'étudiant sur des sujets de Data Science:
- Produire des data visualisations et analyses descriptives
- Segmenter des panels d'individus
- Calculer des scores de patient
- Identifier les déterminants d'un phénomène

Chaire SDSC

Food Industry

Data Scientist

Marseille, France

May 2017 - September 2018

La Chaire SDSC (Sustainable Demand-Supply Chain) - Fondation AgroParisTech, rassemble des industriels de l'agroalimentaire afin de travailler sur des problématiques communes (gaspillages, innovations techniques...). Les travaux menés ont été commandés par deux industriels français.

Dans le but d'optimiser une chaîne de valeur de l'agroalimentaire, deux industriels (un producteur et un distributeur) ont mis en commun leurs données afin de trouver des leviers communs qui permettraient d'améliorer le gaspillage alimentaire et le gaspillage monétaire (déclassement de produits).

Ce projet est une étude de recherche opérationnelle sur laquelle je travaille de la collecte des données à la remise d'un rapport commun sur les différents leviers à exploiter afin d'optimiser la chaîne de bout en bout.

Le projet à suivi les étapes suivantes :
- Description de la données, analyses de la qualité de la donnée, détection d'anomalies
- Modélisation statistiques d'une base de données consolidées
- Modélisation des gaspillages matières et financiers par des algorithmes de machine learning
- Détermination des leviers clés d'optimisation via statistiques, machine learning et économétrie

Chappuis Halder

Banking & Insurance

Data Scientist

Paris, France

July 2016 - May 2017

En tant que chercheur opérationnel dans les services financiers, j'ai mené plusieurs "PoC" (Proof-of-Concept) en SaaS mais aussi des sujets de recherche opérationnelle sur les crises généralisées.

Les PoCs étaient à destination des professionnels de la finance afin d'analyser leurs mails, plusieurs fonctionnalités ont été ou étaient en cours de développement :

- Analyses descriptives et visualisation des métriques principales
- Visualisation des réseaux et sous réseaux issues des mails professionnels
- Prédiction du nombre de mails reçus
- Analyse sentimentale des mails de contacts afin de réorienter vers les bons services
- Détection d'anomalies comme la fraude ou les burn-out

En outre sur la recherche opérationnelle, nous avons étudié les similarités entre les crises bancaires et la propagation des virus dans les populations :
- Modélisation de processus viraux dans une population
- Estimation via méthode de Monte-Carlo
- Estimation via méthode de filtrage (filtre particulaire, de Kalman...)
- Estimation des matrices de migrations de populations

Chappuis Halder

Banking & Insurance

Data Scientist

Paris, France

July 2014 - July 2015

En tant que consultant, j'ai effectué des missions de tout type chez des clients bancaires : une banque systémique française et une banque nationale à l'étranger. Les principaux objectifs des missions ont été :

- Segmentation clients et notation interne des clients
- Modélisation du risque d'un portefeuille bancaire
- Projections des risques d'un portefeuille dans le temps suivant plusieurs scénarios
- Estimation et projections des flux financiers dans le temps
- Audits de modèles bancaires internes

En outre, j'ai également mené plusieurs sujets de recherche, notamment sur l'estimation de l'impact d'une crise systémique sur un portefeuille bancaire : ou comment répartir le risque par classes.

Arnaud Rachez - Linalgo

6/25/2020

Arnault est un Data Scientist complet : très compétent techniquement et excellent communiquant. Il a su rapidement s'intégrer à l'équipe et a proposé une solution pertinente et rigoureuse à un problème complexe d'évaluation de la qualité pour le NLP. Le projet est un succès et je recommande Arnault sans hésitations.

Gautier Thiriez - MySendingBox

12/8/2019

Très content du travail réalisé par Arnault. Nous avons collaboré sur plusieurs projets ensemble (Profiling de nos clients, classification automatique de mails entre autres), à chaque fois les livrables étaient dans les temps et de qualité.

Education

charter modal image

Success is a team effort

Contribute to this success and the community's professionalism by signing the Freelancer Code of conduct

Sign the code