Data Engineer
Formation longue certifiante / 700 heures (10 mois) / Réf. LUNFC101
Titre RNCP 37624 délivré par Lunalogic et CFA Stephenson (date enregistrement : 31 mai 2023)
Format : Inter
Lieu : Distanciel
Présentation de la formation
La numérisation des données a transformé notre façon de les partager, devenant ainsi un enjeu stratégique. Avec l’essor des outils informatiques et l’avènement d’Internet, la quantité de données produites par les entreprises, les individus et les organisations a explosé. On parle désormais de big data pour décrire ces volumes massifs de données. Dans ce contexte, le rôle crucial du Data Engineer émerge : il est l’architecte des données massives et de l’intelligence artificielle, indispensables à la transformation numérique de la société.
Date de début de la formation : septembre 2024
PRE-REQUIS
Le niveau initial requis pour être candidat à cette certification est un niveau 6. Cependant, il est possible de candidater avec un niveau inférieur, si le candidat répond aux exigences suivantes :
- Il a validé à minima un niveau 5 en lien avec la certification
- Il peut se prévaloir d’une expérience professionnelle significative (plus de 3 ans) en lien avec les activités et les compétences relevant de la certification
CONDITIONS D’ACCES
La procédure d’inscription se déroule en plusieurs phases :
- Pré-inscription via un formulaire en ligne
- Envoi des justificatifs de diplômes et d’expériences
- Entretien en visio-conférence avec un représentant de l’organisme de formation et un intervenant
- Test de positionnement
PUBLIC CIBLE
Professionnels de l’informatique : Les développeurs de logiciels, les architectes de systèmes, les analystes de données, et d’autres professionnels de l’informatique souhaitant élargir leurs compétences et se préparer à des rôles de développeur d’IA.
Jeunes diplômés souhaitant compléter une formation en informatique et ayant déjà une expérience en entreprise (stage, alternance…).
OBJECTIFS PEDAGOGIQUES ET OPERATIONNELS
A l’issue du module 1, le participant sera en mesure de :
- Analyser les besoins en intégrant les ressources disponibles, les contraintes, les risques afin de proposer une solution correspondant à la demande du client
- Analyser le besoin de protection des données en mesurant leur sensibilité afin de définir une politique de sécurité et une gouvernance du Système d’Information (SI)
- Identifier et mesurer les risques liés à la protection juridique de l’entreprise et de ses parties prenantes en respectant la législation des pays concernés en matière de chiffrement, détention, transit, domiciliation des prestataires afin de diminuer les risques de conflit avec une juridiction ou entre deux juridictions
- Rédiger les cahiers des charges fonctionnel et technique de manière accessible en se basant sur l’analyse des besoins validée par le client, afin de spécifier les caractéristiques de la solution à développer ou à adapter
- Concevoir l’architecture sécurisée de la solution à développer ou à adapter en se basant sur les différents cahiers des charges en vue de proposer un système opérationnel de gestion de données massives
- Conduire et réaliser le développement ou l’adaptation d’une solution en ayant recours aux langages de programmation et aux technologies de base de données les plus adaptés et en garantissant la conformité aux cahiers des charges afin de livrer un système opérationnel, sécurisé, accessible, destiné à collecter, nettoyer, traiter, stocker et exploiter des données
- Réunir et coordonner des compétences spécialisées nécessaires au développement de la solution en mettant en oeuvre les bonnes pratiques de gestion d’équipe, de gestion de projet et de prise en compte des éventuelles situations de handicap
- Réaliser des tests en se basant sur des jeux de données et valider le bon fonctionnement et la sécurité de la solution développée ou adaptée en conformité avec les attentes du client
A l’issue du module 2, le participant sera en mesure de :
- Contribuer à la rédaction d’une charte éthique (accessible à l’ensemble des collaborateurs) relative aux données manipulées, en déclinant les exigences sociétales et environnementales fixées par l’entreprise afin de respecter les engagements de celle-ci dans ces domaines
- Collaborer à l’élaboration de la stratégie de transition data de l’entreprise, respectueuse de la charte éthique, en identifiant ses métiers et activités concernés, en définissant le périmètre du projet de transition, ses objectifs, ses étapes, ses délais, le budget requis et les indicateurs de réussite afin de soutenir le développement de l’entreprise
- Proposer des évolutions du système de données de l’entreprise, en modifiant sa structuration et ses modes d’accès, en définissant des indicateurs de mesure, pour améliorer sa mise à disposition et son exploitation par les utilisateurs
- Piloter et mettre en place dans son champ d’expertise la transition data de l’entreprise en faisant évoluer des process, des métiers, des activités, afin d’optimiser leurs fonctionnements
- Planifier et gérer les projets relevant de la transition en définissant les objectifs, les indicateurs, les jalons, et les livrables, afin de respecter les délais convenus avec le client
- Concevoir et mettre en exploitation des outils de suivi inclusifs à partir des données qu’il aura identifiées afin de piloter un projet pour détecter et corriger les écarts, les risques
- Manager et assurer l’accompagnement des métiers et des acteurs de l’entreprise dans leur évolution en organisant ou contribuant à des actions de formation et d’acculturation accessibles afin de passer à une culture de la donnée respectueuse de la sécurité, du cadre juridique et de l’éthique
- Évaluer le niveau d’adhésion des acteurs de l’entreprise à la démarche de transition data en mettant en place des indicateurs d’acceptation afin d’identifier d’éventuelles difficultés ou réticences
- Mettre en place un dispositif de veille juridique et technologique expert portant sur les champs de la Data, du Big Data, de l’IA et de la cybersécurité en identifiant les sources d’informations les plus pertinentes afin de faire évoluer le Système d’Information (SI) et les solutions Data mises en place
- Exploiter les informations issues de la veille juridique et technologique afin de proposer des évolutions du SI et de faire évoluer les solutions Data dont il a la responsabilité
A l’issue du module 3, le participant sera en mesure de :
- Mobiliser et coordonner les expertises techniques en utilisant les méthodes de conduite de projet et d’animation d’équipe, en prenant en compte des éventuelles situations de handicap, afin de mettre en œuvre le déploiement ou l’industrialisation et la maintenance d’une solution de gestion de données
- Déployer ou industrialiser une solution dans le respect du cahier des charges en mobilisant les ressources techniques, budgétaires, humaines et en tenant compte des contraintes pour mettre à disposition un système de collecte maintenable, robuste, scalable et pouvant gérer des données massives
- Mettre en place et superviser avec les services informatiques de l’entreprise, la protection de la solution et des données, en déployant les outils de sécurité, d’anonymisation, et en instaurant un mécanisme de supervision afin de consolider l’intégrité, la disponibilité, l’accessibilité, la confidentialité et la lisibilité des données
- Mettre en exploitation la solution en monitorant la charge et la performance pour permettre la collecte, le nettoyage, le traitement, le stockage et l’exploitation des données
- Attribuer et configurer les droits d’accès au système et aux données mises à disposition pour restreindre leur accessibilité aux personnes autorisées en se référant au cahier des charges du projet et à la politique de sécurité de l’entreprise
- Evaluer la performance du système en effectuant des retours sur expérience par la collecte et la synthèse des informations relatives aux insuffisances et aux points d’amélioration potentiels en vue de son évolution
- Conduire les évolutions du système en réponse aux points d’amélioration et insuffisances détectées lors de l’évaluation de ses performances afin de garantir un fonctionnement optimisé
- Planifier et mettre en place une maintenance préventive du système de gestion de données afin d’assurer son bon fonctionnement et la disponibilité des données
A l’issue du module 4, le participant sera en mesure de :
- Analyser expérimentalement les différents modèles d’Intelligence Artificielle/Machine Learning à travers des tests et des analyses statistiques afin de répondre aux besoins du client
- Affiner le modèle d’Intelligence Artificielle/Machine Learning en cherchant les paramètres optimaux et en évaluant l’adéquation des modèles d’apprentissage avec le besoin exprimé afin de garantir ses capacités de prédiction
- Déployer ou Industrialiser le modèle d’Intelligence Artificielle/Machine Learning à travers la mise en place des pipelines de données et dans le respect du cadre réglementaire pour garantir la qualité, la fiabilité, la rapidité et la scalabilité de la solution
- Évaluer la performance du modèle d’Intelligence Artificielle/Machine Learning déployé ou industrialisé en se basant sur les métriques de référence afin d’optimiser ce modèle
- Communiquer ses résultats au client (interne/externe) de façon accessible (datavisualisation) pour démontrer la performance du modèle d’Intelligence Artificielle/Machine Learning
A l’issue du module 5, le participant sera en mesure de :
- Recueillir les besoins des utilisateurs/décideurs par un processus de questionnement afin d’identifier les données internes à collecter et exploiter
- Identifier les données externes au moyen d’un système de veille afin de les intégrer ou de les croiser aux données internes
- Collecter des données structurées, ou non structurées, en mobilisant des sources variées en prévision de leur stockage et de leur exploitation
- Stocker des données structurées, ou non structurées, dans une base de données, un data lake, ou un entrepôt de données, en garantissant leur sécurité afin de les mettre à disposition des différents utilisateurs/décideurs
- Extraire les données identifiées d’une base de données, d’un data lake ou d’un entrepôt de données, à l’aide d’outils adaptés afin de les mettre à disposition des différents utilisateurs/décideurs dans un format exploitable
- Nettoyer les données contenues dans une base de données, un data lake, ou un entrepôt de données en s’assurant de leur qualité et de leur utilisabilité pour les restituer en un ensemble exploitable, homogène ou hétérogène
- Créer des outils de pilotage accessibles (tableaux de bord automatisés) en identifiant les indicateurs clés pour permettre aux utilisateurs/décideurs de faire face aux évolutions de l’activité et prendre les décisions adaptées
- Présenter le fonctionnement des outils de pilotage et les indicateurs clés identifiés, aux parties prenantes de façon accessible (datavisualisation) afin d’en obtenir la validation et l’appropriation
- Présenter et défendre ses recommandations en se basant sur l’analyse des informations issues des outils de pilotage, afin de permettre aux clients internes une prise de décision éclairée (data gouvernance) et de créer de nouvelles opportunités
PROGRAMME
Module 1 : Conduire et réaliser le développement ou l’adaptation d’une solution pour collecter, nettoyer, traiter, stocker et exploiter des données
- Analyse du besoin et rédaction du cahier des charges
- Protection juridique de l’entreprise
- Sécurité des données et des systèmes d’information
- Architecture d’un système de gestion de données
- SQL et bases de données
- Extraction, nettoyage et traitement des données (Kafka et spark)
- Python pour la Data
- Les outils de la data
- Hbase et Hive
Module 2 : Manager la transition data de l’entreprise
- Éthique et droit appliqués à la donnée
- Stratégie d’entreprise et stratégie de données
- Gestion de projet
- Accompagnement au changement
- Veille technologique, juridique et règlementaire
Module 3 : Organiser et mettre en œuvre le déploiement ou l’industrialisation et la maintenance d’une solution opérationnelle de gestion de données
- Management d’équipe et Leadership
- Déploiement Cloud : AWS
- Déploiement In-House
- Gestion et monitoring du SGDD
- Sécurité du SGDD et des données
- Maintenance préventive et corrective du Sl et du SGDD
Module 4 : Concevoir, mettre en œuvre et optimiser un modèle d’Intelligence Artificielle/Machine Learning
- Introduction à l’IA et au Machine Learning
- Mathématiques pour l’IA et le Machine Learning
- Apprentissage Supervisé et Non Supervisé
- Réseaux de Neurones
- Optimisation des Modèles d’IA et Tests
- Python pour le ML
- Déploiement de Modèles de Machine Learning
- Préparation et Nettoyage des Données pour l’IA/ML
Module 5 : Exploiter la donnée pour piloter l’activité de l’entreprise et créer de nouvelles opportunités
- Analyse de données pour le Business
- Tableau de Bord pour le BI (Power BI, Grafana,…)
- Test de cohérence de données (sortie algorithmie ou sortie d’IA)
- Visualisation de données et communication des résultats
La possibilité de valider un ou des blocs de compétences est proposée par le certificateur.
MODALITES PEDAGOGIQUES
La formation se déroule principalement à distance et alterne des phases de distanciel synchrone sous forme de classes virtuelles et des phases en distanciel asynchrone.
5 regroupements en présentiel de 2 jours chacun sont organisés à plusieurs étapes du parcours.
Cours : permettant d’acquérir les connaissances en lien avec l’IA
Ateliers pratiques : projets pratiques liés à l’IA,
Études de cas : travail sur des situations tirées de cas réels.
Travail en groupe : Pour développer des compétences en collaboration, communication, essentielles pour la gestion de projets.
Des ressources en ligne (documents, tutoriels, forums de discussion…) qui complètent l’apprentissage en salle.
Évaluations formatives : des tests réguliers, des projets et des sessions de feedback pour aider les participants à évaluer leur progression et à identifier les points d’amélioration.
MODALITES D’EVALUATION
La certification est obtenue sous les conditions suivantes :
- avoir validé les 5 blocs de compétences,
- avoir réalisé une période en entreprise de 6 mois évaluée par un professionnel de la data,
- avoir rédigé et soutenu un mémoire professionnel. La moyenne des deux notes obtenues par le candidat doit être à minima égale à 10 sur 20 : (note mémoire + note soutenance) / 2 > ou = à 10 sur 20.
EQUIVALENCES ET PASSERELLES
Equivalences
Si vous avez déjà obtenu un titre RNCP d’un niveau et d’une spécialité similaires, vous pouvez demander une équivalence partielle. La demande doit être effectuée par e-mail à l’adresse contact-fc@ensup.eu
La demande est ensuite transmise au certificateur pour validation.
Passerelles
Si vous avez déjà validé un ou plusieurs bloc(s) de compétences du titre dans le cadre d’un des bootcamps proposés par l’ENSUP, vous conservez le bénéfice du bloc validé et êtes dispensé des modules et des évaluations correspondantes.
DEBOUCHES
A l’issue de l’obtention de la certification, vous pourrez intégrer des entreprises de toutes tailles et de tous secteurs au sein de services data, informatiques, BI ou auprès de services métiers (marketing, analyse financière, etc.).
Vous pourrez vous spécialiser dans la gestion de données massives (big data) ou dans des missions intégrant le machine learning.
PRIX
12 500 € repas et pauses compris
Découvrez les différents financements possibles ici.
Votre situation nécessite des adaptations ? N’hésitez pas à contacter notre référent handicap à l’adresse suivante : asoares@ensup.eu
Il s’agit d’une nouvelle formation et aucune session n’a encore été réalisée. Le taux d’obtention de la certification, le taux d’insertion professionnel à 6 mois et le taux d’insertion dans le métier ne sont pas encore disponibles car le titre a récemment été déposé (mai 2023).