Présentation
Un cabinet de courtage en assurance souhaitait repenser l'expérience digitale proposée à ses prospects et clients. Comme beaucoup d'entreprises, le cabinet avait digitalisé ses parcours : formulaires de contact sur le site web, demandes de devis en ligne, FAQ, emails automatiques de confirmation et de suivi.
Mais cette digitalisation avait un effet pervers : elle déshumanisait la relation. Les prospects remplissaient un formulaire et recevaient en retour un email générique, froid, manifestement automatisé. L'attente avant un rappel téléphonique créait une rupture dans l'engagement. Le site web, malgré les efforts de design, restait une interface statique sans personnalité.
Or, le métier de courtier repose fondamentalement sur la relation humaine. C'est la confiance dans un interlocuteur, sa capacité à comprendre une situation personnelle et à proposer une solution adaptée, qui fait la différence avec une souscription en ligne sur un comparateur. Perdre cette dimension humaine dès le premier contact digital, c'était affaiblir le positionnement même du cabinet.
L'idée a émergé : et si l'on pouvait donner un visage humain à ces interactions digitales ? Non pas un avatar générique ou un chatbot textuel de plus, mais une vraie personne — une commerciale du cabinet, reconnaissable, chaleureuse, incarnant les valeurs de l'entreprise — capable de s'adresser aux visiteurs en vidéo, de manière personnalisée, à n'importe quel moment du parcours.
Problématique
Comment humaniser les interactions digitales automatisées tout en conservant les bénéfices de l'automatisation — disponibilité 24/7, instantanéité, scalabilité ?
Le cabinet faisait face à une tension classique de la digitalisation.
D'un côté, l'automatisation est indispensable. Un cabinet de taille modeste ne peut pas affecter un collaborateur à répondre en temps réel à chaque formulaire, à chaque question, à chaque demande d'information. Les emails automatiques, les FAQ, les chatbots textuels permettent de traiter un volume de sollicitations impossible à gérer manuellement.
De l'autre, cette automatisation crée une distance. Le prospect sent qu'il interagit avec une machine. Les réponses sont génériques, impersonnelles, parfois décalées par rapport à sa situation. L'engagement émotionnel — celui qui transforme un simple curieux en client fidèle — ne se crée pas.
Les chatbots textuels, même dopés à l'IA, restent des échanges écrits. Ils peuvent être utiles, mais ils ne créent pas de connexion émotionnelle. On lit, on répond, on oublie.
Les vidéos préenregistrées classiques manquent de personnalisation. Une vidéo de présentation générique sur la page d'accueil, c'est mieux que rien, mais le visiteur sait qu'elle n'est pas faite pour lui.
Les appels téléphoniques de suivi arrivent souvent trop tard — le prospect a eu le temps de refroidir, de consulter la concurrence, de passer à autre chose.
Le cabinet disposait d'un atout : une équipe commerciale compétente et appréciée des clients. Les retours sur la qualité de l'accompagnement humain étaient excellents. Le défi était de projeter cette qualité relationnelle dans l'espace digital, avant même le premier contact téléphonique.
L'idée n'était pas de remplacer les commerciaux par des robots, mais d'étendre leur présence — de leur permettre d'accueillir chaque visiteur, de répondre à chaque formulaire, d'accompagner chaque parcours, sans démultiplier leur temps de travail.
Solution
Nous avons créé un avatar IA à partir d'une vraie commerciale du cabinet, capable de s'adresser aux prospects en vidéo de manière personnalisée et contextuelle, tout en étant entièrement automatisé.
La première décision stratégique a été de partir d'une personne réelle plutôt que de créer un personnage fictif ou d'utiliser un avatar générique.
Nous avons travaillé avec une commerciale du cabinet, volontaire pour l'expérience et à l'aise devant la caméra. Ce choix présentait plusieurs avantages : authenticité (c'est une vraie personne, que les clients peuvent rencontrer), cohérence (elle incarne réellement les valeurs du cabinet), et différenciation (pas de risque de ressemblance avec les avatars standardisés utilisés par d'autres).
La commerciale a été impliquée dans tout le processus, depuis la captation jusqu'à la validation des rendus finaux. Son adhésion au projet était essentielle — l'avatar devait être une extension de sa présence, pas une caricature.
Une session de tournage professionnelle a permis de capturer les éléments nécessaires à la génération de l'avatar :
Captation vidéo haute définition : plusieurs minutes de vidéo de la commerciale, sous différents angles et avec différentes expressions, dans un environnement contrôlé (éclairage uniforme, fond neutre). Ces rushes constituent la matière première à partir de laquelle le modèle apprend les caractéristiques visuelles : traits du visage, mouvements des lèvres, expressions, gestuelle.
Clonage vocal : enregistrement de plusieurs dizaines de phrases couvrant une variété de phonèmes, d'intonations et d'émotions. Ces échantillons permettent d'entraîner un modèle de synthèse vocale capable de reproduire fidèlement la voix de la commerciale — timbre, rythme, accent, inflexions.
Calibration des expressions : captation de différents états émotionnels (sourire, concentration, empathie, dynamisme) pour permettre à l'avatar de moduler son expression selon le contexte du message.
Les éléments captés alimentent un pipeline de génération vidéo basé sur des modèles d'IA générative :
Modèle de synthèse vocale (Text-to-Speech) : à partir d'un texte, génération d'un audio avec la voix clonée de la commerciale. Le modèle respecte la prosodie naturelle, les pauses, les accentuations, produisant un rendu indistinguable d'un enregistrement réel.
Modèle de synchronisation labiale (Lip Sync) : à partir de l'audio généré, animation des lèvres de l'avatar en synchronisation parfaite avec la parole. Les mouvements de bouche correspondent précisément aux phonèmes prononcés.
Modèle d'animation faciale : au-delà des lèvres, animation de l'ensemble du visage — clignements des yeux, micro-expressions, mouvements de tête — pour un rendu naturel et vivant, évitant l'effet "vallée de l'étrange" des avatars trop figés.
Rendu final : composition de la vidéo finale intégrant l'avatar animé dans un environnement cohérent (arrière-plan du cabinet, éléments de branding).
L'avatar a été déployé sur plusieurs points de contact du parcours client :
Réponse aux formulaires de contact : lorsqu'un prospect soumet une demande via le site, il reçoit dans les minutes qui suivent un email contenant une vidéo personnalisée. L'avatar s'adresse à lui par son prénom, accuse réception de sa demande, résume ce qu'il a compris de son besoin, et annonce les prochaines étapes. Le texte du message est généré dynamiquement par un LLM à partir des informations du formulaire, puis transformé en vidéo.
Confirmation de rendez-vous : après la prise d'un rendez-vous téléphonique, l'avatar envoie une vidéo de confirmation personnalisée, rappelant la date et l'heure, et donnant un avant-goût de ce qui sera abordé.
Accueil sur le site web : un widget permet à l'avatar d'accueillir les visiteurs, de se présenter, et de proposer son aide. Selon les pages visitées, le message s'adapte au contexte (page assurance auto, page assurance santé, etc.).
Suivi post-devis : quelques jours après l'envoi d'un devis sans réponse, l'avatar envoie une relance bienveillante, proposant de répondre aux questions éventuelles.
L'intelligence de la solution réside dans sa capacité à générer des messages réellement personnalisés, pas simplement des vidéos génériques avec un prénom incrusté.
Le pipeline de génération s'appuie sur un modèle de langage (LLM) qui :
Analyse le contexte : informations du formulaire, pages visitées sur le site, historique éventuel si le contact est déjà connu, heure et jour de la demande.
Génère un script adapté : rédaction d'un message sur mesure, dans le ton de la commerciale (chaleureux, professionnel, rassurant), intégrant les éléments pertinents du contexte.
Respecte les contraintes : durée cible de la vidéo (30 à 60 secondes pour maintenir l'attention), structure du message (accroche, contenu, appel à l'action), éléments obligatoires (mentions légales si nécessaire).
Le script généré est ensuite transformé en vidéo par le pipeline de synthèse, le tout en quelques minutes.
Comme pour tout système automatisé touchant à la relation client, des mécanismes de contrôle ont été mis en place :
Validation des scripts sensibles : pour certains contextes (réclamations, situations délicates détectées), le script généré est soumis à validation humaine avant génération de la vidéo.
Monitoring de la qualité : échantillonnage régulier des vidéos produites pour vérifier la qualité du rendu et la pertinence des messages.
Feedback loop : les réponses des prospects (clics, réponses, prises de rendez-vous) alimentent l'amélioration continue des scripts.













