← Retour au blog

MediaPipe et le skeleton tracking sur smartphone, expliqués simplement

Comment un téléphone analyse-t-il vos mouvements en temps réel ? On vous explique MediaPipe, les 33 points-clés, et pourquoi ça change le coaching sportif IA.

Par DigiCoach··5 min de lecture

Vous filmez votre squat avec votre téléphone. Une seconde plus tard, vous voyez s'afficher les angles précis de vos genoux, de vos hanches, de votre dos. Aucune connexion réseau utilisée, aucune vidéo envoyée nulle part. Comment c'est possible ? La réponse tient en un mot : MediaPipe. C'est la brique technologique qui permet à un coach sportif IA gratuit de tourner directement sur votre smartphone, et c'est aussi ce qui distingue DigiCoach de la plupart des solutions du marché.

Le problème : pourquoi a-t-on besoin d'un coach IA ?

Quand on s'entraîne seul à la maison, on est confronté à un dilemme : soit on paie un coach humain (entre 40 et 80 € la séance, plusieurs fois par semaine), soit on suit des programmes vidéo génériques sans aucun retour personnalisé. Le résultat : on rate sa technique, on stagne, et parfois on se blesse.

Filmer ses séries avec un téléphone et les revisionner aide un peu, mais demande beaucoup de temps et un œil expert. Ce que la plupart des gens veulent, c'est un retour immédiat : "Ton genou rentre", "Tes coudes s'ouvrent trop", "Ton dos s'arrondit". C'est exactement le rôle d'un coach virtuel propulsé par l'IA.

Qu'est-ce que MediaPipe ?

MediaPipe est une bibliothèque open-source développée par Google depuis 2019. Elle propose des modèles de vision par ordinateur ultra-optimisés pour tourner sur des appareils mobiles : détection de visage, suivi des mains, analyse de posture, segmentation d'image, etc.

Ce qui rend MediaPipe particulier, c'est qu'il est conçu pour fonctionner localement, en temps réel, sans GPU dédié. Concrètement : votre iPhone ou votre smartphone Android peut analyser une vidéo à 30 images par seconde sans broncher, en utilisant uniquement le processeur du téléphone.

Pour le coaching sportif, on utilise spécifiquement le modèle Pose Landmarker (anciennement BlazePose), qui détecte la position du corps humain dans une image.

Les 33 points-clés du skeleton tracking

Le modèle Pose Landmarker identifie 33 points-clés (landmarks) sur le corps humain. Ils correspondent grosso modo aux articulations principales et à quelques points de référence supplémentaires :

  • Visage (11 points) : nez, yeux, oreilles, bouche
  • Tronc (4 points) : épaules et hanches
  • Bras (6 points) : coudes, poignets, et points de la main
  • Mains (6 points) : pouce, index, auriculaire de chaque main
  • Jambes (6 points) : genoux, chevilles, pieds

Pour chaque point, MediaPipe retourne :

  • des coordonnées 2D (position dans l'image),
  • une profondeur estimée (Z, en 2.5D),
  • un score de confiance (0 à 1, selon la visibilité du point).

À partir de ces 33 points, on peut calculer n'importe quel angle articulaire. Par exemple, l'angle du genou est l'angle formé entre la hanche, le genou et la cheville. C'est cet angle qui permet à DigiCoach de savoir si votre squat descend assez bas, ou si votre coude est correctement plié pendant une pompe.

Pourquoi tourner en local sur le téléphone ?

C'est probablement le point le plus important, et celui qui distingue DigiCoach de beaucoup de solutions concurrentes : la vidéo ne quitte jamais votre téléphone.

Concrètement :

  • Aucune image n'est envoyée sur un serveur — pas de cloud, pas de stockage tiers.
  • Pas besoin de connexion internet pendant la séance.
  • Latence quasi nulle (moins de 100 ms), donc le retour est vraiment temps réel.
  • Conformité RGPD native : il n'y a pas de donnée personnelle à protéger puisqu'aucune n'est transmise.

Les solutions cloud (qui envoient la vidéo à un serveur pour analyse) ont des inconvénients majeurs : latence, dépendance réseau, coûts d'infrastructure, et surtout des questions de vie privée. Personne n'a envie que ses séances de gainage soient stockées sur un serveur quelque part.

Comment DigiCoach utilise MediaPipe

Voici, schématiquement, le pipeline d'analyse pour un mouvement comme le squat :

  1. Capture vidéo : 30 images par seconde via la caméra avant ou arrière.
  2. Détection : MediaPipe extrait les 33 points sur chaque image.
  3. Filtrage : on ne garde que les points dont la confiance dépasse un seuil (par exemple 0.7).
  4. Calcul d'angles : pour le squat, on calcule l'angle hanche-genou-cheville, l'angle de bascule du tronc, et l'alignement des genoux.
  5. Comparaison : ces angles sont comparés à une "zone correcte" définie par exercice.
  6. Feedback : si une erreur est détectée, l'app affiche un message contextuel ("Genou qui rentre", "Talon qui décolle", etc.) avec une zone surlignée en rouge.
  7. Score : à la fin de la série, un score de posture sur 100 est calculé sur l'ensemble des répétitions.

Tout ça en moins de 100 ms par image, sur un smartphone milieu de gamme.

Les limites actuelles

Soyons honnêtes : MediaPipe n'est pas magique.

  • Conditions de luminosité : si vous êtes en contre-jour ou dans un endroit très sombre, la détection se dégrade.
  • Tenues très amples : un sweat hyper large peut masquer la position des hanches ou des coudes.
  • Angle de caméra : il faut filmer de profil ou de face, pas en plongée. Certains exercices (gainage de profil) nécessitent un placement précis du téléphone.
  • Profondeur 2.5D : MediaPipe estime une profondeur, mais ce n'est pas du vrai 3D. Pour la rotation autour de l'axe vertical, c'est suffisant ; pour des mouvements très complexes (yoga avancé, gymnastique), il faudrait des caméras multiples.

C'est pour ces raisons que DigiCoach démarre avec 3 exercices "simples" : squats, pompes, gainage. Ce sont des mouvements que MediaPipe analyse très bien, et qui couvrent déjà 80 % des besoins d'un sportif amateur.

Conclusion : et la suite ?

Le skeleton tracking sur smartphone est aujourd'hui mature pour des cas d'usage concrets comme le coaching sportif. Ce qui était de la science-fiction il y a 5 ans tourne maintenant en temps réel sur n'importe quel téléphone récent, gratuitement, en local.

L'enjeu pour DigiCoach n'est plus tant la détection que l'interprétation : transformer 33 points-clés en conseils utiles, personnalisés, et qui font progresser. C'est ce qu'on construit pendant la bêta privée. Si le sujet vous intéresse, postulez à la bêta — on cherche des testeurs motivés pour itérer rapidement, et on vous explique tout le pipeline en détail.

Vous pouvez aussi lire notre guide pour corriger un squat à la maison : on y détaille les angles exacts que DigiCoach surveille à chaque répétition.

Partager :

À lire ensuite

5 erreurs fréquentes en pompes (et comment les corriger)

Dos creusé, coudes ouverts, mi-amplitude... La plupart des gens font des pompes incorrectement. Voici les 5 erreurs les plus fréquentes et comment les éviter.

Comment corriger un squat à la maison (et progresser sans se blesser)

Genoux qui rentrent, dos qui s'arrondit, talons qui décollent : on passe en revue les erreurs au squat, et la posture exacte pour progresser en toute sécurité.