Je travaille avec un grand ensemble de données d'accéléromètre recueillies avec plusieurs capteurs portés par de nombreux sujets. Malheureusement, personne ici ne semble connaître les spécifications techniques des appareils et je ne pense pas qu'ils aient été recalibrés. Je n'ai pas beaucoup d'informations sur les appareils. Je travaille sur ma thèse de maîtrise, les accéléromètres ont été empruntés à une autre université et dans l'ensemble la situation était un peu transparente. Alors, prétraitement à bord de l'appareil? Aucune idée.
Ce que je sais, c'est que ce sont des accéléromètres triaxiaux avec un taux d'échantillonnage de 20 Hz; numérique et probablement MEMS. Je m'intéresse au comportement non verbal et aux gestes qui, selon mes sources, devraient principalement produire une activité dans la plage de 0,3 à 3,5 Hz.
Normaliser les données semble tout à fait nécessaire, mais je ne sais pas quoi utiliser. Une très grande partie des données est proche des valeurs de repos (valeurs brutes de ~ 1000, par gravité), mais il y a des extrêmes comme jusqu'à 8000 dans certains journaux, ou même 29000 dans d'autres. Voir l'image ci-dessous . Je pense que cela en fait une mauvaise idée de diviser par le max ou stdev pour normaliser.
Quelle est l'approche habituelle dans un cas comme celui-ci? Diviser par la médiane? Une valeur centile? Autre chose?
Comme problème secondaire, je ne sais pas non plus si je devrais couper les valeurs extrêmes ..
Merci pour tout conseil!
Edit : Voici un tracé d'environ 16 minutes de données (20000 échantillons), pour vous donner une idée de la façon dont les données sont généralement distribuées.
Réponses:
Les signaux bruts que vous montrez ci-dessus semblent être non filtrés et non calibrés. Un filtrage et un étalonnage appropriés , avec un certain rejet d'artefact , normaliseront en fait les données. L'approche standard avec les données de l'accéléromètre est la suivante:
Il est conseillé d'effectuer un rejet d'artefact sur les données du capteur inertiel. Je crains que vous ne connaissiez pas la provenance des données et que vous ne puissiez donc pas garantir que les capteurs ont été fixés correctement et de manière cohérente (en termes d'orientation et de placement physique) à tous les sujets. Si les capteurs n'étaient pas fixés correctement, vous pouvez obtenir beaucoup d'artefacts dans les signaux, car le capteur peut se déplacer par rapport au segment corporel. De même, si les capteurs étaient orientés différemment (dans la façon dont ils étaient placés) sur différents sujets, les données seront difficiles à comparer entre les sujets.
Compte tenu de la taille des valeurs aberrantes que vous signalez, elles semblent être probablement des artefacts. Ces artefacts fausseraient presque certainement tout calcul d'étalonnage (bien que leur effet soit atténué par un filtrage approprié) et l'étalonnage devrait donc être effectué après le rejet de l'artefact.
Un seuil simple peut bien fonctionner pour une routine de rejet d'artefact initial, c'est-à-dire retirer (ou remplacer par
NaN
) tous les échantillons au-dessus d'un certain seuil empirique. Des techniques plus sophistiquées calculeront de manière adaptative ce seuil à l'aide d'une moyenne courante ou d'une fenêtre mobile.Selon l'emplacement du capteur, vous pouvez également corriger l'influence de la gravité sur les signaux d'accélération, bien qu'une compréhension détaillée des axes et du positionnement du capteur soit ici cruciale. La méthode Moe-Nillson ( R. Moe-Nilssen, A new method for evaluation motor control in gait in real-real environment conditions. Part 1: The instrument, Clinical Biomechanics, Volume 13, Issues 4–5, June – July 1998, Pages 320-327 ) est le plus couramment utilisé et fonctionne bien pour les capteurs inertiels montés dans le bas du dos.
Un bon endroit pour commencer à examiner les données pour la reconnaissance des gestes serait de diviser les données filtrées et calibrées en époques (par exemple 10 s) et de calculer un certain nombre de caractéristiques par époque et de les relier aux étiquettes que vous avez pour les données, je peux '' t proposer des conseils plus spécifiques sans en savoir plus sur l'ensemble de données et les labels associés.
J'espère que cela t'aides.
la source