Modèle récurrent (CNN) sur les données EEG

10

Je me demande comment interpréter une architecture récurrente dans un contexte EEG. Plus précisément, je pense à cela comme un CNN récurrent (par opposition aux architectures comme LSTM), mais peut-être que cela s'applique également à d'autres types de réseaux récurrents

Quand je lis sur les R-CNN, ils sont généralement expliqués dans des contextes de classification d'images. Ils sont généralement décrits comme "l'apprentissage au fil du temps" ou "y compris l'effet du temps-1 sur l'entrée actuelle"

Cette interprétation / explication devient vraiment déroutante lorsque vous travaillez avec des données EEG. Un exemple d'un R-CNN utilisé sur les données EEG peut être trouvé ici

Imaginez que j'ai des exemples de formation comprenant chacun un tableau 1x512. Ce réseau capture une lecture de tension pour 1 électrode à 512 points temporels consécutifs. Si j'utilise cela comme entrée d'un CNN récurrent (en utilisant des convolutions 1D), la partie récurrente du modèle ne capture pas réellement le «temps», non? (comme le suggéreraient les descriptions / explications discutées plus haut) Parce que dans ce contexte, le temps est déjà capturé par la deuxième dimension du tableau

Donc, avec une configuration comme celle-ci, qu'est-ce que la partie récurrente du réseau nous permet de modéliser qu'un CNN régulier ne peut pas (sinon le temps)?

Il me semble que récurrent signifie simplement faire une convolution, ajouter le résultat à l'entrée d'origine et convoluer à nouveau. Cela est répété pour x nombre d'étapes récurrentes. Quel avantage ce processus apporte-t-il réellement?

Simon
la source
Je pense que garder l'entrée d'origine à chaque étape est utile car l'apprentissage de l'identité peut être difficile, c'est pourquoi le réseau résiduel ou simplement copier l'entrée pour contourner la plupart des couches cachées peut être utile. Pour le cas particulier de RCNN appliqué à eeg, vous pouvez imaginer que les étiquettes de convolution temps t = 50 ms car une fonctionnalité apparaît à ce moment. Ensuite, votre réseau peut regarder l'entrée d'origine à ce moment particulier pour une analyse plus approfondie.
agemO

Réponses:

1

La partie récurrente d'un réseau vous permet, d'une manière générale, de modéliser des dépendances à long et court terme. Ainsi, votre modèle peut avoir un certain sens de l'état.

Ceci est généralement avantageux si vous utilisez des séries temporelles. Par exemple, si vous avez des données provenant d'un moniteur de fréquence cardiaque et que vous souhaitez classer entre repos, stress et récupération. Si votre point de données indique que votre fréquence cardiaque est à 130, cela dépend si vous vous rétablissez de charges élevées ou autre chose.

Edit: j'ai oublié votre deuxième question.

Il me semble que récurrent signifie simplement faire une convolution, ajouter le résultat à l'entrée d'origine et convoluer à nouveau. Cela est répété pour x nombre d'étapes récurrentes. Quel avantage ce processus apporte-t-il réellement?

Je pourrais réfléchir à quelques réponses possibles. En alambiquant la partie récurrente, vous la filtrez en quelque sorte. Ainsi, vous obtenez un signal plus propre et les erreurs ne se cumuleront pas autant. Vanilla rnn souffre d'explosions de dégradés disparaissant, donc cela pourrait être son approche pour le surmonter. De plus, vous intégrez vos fonctionnalités dans le rcnn, ce qui peut conduire, comme il l'a dit, à plus de chemins à exploiter. Ce qui le rend moins sujet au sur-ajustement, donc plus généralisable.

RyanMcFlames
la source
0
  • Le réseau d'entrée 1x512 signifie: le réseau récurrent traite la tension des électrodes 512 fois, en d'autres termes, vous n'avez qu'une seule fonction à traiter.
  • CNN avec une fonctionnalité est inutile.
Denize
la source
-1

N'oubliez pas que les CNN sont des détecteurs de fonctionnalités. La sortie d'une couche convolutionnelle est une matrice qui signale où certaines caractéristiques ont été détectées.

Par conséquent, les CNN récurrents sont des réseaux de neurones récurrents qui apprennent des séquences de caractéristiques, où ces caractéristiques sont également apprises pendant la formation.

ncasas
la source
2
C'est une réponse trompeuse, les CNN ne sont pas des détecteurs de caractéristiques, ils sont une transformation d'un espace de caractéristiques puis un estimateur de fonction qui mappe les caractéristiques transformées à une sortie. De plus, pas du tout ce que le PO demandait. Veuillez utiliser les commentaires à la place pour les commentaires. Cela donne une apparence de réponse à la question et dissuade les autres de cliquer.
JahKnows
@JahKnows Cela dépend de l'interprétation, ils sont tous les deux n'est-ce pas? jetez un œil à (yosinski.com/deepvis). Cela peut vous aider.
Media
@ncasas, veuillez fournir un lien pour votre paragraphe?
Media