Je résous les cubes de Rubik comme passe-temps. J'enregistre le temps qu'il m'a fallu pour résoudre le cube en utilisant un logiciel, et maintenant j'ai des données de milliers de résolutions. Les données sont essentiellement une longue liste de nombres représentant le temps pris par chaque résolution séquentielle (par exemple 22.11, 20.66, 21.00, 18.74, ...)
Le temps qu'il me faut pour résoudre le cube varie naturellement quelque peu de résoudre à résoudre, donc il y a de bonnes résolutions et de mauvaises résolutions.
Je veux savoir si je "deviens chaud" - si les bonnes résolutions arrivent par séquences. Par exemple, si je viens d'avoir quelques bonnes résolutions consécutives, est-il plus probable que ma prochaine résolution soit bonne?
Quel type d'analyse serait approprié? Je peux penser à quelques choses spécifiques à faire, par exemple, traiter les résolutions comme un processus de Markov et voir dans quelle mesure une résolution prédit la suivante et la comparer à des données aléatoires, voir combien de temps les plus longues séquences de résolutions consécutives sont inférieures à la médiane pour la dernière 100 le sont et par rapport à ce qui serait attendu dans des données aléatoires, etc. Je ne suis pas sûr de la perspicacité de ces tests, et je me demande s'il existe des approches bien développées pour ce type de problème.
la source
Quelques réflexions:
Tracez la distribution des temps. Je suppose qu'ils seront faussés positivement, de sorte que certains temps de solution sont vraiment lents. Dans ce cas, vous pouvez envisager un journal ou une autre transformation des temps de solution.
Créez un nuage de points d'essai sur l'axe x et le temps de solution (ou enregistrez le temps de solution sur l'axe y). Cela devrait vous donner une compréhension intuitive des données. Il peut également révéler d'autres types de tendances en plus de la "séquence chaude".
Demandez-vous s'il y a un effet d'apprentissage au fil du temps. Avec la plupart des puzzles, vous vous entraînez plus rapidement. L'intrigue devrait aider à révéler si c'est le cas. Un tel effet est différent d'un effet "hot streak". Cela entraînera une corrélation entre les essais, car lorsque vous apprenez pour la première fois, les essais lents coexisteront avec d'autres essais lents, et à mesure que vous deviendrez plus expérimenté, des essais plus rapides coexisteront avec des essais plus rapides.
Réfléchissez à votre définition conceptuelle des "séquences chaudes". Par exemple, cela s'applique-t-il uniquement aux essais qui sont proches dans le temps ou concernent la proximité de l'ordre. Disons que vous avez résolu le cube rapidement mardi, puis que vous avez fait une pause et le vendredi suivant, vous l'avez résolu rapidement. Est-ce une séquence chaude ou cela ne compte-t-il que si vous le faites le même jour?
Y a-t-il d'autres effets qui pourraient être distincts d'un effet de séquence chaude? Par exemple, à quel moment de la journée vous résolvez le casse-tête (par exemple, la fatigue), dans quelle mesure vous essayez vraiment de travailler dur? etc.
Une fois que les autres effets systématiques ont été compris, vous pouvez développer un modèle qui en inclut autant que possible. Vous pouvez tracer le résidu sur l'axe des y et tester sur l'axe des x. Ensuite, vous pouvez voir s'il existe des auto-corrélations dans les résidus dans le modèle. Cette auto-corrélation fournirait des preuves de séquences chaudes. Cependant, une autre interprétation est qu'il existe un autre effet systématique que vous n'avez pas exclu.
la source
Calculez le corrélogramme de votre processus. Si votre processus est gaussien (d'après l'apparence de votre échantillon), vous pouvez établir des limites inférieures / supérieures (B) et vérifier si les corrélations à un décalage donné sont significatives. Une autocorrélation positive au décalage 1 indiquerait l'existence de "séquences de chance".
la source