J'ai un ensemble de données d'événements qui se sont produits au cours de la même période. Chaque événement a un type (il existe peu de types différents, moins de dix) et un emplacement, représentés comme un point 2D.
Je voudrais vérifier s'il existe une corrélation entre les types d'événements ou entre le type et l'emplacement. Par exemple, les événements de type A ne se produisent généralement pas là où se produisent les événements de type B. Ou peut-être que dans certaines régions, il y a surtout des événements de type C.
Quel type d'outils pourrais-je utiliser pour effectuer cela? Étant novice en analyse statistique, ma première idée a été d'utiliser une sorte de PCA (analyse en composantes principales) sur cet ensemble de données pour voir si chaque type d'événement avait sa propre composante, ou peut-être que certains partageaient la même chose (c.-à-d. Étaient corrélés)?
Je dois mentionner que mon ensemble de données est de l'ordre de 500 000 points , ce qui rend les choses un peu plus difficiles à gérer.
EDIT: Comme indiqué dans les réponses ci-dessous et les commentaires, la voie à suivre consiste à modéliser cela comme un processus ponctuel marqué, puis à utiliser R pour effectuer tous les travaux lourds, comme expliqué en détail dans ce rapport d'atelier: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Réponses:
Le type de données que vous décrivez est généralement appelé "modèles de points marqués", R a une vue des tâches pour les statistiques spatiales qui offre de nombreux bons packages pour ce type d'analyse, dont la plupart ne sont probablement pas en mesure de traiter le type de données énormes que vous avoir :(
Ce sont deux types de questions assez différents: Le second pose des questions sur le positionnement d'un type de marque / événement. Les mots à la mode à rechercher dans ce contexte sont estimation de l'intensité fe ou estimation de la fonction K si vous êtes intéressé à découvrir des modèles de regroupement (les événements d'un genre ont tendance à se regrouper) ou de répulsion (les événements d'un type ont tendance à être séparés). La première interroge sur la corrélation entre différents types d'événements. Ceci est généralement mesuré avec des fonctions de corrélation de marque.
Je pense que le sous-échantillonnage des données pour obtenir une taille de données plus traitable est dangereux (voir le commentaire de la réponse de @ hamner), mais peut-être pourriez-vous agréger vos données: divisez la fenêtre d'observation en un nombre gérable de cellules de taille égale et tabulez le nombre d'événements dans chaque. Chaque cellule est ensuite décrite par l'emplacement de son centre et un vecteur de comptage pour vos 10 types de marques. Vous devriez pouvoir utiliser les méthodes standard pour les processus ponctuels marqués sur ce processus agrégé.
la source
Tout d'abord, la taille de l'ensemble de données. Je recommande de prendre de petits échantillons traitables de l'ensemble de données (soit en choisissant au hasard N points de données, soit en choisissant au hasard plusieurs rectangles relativement petits dans le plan XY et en prenant tous les points qui se trouvent dans ce plan), puis d'affiner vos techniques d'analyse sur ce sous-ensemble. Une fois que vous avez une idée de la forme d'analyse qui fonctionne, vous pouvez l'appliquer à de plus grandes portions de l'ensemble de données.
L'ACP est principalement utilisée comme technique de réduction de dimensionnalité; votre jeu de données ne comporte que trois dimensions (dont l'une est catégorique), je doute donc que cela s'applique ici.
Essayez de travailler avec Matlab ou R pour visualiser les points que vous analysez dans le plan XY (ou leur densité relative si vous travaillez avec l'ensemble des données), à la fois pour les types individuels et tous les types combinés, et voir quels modèles émergent visuellement. Cela peut aider à guider une analyse plus rigoureuse.
la source