Que signifie exactement «regrouper les données»?

16

Je pensais que «regrouper les données» signifiait simplement combiner des données qui étaient auparavant divisées en catégories ... essentiellement, ignorer les catégories et faire de l'ensemble de données un «pool» géant de données. Je suppose que c'est une question plus sur la terminologie que sur l'application des statistiques.

Par exemple: je veux comparer 2 sites, et au sein de chaque site, j'ai deux types d'année (bons et pauvres). Si je veux comparer les 2 sites «globalement» (c'est-à-dire en ignorant les types d'année), est-il correct de dire que je mutualise les données au sein de chaque site? De plus, étant donné que plusieurs années de données comprennent les types d'année bons et pauvres, est-il également exact de dire que je regroupe les données entre les années pour obtenir l'ensemble de données `` bonne année '' et `` mauvaise année '' au sein de chaque site? Merci de votre aide! Minou

Minou
la source

Réponses:

13

Oui, vos exemples sont corrects.

Le Oxford English Dictionary définit le pool comme:

piscine, v.

(puːl)

1.1 trans. À jeter dans un fonds commun ou à distribuer selon accord; combiner (capital ou intérêts) pour le bien commun; spec. de sociétés ferroviaires concurrentes, etc.: partager ou diviser (trafic ou recettes).

Un autre exemple serait:

vous mesurez les taux sanguins de substance X chez les hommes et les femmes. Vous ne voyez pas de différences statistiques entre les deux groupes, vous regroupez donc les données , en ignorant le sexe du sujet expérimental.

Le fait qu'il soit statistiquement correct de le faire dépend en grande partie du cas spécifique.

Nico
la source
12

Le regroupement peut se référer à la combinaison de données, mais il peut également se référer à la combinaison d'informations plutôt que les données brutes. L'une des utilisations les plus courantes de la mise en commun est d'estimer une variance. Si nous pensons que 2 populations ont la même variance, mais pas nécessairement la même moyenne, alors nous pouvons calculer les 2 estimations de la variance à partir d'échantillons des 2 groupes, puis les mettre en commun (prendre une moyenne pondérée) pour obtenir une seule estimation de la variance commune. Nous ne calculons pas une seule estimation de la variance à partir des données combinées, car si les moyennes ne sont pas égales, cela gonflera l'estimation de la variance.

Greg Snow
la source
Merci @Greg. Pour clarifier (parce que j'essaie également de combiner les variances de la littérature), ce que vous dites, c'est que pour obtenir une variance «moyenne» pour plusieurs populations, je peux prendre une moyenne pondérée des variances calculées? Comment pourrais-je pondérer ces écarts? Chaque population n'est-elle pas = 1?
Mog
Si les tailles d'échantillon sont égales, alors la moyenne simple a tendance à fonctionner. Généralement, nous donnons à chaque point de données un poids égal, la formule standard consiste à multiplier chaque variance par les degrés de liberté (ou le nombre dans le dénominateur pour ce groupe, n-1), puis à additionner toutes les pièces, puis à diviser par la somme de les degrés de liberté (tous les n_i-1).
Greg Snow