À quoi servent les matrices denses en statistiques?

8

OK, je ne suis pas statisticien (même pas proche). Je suis un chercheur en calcul haute performance et je voulais quelques cas de test pour les matrices denses de grande taille (supérieures à 5000x5000). J'avais demandé ici et quelques autres endroits mais je n'ai jamais reçu de réponse d'un statisticien. Je suis très intéressé à essayer mes codes sur un problème de statistiques. Pourriez-vous suggérer une application en statistique où l'on doit résoudre pour x où est dense et carré.Ax=bA

Je vous serais très reconnaissant si vous pouviez également me donner des applications où A n'a pas de structure, c'est-à-dire pas de symétrie, pas de définition positive, etc. Mais ce n'est pas entièrement nécessaire. Une grande matrice dense avec une bonne application suffit.

Je suis désolé si cette question semble ouverte ou vague mais je ne peux pas imaginer un meilleur endroit pour poser cette question.

Communauté
la source
Un exemple assez basique qui me vient à l'esprit est le package lme4 de R pour la modélisation à effets mixtes, qui s'appuie sur des matrices de conception clairsemées pour gérer beaucoup d'effets aléatoires. Cependant, je pense que vous êtes plus intéressé par une entrée clairsemée, ai-je raison?
chl
Non, je veux une matrice dense A. Idéalement, elle devrait être presque entièrement dense sans symétrie
Lorsque vous dites «résoudre pour dense », voulez-vous dire «résoudre pour , où est dense»? Ax=bAAx=bxA
2012
Oui. Désolé pour les mauvais raccourcis. C'est ce que je veux dire. Par exemple, A = rand (5000,5000); b = rand (5000,1); résoudre (A, x, b); Supposons que rand donne une distribution uniforme entre 1 et 2
Il existe des générateurs de problèmes de régression, par exemple dans scikit-learn samples_generator , et il y en a sûrement d'autres. Mais, corrigez-moi, est assez rapide avec Lapack et autres; il y a, je pense, plus un marché pour des méthodes robustes, des systèmes volumineux / clairsemés / sous-déterminés, ... Quoi qu'il en soit, vous pourriez également demander à metaoptimize . Ax=b
denis

Réponses:

0

Voici grand, mais je ne sais pas si c'est assez dense pour vous. Sur http://www.grouplens.org/node/73

  • MovieLens 100k - Se compose de 100 000 évaluations de 1000 utilisateurs sur 1700 films.
  • MovieLens 1M - Se compose de 1 million de notes de 6000 utilisateurs sur 4000 films.
  • MovieLens 10M - Se compose de 10 millions de notes et de 100 000 applications de balises appliquées à 10 000 films par 72 000 utilisateurs.
Jack Tanner
la source
1. La densité est primordiale et je doute que la matrice formée soit dense. 2. En quoi est-ce pertinent pour Ax = b? J'ai besoin d'applications statistiques et non de statistiques volumineuses aléatoires.
L'application statistique est un filtrage collaboratif - étant donné une matrice d'utilisateurs x films, prédisez la note qu'un utilisateur attribuera à un film qu'il n'a pas encore vu. Pensez aux recommandations de produits de style Amazon.com. Les grandes matrices de ces préférences d'éléments utilisateur ont tendance à être clairsemées, mais vous pouvez éliminer les choses vraiment à longue queue.
Jack Tanner
"Les grandes matrices de ces préférences d'utilisateur-élément ont tendance à être clairsemées" La densité est de première importance Je ne sais pas ce que sont les choses à longue queue mais néanmoins, je doute que cela conduirait à une matrice dense et non structurée.
0

Je ne suis pas sûr que l'application que vous recherchez aurait un sens dans un contexte statistique. Ce qui vous intéresse, c'est une analyse de régression linéaire.ARm×n est une matrice de m mesures dans lesquelles chaque ligne est une mesure unique de nvariables. Deux applications potentielles avec éventuellementn>5000viens à mon esprit. 1) analyse de puces à ADN et 2) analyse de données IRM fonctionnelles. Dans tous les cas, il sera difficile de trouver des ensembles de données avecm>5000 personnes (mesures) en elle.

Cependant, votre exigence de m=nrestreint le sens d'une telle analyse d'une manière principale. Après toutes les statistiques, il s'agit de déduire certains sous-jacents, disons, la vérité à partir de données bruyantes , c'est-à-dire que le modèle statistique implicite à votre question est

b=aTx+ϵ
a est une mesure unique, x sont les paramètres supposés que vous essayez de trouver avec votre analyse et ϵest une forme de bruit. Maintenant tu dis çaA doit être inversible, c'est-à-dire doit être de rang complet, c'est-à-dire que les mesures a ne doit pas se répéter, c.-à-d. que vous n'avez qu'une seule observation corrompue par le bruit b par a et c'est une très mauvaise situation pour essayer d'estimer les paramètres x, notamment dans le cas où le nombre de paramètres dépasse (ou est égal) au nombre de mesures. Ensuite, votre modèle ajuste simplement le bruit dans les données, ce qu'on appelle le sur-ajustement.
sbitzer
la source