Ok, donc je suppose que ce genre de requête / enquête informelle sur la taille d'un ensemble de données que vous utilisez dans vos mondes ESRI ...
Je construis et gère un ensemble de données à l'échelle de l'État, où je dois traiter jusqu'au niveau de la maison individuelle, pas niveau colis mais plusieurs adresses postales par colis pour nos systèmes. Dans de nombreux endroits, j'utilise des adresses théoriques calculées à partir du réseau routier ou des données USPS AMS / AIS. Donc, ma liste d'adresses est d'environ 13,5 millions d'adresses et augmente mensuellement ou trimestriellement.
Y a-t-il quelqu'un en ce moment qui gère un système en direct d'informations d'adresse / de recherche correctement de cette taille dans un ensemble de données continu?
J'adorerais collaborer ou parler davantage de la façon dont les autres gèrent un si grand ensemble de données. Je vois des problèmes où le logiciel ESRI semble exploser lorsque j'essaie d'effectuer des tâches telles que des intersections ou des jointures spatiales. ESRI dit qu'ils ne voient pas ce genre de problèmes, mais je les ai depuis depuis la version 9.3.1, je ne peux donc pas être la première / seule personne à le faire car je peux le recréer sur plusieurs machines.
Ma plate-forme est actuellement ESRI ArcGIS 10 sur le bureau, parlant à ArcSDE 9.3.1-sp1 sur un backend SQL2008 à l'aide de l'objet géographique GEOMETRY. Je ne fais donc rien de vraiment exotique; mais il me semble toujours que dans certains domaines, je pousse peut-être l'enveloppe.
[Plus loin]
Ce qui m'intéresse, c'est de savoir ce que font les autres pour optimiser leurs processus de traitement de ces ensembles de données. Je vais ajouter des mots d'un million d'enregistrements par mois à l'avenir, et bien que le géocodage, etc. ne soit pas un problème lorsque vous commencez à exécuter d'autres processus et à lier des données pour une analyse plus approfondie, vous commencez à traiter des jointures complexes. Eh bien, vous générez des données à partir d'intersections / superpositions / identités à l'aide de Only_FID et vous obtenez également une table intermédiaire fine à joindre; mais lorsque vous commencez à essayer de diviser et de conquérir la création de cette table, vous commencez à rencontrer des problèmes où vous devez diviser vos données source en zones de travail, mais vous avez ensuite des IDS répétitifs que vous ne pouvez pas fusionner; de sorte que vous vous retrouvez avec des blocs de données plus petits que vous ne pouvez pas facilement reconstituer.
Penser aux options qui décomposent les données à l'échelle comté par comté, puis utiliser des vues spatiales pour les regrouper, etc ... Juste curieux de savoir si d'autres utilisateurs examinent les mêmes types de problèmes à une si grande échelle mais à une petite échelle empreintes.
la source
Réponses:
Comme il s'agit d'une (ancienne) question ouverte, je vais vous donner une réponse ouverte: une utilisation correcte de la base de données peut vous faire gagner énormément de temps. La façon évidente de faire quelque chose n'est pas nécessairement la plus rapide, par exemple lorsque j'ai récemment voulu supprimer beaucoup de lignes d'Oracle, il s'avère que l'envoi:
delete from TABLE1 where ID = 123
pour chaque fonctionnalité était incroyablement lent et qu'il y a des trucs Oracle fantaisistes que je peux faire pour accélérer les ordres de grandeur .Donc, fondamentalement, si vous trouvez un problème particulier qui est un goulot d'étranglement, posez une question spécifique relative à ce goulot d'étranglement aux experts. Donc, pour le côté ArcGIS qui serait probablement ici (ou les forums ESRI, ou votre support ESRI), mais pour un problème côté base de données (et les choses seront généralement plus rapides si vous les faites là-bas), vous voudrez demander à http : //www.stackoverflow.com
la source