Comparer plusieurs ensembles de données

0

Je me demandais quel était le meilleur moyen de comparer plusieurs ensembles de données. J'ai environ 25 tableaux de données qui sont des noms de produits alimentaires. J'ai besoin de voir quels produits alimentaires sont les mêmes dans tous ces ensembles, mais le problème est que les noms des produits alimentaires sont légèrement différents dans chaque ensemble de données.

Par exemple, il peut s'agir de thé 100% Aloe Vera de Natural Organics dans un ensemble de données et dans un autre, il peut s'agir de thé 100% Aloe de Natural Organics. Donc, ça devient très sale très facilement.

Une autre suggestion suggérée par un autre super-utilisateur était d'utiliser Fuzzy Lookup dans Excel, à l'exception du fait que vous ne pouvez comparer que 2 tableaux à la fois. Existe-t-il un processus où je peux faire évoluer cela?

Ou existe-t-il un moyen de le faire?

Bahtfeng
la source
Je dirais que SQL Server lie une clé ID unique à tous les produits de toutes les tables et joint les tables à l'aide de la clé ID unique. Donc par exemple Thé 100% Aloe Vera de Natural Organics serait keyid 1, et 100% de thé d'aloès de Natural Organics serait keyid 2, prochain nom du produit serait keyid 3 et ainsi de suite. Dans chaque table, le même nom de produit serait attribué au même identifiant de clé afin que vous puissiez joindre les données de toutes les tables avec la logique TSQL par identifiant de clé .... voir ici: w3schools.com/sql/sql_join.asp
Pimp Juice IT
Pour approfondir la suggestion de Homey, la première étape consistera à nettoyer les données sous une forme utilisable. Une fois que vous avez des clés propres et uniques, il existe de nombreuses façons d’accomplir le résultat. Une suggestion est de faire le nettoyage en plusieurs passes. Lorsque vous trouvez des correspondances faciles à identifier, supprimez-les de la liste brute. Les éléments restants deviendront plus faciles à utiliser et à identifier des exemples de nouvelles règles que vous pouvez appliquer. Vous pouvez également travailler des deux côtés. En plus de rechercher et de supprimer des correspondances, vous pouvez identifier et supprimer des éléments uniques.
fixer1234
@ fix1234 Merci pour cela, c'est exactement ce que je fais maintenant :)!
Bahtfeng
@ fix1234 Sur le même sujet, est-ce que quelqu'un connaît le meilleur moyen de trouver des correspondances approximatives dans la même colonne? J'ai fait deux tables identiques des mêmes données et fait une recherche floue, cependant il y a tellement de doublons parce que EXACT (1.00) correspond. Un autre problème est que parfois les correspondances EXACT (1,00) sont fausses, 100% Aloe Vera Tea I.E Natural Organics & 100; Thé 100% Aloe Vera de Natural Organics - 100ML me donnera une correspondance exacte (1,00), il est donc difficile de filtrer les faux positifs des vrais.
Bahtfeng