Profil MySQL sur la requête «Création d'un index de tri» utilisant 75% du temps total

11

Nous essayons de comprendre comment optimiser une requête (en prenant environ 100 ms) et le profil d'exécution que nous voyons en Creating Sort Indexutilisant 75%le temps total. Tout d'abord, quels effets exactement la création de l'index de tri? Est-ce un disque / io?

Deuxièmement, pouvons-nous optimiser la requête elle-même?

SELECT r.`id`, 
       r.name, 
       r.public_uri, 
       rv.version, 
       rv.interpreter, 
       rv.notes, 
       rv.content, 
       r.added, 
       r.added_by, 
       r.modified, 
       r.modified_by, 
       r.public, 
       r.public_by
  FROM recipe_heads rh, 
       recipes r, 
       recipe_versions rv
 WHERE rh.recipe = r.`id` 
   AND rh.recipe_version = rv.`id` 
   AND r.`id` = rv.recipe
ORDER BY r.added DESC

Explique: Capture d'écran

Justin
la source

Réponses:

6

Nous avons eu un problème similaire pour les énormes requêtes. Souvent, les requêtes s'exécutaient pendant des heures (jusqu'à 7-8) en fonction de la charge sur la base de données pour 400 millions de lignes. Cependant, notre objectif était d'obtenir des résultats de groupe, tels que sélectionner col1, col2, col3, compter (1), compter (col4 distinct) du groupe du tableau par 1,2,3.

Le problème sous-jacent est le même que le vôtre, car dans les deux cas, DB trie (ordonne) les résultats en interne.

  • Comment fonctionne la création d'un index de tri. Sur le site Web mysql, il est dit "Le thread traite un SELECT qui est résolu en utilisant une table temporaire interne." D'après ma compréhension de l'algorithme, le système est très probablement en train de diviser les données en morceaux, de lire le disque un par un, de trier des morceaux individuels, de les remettre dans un espace disque temporaire, etc. Le système le fait pour tous les morceaux et effectue éventuellement un tri par fusion. Cela implique des lectures / écritures approfondies.

Une solution possible peut être d'augmenter votre mémoire pour DB (afin qu'elle puisse créer de plus gros morceaux qui peuvent rester en mémoire) ou si vous avez une mémoire plus grande ailleurs, vous pouvez programmer la solution en streaming à partir de DB. Ceci peut être réalisé en temps nlogn.

Par programme, je pourrais réduire le temps d'une moyenne de 2 heures à 7,5 minutes cohérentes.

Chandni
la source
4

'Créer un index de tri' est la base de données qui détermine l'ordre de vos valeurs retournées en fonction de votre clause 'order by'. Les principaux limiteurs ici seraient la vitesse CPU / CPU disponible et la bande passante mémoire. Le tri ne sera pas effectué jusqu'à ce que les données soient déjà toutes en mémoire, au moins pour une requête aussi petite. Si vous profilez la requête, voyez-vous des attentes pour des ressources?

Quant à rendre cette requête plus rapide, vous pourriez envisager d'ajouter un index sur 'r.added', car il ne semble pas y en avoir un selon votre explication.

Unicorno Marley
la source
Les recettes addedont en effet un index standard.
Justin