J'apprends sur le tri rapide et je veux illustrer différents tableaux sur lesquels le tri rapide aurait du mal. Le tri rapide que j'ai en tête n'a pas de mélange aléatoire initial, fait 2 partitions et ne calcule pas la médiane.
Jusqu'à présent, j'ai pensé à trois exemples:
[1,2,3,4,5,6,7,8,9,10] - when the array is sorted
[10,9,8,7,6,5,4,3,2,1] - when the array is reversed
[1,1,1,1,1,1,1,1,1,1] - when the array is the same values
[1,1,1,2,2,2,3,3,3,3] - when there are few and unique keys
Par exemple, je ne suis pas trop sûr de celui-ci:
[1,3,5,7,9,10,8,6,4,2]
Alors, qu'est-ce qui rend un tableau avec lequel le tri rapide a du mal par rapport à celui où il est (presque) idéal?
algorithms
sorting
mrQWERTY
la source
la source
[2,1,2,1,2,1,2,1]
et que ce soit l'ensemble réponse). Le but de la question serait, idéalement, celui où d'autres personnes pourraient venir et en savoir plus sur le pourquoi (qui a une réponse) plutôt que des exemples (dont il existe d'innombrables).Réponses:
Chaque algorithme de tri a un pire cas, et dans de nombreux cas, le pire des cas est vraiment mauvais, il vaut donc la peine de le tester. Le problème est qu'il n'y a pas de pire des cas uniquement parce que vous connaissez l'algorithme de base.
Les pires cas courants comprennent: déjà triés; triés en sens inverse; presque trié, un élément hors service; toutes les valeurs sont les mêmes; tout de même sauf premier (ou dernier) est supérieur (ou inférieur). Nous avions autrefois une sorte où le pire des cas était un motif en dents de scie particulier, qui était très difficile à prévoir mais assez courant dans la pratique.
Le pire des cas pour le tri rapide est celui qui lui permet de toujours choisir le pire pivot possible, de sorte que l'une des partitions ne comporte qu'un seul élément. Si le pivot est le premier élément (mauvais choix), les données déjà triées ou triées inversement sont le pire des cas. Pour un pivot de médiane de trois données qui sont toutes identiques ou tout simplement le premier ou le dernier est différent fait l'affaire.
Pour le tri rapide, la complexité moyenne est nlogn et le pire des cas est n ^ 2. La raison pour laquelle il vaut la peine de déclencher le comportement du pire des cas est que c'est également le cas qui produit la plus grande profondeur de récursivité. Pour une implémentation naïve, la profondeur de récursivité peut être n, ce qui peut déclencher un débordement de pile. Tester d'autres situations extrêmes (y compris le meilleur des cas) peut être utile pour des raisons similaires.
la source
O(NlogN)
performances moyennes ou meilleures), les cas les plus mauvais et moyens ont la même complexité. Cela suggère que cela ne vaut généralement PAS la peine d'être testé pour le (s) pire (s) cas. (Étant donné que le test est probablementO(N)
... ou pire.)Un algorithme s'échappe de la plupart des mauvais cas en utilisant un pivot aléatoire, excluant les éléments continus équivaut à un pivot du partitionnement et une recherche asymétrique. Il recherche en avant un élément supérieur ou égal à un pivot et recherche en arrière un élément inférieur à un pivot.
Je remercie MichaelT, la recherche asymétrique est conçue pour résoudre [2,1,2,1,2,1,2,1].
Le résultat suivant est généré par ma fonction qsort_random (). N = 100 000
La plupart des cas sont plus rapides qu'un modèle aléatoire. Le modèle de vallée est un mauvais cas pour la plupart des sélections de pivot.
qsort_log2 () échappe au mauvais cas en sélectionnant un pivot dans les éléments log2 (N).
qsort (3) utilise la bibliothèque GNU qui est une sorte de fusion de tri d'index.
qsort_trad () sélectionne un pivot dans les premier, milieu et dernier éléments.
qsort_random () et qsort_log2 () n'utilisent pas l'échange.
Les programmes et scripts Source C sont publiés dans github .
la source