T-SQL - Quel est le moyen le plus efficace de parcourir une table jusqu'à ce qu'une condition soit remplie

10

En a obtenu une tâche de programmation dans le domaine de T-SQL.

Tâche:

  1. Les gens veulent entrer dans un ascenseur, chaque personne a un certain poids.
  2. L'ordre des personnes faisant la queue est déterminé par le tour de colonne.
  3. L'ascenseur a une capacité maximale de <= 1000 lb.
  4. Retournez le nom de la dernière personne qui peut entrer dans l'ascenseur avant qu'il ne soit trop lourd!
  5. Le type de retour doit être une table

entrez la description de l'image ici

Question: Quelle est la façon la plus efficace de résoudre ce problème? Si le bouclage est correct, y a-t-il place à amélioration?

J'ai utilisé une boucle et des tables # temp, voici ma solution:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Voici le script de création pour la table que j'ai utilisée Northwind pour les tests:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;
Légendes
la source

Réponses:

16

Vous devriez essayer d'éviter les boucles en général. Ils sont normalement moins efficaces que les solutions basées sur des ensembles ainsi que moins lisibles.

Ce qui suit devrait être assez efficace.

Encore plus si les colonnes nom et poids pouvaient être INCLUDE-d dans l'index pour éviter les recherches de clés.

Il peut analyser l'index unique dans l'ordre turnet calculer le total cumulé de la Weightcolonne - puis l'utiliser LEADavec les mêmes critères de classement pour voir quel sera le total cumulé sur la ligne suivante.

Dès qu'il trouve la première ligne où cela dépasse 1000 ou est NULL(indiquant qu'il n'y a pas de ligne suivante), il peut arrêter l'analyse.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

Plan d'exécution

entrez la description de l'image ici

En pratique, il semble lire quelques lignes avant l'endroit strictement nécessaire - il semble que chaque paire d'agrégats de spoule / flux de fenêtre entraîne la lecture de deux lignes supplémentaires.

Pour les données d'exemple dans la question, idéalement, il ne faudrait lire que deux lignes de l'analyse d'index, mais en réalité, il lit 6, mais ce n'est pas un problème d'efficacité significatif et il ne se dégrade pas lorsque plus de lignes sont ajoutées au tableau (comme dans cette démo )

Pour ceux qui sont intéressés par ce problème, une image avec les lignes générées par chaque opérateur (comme illustré par l' query_trace_column_valuesévénement étendu) est ci-dessous, les lignes sont générées dans l' row_idordre (en commençant à 47la première ligne lue par l'analyse d'index et en terminant à 113la TOP)

Cliquez sur l'image ci-dessous pour l'agrandir ou voir la version animée pour rendre le flux plus facile à suivre .

Pause de l'animation au point où l'agrégat de flux de droite a émis sa première ligne (pour gary - turn = 1). Il semble évident qu'il attendait de recevoir sa première ligne avec un WindowCount différent (pour Jo - turn = 2). Et la bobine de fenêtre ne libère pas la première ligne "Jo" jusqu'à ce qu'elle ait lu la ligne suivante avec un autre turn(pour thomas - turn = 3)

Ainsi, le spouleur de fenêtre et l'agrégat de flux entraînent tous deux la lecture d'une ligne supplémentaire et il y en a quatre dans le plan - d'où 4 lignes supplémentaires.

entrez la description de l'image ici

Une explication des colonnes montrées ci-dessus suit (basée sur les informations ici )

  • NodeName: Index Scan, NodeId: 15, ColumnName: colonne de la table de base id couverte par l'index
  • NodeName: Index Scan, NodeId: 15, ColumnName: tourner la colonne de la table de base couverte par l'index
  • NodeName: recherche d'index cluster, NodeId: 17, ColumnName: colonne de la table de base de poids récupérée à partir de la recherche
  • NodeName: recherche d'index en cluster, NodeId: 17, ColumnName: colonne de la table de base du nom récupérée à partir de la recherche
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Renvoie 1 au début du nouveau groupe ou null sinon. Comme non Partition Bydans le SUMseul la première rangée obtient 1
  • NodeName: Sequence Project, NodeId: 12, ColumnName: RowNumber1009 row_number() dans le groupe indiqué par l'indicateur Segment1010. Comme toutes les lignes sont dans le même groupe, ce sont des entiers croissants de 1 à 6. Seraient utilisés pour filtrer les lignes de trame de droite dans des cas comme rows between 5 preceding and 2 following. (ou comme pour LEADplus tard)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Renvoie 1 au début du nouveau groupe ou null sinon. Comme non Partition Bydans le SUMseul la première ligne obtient 1 (identique à Segment1010)
  • NodeName: Window Spool, NodeId: 10, ColumnName: WindowCount1012 Attribut qui regroupe les lignes appartenant à un cadre de fenêtre. Cette bobine de fenêtre utilise le cas "fast track" pour UNBOUNDED PRECEDING. Où il émet deux lignes par ligne source. Un avec les valeurs cumulées et un avec les valeurs détaillées. Bien qu'il n'y ait aucune différence visible dans les lignes exposées par query_trace_column_valuesje suppose que les colonnes cumulatives sont là en réalité.
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1004 Count(*) regroupés par WindowCount1012 selon le plan mais en fait un nombre en cours d'exécution
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005 SUM(weight) regroupés par WindowCount1012 selon le plan mais en fait la somme cumulée du poids (c.-à-d. cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - Ne voyez pas comment COUNT(*)peut être 0 donc sera toujours en cours d'exécution sum ( cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Segment1013 Non partition bysur la LEADpremière ligne donc obtient 1. Tous les autres sont nuls
  • NodeName: Sequence Project, NodeId: 6, ColumnName: RowNumber1006 row_number() dans le groupe indiqué par l'indicateur Segment1013. Comme toutes les lignes sont dans le même groupe, il s'agit d'entiers croissants de 1 à 4
  • NodeName: Segment, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1 car le LEADrequiert la seule ligne suivante
  • NodeName: Segment, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1 car le LEADrequiert la seule ligne suivante
  • NodeName: Segment, NodeId: 4, ColumnName: Segment1014 Non partition bysur la LEADpremière ligne donc obtient 1. Tous les autres sont nuls
  • NodeName: Window Spool, NodeId: 3, ColumnName: WindowCount1015 Attribut qui regroupe les lignes appartenant à un cadre de fenêtre en utilisant les numéros de ligne précédents. Le cadre de la fenêtre pour LEADa au maximum 2 lignes (la suivante et la suivante)
  • NodeName: Stream Aggregate, NodeId: 2, ColumnName: Expr1003 LAST_VALUE([Expr1002]) pour leLEAD(cume_weight)
Martin Smith
la source
6

Tout comme une curiosité (puisque la question indique T-SQL), il est également possible de résoudre ce problème efficacement en utilisant SQLCLR.

L'idée est de lire les lignes une par une dans l' turnordre jusqu'à ce que le weightdépasse 1000 (ou nous manquons de lignes), puis de retourner la dernière namelecture.

Le code source est:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

L'assembly compilé et la fonction T-SQL:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Obtenir le résultat:

SELECT dbo.Elevator();
Paul White 9
la source
1

Légère variation par rapport à la solution de Martin Smith

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW est le cadre de fenêtre par défaut, donc je ne l'ai pas déclaré.

Un prédicat pour le poids cumulé actuel est utilisé à la place du poids cumulé suivant.

Je n'ai vérifié aucun plan, donc je ne peux pas dire s'il y a une différence à cet égard.

Lennart
la source
Je vois, je suis entouré de geeks DB :-). Je dois vérifier tous les mots-clés que vous mentionnez pour comprendre ce qu'ils font. J'ai seulement jeté un coup d'œil Client statistics --> Total Execution Time, pas celui Actual execution planqui est probablement le plus intéressant ici. A partir de Client Statisticsvotre solution est un petit peu plus lent que Martin. Merci pour l'information supplémentaire. Quelle méthode peut-on utiliser pour mesurer les différences de performances entre différentes approches?
Legends
1
Je crains que ma connaissance de SQL-server soit très limitée, je n'ai donc pas beaucoup d'informations sur les mesures à utiliser. Martin a un lien de violon db <> dans sa réponse, vous pouvez peut-être regarder les plans là-bas.
Lennart
1
Je n'ai pas non plus vérifié les plans, mais j'imagine que cela calculera probablement le total cumulé sur toute la table, puis triera les lignes résultantes correspondant à WHERE. Je doute qu'il utilisera la contrainte de vérification pour savoir que le total cumulé est strictement ascendant et peut s'arrêter tôt. Également dans SQL Server, sauf lorsque l'agrégat de fenêtre en mode batch est utilisé en spécifiant ROWS plutôt que RANGE est préférable même lorsqu'il n'y a pas de doublons car le spool de fenêtre est en mémoire et non sur le disque
Martin Smith
@MartinSmith, intéressant. Dans votre solution, LEAD permet de pousser le prédicat next_cume_weight <10000 à l'intérieur de T1 et de renflouer tôt le scan d'index? J'ai vérifié le plan de ma requête et ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROWprésente un Sequence Project (Compute Scalar)opérateur,. Inutile de dire que je n'ai aucune idée de ce que cela signifie :-)
Lennart
1
L'index fournit les lignes dans l'ordre requis par la somme, le plomb et le haut. Dès que top reçoit sa première ligne, il peut cesser de demander d'autres lignes et l'exécution peut s'arrêter.
Martin Smith
0

Vous pouvez faire une jointure contre elle-même:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Ce genre de chose n'est pas très efficace car il provoque une sélection par ligne. Mais au moins, il est exprimé en une seule déclaration.

Si vous n'avez pas à le faire entièrement en SQL, vous pouvez simplement sélectionner toutes les lignes et les parcourir, en les additionnant au fur et à mesure.

Vous pouvez également faire de même dans une procédure stockée sans la table temporaire. Maintenez simplement la somme et le nom de la dernière ligne dans une variable.

ypercubeᵀᴹ
la source
Désolé, je ne sais pas comment le faire fonctionner avec un self-join, si vous pouvez faire un petit exemple reproductible, j'ai ajouté la définition du tableau à ma question. Mon sql est mauvais .... J'ai besoin du nom de la personne la plus proche de <= 1000 lbs.
Legends
semble que votre mise à jour fonctionne bien, vous devrez y jouer un peu si vous voulez qu'elle produise juste la sortie exacte. Mais comme je le dis, ce n'est pas super efficace
D'accord? Je suis nul pour la personne avec l'identifiant 5 ...
Legends
c'est étrange, je m'attendrais à ce que sum () renvoie 0 pour une somme sur 0 lignes
SUM sur 0 lignes n'est pas 0 (malheureusement). Vous devez utiliser COALESCE()ou une ISNULL()fonction ou une CASEexpression pour le mettre à 0.
ypercubeᵀᴹ