En utilisant PostgreSQL (8.4), je crée une vue qui résume divers résultats de quelques tables (par exemple en créant des colonnes a
, b
, c
dans la vue), et je dois combiner certains de ces résultats dans la même requête (par exemple a+b
, a-b
, (a+b)/c
, ...), afin de produire les résultats finaux. Ce que je remarque, c'est que les résultats intermédiaires sont entièrement calculés chaque fois qu'ils sont utilisés, même si cela se fait dans la même requête.
Existe-t-il un moyen d'optimiser cela afin d'éviter que ces mêmes résultats soient calculés à chaque fois?
Voici un exemple simplifié qui reproduit le problème.
CREATE TABLE test1 (
id SERIAL PRIMARY KEY,
log_timestamp TIMESTAMP NOT NULL
);
CREATE TABLE test2 (
test1_id INTEGER NOT NULL REFERENCES test1(id),
category VARCHAR(10) NOT NULL,
col1 INTEGER,
col2 INTEGER
);
CREATE INDEX test_category_idx ON test2(category);
-- Added after edit to this question
CREATE INDEX test_id_idx ON test2(test1_id);
-- Populating with test data.
INSERT INTO test1(log_timestamp)
SELECT * FROM generate_series('2011-01-01'::timestamp, '2012-01-01'::timestamp, '1 hour');
INSERT INTO test2
SELECT id, substr(upper(md5(random()::TEXT)), 1, 1),
(20000*random()-10000)::int, (3000*random()-200)::int FROM test1;
INSERT INTO test2
SELECT id, substr(upper(md5(random()::TEXT)), 1, 1),
(2000*random()-1000)::int, (3000*random()-200)::int FROM test1;
INSERT INTO test2
SELECT id, substr(upper(md5(random()::TEXT)), 1, 1),
(2000*random()-40)::int, (3000*random()-200)::int FROM test1;
Voici une vue qui effectue les opérations les plus longues:
CREATE VIEW testview1 AS
SELECT
t1.id,
t1.log_timestamp,
(SELECT SUM(t2.col1) FROM test2 t2 WHERE t2.test1_id=t1.id AND category='A') AS a,
(SELECT SUM(t2.col2) FROM test2 t2 WHERE t2.test1_id=t1.id AND category='B') AS b,
(SELECT SUM(t2.col1 - t2.col2) FROM test2 t2 WHERE t2.test1_id=t1.id AND category='C') AS c
FROM test1 t1;
SELECT a FROM testview1
produit ce plan (viaEXPLAIN ANALYZE
):Seq Scan on test1 t1 (cost=0.00..1787086.55 rows=8761 width=4) (actual time=12.877..10517.575 rows=8761 loops=1) SubPlan 1 -> Aggregate (cost=203.96..203.97 rows=1 width=4) (actual time=1.193..1.193 rows=1 loops=8761) -> Bitmap Heap Scan on test2 t2 (cost=36.49..203.95 rows=1 width=4) (actual time=1.109..1.177 rows=0 loops=8761) Recheck Cond: ((category)::text = 'A'::text) Filter: (test1_id = $0) -> Bitmap Index Scan on test_category_idx (cost=0.00..36.49 rows=1631 width=0) (actual time=0.414..0.414 rows=1631 loops=8761) Index Cond: ((category)::text = 'A'::text) Total runtime: 10522.346 ms
SELECT a, a FROM testview1
produit ce plan :Seq Scan on test1 t1 (cost=0.00..3574037.50 rows=8761 width=4) (actual time=3.343..20550.817 rows=8761 loops=1) SubPlan 1 -> Aggregate (cost=203.96..203.97 rows=1 width=4) (actual time=1.183..1.183 rows=1 loops=8761) -> Bitmap Heap Scan on test2 t2 (cost=36.49..203.95 rows=1 width=4) (actual time=1.100..1.166 rows=0 loops=8761) Recheck Cond: ((category)::text = 'A'::text) Filter: (test1_id = $0) -> Bitmap Index Scan on test_category_idx (cost=0.00..36.49 rows=1631 width=0) (actual time=0.418..0.418 rows=1631 loops=8761) Index Cond: ((category)::text = 'A'::text) SubPlan 2 -> Aggregate (cost=203.96..203.97 rows=1 width=4) (actual time=1.154..1.154 rows=1 loops=8761) -> Bitmap Heap Scan on test2 t2 (cost=36.49..203.95 rows=1 width=4) (actual time=1.083..1.143 rows=0 loops=8761) Recheck Cond: ((category)::text = 'A'::text) Filter: (test1_id = $0) -> Bitmap Index Scan on test_category_idx (cost=0.00..36.49 rows=1631 width=0) (actual time=0.426..0.426 rows=1631 loops=8761) Index Cond: ((category)::text = 'A'::text) Total runtime: 20557.581 ms
Ici, la sélection a, a
prend deux fois plus de temps que la sélection a
, alors qu’elles ne peuvent vraiment être calculées qu’une seule fois. Par exemple, avec SELECT a, a+b, a-b FROM testview1
, il parcourt le sous-plan a
3 fois et 2 b
fois, alors que le temps d'exécution pourrait être réduit à 2/5 du temps total (en supposant que + et - sont ici négligeables).
C'est une bonne chose qu'il ne calcule pas les colonnes inutilisées ( b
et c
) quand elles ne sont pas nécessaires, mais existe-t-il un moyen de lui faire calculer les mêmes colonnes utilisées à partir de la vue une seule fois?
EDIT: @Frank Heikens a correctement suggéré d'utiliser un index, qui manquait dans l'exemple ci-dessus. Bien qu'il améliore la vitesse de chaque sous-plan, il n'empêche pas que la même sous-requête soit calculée plusieurs fois. Désolé, j'aurais dû mettre cela dans la question initiale pour que ce soit clair.
la source
Vous avez besoin d'un index sur test1_id dans la table test2, cela va changer les choses.
la source
SELECT a, a, a, a, a FROM testview1
prend encore 5 fois plus longtemps queSELECT a FROM testview1
.