dd: Comment calculer la taille de bloc optimale? [fermé]

122

Comment calculez-vous la taille de bloc optimale lors de l'exécution d'un dd? J'ai fait des recherches un peu et je n'ai rien trouvé qui suggère comment cela serait accompli.

J'ai l'impression qu'une plus grande taille de bloc entraînerait un plus rapide dd... est-ce vrai?

Je suis sur le point de dddeux disques durs Hitachi identiques de 500 Go qui fonctionnent à 7200 tr / min sur une boîte exécutant un Intel Core i3 avec 4 Go de RAM DDR3 1333 MHz, alors j'essaie de déterminer la taille de bloc à utiliser. (Je vais démarrer Ubuntu 10.10 x86 à partir d'un lecteur flash et l'exécuter à partir de cela.)

Eckza
la source
Réponse adoptée @ tdg5 pour macOS - macos_dd_ibs_test.sh et macos_dd_obs_test.sh
Mixel
1
La meilleure réponse serait de contribuer à une fonctionnalité pour ddtrouver la taille de bloc optimale lors du transfert du fichier
Boris
Pourquoi ce sujet a-t-il été délimité et n'a-t-il pas été migré vers le superutilisateur?
user267092

Réponses:

95

La taille de bloc optimale dépend de divers facteurs, y compris le système d'exploitation (et sa version), et les différents bus et disques matériels impliqués. Plusieurs systèmes de type Unix (y compris Linux et au moins certaines versions de BSD) définissent le st_blksizemembre dans le struct statqui donne ce que le noyau pense être la taille de bloc optimale:

#include <sys/stat.h>
#include <stdio.h>

int main(void)
{
    struct stat stats;

    if (!stat("/", &stats))
    {
        printf("%u\n", stats.st_blksize);
    }
}

Le meilleur moyen est peut-être d'expérimenter: copiez un gigaoctet avec différentes tailles de bloc et l'heure. (N'oubliez pas de vider les caches du tampon du noyau avant chaque exécution :) echo 3 > /proc/sys/vm/drop_caches.

Cependant, en règle générale, j'ai trouvé qu'une taille de bloc suffisamment grande permet de ddfaire du bon travail, et les différences entre, par exemple, 64 Kio et 1 Mo sont mineures, par rapport à 4 Kio contre 64 Kio. (Bien que, certes, cela fait un moment que je n'ai pas fait cela. J'utilise un mégaoctet par défaut maintenant, ou je laisse simplement ddchoisir la taille.)

Boiethios
la source
11
Je suis vraiment désolé de ne jamais avoir accepté cela comme réponse ... merci!
eckza
Excellent point pour ne pas oublier de supprimer les caches. Cela gâchait mes mesures! (Bien que problème mineur: il s'agit de "drop_caches", avec un trait de soulignement. Apparemment, les modifications doivent comporter au moins 6 caractères ... :()
Tom
73

Comme d'autres l'ont dit, il n'y a pas de taille de bloc universellement correcte; ce qui est optimal pour une situation ou une pièce de matériel peut être terriblement inefficace pour une autre. En outre, en fonction de la santé des disques, il peut être préférable d'utiliser une taille de bloc différente de ce qui est "optimal".

Une chose qui est assez fiable sur le matériel moderne est que la taille de bloc par défaut de 512 octets a tendance à être presque un ordre de grandeur plus lente qu'une alternative plus optimale. En cas de doute, j'ai trouvé que 64K est un défaut moderne assez solide. Bien que 64K ne soit généralement pas LA taille de bloc optimale, d'après mon expérience, elle a tendance à être beaucoup plus efficace que la taille par défaut. 64K a également une histoire assez solide de fiabilité: vous pouvez trouver un message de la liste de diffusion Eug-Lug, vers 2002, recommandant une taille de bloc de 64K ici: http://www.mail-archive.com/eug- [email protected]/msg12073.html

Pour déterminer LA taille de bloc de sortie optimale, j'ai écrit le script suivant qui teste l'écriture d'un fichier de test de 128 Mo avec dd dans une plage de tailles de bloc différentes, de la valeur par défaut de 512 octets à un maximum de 64 Mo. Attention, ce script utilise dd en interne, donc à utiliser avec prudence.

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd's STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

Afficher sur GitHub

Je n'ai testé ce script que sur un système Debian (Ubuntu) et sur OSX Yosemite, il faudra donc probablement quelques ajustements pour fonctionner sur d'autres saveurs Unix.

Par défaut, la commande créera un fichier de test nommé dd_obs_testfile dans le répertoire courant. Vous pouvez également fournir un chemin vers un fichier de test personnalisé en fournissant un chemin après le nom du script:

$ ./dd_obs_test.sh /path/to/disk/test_file

La sortie du script est une liste des tailles de bloc testées et de leurs taux de transfert respectifs comme ceci:

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(Remarque: l'unité des taux de transfert varie selon le système d'exploitation)

Pour tester la taille optimale du bloc de lecture, vous pouvez utiliser plus ou moins le même processus, mais au lieu de lire à partir de / dev / zero et d'écrire sur le disque, vous liriez à partir du disque et écririez dans / dev / null. Un script pour faire cela pourrait ressembler à ceci:

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

Afficher sur GitHub

Une différence importante dans ce cas est que le fichier de test est un fichier écrit par le script. Ne pointez pas cette commande sur un fichier existant ou le fichier existant sera écrasé par des zéros!

Pour mon matériel particulier, j'ai trouvé que 128K était la taille de bloc d'entrée la plus optimale sur un disque dur et que 32K était la plus optimale sur un SSD.

Bien que cette réponse couvre la plupart de mes découvertes, j'ai rencontré cette situation suffisamment de fois pour que j'écrive un article de blog à ce sujet: http://blog.tdg5.com/tuning-dd-block-size/ Vous pouvez trouver plus de détails sur les tests que j'y ai effectués.

tdg5
la source
1
J'ai exécuté le deuxième script, tester les performances de lecture, sur un rMBP 2015 avec un SSD 512G. La meilleure taille de bloc était 8388608: 3,582 Go octets / s.
Quinn Comendant
1
CORRECTION: J'ai exécuté le deuxième script, testant les performances de lecture, sur un rMBP 2015 avec un SSD de 512 Go. La meilleure taille de bloc était de 524288 (5,754 Go / s). La deuxième meilleure taille de bloc était de 131072 (5,133 Go / s). (J'ai mal trié les résultats en générant des valeurs pour mon dernier commentaire.)
Quinn Comendant
For dd_obs_test.sh conv=fsyncne fonctionne pas sur macOS et peut être supprimé.
rynop
D'après mon expérience, l'analyse comparative de tailles de blocs plus grandes nécessite un échantillon plus important pour être précis (plusieurs secondes. Je suppose qu'un fichier de 128 Mo devrait le faire mais je ne suis pas sûr). Pas certain de pourquoi.
Rolf
2
Mec! Quelle réponse incroyable. C'est comme trouver une mine d'or, déterrer une tonne de terre puis la traiter pour trouver le GOLD NUGGET que je voulais: 64K Merci beaucoup.
SDsolar
10

J'ai trouvé que ma taille de bloc optimale était de 8 Mo (égal au cache disque?) J'avais besoin d'effacer (certains disent: laver) l'espace vide sur un disque avant d'en créer une image compressée. J'ai utilisé:

cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero

J'ai expérimenté des valeurs de 4K à 100M.

Après avoir laissé dd s'exécuter pendant un moment, je l'ai tué (Ctlr + C) et lu la sortie:

36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s

Comme dd affiche le taux d'entrée / sortie (19,1 Mo / s dans ce cas), il est facile de voir si la valeur que vous avez choisie fonctionne mieux que la précédente ou pire.

Mes scores:

bs=   I/O rate
---------------
4K    13.5 MB/s
64K   18.3 MB/s
8M    19.1 MB/s <--- winner!
10M   19.0 MB/s
20M   18.6 MB/s
100M  18.6 MB/s   

Remarque: pour vérifier la taille de votre cache disque / tampon, vous pouvez utiliser sudo hdparm -i /dev/sda

unfa
la source
4
N'avez-vous exécuté chaque test qu'une seule fois? Je pense que ce que vous pourriez voir à partir de ≥64K, c'est que le tampon est déjà plein et que la différence est juste une variance aléatoire.
Mads Y
J'ai entendu une fois de grandes valeurs gênant potentiellement le système. La personne travaillait avec un gros fichier. Ce serait bien si je pouvais en savoir plus à ce sujet.
Todd Partridge
1
Mon expérience suggère aussi que 8Mc'est difficile à battre.
Sridhar Sarnobat
Intéressant. Pensez-vous que cela soit lié à la taille du cache L3 ou non? Je me demande si des tailles de bloc plus grandes que le cache L3 iraient plus lentement.
SurpriseDog
3

Cela dépend totalement du système. Vous devez expérimenter pour trouver la solution optimale. Essayez de commencer par bs=8388608. (Comme les disques durs Hitachi semblent avoir 8 Mo de cache.)

ssapkota
la source
5
beaucoup de versions de dd acceptent les raccourcis: ie bs=8Msur GNU / Linux ou bs=8msur BSD
pascal
4
lol, je pensais que vous alliez dire "Essayez de commencer à bs=8388608et de décrémenter une fois à chaque étape"
lindhe
1
  • pour de meilleures performances, utilisez la plus grande taille de bloc que la RAM peut accepter (enverra moins d'appels d'E / S au système d'exploitation)
  • pour une meilleure précision et une meilleure récupération des données, définissez la taille du bloc sur la taille du secteur natif de l'entrée

Comme dd copie les données avec l'option conv = noerror, sync, toute erreur rencontrée entraînera le remplacement du reste du bloc par zéro octet. Des blocs de plus grande taille seront copiés plus rapidement, mais chaque fois qu'une erreur est rencontrée, le reste du bloc est ignoré.

la source

eadmaster
la source
1
Je pense que s'il y a des erreurs d'écriture, vous devez remplacer le support, pas changer la taille du bloc ...
unfa