Journal de relais MySQL corrompu, comment le réparer? Essayé mais échoué

25

Un relais MySQL v5.1.61 a été corrompu lorsque la machine s'est soudainement arrêtée. J'ai essayé de le réparer mais cela n'a pas fonctionné.
- Comment je le répare? Est-ce que j'ai fait quelque chose de mal?

D'après ce que j'ai lu, les journaux de relais MySQL corrompus sont facilement corrigés:

change master to master_log_file='<Relay_Master_Log_File>',
                 master_log_pos=<Exec_Master_Log_Pos>;

Relay_Master_Log_Fileet Exec_Master_Log_Possont répertoriés par:
mysql> show slave status;

Cependant, quand je l'ai fait change master status ..., j'ai eu une erreur de violation de clé primaire. Comment est-ce possible? La procédure ci-dessus n'est-elle pas correcte ou, par exemple, manque-t-il un +1?

(Pour l'instant, j'ai simplement réimporté un mysqldump --master-data du maître vers l'esclave, et cela a résolu le problème. Cependant, à l'avenir, cela pourrait ne pas être approprié.)


Voici les détails de mon problème particulier:

mysql> show slave status \G
*************************** 1. row ***************************
               Slave_IO_State: Waiting for master to send event
                  Master_Host: the-master-host
                  Master_User: replication
                  Master_Port: 3306
                Connect_Retry: 60
              Master_Log_File: mysql-bin.000021
          Read_Master_Log_Pos: 33639968
               Relay_Log_File: mysql-relay-bin.000271
                Relay_Log_Pos: 2031587
        Relay_Master_Log_File: mysql-bin.000020
             Slave_IO_Running: Yes
            Slave_SQL_Running: No
              Replicate_Do_DB: the_database
          Replicate_Ignore_DB: 
           Replicate_Do_Table: 
       Replicate_Ignore_Table: 
      Replicate_Wild_Do_Table: 
  Replicate_Wild_Ignore_Table: 
                   Last_Errno: 1594
                   Last_Error: Relay log read failure: Could not parse relay log event entry. The possible reasons are: the master's binary log is corrupted (you can check this by running 'mysqlbinlog' on the binary log), the slave's relay log is corrupted (you can check this by running 'mysqlbinlog' on the relay log), a network problem, or a bug in the master's or slave's MySQL code. If you want to check the master's binary log or slave's relay log, you will be able to know their names by issuing 'SHOW SLAVE STATUS' on this slave.
                 Skip_Counter: 0
          Exec_Master_Log_Pos: 66395191
              Relay_Log_Space: 36559177
              Until_Condition: None
               Until_Log_File: 
                Until_Log_Pos: 0
           Master_SSL_Allowed: No
           Master_SSL_CA_File: 
           Master_SSL_CA_Path: 
              Master_SSL_Cert: 
            Master_SSL_Cipher: 
               Master_SSL_Key: 
        Seconds_Behind_Master: NULL
Master_SSL_Verify_Server_Cert: No
                Last_IO_Errno: 0
                Last_IO_Error: 
               Last_SQL_Errno: 1594
               Last_SQL_Error: Relay log read failure: Could not parse relay log event entry. The possible reasons are: the master's binary log is corrupted (you can check this by running 'mysqlbinlog' on the binary log), the slave's relay log is corrupted (you can check this by running 'mysqlbinlog' on the relay log), a network problem, or a bug in the master's or slave's MySQL code. If you want to check the master's binary log or slave's relay log, you will be able to know their names by issuing 'SHOW SLAVE STATUS' on this slave.

Et voici ce que j'ai fait:

mysql> stop slave;
mysql> reset slave;
mysql> change master to master_host='the-master-host', master_user='replication', master_password='the-password', master_log_file='mysql-bin.000020', master_log_pos=66395191;
mysql> start slave;

Et c'est ce qui s'est passé, une erreur PK:

131122 15:17:29 [Note] Slave I/O thread: connected to master 'replication@the-master-host:3306',replication started in log 'mysql-bin.000020' at position 66395191
131122 15:17:29 [ERROR] Slave SQL: Error 'Duplicate entry '71373' for key 'PRIMARY'' on query. Default database: 'the_database'. Query: 'insert into ...  values ...', Error_code: 1062
131122 15:17:29 [Warning] Slave: Data truncated for column 'date' at row 1 Error_code: 1265
131122 15:17:29 [Warning] Slave: Duplicate entry '71373' for key 'PRIMARY' Error_code: 1062

Je pense que j'ai suivi la procédure recommandée (voir les liens ci-dessous), il y avait toujours une erreur PK :-(? Http://bugs.mysql.com/bug.php?id=26489 , recherchez "Contournements". Http: //mhbarr.wordpress.com/2013/07/26/mysql-slave-corrupted-relay-log/ /programming//a/14438408

KajMagnus
la source
1
Oui, il semble que cela aurait dû fonctionner, et en fait il semble qu'il ait probablement fonctionné, car peut-être que le journal de relais d'origine, avant la section corrompue, avait déjà fait l'insertion à cette position de journal principal, mais n'a pas pu avancer le a affiché la position principale au pointeur suivant, car ce pointeur est stocké dans le journal de relais (qui était corrompu.) Donc, vous pourriez avoir évité de sauter cet événement et de passer à l'événement suivant, puis de vérifier que le maître et l'esclave avaient en fait des données identiques ... Je n'ai pas encore eu l'occasion d'examiner la question de manière suffisamment détaillée.
Michael - sqlbot
1
Merci @ Michael-sqlbot, alors je pense que si ce problème se reproduit, je ferai SET GLOBAL sql_slave_skip_counter = 1; START SLAVE;et sauterai un événement sur l'esclave, et j'espère que cela aide - est-ce que cela a du sens? Si cela n'aide pas (s'il y a encore une erreur PK), je vais à --master-datanouveau importer un vidage .
KajMagnus

Réponses:

35

Erreur: Last_SQL_Errno: 1594 Last_SQL_Error: échec de lecture du journal de relais: impossible d'analyser l'entrée d'événement du journal de relais.

Cette erreur signifie que le fichier journal maître est corrompu ou que le fichier journal relais est corrompu.

  • Avant de faire quoi que ce soit, sauvegardez toutes vos bases de données, journaux, serveurs d'images, répétez plusieurs fois et continuez uniquement à vos risques et périls.

Exécutez d'abord "show slave status \ G" sur l'esclave et notez:

Master_Log_File: mysql-bin.000026
Read_Master_Log_Pos: 2377104
Relay_Log_File: mysqld-relay-bin.000056
Relay_Log_Pos: 1097303
Relay_Master_Log_File: mysql-bin.000026
Exec_Master_Log_Pos: 1097157

Tout d'abord, nous voulons nous assurer que le fichier journal maître est intact, alors sautez sur le serveur maître et trouvez Relay_Master_Log_File (vérifiez / var / log / mysql) et exécutez la commande suivante:

mysqlbinlog mysql-bin.000026

Le journal sera affiché mais j'espère que vous ne verrez aucun message d'erreur. Si vous voyez des messages d'erreur, les journaux principaux sont corrompus et vous devrez probablement recréer une image.

Exécutez ensuite la même commande sur le journal du relais esclave (souvent dans / var / lib / mysql)

mysqlbinlog mysqld-relay-bin.000056

Vous verrez probablement des erreurs montrant la corruption qui a arrêté la réplication, comme ceci:

ERROR: Error in Log_event::read_log_event(): 'read error', data_len: 336, event_type: 2
ERROR: Could not read entry at offset 1097414: Error in log format or read error.
DELIMITER ;
# End of log file
ROLLBACK /* added by mysqlbinlog */;
/*!50003 SET COMPLETION_TYPE=@OLD_COMPLETION_TYPE*/;
/*!50530 SET @@SESSION.PSEUDO_SLAVE_MODE=0*/;
root@db:/var/lib/mysql#

Si vous voyez des erreurs, le journal est correct sur le maître et seul le journal de relais de l'esclave est corrompu. C'est une bonne nouvelle, nous pouvons réinitialiser l'esclave et lui dire les détails du maître et où continuer. Si vous ne voyez aucune erreur, arrêtez de lire maintenant, vous avez un problème différent.

Si le journal du relais esclave contient des erreurs, exécutez les commandes suivantes pour réinitialiser l'esclave et les journaux corrompus se reconnecter au maître, obtenir les journaux corrects et recommencer l'asservissement. Notez que MASTER_LOG_POS est le Exec_Master_Log_Pos, et MASTER_LOG_FILE est le Relay_Master_Log_File( PAS le premier, qui correspond aux journaux de relais qui ont été récupérés et doivent être jetés) à la fois à partir de la première commande.

mysql> stop slave;
Query OK, 0 rows affected (0.14 sec)

mysql> reset slave all;
Query OK, 0 rows affected (0.43 sec)

mysql>  CHANGE MASTER TO MASTER_HOST='master.host.com', MASTER_USER='masteruser', MASTER_PASSWORD='masterpass', MASTER_LOG_FILE='mysql-bin.000026', MASTER_LOG_POS=1097157;
Query OK, 0 rows affected (0.93 sec)

mysql> start slave;
Query OK, 0 rows affected (0.00 sec)
A.Badger
la source
2
Salut, merci pour votre réponse. Si vous lisez attentivement la question, vous remarquerez qu'elle dit "Journal de relais corrompu" - c'est parce que nous l'avons déjà utilisé mysqlbinlogde la manière que vous suggérez, et nous avons découvert que le journal de relais (pas le journal principal) avait été corrompu. Concenring le correctif que vous proposez - si vous lisez attentivement la question, vous remarquerez que le correctif que vous proposez est exactement ce que nous avons déjà tenté. Mais cela n'a pas fonctionné, et c'est de cela qu'il s'agit. - Mais votre réponse pourrait être utile pour d'autres personnes ayant un problème similaire.
KajMagnus
2
Il faut sans doute noter que MASTER_LOG_FILEdans CHANGE MASTERdoit être prélevé Relay_Master_Log_Fileet non de Master_Log_File. Habituellement, ils seront les mêmes, mais ce n'est pas toujours le cas (voir percona.com/blog/2008/07/07/… ).
brablc
@brablc a raison. Relay_Master_Log_Filedoit être utilisé, non Master_Log_File. Voir aussi: percona.com/blog/2008/07/07/…
Mircea Vutcovici
dans la plupart des cas, cela n'est pas nécessaire reset slave allcar les paramètres principaux n'ont pas besoin d'être modifiés (par exemple master_host, master_user, master_password), uniquement MASTER_LOG_FILE et MASTER_LOG_POS, alors un reset_slavedevrait suffire
ympostor
Cette question et cette réponse m'ont déjà sauvé plusieurs fois les fesses. Merci.
Artem Russakovskii
8

[Correction de la réplication MySQL après la corruption du journal de relais des esclaves]

La réplication MySQL sur l'esclave (version 5.XX) s'est arrêtée. Slave_IO_Running a été marqué comme Oui, mais Slave_SQL_Running comme Non. L'esclave stop / start simple n'a pas aidé, donc une analyse plus approfondie du problème a été nécessaire. Il semblait que le journal de relais de l'esclave actuel était corrompu car le test avec «mysqlbinlog» a imprimé une erreur. Par conséquent, la solution consistait à éliminer les journaux de binaires de relais actuels et à pointer l'esclave vers la dernière position de journal de binaires maître.

Pour corriger l'erreur, les fichiers binlog actuels sur l'esclave doivent être supprimés et définir une nouvelle position. Avant de définir la nouvelle position du journal des événements, il est important de se souvenir des valeurs Relay_Master_Log_File et Exec_Master_Log_Pos du serveur esclave corrompu à l'aide de la commande SHOW SLAVE STATUS \ G :

Relay_Master_Log_File: mysql-bin.002045
Exec_Master_Log_Pos: 103641119

OK, avec ces valeurs, une nouvelle position binlog peut être définie:

# stop slave
mysql> stop slave;

# make slave forget its replication position in the master's binary log
mysql> reset slave;

# change slave to start reading from stopped position
mysql> change master to master_log_file='mysql-bin.002045', master_log_pos=103641119;

# start slave
mysql> start slave;

Juste pour noter que reset slavecela supprimera master.info, relay-log.infoet tous les fichiers journaux de relais, il n'est donc pas nécessaire de nettoyer les restes dans le /var/lib/mysqlrépertoire.

Mohamed Ayas
la source
1
Bonne réponse - nous n'avons généralement pas besoin de changer l'hôte principal, le mot de passe, etc. Thx!
andy250
3

Je sais que cela fait plus d'un an, mais voici ce qui est peut-être arrivé à ce problème particulier.

mysql> stop slave;
mysql> reset slave;
mysql> change master to master_host='the-master-host', master_user='replication', master_password='the-password', master_log_file='mysql-bin.000020', master_log_pos=66395191;
mysql> start slave;

Cela semble avoir dû le corriger car il a supprimé le journal de relais corrompu.

Ensuite, vous avez une erreur PK 1062. Pourquoi?

Il existe un bogue en suspens ( http://bugs.mysql.com/bug.php?id=60847 ) qui est toujours actif dans MySQL 5.5

Bien que le bogue concerne l'utilisation de mysql --single-transaction --flush-logs, une bizarrerie connexe existe.

J'ai vu cette bizarrerie sur certains serveurs EC2 fonctionnant en tant qu'esclaves pour un client la semaine dernière dans MySQL 5.5.15

Sur le maître, il y avait un étrange INSERT étendu à plusieurs lignes où chaque tuple inséré était un SELECT. Ce qui s'est passé, c'est que le LAST_INSERT_ID dans le journal de relais, qui constitue le prochain incrément automatique à affecter, était déjà utilisé sur l'esclave en raison d'insertions sur plusieurs lignes au préalable.

L'INSERT sérialisé dans le journal de relais ressemblait à

INSERT INTO tablname (column,column) VALUES (value,value,...)

La liste des colonnes ne comprenait pas la clé primaire numérique. Lorsque l'erreur 1062 est revenue, j'utiliserais la même requête sur laquelle elle a échoué, exécutez la requête manuellement. Il n'a pas atteint l'erreur 1062. Ensuite, j'ai exécuté les commandes skip slave habituelles:

STOP SLAVE;
SET GLOBAL SQL_SLAVE_SKIP_COUNTER=1;
START SLAVE;
SET @sleepnumber = SLEEP(3);
SHOW SLAVE STATUS\G

Ensuite, la réplication a rattrapé.

Mon conseil serait de sérialiser correctement vos INSERT sur le Master car cette situation de type bug est en fait assez évitable.

RolandoMySQLDBA
la source
1

Vous l'avez fait très bien (comme d'autres l'ont déjà dit).

Le seul problème est avec le fichier master.info (contient des informations sur la position dans mysql-bin.log du maître) car ce fichier n'est pas synchronisé sur le disque après le traitement de chaque requête.

Vos informations sur les positions dans le journal du maître sont donc obsolètes et vous traitez des requêtes déjà traitées qui doivent être ignorées SET GLOBAL SQL_SLAVE_SKIP_COUNTER=1;.

Malheureusement, si vous utilisez certaines requêtes comme UPDATE table SET counter=counter+1 WHERE id = 12345et l'utilisation de binlog_format=STATEMENTvos bases de données peut se désynchroniser, je pense.

Vous pouvez dire au serveur MySQL de synchroniser master.info après chaque événement en configurant la variable sync_master_info, mais cela aura probablement d'énormes conséquences sur les performances.

Dragonn
la source