Qu'est-ce qui cause cela? pcieport 0000: 00: 03.0: Erreur de bus PCIe: AER / Bad TLP

20

Je vois des messages d'erreur comme ceux-ci ci-dessous:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Celles-ci entraîneront une dégradation des performances même si elles ont (jusqu'à présent) été corrigées. De toute évidence, ce problème doit être résolu. Cependant, je ne trouve pas grand-chose à ce sujet sur Internet. (Peut-être que je cherche au mauvais endroit.) Je n'ai trouvé que quelques liens que je posterai ci-dessous.

Quelqu'un en sait-il plus sur ces erreurs?

Est-ce la carte mère, le Samsung 950 Pro ou le GPU (ou une combinaison de ceux-ci)?

Le matériel est: Asus X99 Deluxe II Samsung 950 Pro NVMe dans le M2. emplacement sur le mb (qui partage le port PCIe 3). Rien d'autre n'est branché sur le port PCIe 3. Un GeForce GTX 1070 dans le processeur PCIe slot 1 Core i7 6850K

Quelques liens que j'ai trouvés mentionnent le même matériel (X99 Deluxe II mb et Samsung950 Pro). J'utilise Arch Linux.

Je ne trouve pas la chaîne "8086: 6f08" dans journalctl ou ailleurs que j'ai pensé rechercher jusqu'ici.

message d'erreur étrange avec nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: votre carte lutte-t-elle silencieusement avec les retransmissions TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 Lancer des erreurs de bus TLP PCIe incorrectes - Forums GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

pilotes - Erreur PCIe dans le journal dmesg - Demandez à Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - PCIE errors - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

MountainX pour Monica Cellio
la source
j'ai déplacé mon gtx 710 de l'emplacement pc x16 vers un emplacement x1 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

Réponses:

23

Je peux donner au moins quelques détails, même si je ne peux pas expliquer complètement ce qui se passe.

Comme décrit par exemple ici , le CPU communique avec le contrôleur de bus PCIe par des paquets de couche de transaction (TLP). Le matériel détecte les pannes et le noyau Linux le signale sous forme de messages.

L'option noyau pci=nommconfdésactive l'espace de configuration PCI mappé en mémoire, qui est disponible sous Linux depuis le noyau 2.6. En gros, tous les périphériques PCI ont une zone qui décrit ce périphérique (que vous voyez avec lspci -vv), et la méthode d'origine pour accéder à cette zone implique de passer par des ports d'E / S, tandis que PCIe permet de mapper cet espace à la mémoire pour un accès plus simple.

Cela signifie que dans ce cas particulier, quelque chose ne va pas lorsque le contrôleur PCIe utilise cette méthode pour accéder à l'espace de configuration d'un périphérique particulier. Il peut s'agir d'un bug matériel dans le périphérique, dans le contrôleur racine PCIe sur la carte mère, dans l'interaction spécifique de ces deux, ou autre chose.

En utilisant pci=nommconf, l'espace de configuration de tous les périphériques sera accessible de la manière d'origine et la modification des méthodes d'accès contourne ce problème. Donc, si vous voulez, c'est à la fois le résoudre et le supprimer.

dirkt
la source
Puis-je savoir si c'est mon problème de carte mère? Ou mon problème de CPU. Dois-je les changer?
user10024395
@ user2675516: Ce n'est pas lié au CPU. C'est un problème du contrôleur racine PCIe (qui se trouve souvent dans le Southbridge) et / ou du contrôleur PCIe du périphérique, ou de leur interaction. Oui, changer la carte mère pour une autre avec du matériel différent s'en débarrasse généralement.
dirkt
J'ai changé d'asus e-ws en asus deluxe, mais le problème persiste. C'est pourquoi je soupçonne que c'est le processeur. Ou est-ce parce que les deux sont des chipsets X99?
user10024395
1
@ user2675516: Si le chipset est le même, esp. le contrôleur PCIe, puis changer la carte mère n'aidera bien sûr pas. C'est pourquoi j'ai écrit "carte mère avec un matériel différent ".
dirkt
le facteur commun pour moi semble être une carte mère avec le chipset X99
MountainX pour Monica Cellio
3

L'ajout de l'option de ligne de commande du noyau a pci=nommconfrésolu le problème pour moi. Par conséquent, je suppose que le problème est lié à la carte mère. Cela se produit sur tous mes ordinateurs équipés d'une carte mère X99. Cela ne se produit pas sur les systèmes Z170 ou tout autre matériel que je possède.

MountainX pour Monica Cellio
la source
1
Salut, je suis également confronté à ce problème. Puis-je savoir ce que pci-nommconf fait? S'agit-il simplement de supprimer le problème ou de le résoudre?
user10024395
Impossible de confirmer - obtenir l'erreur sur z170i, en exécutant arch 4.13.12
sitilge
@sitilge - merci pour votre commentaire. Quelle marque / modèle z170i? Mes cartes mères sont Asus. L'un est X99 Deluxe II
MountainX pour Monica Cellio
Il s'agit du jeu pro Asus Z170i.
sitilge
3

Essayez ces étapes:

  1. cp /etc/default/grub ~/Desktop
  2. Modifier grub. Ajouter pci=noaerà la fin de GRUB_CMDLINE_LINUX_DEFAULT. La ligne sera comme ceci:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Redémarrer maintenant
Ehtesham
la source
J'ai appliqué votre solution, mais au lieu de l' pci=noaerutiliser pci=nommconfcomme suggéré par @dirkt
user3405291
Merci, pci = noaer a résolu mon problème de slackware 14.2x64 installé sur un ordinateur portable hp (l'installation de bureau ne présentait pas ce problème du tout)
John Forkosh
7
Pourriez-vous élaborer un peu? Que fait cette option et comment pensez-vous qu'elle résoudra le problème?
Calimo
Pourquoi ne l'utilisez-vous pas sudoeditpour une édition en toute sécurité? -1 pour ces copies ici et là les étapes sont complètement absurdes
LinuxSecurityFreak
4
pci=noaerdésactive simplement le rapport d'erreurs avancé. Donc, vous avez toujours ces erreurs, vous ne les voyez tout simplement pas ...
dirkt
2

J'obtiens les mêmes erreurs (Bad TLP associé au périphérique 8086: 6f08). J'ai X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Ces problèmes semblent être associés au chipset X99 et au périphérique M.2, comme Samsung Pro.

La carte mère X99 Deluxe II partage la bande passante entre l'emplacement PCIE16_3 et M.2 / U.2. Suite au commentaire de @Nic, dans le BIOS, j'ai changé la configuration des périphériques embarqués | Bande passante U.2_2 d'Auto à U.2_2. Cela a résolu le problème pour moi.

user1759557
la source
Comment avez-vous déterminé que c'est juste ce chipset? Vous avez essayé tous les autres chipsets? Il se produit sur une grande variété de matériel.
doug65536
2

J'ai changé la configuration de l'emplacement PCIE16_3 dans le BIOS sur mon x99-E pour qu'elle soit statique en mode x8 au lieu d'auto qui est par défaut pour la prise en charge des périphériques M.2. Fonctionne bien maintenant sans erreurs TLP sur mes deux cartes 1070GTX connectées via des cartes d'extension PCIe 1x à 16x.

Je n'ai pas utilisé le port 16_3 en premier, déplacé vers cet emplacement pour tester, mais j'avais toujours des problèmes avant de changer de bios. Modification du paramètre bsleep pour toutes les cartes à 30 dans la configuration du mineur.

Avant le changement, j'avais le journal du noyau contenant des défauts. A également essayé de powercycle système avant et après le changement. Semble être assez persistant.

Nic
la source
2

Cherchez dans votre manuel de la carte mère "AER". Vous pouvez tuer la source du problème en corrigeant l'incompatibilité spécifique ou en désactivant complètement AER. Utilisez-le uniquement si tous les spams d'erreur concernent des erreurs corrigées , sinon vous pourriez couvrir un problème réel.

N3V3N
la source