Je vois des messages d'erreur comme ceux-ci ci-dessous:
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer,
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0:
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
Celles-ci entraîneront une dégradation des performances même si elles ont (jusqu'à présent) été corrigées. De toute évidence, ce problème doit être résolu. Cependant, je ne trouve pas grand-chose à ce sujet sur Internet. (Peut-être que je cherche au mauvais endroit.) Je n'ai trouvé que quelques liens que je posterai ci-dessous.
Quelqu'un en sait-il plus sur ces erreurs?
Est-ce la carte mère, le Samsung 950 Pro ou le GPU (ou une combinaison de ceux-ci)?
Le matériel est: Asus X99 Deluxe II Samsung 950 Pro NVMe dans le M2. emplacement sur le mb (qui partage le port PCIe 3). Rien d'autre n'est branché sur le port PCIe 3. Un GeForce GTX 1070 dans le processeur PCIe slot 1 Core i7 6850K
Quelques liens que j'ai trouvés mentionnent le même matériel (X99 Deluxe II mb et Samsung950 Pro). J'utilise Arch Linux.
Je ne trouve pas la chaîne "8086: 6f08" dans journalctl ou ailleurs que j'ai pensé rechercher jusqu'ici.
message d'erreur étrange avec nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe: votre carte lutte-t-elle silencieusement avec les retransmissions TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
GTX 1080 Lancer des erreurs de bus TLP PCIe incorrectes - Forums GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
pilotes - Erreur PCIe dans le journal dmesg - Demandez à Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log
780Ti X99 hard lock - PCIE errors - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
Réponses:
Je peux donner au moins quelques détails, même si je ne peux pas expliquer complètement ce qui se passe.
Comme décrit par exemple ici , le CPU communique avec le contrôleur de bus PCIe par des paquets de couche de transaction (TLP). Le matériel détecte les pannes et le noyau Linux le signale sous forme de messages.
L'option noyau
pci=nommconf
désactive l'espace de configuration PCI mappé en mémoire, qui est disponible sous Linux depuis le noyau 2.6. En gros, tous les périphériques PCI ont une zone qui décrit ce périphérique (que vous voyez aveclspci -vv
), et la méthode d'origine pour accéder à cette zone implique de passer par des ports d'E / S, tandis que PCIe permet de mapper cet espace à la mémoire pour un accès plus simple.Cela signifie que dans ce cas particulier, quelque chose ne va pas lorsque le contrôleur PCIe utilise cette méthode pour accéder à l'espace de configuration d'un périphérique particulier. Il peut s'agir d'un bug matériel dans le périphérique, dans le contrôleur racine PCIe sur la carte mère, dans l'interaction spécifique de ces deux, ou autre chose.
En utilisant
pci=nommconf
, l'espace de configuration de tous les périphériques sera accessible de la manière d'origine et la modification des méthodes d'accès contourne ce problème. Donc, si vous voulez, c'est à la fois le résoudre et le supprimer.la source
L'ajout de l'option de ligne de commande du noyau a
pci=nommconf
résolu le problème pour moi. Par conséquent, je suppose que le problème est lié à la carte mère. Cela se produit sur tous mes ordinateurs équipés d'une carte mère X99. Cela ne se produit pas sur les systèmes Z170 ou tout autre matériel que je possède.la source
Essayez ces étapes:
cp /etc/default/grub ~/Desktop
Modifier grub. Ajouter
pci=noaer
à la fin deGRUB_CMDLINE_LINUX_DEFAULT
. La ligne sera comme ceci:sudo cp ~/Desktop/grub /etc/default/
sudo update-grub
la source
pci=noaer
utiliserpci=nommconf
comme suggéré par @dirktsudoedit
pour une édition en toute sécurité? -1 pour ces copies ici et là les étapes sont complètement absurdespci=noaer
désactive simplement le rapport d'erreurs avancé. Donc, vous avez toujours ces erreurs, vous ne les voyez tout simplement pas ...J'obtiens les mêmes erreurs (Bad TLP associé au périphérique 8086: 6f08). J'ai X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Ces problèmes semblent être associés au chipset X99 et au périphérique M.2, comme Samsung Pro.
La carte mère X99 Deluxe II partage la bande passante entre l'emplacement PCIE16_3 et M.2 / U.2. Suite au commentaire de @Nic, dans le BIOS, j'ai changé la configuration des périphériques embarqués | Bande passante U.2_2 d'Auto à U.2_2. Cela a résolu le problème pour moi.
la source
J'ai changé la configuration de l'emplacement PCIE16_3 dans le BIOS sur mon x99-E pour qu'elle soit statique en mode x8 au lieu d'auto qui est par défaut pour la prise en charge des périphériques M.2. Fonctionne bien maintenant sans erreurs TLP sur mes deux cartes 1070GTX connectées via des cartes d'extension PCIe 1x à 16x.
Je n'ai pas utilisé le port 16_3 en premier, déplacé vers cet emplacement pour tester, mais j'avais toujours des problèmes avant de changer de bios. Modification du paramètre bsleep pour toutes les cartes à 30 dans la configuration du mineur.
Avant le changement, j'avais le journal du noyau contenant des défauts. A également essayé de powercycle système avant et après le changement. Semble être assez persistant.
la source
Cherchez dans votre manuel de la carte mère "AER". Vous pouvez tuer la source du problème en corrigeant l'incompatibilité spécifique ou en désactivant complètement AER. Utilisez-le uniquement si tous les spams d'erreur concernent des erreurs corrigées , sinon vous pourriez couvrir un problème réel.
la source