BSOD et erreurs WHEA sur un PC gaming : quand le fautif se cache… dans le stockage NVMe

Un PC récent et très performant (Intel Core i5-13600K, carte mère Gigabyte B760 GAMING X rev.1, 32 Go de RAM, NVIDIA RTX 4070 Ti) arrivait en atelier avec un symptôme pénible : des écrans bleus (BSOD) et des redémarrages inopinés, de manière intermittente. Le type de panne qui peut passer des heures à “faire semblant d’être stable”, puis planter au pire moment.

Le BSOD capturé indiquait KMODE_EXCEPTION_NOT_HANDLED. En parallèle, le journal Windows montrait des événements WHEA-Logger (erreurs matérielles corrigées). Ce point est important : les WHEA ne prouvent pas à eux seuls la pièce en cause, mais ils signalent très souvent une instabilité matérielle “bas niveau” (PCIe, stockage, contrôleur…), parfois sans crash immédiat.

L’intervention a donc été menée comme un diagnostic atelier “propre” : reproduire, isoler, valider par contre-tests.

Première étape : éliminer la RAM et cadrer le thermique CPU

La mémoire a été validée via MemTest86, avec un passage complet sans aucune erreur. On peut donc raisonnablement sortir la RAM de la liste des suspects.

Côté processeur, un stress test a mis en évidence un comportement thermique agressif : en charge, le CPU montait jusqu’à ~100°C avec une puissance observée autour de 178–181 W. Pour éviter qu’un pic thermique CPU ne pollue tous les autres tests (et fausse le diagnostic), des limites temporaires ont été appliquées : PL1 125 W / PL2 160 W. Résultat : 20 minutes de stress CPU sans erreur, avec une température max redescendue vers ~84°C. L’objectif ici n’était pas “d’optimiser” la machine, mais de stabiliser le cadre de test : le CPU devenait nettement moins probable comme cause principale des WHEA observés lors des charges stockage.

Deuxième étape : l’évidence physique… l’airflow

En ouvrant le boîtier, un point sautait aux yeux : le filtre avant était extrêmement encrassé. Or, quand l’aspiration façade est étouffée, tout le boîtier fonctionne “en apnée” : la température globale monte, et les composants sensibles (VRM, GPU, mais surtout NVMe) peuvent franchir leurs seuils critiques très vite.

Le filtre a été nettoyé, puis des tests comparatifs ont été réalisés (façade fermée / façade ouverte) pour mesurer l’impact sur les températures et la stabilité. Une baisse des températures en charge a bien été constatée… mais l’instabilité n’était pas totalement écartée selon les scénarios.

Troisième étape : remettre la base système au carré (Windows / pilotes / BIOS)

Le système présentait une mise à jour en attente de redémarrage (KB5077181), et Windows proposait même une réparation (“réinstallez votre version actuelle de Windows…”), avec plusieurs pilotes essentiels non à jour (dont le chipset). Ces éléments peuvent dégrader la stabilité globale, mais n’expliquent pas à eux seuls des WHEA associés à une dérive thermique.

Pour repartir sur une base saine, une réinstallation de Windows 11 a été effectuée, suivie de la mise à jour des pilotes principaux (chipset/carte mère, GPU). Enfin, le BIOS a été mis à jour via Q-Flash : F6 → F16.

À ce stade, la plateforme était “propre”, prête pour le test décisif : isoler le stockage.

Le test qui tranche : A/B testing NVMe (SSD témoin vs SSD client)

Le SSD principal du PC était un WD_BLACK SN770 2 To (NVMe). Or, lors des charges stockage, le capteur “Drive Temperature 2” (souvent le hotspot/contrôleur) montait à des valeurs très élevées. C’est exactement le genre de situation qui peut provoquer WHEA, freeze, et parfois BSOD, sans prévenir.

Pour valider (ou invalider) cette piste, un test comparatif a été réalisé après mise à niveau complète :

Test A – NVMe témoin (SK hynix BC711 256 Go)
Sous OCCT Storage (20 min) : aucune erreur, 0 WHEA, températures normales. Plateforme stable.

Test B – NVMe client (WD_BLACK SN770 2 To)
Sous OCCT Storage (20 min) : réapparition d’un WHEA très rapidement (~00:00:18), avec un hotspot/contrôleur mesuré jusqu’à ~95°C.

C’est le point clé : après réinstallation Windows, pilotes à jour et BIOS F16, la machine reste stable avec un SSD NVMe témoin, mais reproduit quasi immédiatement l’erreur avec le SN770, en même temps qu’une montée thermique anormale du contrôleur. La corrélation est forte.

Conclusion : diagnostic orienté “SN770 et/ou dissipation NVMe”

Les essais montrent une forte corrélation entre événements WHEA et chauffe du contrôleur NVMe sur le WD_BLACK SN770 2 To. Le contre-test avec un NVMe témoin stable, dans les mêmes conditions, renforce l’hypothèse d’un problème centré sur le SN770 : sensibilité thermique, dissipation insuffisante (contact/pads/heatsink), emplacement défavorable, airflow, ou SSD potentiellement fragilisé.

Comme la panne reste intermittente par nature, l’objectif est de ramener le NVMe dans une zone thermique stable, puis de revalider en charge.

Préconisations (correctif durable)

La priorité est claire : améliorer la dissipation du NVMe.

Remplacement du dissipateur M.2 par un modèle plus performant, avec pads thermiques adaptés et surtout vérification du contact/pression (c’est souvent là que ça se joue). En parallèle, optimisation de l’aspiration façade (ventilateur frontal PWM, courbe de ventilation, entretien régulier des filtres). Puis une campagne de revalidation avec des tests stockage plus longs (30–60 minutes) et contrôle des événements WHEA-Logger.

Si, malgré des températures contrôleur contenues, les WHEA/BSOD persistent, le remplacement du SSD WD_BLACK SN770 devra être envisagé.