技術者になりたい何か

技術者になりたい何かの覚書的な何かです

「ディスプレイドライバが応答を停止しましたが、正常に回復しました」との戦いの顛末

久々にPC組んだらこれだよ・・・
というわけで2か月近くに及ぶ戦いに勝利したので書いときます。

先に結論


「ディスプレイドライバが応答を停止しましたが、正常に回復しました」の原因はメモリ。
メモリ自体が不良ってわけじゃなくて、俗にいう相性というやつの模様。
メモリ買い替えたら直りました。

構成

CPU:Ryzen5 1500X
メモリ:Corsair CMK8GX4M2A2666C16(Ver.5.30)
MB:ASUS B350-PLUS
グラボ:SAPPHIRE RX560
電源:玄人志向 KRPW-N600W
OS:Windows10 Pro

症状

BIOS POSTは正常。
Windows起動も正常。
ブラウジングの時にしばしばカーソルが反応しなくなる⇒数秒後に画面暗転⇒数秒後に勝手に復旧
  ⇒タスクトレイのメッセージに表題の「ディスプレイドライバが応答を停止しましたが、正常に回復しました」
  ⇒イベントビューアでは「ディスプレイ ドライバー amdkmdap が応答を停止しましたが、正常に回復しました。」
CINEBENCHGPUはほぼ完走できず。途中でホワイトアウト。⇒Windows自体は生きてるので、タスクマネージャとかからCINEBENCH強制終了はできる。
  発生確率は体感7割くらい。
FF14紅蓮のベンチは完走できず。「DirectXに致命的なエラーが」とかなんとか

頻度が結構なのと、まともにベンチ取れないのできつかった。

調査と戦い

軽く調べてみると・・・
Windows XP以降のどのWindowsでも起こる模様。
NVIDIA,AMD,ATIのどれでも起こる模様。
これやったらなおったよ、という記事はたくさんあるけど、みんなバラバラ。つまり原因不明、というか原因はバラバラ。

1.グラボが原因?


まぁグラボっぽいですよね。最初に疑いました。
このエラーがグラボ起因で出る時の原因は主に3つ。
・グラボの故障
・グラボの物理的接触不良(取り付けミス)
・ドライバがおかしい

自作erは故障を疑うのは最後です。
グラボ抜き差ししてみたけど症状変わらず。新品なので埃等による冷却性能低下などは考えにくいです。

次はドライバ。割と新製品なのでこれは疑わしい。
DDUを使って旧ドライバ完全削除して、AMDからの最新のドライバ(ベータと正式版の2種類)を試みる。

www.guru3d.com

 

結果変わらず。

2.BIOS


まぁ新しいですしね。Ryzen用MBはまだBIOS成熟しきってないという話もありますし。
ASUSのサイトから新しい方から3つくらい拾ってきます。
0613 Agesa1.0.0.6α
0609
0606 Agesa1.0.0.4α
あたり。他にも試した気がするけどもう忘れました。
結果は変わらず。

3.メモリ?
www.btopcinfo.com

www.btopcshop.com


まさかのメモリ?しかも相性?
とりあえず今回のメモリをD.O.C.P(XMPプロファイル)有効無効で症状の発生具合を調べてみるがあまり変わらない。
ちなみにこの辺でmemtest走らせてみるけど問題無く2passくらい。
⇒メモリの「不具合」ではないし、2666稼働が厳しいわけでもなさそう。

とはいえグラボ・BIOSの線はほぼ消えてるので、メモリはもうちょい検証してみました。
というわけで基本の2枚刺し⇒1枚刺しすると・・・
嘘のように症状が消えます。
すると問題はメモリの相性orメモリスロット。
A2-B2に刺してたのをA1-B1にしてみる→症状発生
A1-A2に刺してみる→症状発生
B1-B2に刺してみる→症状発生

A1のみ1枚→症状発生せず
B1のみ1枚→症状発生せず
A2のみ1枚→症状発生せず
B2のみ1枚→症状発生せず

どうもデュアルチャネル関係なしに、2枚さすのはダメな模様ですね。
この間2133,2666で試す、2枚のメモリの組み合わせを変えてみる等々しているので、
実際に試した組み合わせは詳しく覚えていません。
ただ、2枚刺しではほぼ必ず症状発生。1枚では症状発生せず。
また、2枚のメモリのどちらか1枚が原因という事も無さげです。

ここが上記BTO高知さんの状況と違うところ。2枚の内どちらかで症状発生ならメモリ確定とするところですが、
2枚とも1枚刺しでは正常稼働を確認しているため、確実にメモリとは言い切れません。

この時点で可能性としては
・メモリの相性(2枚だとダメ)
・MBの不具合(でも特定のメモリスロットがダメというのではない)
・CPUのメモコン

あと、非常に低い可能性としてグラボの初期不良・電源の初期不良が有ります。
電源は容量的には十分なはずなので、高負荷時に供給が不安定になっていると・・・ってことですね。
まぁ、この辺の可能性はかなり低いでしょう。全てを試してダメなら・・・という感じです。


それからどうした

ドスパラの通販でまとめて購入したので、サポートに聞いてみた。
状況説明して、相性、MB不具合、CPUのメモコン不具合のどれかだと思うけど・・・と。
メルマガ会員になってたので初期不良1ヶ月以内です。
サポートの人曰く、「MBの不具合の可能性が高いので、CPU,MB,メモリを送ってくれないか」とのこと。
ついでにグラボも見てくれると言うので、CPU,MB,メモリ,グラボを送って調べてもらいました。
ちなみに集荷の手配はドスパラでやってくれて、配送料は無料です。

5日後くらい
電話かかってきて、「MBにIOエラー有、他のパーツは正常を確認。MBを初期不良として新品交換します」とのこと。

なおったか

と思って組んでみたけど症状再発。MB2連続初期不良ってあんまり考えられない。なくはないけど。

ちなみにCorsairのメモリはVer.5系はHynix。Ryzenと相性悪いです。
というわけで、しばらく一枚刺しで稼働しながらメモリを物色しました。
3400以上だとRyzen環境では最高のパフォーマンスを発揮するSamsungのB-dieものの確率が上がるようですが、
3000以下ではおみくじです。G.SkillすらHynixが混じってる。
しかも迷ってる間にもメモリ価格は高騰。一時期噂になった(?)Samsungの純正バルクB-dieもほとんど残っていません。
そしてB350-PLUSのQVLに載ってるメモリはことごとく売り切れて入荷待ちになっていく。

それからどーした

そこで見つけたのは安定のMicron(のチップを確定で使ってるCrusial)。
安定と言っても、まぁ普通じゃない?という感じですけど。
Ryzen環境では
Samsung B-die>超えれらえない壁>>>>>>>>>Samsung B-die以外>>Micron>>>>>>>>>>Hynix
という感じでしょうか。結構今回の件での偏見が入ってるかもしれませんが。

というわけで候補はCrusial by MicronのBME or BMTあたりになりました。
よくよく調べてみるとどうやら
BME Eliteシリーズ→海外でBLEhogehoge
BMT Tacticalシリーズ→海外でBLThogehogeのようです。たぶん。
もう一つSportsシリーズ(BMS)→海外でBLSってのがありますが、どうもあまり売ってないので無視します。

BLT4Gとすれば、2666が2666で動いたとQVLのリストに載っています。だからといって動くとは限りませんが。
3000は載ってませんでしたが、Agesa1.0.0.6にかけて3000BMTにしました。
3000として動かなくても2枚刺しで安定してくれれば良しとします。(ドスパラで特価だった)


そうしてどーなった

結局W4U3000BMT(4Gx2)にしたわけですが、刺しなおして一発で2933起動。
今回の発端となった「ディスプレイドライバが応答を停止しましたが、正常に回復しました」は
換装して1週間ちょいですが、まだ一回も発症しておりません。
こけまくったベンチもすべて安定して完走。3DMarkもエラーなく走り切りました。

あ、ちなみに調子のって3200起動しようとしましたがダメでしたね。タイミング緩めれば行けるかもしれませんが、この辺がMicronチップの限界と言われればそーなのかなと思います。

結局最初に組んでから完全解決までに2か月近くかかってしまった。

 

ながれ

6/15一式購入

6/18完成

6/19戦闘開始

7/3メモリが原因っぽいのをつきとめる

7/13サポートから戻ってきて復活・・・したと思った

7/17再発して電源プランを疑う

7/31Radeonのドライバ更新の望みをかけるも打ち砕かれる

8/7やっとこさメモリ決める

8/9メモリ換装して戦い終了の予感

そーいうことでしたね


こうして見てみると買い替えのメモリ迷ってた期間長すぎだろ。いや、メモリ今高いですしね。。。

まとめ


・「ディスプレイドライバが応答を停止しましたが、正常に回復しました」の原因はメモリであることも有る。(確率は知らない)
・memtest問題無いメモリでも発症する
・Corsairのメモリはおみくじ