Уровень сложности "КРАСНЫЙ". На Windows 10 работает, на хайве - нет. Помогите!

troubleshooting
boot
amd
#1

Привет. Это крик о помощи. Я уже 5й день перевожу ферму с Windows 10 на HiveOS. Это третья моя ферма, на двух чисто nvidia таких проблем и близко не было, работают себе.

ДАНО
3 GTX 1080, 4 RX 580. Проблема проявляется и просто на RX 580, без GTX.
AsRock X370 Killer SLI + AMD Ryzen 5 1500X Quad-Core + 4GB DDR4
БП EVGA 100W
Проверенные временем на других фермах райзеры

Проблема была и на Windows. Выглядела так. С тремя картами nVidia и одной картой AMD проблем нет. Если добавлять карты AMD, они все не будут работать! Я не растерялся и методом научного тыка обнаружил 2 решения: вставлять в КАЖДУЮ карту AMD по эмулятору или в UEFI выключить CSM. Второй вариант мне понравился больше, в нём вообще не нужны эмуляторы, ни одного и всё работает сутками!

Я решил перейти на HiveOS и обнаружил, что он поставляется образом диска в старом формате загрузчика MBR, а для выключения CSM и работы по современным стандартам нужен GPT формат диска и раздел EFI. Короче, по умолчанию по-прежнему работают только все nVidia и одна AMD, и то, как мне показалось, в неё должен быть вставлен монитор. Если подключить 4 карты AMD, то они не заводятся.

Но я и тут не растерялся и решил перейти на GPT. Но это было непросто и заняло у меня 3 дня по 12 часов колупаний и неудач, долгих поворяющихся попыток и мелких успехов. В итоге, я всё таки сделал это. Оставил рабочую винду как есть, добавил 2 раздела аналогичным флэшке и скопировал их с помощью dd. Оставалось только загрузить их. boot-repair выдал ошибку и отказался работать, grub2win не обнаружил раздел, grub обнаружил оба раздела, но hive загружал в чёрный экран (хотя лампочка hdd помигивала), и только reFind нормально смог загрузить хайв со скопированных разделов.

Ну как нормально… Не грузится x server, а так, нормально ) Даже майнит немного, только не работает VNC, на экране дуля, консоли нет, autofan не работает. Так что не тут-то было.

Но самое обидное, несмотря на отключенный наконец-то CSM, карты AMD по-прежнему работают только с подключенный в них свистком, иначе на 14й секунде загрузки вместо зелёненьких [ OK ] выпадает kernel panic или в цикле начинает сыпаться похожие логи, и линукс перестаёт дальше загружаться. так что всё, что делал по переходу на EFI-GPT оказалось напрасно. Я перестал понимать, в чём тут дело. Как у других работают по 13 карт AMD без мониторов?

#2

Добавлю сюда разных страшилок для наглядности моментов из рабочего процесса )

Фото экранов

[/spoiler]

UPD. На данный момент:

  • автоматически не стартует OhGodAnETHlargementPill-r2, приходится запускать вручную. Тоже неприятно.
  • не загружает X server, нет доступа к консоли (разве что Teleconsole), VNC. Последняя строчка экрана загрузки “[ Ok ] Started Hive.”
  • Если X server отключить из веб-интерфейса, то при следующей загрузке у меня есть консоль. Но опять же, нет VNC, не работает autofan, оверклок и всё такое. Карты выбирают скорость вентиляторов пока сами.
  • OC nVidia. Меняется только PowerLimit, остальные изменения игнорятся. Выводится ряд ошибок.
Вывод Nvidia settings applied

Mon Aug 6 13:16:44 EEST 2018

Detected 3 NVIDIA cards
CLOCK = 80 80 80
MEM = 1990 1990 2000
FAN = 50 46 46
PLIMIT = 120 118 118

Persistence mode is already Enabled for GPU 00000000:01:00.0.
Persistence mode is already Enabled for GPU 00000000:20:00.0.
Persistence mode is already Enabled for GPU 00000000:26:00.0.
All done.

=== GPU 0, 01:00.0 GeForce GTX 1080, 118.30 W / 122.00 W (Default 200.00 W) === 13:16:45
Power limit for GPU 00000000:01:00.0 was set to 120.00 W from 122.00 W.
All done.
Failed to connect to Mir: Failed to connect to server socket: No such file or directory
Unable to init server: Could not connect: Connection refused

ERROR: The control display is undefined; please run nvidia-settings --help for usage information.

=== GPU 1, 20:00.0 GeForce GTX 1080, 120.45 W / 120.00 W (Default 200.00 W) === 13:16:45
Power limit for GPU 00000000:20:00.0 was set to 118.00 W from 120.00 W.
All done.
Failed to connect to Mir: Failed to connect to server socket: No such file or directory
Unable to init server: Could not connect: Connection refused

ERROR: The control display is undefined; please run nvidia-settings --help for usage information.

=== GPU 2, 26:00.0 GeForce GTX 1080, 118.76 W / 120.00 W (Default 200.00 W) === 13:16:45
Power limit for GPU 00000000:26:00.0 was set to 118.00 W from 120.00 W.
All done.
Failed to connect to Mir: Failed to connect to server socket: No such file or directory
Unable to init server: Could not connect: Connection refused

ERROR: The control display is undefined; please run nvidia-settings --help for usage information.

  • Если добавить хоть одну карту AMD без эмулятора, загрузка заканчивается строкой “Kernel panic - not syncing: corrupted stack and detected inside scheduler” а чуть выше “IOTLB_INV_TIMEOUT device=20:00.0”, то есть та самая добавляемая карта. От конкретного слота, карты и райзера не зависит, проверял.