Unable to query number of CUDA devices! Is an nVidia driver installed


#1

Всем привет.

Сегодня с утра обновил hive до 0.5-31. Всё работало.

До вечера ничего не делал. всё работало.

К вечеру обе фермы перестали работать.

Майнеры стали писать: Unable to query number of CUDA devices! Is an nVidia driver installed

Понятно, что дело в драйвере и несоответствии с тем, с которым скомпилированы майнеры.

ядрёные модули проверил. на месте. nvidia-uvm запущен.

чтото криво пошёл апгрэйд…

Спасибо.


#2

Суть в том, что если снова перезалить флэшку версией hive-0.5-12-20171211, то она снова обновится и ничерта не будет работать.


#3

Сейчас обновил ubuntu. - не момогло.
Переставил драйвер из /hive/driver*
387, т.к. он и стоял. встал.

перезагрузился - работает.

Выдохнул…но не надолго.

Если перезапустить майнер, то ошибка таже самая.
если перезагрузить сервак, то начинает работать.

если трогать майнер, то дышит.

но это же ужас!

У меня временно фантазии нет, что дальше сделать.

Дело в чём-то другом.


#4

Перезагрузился. Не работает. Я хз что делать.


#5

Диагностика(готов прислать что угодно):

При логине как всегда пишет.

0 01:00.0 GeForce GTX 1080 (8113 MiB, 200.00 W)
1 03:00.0 GeForce GTX 1080 (8114 MiB, 210.00 W)
2 06:00.0 GeForce GTX 1080 (8114 MiB, 200.00 W)
3 07:00.0 GeForce GTX 1080 (8114 MiB, 200.00 W)
4 08:00.0 GeForce GTX 1080 (8114 MiB, 200.00 W)
5 09:00.0 GeForce GTX 1080 (8114 MiB, 200.00 W)
6 0b:00.0 GeForce GTX 1080 (8114 MiB, 200.00 W)
7 0c:00.0 GeForce GTX 1080 (8114 MiB, 200.00 W)

Сейчас спать. Завтра выложу логи как опсиано тут - http://forum.hiveos.farm/discussion/208/logs

Сейчас задаунгрэйдился на предидущую версию - 30. Не помогло.


#6

ппц. я разобрался. это космос какой-то.

как-то забавно подглюкивает карта. одна.

при этом всё карты видятся нормально утилитами nvidia.

но майнер не запускается с указанным в сабже сообщением.

перезапускать риг не помогает.

помогает только полный выкл и вкл.

потом она снова глюкнет и всё повторяется…


#7

В общем, карта начинает глушить всю шину. Лечится только полным выклом. Ребутать риг не помогает.


#8

Сегодня такая же фигня началась. Сначала одна карта перестала показывать температуру. Снял карту разобрал, смазал. Вставил - работает. Но потом “GPU error no temp”. Потом “Unable to query number of CUDA devices! Is an nVidia driver installed?” и “Unable to enum CUDA GPUs: invalid device ordinal
No avaiable GPUs for mining. Please check your drivers and/or hardware.”
Все майнеры не видят карты!
Что делать??


#9

У “проблемной” вк отходил штекер питания. Убрал разгон, вотчдог, автофан на всякий случай. Запустил phoenixminer. Работает, ошибок нет.