Hive agent stop working / Зависает агент

#1

Редко, но все же иногда стала возникать проблема с агентом. Он повисает после загрузки рига и риг отваливается. Сам риг при этом работает, вотчдог весело помигивает, но майнер не запушен.
Агент зависает на gpu-stats. Карты AMD. При обращении к некоторым картам (pwm1, temp_input1) скрипт виснет. пробовал делать запуск gpu-stats через timeout - не помогает.
Сам риг не перезагружается ни по аппаратному вотчдогу, ни по программному. Аппаратный вотчдог мигает. А программный, видимо, еще не работает, т.к. майнер еще не стартовал.

есть несколько предложений как это можно исправить:

  1. сделать пинг вотчдога из агента. агент завис - риг перезагрузился. минус - не у всех есть вотчдог.

  2. сделать программный вотчдог для агента. проверять, например, раз в минуту, что агент работает, и если нет - перезапускать. если через 2-3 минуты агент не будет нормально работать - перезагружать риг.

  3. сделать работу gpu-stats независимой от агента (в отдельном скрине, например, и записывать статистику в файл, из которого агент будет ее брать). таким образом любые задержки или зависания при обращении к картам не будут тормозить агента. и хоть какая то статистика всегда будет отображаться, т.к. бывают ситуации, когда при высоком LA nvidia-smi отдает статистику до 10 сек на каждую карту. при этом в веб-морде температуры и обороты отображаются только у майнера. сейчас получается, что агент каждые 20 секунд дергает gpu-stats, который дает только 10 секунд на работу nvidia-smi, еще больше увеличивая LA, если требуется больше времени.

в общем то, можно реализовать все варианты одновременно, хуже от этого не будет).

#2

агент чекается по крону если я не ошибаюсь каждые 10 минут

#3

чекается что он в принципе запущен.
а то что он внутри висит - нет.

можно записывать в некий файл, когда агент обновил данные, а крон может проверять по дате обновления этого файла работает агент или нет.

#4

сделайте любое и заливайте в гитхаб )

#5

выглядит зависание так

#6

Если не сложно в Issue на гите скопируйте, оно глаз там будет мозолить и жить мешать

#7

хорошо. спасибо.
я еще несколько багов знаю, туда напишу).

сетевую загрузку не планируете случайно?

#8

Тема всплывает иногда, но если честно то не знаю - у меня нет информации на эту тему

#9

впишите в TODO.

и гляньте, пожалуйста, этот топик - Пожелания и небольшие замечания по Hive OS
что то может будет не актуально с выходом 2.0, но все же.

1 Like
#10

Ok, boss :wink:

#11

сегодня
%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5

#12

УРА! УРА! УРА!
гранд мерси