Watchdog по температуре ?!

watchdog

#1

Периодически (раз в сутки,двое) ethminer отваливается , но при этом Хешрейт не падает а падает температура GPU т.е. просиходит странное - риг показывает что работает и Хешрейт в порядке , а на самом деле GPU не работает . Замечаю этот момент только когда на Пуле явно заметна просадка по Хешрейту . При этом температура GPU падает до минимума . Перезапуск Минера помогает решить данный момент . Предлагаю как вариант в watchdog добавить параметр температура … если он становиться меньше “крейсерской” рестарт майнера.


#2

Использовать температуру в качестве параметра для софтватчдога - это Бред, бредовый бред.
Есть другие параметры для определения отвала карты, но в данном случае лучше посмотреть на причины отвала. На лицо деградация карты


#3

вам видней ) подскажите если не сложно какими параметрами отслеживать тот момеент , когда майнер показывает что хешрейт есть , но карта в простое… .


#4

кстати нашел ошибку после которой такое происходит … в логах такое :smile:
at line 489 : an illegal memory access was encountered.
5:35:28^[[0m^[[30m|^[[34mcuda-0 ^[[0m Error CUDA mining: an illegal memory access was encountered

судя по тому что пишут на форумах я не один такой :frowning:


#5

как я понимаю это последствия разгона , но блин стабильная работа в пару суток и вот такой крашшшш… будем понижать частоту…


#6

illegal memory access was encountered

В 90% переразгон и переразгон именно по памяти. Но на эквишеш связка ядро-память. Не стоит гнать сильно память потому что это эквихеш.
Ну а то что периодически сбоит лишь говорит, что сейчас разгон на границе стабильности и жадности. Со временем наступает деградация и как следствие вылет. Чуть-чуть подкорректируйте и думаю будет все ОК.


#7

спасибо , видимо память микротик не лббит такой разгон… точно такая же видяха с самсунгом работает без вылетов… спасибо за отзывчивость


#8

ну вы сравнили микрон (не микротик, микротик - производитель сетевого оборудования) с самсунгом. У самсунговской памяти широкие предели нагрузочной способности, а микрон работает в рамках своих заводских характеристик и в разгоне очень чувствителен и капризен.


#9

в продолжение вопроса про контроль температуры , наверное было б не плохо иметь какой нибудь сигнализатор о ее резком снижение… перегрев само сабой понятен (еще б об этом в телеграмм уведомлялка прилетала ), но и падение температуры было б не бесполезно отслеживать… но хозяин барин ))


#10

Перегрев в целом возможно имеет смысл … хотя нужно рассматривать вопрос комплексно вместе с недопущением ситуации.
Снижение температуры - тема из разряда “тонкий лед”.


#11

О ! сделали оповещалку о перегреве :)) как здорова :slight_smile:


#12

Только что была ситуация: ETHminer показывал хэшрейт, как будто все норм, но карты остыли. На пуле тишина. Добавить мин. температуру к оповещениям или настройкам вотчдога было бы не лишним


#13

ETHminer странный майнер. Да нет у него devfee и в некоторых случаях он даже выдает немного больше хешей, но и баги и достаточно серьезные имеются, а правки вносяться не так быстро как хотелось бы. На данный момент к сожалению по функционалу он сильно уступает майнеру от клеймора. Поэтому равняться на него было бы более чем странно ровно как и оповещение о минимальной температуре.

С точки зрения ИТ выглядит как попытка сделать костыль под конкретиный майнер. Поэтому пожелание выглядит более чем странно )))


#14

я уже с этим тоже столкнулся , понижение частоты ОС решило вопрос .


#15

при чем не на много … я понизил на 50


#16

Поймите уже - любой разгон это уход от характеристик заложенных производителем. Даже одинаковые микросхемы памяти, даже в одной партии, могут по-разному реагировать на разгон. Масса примеров когда и 5 МГц имело значение.


#17

Даже если карта не глючит, такое бывает. Майнер в силу багов просто перестаёт прогружать все карты.

В действительности имеет смысл смотреть за утилизацией процов карты. nvidia-smi этот параметр кажет.
Если утилизация еа карте становится 20% - нужно перезхапускать майнер.

Это и самому сделать не сложно - просто повесить скрипт, следящий за утилизацией в те моменты, когда майнер запущен(любой). И, еси чо, перезапускать майнера.