Watchdog по температуре ?!

Периодически (раз в сутки,двое) ethminer отваливается , но при этом Хешрейт не падает а падает температура GPU т.е. просиходит странное - риг показывает что работает и Хешрейт в порядке , а на самом деле GPU не работает . Замечаю этот момент только когда на Пуле явно заметна просадка по Хешрейту . При этом температура GPU падает до минимума . Перезапуск Минера помогает решить данный момент . Предлагаю как вариант в watchdog добавить параметр температура .. если он становиться меньше "крейсерской" рестарт майнера.
Tagged:

Comments

  • Использовать температуру в качестве параметра для софтватчдога - это Бред, бредовый бред.
    Есть другие параметры для определения отвала карты, но в данном случае лучше посмотреть на причины отвала. На лицо деградация карты
  • вам видней ) подскажите если не сложно какими параметрами отслеживать тот момеент , когда майнер показывает что хешрейт есть , но карта в простое… .
  • кстати нашел ошибку после которой такое происходит ... в логах такое :smile:
    at line 489 : an illegal memory access was encountered.
    5:35:28^[[0m^[[30m|^[[34mcuda-0 ^[[0m Error CUDA mining: an illegal memory access was encountered

    судя по тому что пишут на форумах я не один такой :(
  • как я понимаю это последствия разгона , но блин стабильная работа в пару суток и вот такой крашшшш..... будем понижать частоту....
  • illegal memory access was encountered

    В 90% переразгон и переразгон именно по памяти. Но на эквишеш связка ядро-память. Не стоит гнать сильно память потому что это эквихеш.
    Ну а то что периодически сбоит лишь говорит, что сейчас разгон на границе стабильности и жадности. Со временем наступает деградация и как следствие вылет. Чуть-чуть подкорректируйте и думаю будет все ОК.
  • спасибо , видимо память микротик не лббит такой разгон… точно такая же видяха с самсунгом работает без вылетов.. спасибо за отзывчивость
  • ну вы сравнили микрон (не микротик, микротик - производитель сетевого оборудования) с самсунгом. У самсунговской памяти широкие предели нагрузочной способности, а микрон работает в рамках своих заводских характеристик и в разгоне очень чувствителен и капризен.
  • в продолжение вопроса про контроль температуры , наверное было б не плохо иметь какой нибудь сигнализатор о ее резком снижение… перегрев само сабой понятен (еще б об этом в телеграмм уведомлялка прилетала ), но и падение температуры было б не бесполезно отслеживать… но хозяин барин ))
  • Перегрев в целом возможно имеет смысл ... хотя нужно рассматривать вопрос комплексно вместе с недопущением ситуации.
    Снижение температуры - тема из разряда "тонкий лед".
  • О ! сделали оповещалку о перегреве :)) как здорова :)
  • Только что была ситуация: ETHminer показывал хэшрейт, как будто все норм, но карты остыли. На пуле тишина. Добавить мин. температуру к оповещениям или настройкам вотчдога было бы не лишним
  • edited February 10
    ETHminer странный майнер. Да нет у него devfee и в некоторых случаях он даже выдает немного больше хешей, но и баги и достаточно серьезные имеются, а правки вносяться не так быстро как хотелось бы. На данный момент к сожалению по функционалу он сильно уступает майнеру от клеймора. Поэтому равняться на него было бы более чем странно ровно как и оповещение о минимальной температуре.

    С точки зрения ИТ выглядит как попытка сделать костыль под конкретиный майнер. Поэтому пожелание выглядит более чем странно )))
  • ahilis wrote: »
    Только что была ситуация: ETHminer показывал хэшрейт, как будто все норм, но карты остыли. На пуле тишина. Добавить мин. температуру к оповещениям или настройкам вотчдога было бы не лишним
    я уже с этим тоже столкнулся , понижение частоты ОС решило вопрос .
  • при чем не на много .. я понизил на 50
  • edited February 11
    PbIC9TuHa wrote: »
    при чем не на много .. я понизил на 50
    Поймите уже - любой разгон это уход от характеристик заложенных производителем. Даже одинаковые микросхемы памяти, даже в одной партии, могут по-разному реагировать на разгон. Масса примеров когда и 5 МГц имело значение.
  • Даже если карта не глючит, такое бывает. Майнер в силу багов просто перестаёт прогружать все карты.

    В действительности имеет смысл смотреть за утилизацией процов карты. nvidia-smi этот параметр кажет.
    Если утилизация еа карте становится 20% - нужно перезхапускать майнер.

    Это и самому сделать не сложно - просто повесить скрипт, следящий за утилизацией в те моменты, когда майнер запущен(любой). И, еси чо, перезапускать майнера.

Sign In or Register to comment.