More
referral
Increase your income with Hive. Invite your friends and earn real cryptocurrency!

GPU fault detected

Здравствуйте!
У меня в логе и на экране на некоторых ригах возникают подобные сообщения:
GPU fault detected: 147 0x07004402
VM_CONTEXT1_PROTECTION_FAULT_ADDR 0x001FC0E0
VM_CONTEXT1_PROTECTION_FAULT_STATUS 0x06044002
VM fault (0x02, vmid 3) at page 2080992, read from ‘TC5’ (0x54433500) (68)

Это значит что проблемы с GPU #2или #3? Или еще что-то?
Или не обращать внимания?http://forum.hiveos.farm/uploads/editor/ht/dalx8s0uvs8m.jpg

Вы не сможете на это обращать внимание. Это переразгон!
Ошибки по видеопамяти вот что это означает.

vmid 3 - это значит GPU #3 или не значит?

GPU имеет адрес на шине 07:00, можно посмотреть в веб какой-то это GPU

Это не переразгон, это hive так ядро видимо собрал, что на rx470 новых с завода без разгона, все по нулям, только power limit 90, бивис заводской, карты в таком режиме почему-то начинают сами разгоняться и в результате в sysloge имеем:
Nov 30 11:12:16 Rx470middle kernel: [ 404.661871] amdgpu 0000:02:00.0: GPU fault detected: 146 0x0582b714
Nov 30 11:12:16 Rx470middle kernel: [ 404.669472] amdgpu 0000:02:00.0: VM_CONTEXT1_PROTECTION_FAULT_ADDR 0x00300EB0
Nov 30 11:12:16 Rx470middle kernel: [ 404.677852] amdgpu 0000:02:00.0: VM_CONTEXT1_PROTECTION_FAULT_STATUS 0x050B7014
Nov 30 11:12:16 Rx470middle kernel: [ 404.685088] amdgpu 0000:02:00.0: VM fault (0x14, vmid 2, pasid 0) at page 3149488, write from ‘SDM0’ (0x53444d30) (183)

amd-info:
=== GPU 5, 07:00.0 Radeon RX 570 115-D009PI0-101 ===
Adapter 5: PCI 7:0:0: Ellesmere [Radeon RX 470/480/570/570X/580/580X/590]
Core: 751 MHz, Mem: 1750 MHz, CoreOD: 0, MemOD: 0, Vddc: 1150 mV
PerfCtrl: manual, Load: 100%
Temp: 50°C, Fan: 100%
Core Clocks: 300 466 751 1019 1074 1126 1169 1206
Memory Clocks: 300 1000 1750
Memory total: 4096.00 MB, used: 4092.09 MB, free: 3.91 MB
DPM 2 CORE 751Mhz 1150mV MDPM 2 MEM 1750Mhz 900 VDDCI 900mV REF 5 PWR 83.213 W RPM 3531

amdmeminfo
AMDMemInfo for Hive OS v2.1.2
original code by Zuikkis and Yann St.Arnaud


Found Card: 1002:67df rev ef (AMD Radeon RX 570)
Chip Type: Polaris10
BIOS Version: 115-D009PI0-101
PCI: 01:00.0
OpenCL Platform: 0
OpenCL ID: 0
Subvendor: 0x1043
Subdevice: 0x0533
Sysfs Path: /sys/bus/pci/devices/0000:01:00.0
Memory Type: GDDR5
Memory Model: Elpida EDW4032BABG

clinfo:
Device Type: CL_DEVICE_TYPE_GPU
Vendor ID: 1002h
Board name: Radeon RX 570 Series
Device Topology: PCI[ B#2, D#0, F#0 ]
Max compute units: 32
Max work items dimensions: 3
Max work items[0]: 1024
Max work items[1]: 1024
Max work items[2]: 1024
Max work group size: 256
Preferred vector width char: 4
Preferred vector width short: 2
Preferred vector width int: 1
Preferred vector width long: 1
Preferred vector width float: 1
Preferred vector width double: 1
Native vector width char: 4
Native vector width short: 2
Native vector width int: 1
Native vector width long: 1
Native vector width float: 1
Native vector width double: 1
Max clock frequency: 1206Mhz
Address bits: 64
Max memory allocation: 21004288
Image support: Yes
Max number of images read arguments: 128
Max number of images write arguments: 8
Max image 2D width: 16384
Max image 2D height: 16384
Max image 3D width: 2048
Max image 3D height: 2048
Max image 3D depth: 2048
Max samplers within kernel: 16
Max size of kernel argument: 1024
Alignment (bits) of base address: 2048
Minimum alignment (bytes) for any datatype: 128
Single precision floating point capability
Denorms: No
Quiet NaNs: Yes
Round to nearest even: Yes
Round to zero: Yes
Round to +ve and infinity: Yes
IEEE754-2008 fused multiply-add: Yes
Cache type: Read/Write
Cache line size: 64
Cache size: 16384
Global memory size: 21004288
Constant buffer size: 21004288
Max number of constant args: 8
Local memory type: Scratchpad
Local memory size: 32768
Max pipe arguments: 0
Max pipe active reservations: 0
Max pipe packet size: 0
Max global variable size: 0
Max global variable preferred total size: 0
Max read/write image args: 0
Max on device events: 0
Queue on device max size: 0
Max on device queues: 0
Queue on device preferred size: 0
SVM capabilities:
Coarse grain buffer: No
Fine grain buffer: No
Fine grain system: No
Atomics: No
Preferred platform atomic alignment: 0
Preferred global atomic alignment: 0
Preferred local atomic alignment: 0
Kernel Preferred work group size multiple: 64
Error correction support: 0
Unified memory for Host and Device: 0
Profiling timer resolution: 1
Device endianess: Little
Available: Yes
Compiler available: Yes
Execution capabilities:
Execute OpenCL kernels: Yes
Execute native function: No
Queue on Host properties:
Out-of-Order: No
Profiling : Yes
Queue on Device properties:
Out-of-Order: No
Profiling : No
Platform ID: 0x7fe885f898d0
Name: Ellesmere
Vendor: Advanced Micro Devices, Inc.
Device OpenCL C version: OpenCL C 1.2
Driver version: 2580.4
Profile: FULL_PROFILE
Version: OpenCL 1.2 AMD-APP (2580.4)
Extensions: cl_khr_fp64 cl_amd_fp64 cl_khr_global_int32_base_atomics cl_khr_global_int32_extended_atomics cl_khr_local_int32_base_atomics cl_khr_local_int32_extended_atomics cl_khr_int64_base_atomics cl_khr_int64_extended_atomics cl_khr_3d_image_writes cl_khr_byte_addressable_store cl_khr_fp16 cl_khr_gl_sharing cl_amd_device_attribute_query cl_amd_vec3 cl_amd_printf cl_amd_media_ops cl_amd_media_ops2 cl_amd_popcnt cl_khr_image2d_from_buffer cl_khr_spir cl_khr_gl_event

Можете подсказать это проблемы на уровне ядра, софта или драйверов и в какую сторону копать. Видяхи rx470 4gb mining edition

В моем случае это был не переразгон, а феникс майнер, который слишком запросто работает с ядром (имхо) и после попыток установить частоту, а хайв таким образом настроен что прошивает сразу в vbios, ну собственно как и все линукс системы. Короче решилось сменой майнера, установкой 4-g-alloc, все сделал при помощи хайва из гуйни. Может кому поможет.
Постскриптум: ребята, глядите в логи и не надо орать что масдай рулит а линукс отстой, всему виной кривые ручонки. А хайв очень радует несмотря на некоторые мои идеологические разногласия с ними…

1 Like

Может кому пригодится:
Была та же проблема с 470 4Gb
Все перетыкал по сто раз, 480 работают, 470 просто 0 хэшей.
Все решилось скачивания НОВОЙ сборки хайва и установкой НЕ через HDD Raw. Пользовался Etcher.
Пииис!

Добрый день. Нужна помощь, риг работал нормально без перебоев, потом начал иногда падать, подскажите пожалуйста почему повалилось столько ошибок и как их устранить?

классическое решение снизить немного частоту памяти.
Весна, температура пошла в рост … Может БП стал нестабильно себе вести … 1000 причин

а подскажите пожалуйста как узнать какая карта глючит ?