GPU Server 监控不完全指南(Zabbix + Grafana)
By Yuyang Li and Yixin Zhu. 不定期更新优化。 Last update: Jun 1, 2023. Using Zabbix 6.4 (Server / Agent 2) and Grafana Cloud. 完成这一手册后,监控运行的基本原理是: Client 端主动联系 Server 端并完成自动注册; Client 端定期与 Server 通信,获取一组...
使用 Windows Subsystem for Linux (WSL) 挂载 EXT4 格式分区
Windows 不支持直接挂载 EXT4 格式分区,但这可以通过 WSL2 实现。 通过 wmic.exe 查看硬盘与分区信息 通过 wmic 分别列举本机 Disk Drive 与 Partition 的信息: 12wmic diskdrive list briefwmic partition list brief 输出如图: 根据信息找到需要挂载的分区,主要确定硬盘的 DeviceI...
NVIDIA-SMI 无法与 NVIDIA 驱动通讯问题解决方案
此文记录在使用 NVIDIA GPU 时遇到的驱动问题: 1NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 验证 Kernel 和 CUDA ...
WSL/Docker 虚拟硬盘瘦身指南(Windows)
Windows Subsystem for Linux(WSL) 为 Windows 用户提供了方便好用的 Linux 应用层接口,而 Docker 提供了良好的容器服务。这些系统的本质依旧是虚拟机,其硬盘使用 vhdx 镜像文件,支持自动扩容,但无法自动缩容,导致该文件会逐渐“吃胖”,让本就不大的硬盘雪上加霜。 这个文件一般储存在 ~/AppData/Local/Packages/XXX/...
TrueNAS 那些坑
自建 NAS 且选择 iXsystems 的 TrueNAS 用户经常会在使用 TrueNAS 的时候遇到各种各样奇怪的坑,本文记录了作者遇到的部分常见或略微有些坑的坑,通过关键词和报错内容双重索引的方式在此简单分享。由于这些问题目前积累得并不多,和 Torch 那些坑 一文一样,就先按照出现频率划分。 0x01 关键词:mount from cd9660 error 2 在使用 Vent...
Torch 那些坑
Torch 用户经常会在使用 Torch 的时候遇到各种各样奇怪的坑,本文记录了作者遇到的部分常见或略微有些坑的坑,通过关键词和报错内容双重索引的方式在此简单分享。不过目前积累得并不多,就先按照出现频率划分。 0x01 关键词:inplace operation 报错内容:one of the variables needed for gradient computation has be...
修复 Ubuntu Windows 双系统设备上的硬件时间问题
问题简述 在安装 Ubuntu + Windows 双系统的设备上,当切换系统时,很可能出现系统时间错误的问题。身处北京时间时区(UTC+08:00)的博主发现,从 Ubuntu 切换回 Windows 时,时间往往比正确时间早 8 小时。 原因在于 Widows 默认将写入硬件的硬件时间认定为本地时间,而 Ubuntu 默认将硬件时间认定是 UTC。 解决方案 按照一般习惯,我们希望硬...