56 字
1 分钟
【CS日志】服务器下载超时
2025-07-14
ValueError: Total number of attention heads (28) must be divisible by tensor parallel size (3).

报错原因:模型注意力头无法被GPU数量整除,比如28不能被3个GPU均分,需要设置GPU数量为2或4等。


【CS日志】服务器下载超时
https://herobrine101.top/posts/cs日志跑模型常见报错/
作者
发布于
2025-07-14
许可协议
CC BY-NC-SA 4.0