56 字
1 分钟
【CS日志】跑模型常见报错
ValueError: Total number of attention heads (28) must be divisible by tensor parallel size (3).
报错原因:模型注意力头无法被GPU数量整除,比如28不能被3个GPU均分,需要设置GPU数量为2或4等。
【CS日志】跑模型常见报错
https://herobrine101.top/posts/cs日志跑模型常见报错/
ValueError: Total number of attention heads (28) must be divisible by tensor parallel size (3).
报错原因:模型注意力头无法被GPU数量整除,比如28不能被3个GPU均分,需要设置GPU数量为2或4等。