조금씩 꾸준히 완성을 향해

CUDA error: device-side assert triggered 에러 해결 / Driver & CudaToolkit 버전 호환 문제 본문

AWS & Linux

CUDA error: device-side assert triggered 에러 해결 / Driver & CudaToolkit 버전 호환 문제

all_sound 2023. 8. 31. 11:25

 

Jupyter에서 잘 돌아가던 코드에 자꾸 이런 에러가 떠서 해결해 나섰다.

 

처음에 에러 메세지로 검색을 해보니 코드에서 Class Number가 불일치한 경우가 대부분이었다. 

그래서 코드를 뜯어보고 또 뜯어보고 데이터 라벨까지 다 점검해 보았지만 전혀 문제가 없어 보여 멘붕에 빠졌는데....

 

혹시나 해서 동일 코드를 Colab에 옮겨 돌려보니 무사히 잘 돌아가는 게 아닌가!!!!!

 

아니 이건 Cuda 관련 프로그램들의 버전 불일치일 수 밖에 없다고 판단해서 확인해 보았다.

 

 

먼저 Cuda의 버전을 확인해 본다.

$ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Thu_Nov_18_09:45:30_PST_2021
Cuda compilation tools, release 11.5, V11.5.119
Build cuda_11.5.r11.5/compiler.30672275_0

11.5라고 떠있는데

 

$ nvidia-smi

nvidia 드라이버 정보를 확인해 보니,,,, driver 535 / Cuda 12.1 

 

 

그렇다 드라이버를 이상한 걸 깔아놓은 것이다. 

 

$ python --version

파이썬 버전도 확인해 보니 호환이 안되는 3. 9버전이었다.

Python 3.9.13

 

해결책

새로운 가상환경에 드라이버 설치부터 Cuda Toolkit설치, Python, Torch 버전 조정까지 다시 진행

=> 깨끗히 문제 해결!!

 

 

버전 확인 및 설치 방법은 아래 포스팅 참고요망

https://allsound.tistory.com/207

 

[2023 최신] Ubuntu 환경에서 nvidia-driver, cuda, cudnn 설치 방법 (Ubuntu 22.04)

서버알못인 제가 어쩌다 연구실의 서버를 세팅하게 되었습니다...!!!! 여러 블로그들을 찾아보고, chatGPT에게도 물어 가며 하루 종일 삽질한 결과를 기록하겠습니다 ^^ 부디 누군가에게는 도움이

allsound.tistory.com