CUDA error: device-side assert triggered 에러 해결 / Driver & CudaToolkit 버전 호환 문제
Jupyter에서 잘 돌아가던 코드에 자꾸 이런 에러가 떠서 해결해 나섰다.
처음에 에러 메세지로 검색을 해보니 코드에서 Class Number가 불일치한 경우가 대부분이었다.
그래서 코드를 뜯어보고 또 뜯어보고 데이터 라벨까지 다 점검해 보았지만 전혀 문제가 없어 보여 멘붕에 빠졌는데....
혹시나 해서 동일 코드를 Colab에 옮겨 돌려보니 무사히 잘 돌아가는 게 아닌가!!!!!
아니 이건 Cuda 관련 프로그램들의 버전 불일치일 수 밖에 없다고 판단해서 확인해 보았다.
먼저 Cuda의 버전을 확인해 본다.
$ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Thu_Nov_18_09:45:30_PST_2021
Cuda compilation tools, release 11.5, V11.5.119
Build cuda_11.5.r11.5/compiler.30672275_0
11.5라고 떠있는데
$ nvidia-smi
nvidia 드라이버 정보를 확인해 보니,,,, driver 535 / Cuda 12.1

그렇다 드라이버를 이상한 걸 깔아놓은 것이다.
$ python --version
파이썬 버전도 확인해 보니 호환이 안되는 3. 9버전이었다.
Python 3.9.13
해결책
새로운 가상환경에 드라이버 설치부터 Cuda Toolkit설치, Python, Torch 버전 조정까지 다시 진행
=> 깨끗히 문제 해결!!
버전 확인 및 설치 방법은 아래 포스팅 참고요망
https://allsound.tistory.com/207
[2023 최신] Ubuntu 환경에서 nvidia-driver, cuda, cudnn 설치 방법 (Ubuntu 22.04)
서버알못인 제가 어쩌다 연구실의 서버를 세팅하게 되었습니다...!!!! 여러 블로그들을 찾아보고, chatGPT에게도 물어 가며 하루 종일 삽질한 결과를 기록하겠습니다 ^^ 부디 누군가에게는 도움이
allsound.tistory.com