반응형 Development/GPU3 CUDA 버전 별 GPU driver 호환표, graphic driver 확인, 설치 명령어 CUDA는 NVIDIA에서 개발한 병렬 처리 플랫폼으로 GPU를 사용해서 행렬연산을 하거나 똑같은 연산을 반복해서 사용할 때 필수적인 라이브러리이다. CUDA를 사용하면 NVIDIA GPU를 활용한 병렬 컴퓨팅 작업을 할 수 있다. CUDA에서 핵심 요소는 프로그래밍할 수 있도록 제공하는 라이브러리인 CUDA Toolkit이다. CUDA Tollkit은 CUDA 버전, GPU 드라이버 버전 등 신경써야할 부분이 많다. 호환성이 맞지 않으면 실행이 되지 않고 설치하다가 꼬이는 경우가 대다수이다. 그래서 local pc에 CUDA를 직접 설치하는 경우에는 주의가 많이 필요하다. 대충 설치하다가 꼬이면 OS를 밀고 다시 설치하는 게 가장 빠른 복구 방법이기 때문이다.. 그래서 CUDA를 설치할 때 가장 안전한.. 2023. 6. 22. [DDP 코드 한번에 여러개 돌리기] RuntimeError: Address already in use/ master port 지정해주기 상황 DDP 코드를 한 개의 컴퓨터에서 여러번 돌리려고 하면 오류가 난다. 에러 내용 Traceback (most recent call last): File "run/run_training_DPP.py", line 68, in unpack_data=unpack, deterministic=deterministic, fp16=args.fp16) File "/home/fabian/PhD/meddec/meddec/model_training/distributed_training/nnUNetTrainerDPP.py",line 26, in __init__ dist.init_process_group(backend='nccl', init_method='env://') File "/home/fabian/dl_venv_py.. 2023. 6. 11. Pytorch DDP로 multi-GPU training 하기 실행 명령어 python -m torch.distributed.launch --nproc_per_node 주의사항 한 컴퓨터에서 여러개의 DDP 코드를 실행할 때는 master port가 겹치면 안됨. 그래서 여러개를 한번에 돌리고 싶을 때는 다른 master port를 지정해줘야함. python -m torch.distributed.launch --nproc_per_node \ --master_port \ 2023. 6. 11. 이전 1 다음 반응형