본문 바로가기
연구노트

6월 9일 목

by 주팔 2022. 6. 10.

MMDetection3D 실습 

1) 실행 환경 설정 - 로컬

로컬 환경에 MMDetection3D(이하 mmdet3d) docs를 따라 환경을 설정해 봤다. 아래 내가 사용한 컴터 스펙에 맞게 torch와 conda 환경을 구축했다.

  • RTX 3070(x2)
  • 우분투 18.04
  • CUDA 11.3(+툴킷 설치시 제공하는 버전의 그래픽 드라이버)

create_data.py 까지는 잘 실행해서 nuscenes 데이터셋 풀버전의 pkl 파일까진 생성했다. 환경 설정이 잘 돼서 의존성 이슈가 없는 것으로 보인다. 전에 받아둔 데이터셋이 중간중간 네트워크 오류로 누락된 부분이 있어 [Errno 2] No such file or directory 에러가 있었는데, 전체를 재다운로드 한 뒤 실행했더니 잘 돌아갔다.

Vision-based Object Detection을 실행해 보기 위해 FCOS3D 모델을 실행하는 예제를 docs에 나온 명령어 고대~로 실행했다. tools/dist_train.sh 쉘 스크립트를 실행하는 명령어다. 

GPG Key 에러가 발생했다. 연구실에 정전이 나서 conda가 GPU를 사용하는 도중에 컴터가 강제로 종료되는 바람에 그래픽 드라이버가 깨져서 재설치를 간단하게? 했는데, 그게 원인인지는 모르겠다. 아무튼 NIVIDIA cuda와 문제가 생겼다고 한다.

GPG Key 에러 관련 솔루션을 모두 해봐도 해결되지 않아 도커로 빌드하기로 방향을 바꿨다. 왜냐면 일단 빨리 학습을 돌려보는 게 목적이어서.

 

2) 실행 환경 설정 - 도커

제공하는 Dockerfile과 빌드를 위한 명령어로 도커 이미지를 빌드했다.

하나도 손대지 않은 Dockerfile은 CUDA 버전이 10.1이고, 그에 맞춰 pytorch, cudnn의 버전이 설정되어 있었다. 그래서 내 환경과 맞지 않는다는 WARNING 메시지가 계속 나타났다. 그리고 train.py는 정상적으로 실행되지 못했다.

RuntimeError: NCCL version.. 하는 에러가 뜨는 것 보니 CUDA와 torch의 버전 문제인 것 같아 Dockerfile을 torch = 1.11.0, CUDA = 11.3, cudnn = 8 이렇게 수정해줬다.

수정된 Dockerfile로 빌드를 시작하니 1.11.0-cuda11.3-cudnn8-devel 이라는 pytorch 이미지로 빌드가 정상적으로 됐다. 전보다 용량이 더 큰 것 같다.

'연구노트' 카테고리의 다른 글

6월 21일 화  (0) 2022.06.21
6월 15일 수  (0) 2022.06.15
6월 14일 화  (0) 2022.06.14
6월 13일 월  (0) 2022.06.13
6월 10일 금  (0) 2022.06.13

댓글