[Git] LFS로 대용량 파일 업로드 하기

객체 탐지 AI를 학습하면서 고해상도의 용량이 큰 사진 파일을 깃허브에 업로드(push)하는 과정에서 아래와 같은 오류가 발생했다.

error: GH001: Large files detected. You may want to try Git Large File Storage
- https://git-lfs.github.com

About large files on GitHub에서 말하는 바와 같이 100Mb 이상의 파일은 올릴 수 없기 때문에 위와 같은 오류 문가가 발생한 것이다. 따라서 GitHub의 Large File Storage(LFS)를 사용해서 업로드를 진행해야 한다. 사용 방법은 무척이나 쉽다. 아래 그림은 이해를 쉽게 돕기 위해 Large File Storage(LFS)의 절차를 그림으로 표현한 것이다.

대용량 파일 업로드 방법

Git 공식 사이트에서 Git 클라이언트 설치 파일을 다운로드하여 개인 PC에 설치하기.
Git LFS 공식 사이트에서 Git LFS 클라이언트 설치 파일을 다운로드하여 개인 PC에 설치하기.
작업 중인 리포지토리 경로에서 Git LFS를 초기화하기. 본인은 Jupyter Notebook의 Terminal에서 다음 명령어를 실행했다.
1
2
3
git lfs install

>> Git LFS initialized.
cs
업로드할 대용량 파일에 Tracking을 설정한 후 ".gitattributes" 파일을 커밋 목록에 추가하기.
1
2
3
4
git lfs track "*.png"
>> Tracking "*.png"

git add .gitattributes
cs

와일드카드(*)를 지정해 복수의 파일을 지정할 수 있으며, ".gitattributes" 파일에는 대용량 파일에 대한 트래킹 내역이 기록되어 있음.
업로드할 대용량 파일을 커밋한 후 리모트 리포지토리 업로드(push)하기.
1
2
3
4
5
git add 17_4F_sprinkler_normal.png

git commit -m "push sprinkler picture file"

git push origin master
cs

아래와 같은 동작을 하면서 업로드가 완료된다.

Uploading LFS objects: 100% (1/1), 179 MB | 352 KB/s, done.
Enumerating objects: 6, done.
Counting objects: 100% (6/6), done.
Delta compression using up to 8 threads
Compressing objects: 100% (4/4), done.
Writing objects: 100% (5/5), 583 bytes | 583.00 KiB/s, done.
Total 5 (delta 0), reused 0 (delta 0), pack-reused 0
To https://github.com/leolee/yolo_sprinkler_detection.git
   51c0d3b..678efa6  main -> main

Large File Storage(LFS)로 관리되는 파일을 보고 싶으면 아래 코드를 직접 명령해보자.

1
2
git lfs ls-files --all
>> 702680da620 * 17_4F_sprinkler_normal.png
cs

Git LFS로 관리중인 파일은 LFS Pointer만 가지고 있어서 프로젝트 전체를 Clone해야 한다. 따라서 해당 파일을 다운로드(pull) 해보자.

1
2

git clone 'your project url from github'
git lfs pull

혹시나 대용량 파일을 업로드하는 중 시간 초과 등 오류가 발생할 경우, 아래 명령어와 같이 대기 시간을 연장할 수 있다.

1

git config lfs.activitytimeout 180

LFS의 최대 단점은 LFS 파일 삭제를 지원해주지 않는다. git rm으로 삭제하면 Git 저장소에서는 지워지지만 LFS에서는 지워지지 않기 때문에 사용자가 직접 메뉴얼하게 관리해야 한다.

LFS 파일 관리 해제 방법

".gitattributes"의 맨 마지막 라인을 보면 어떤 규칙으로 파일들이 LFS로 관리되고 있는지 볼 수 있다. 그리고 새로 트래킹할때와 마찬가지로 Git LFS 언트래킹(untrack)을 할 때마다 ".gitattributes"의 내용이 변경된다. 그런데 언트래킹을 하더라도 ".gitattributes"의 내용만 변경되고, 실제로 해당 파일의 내용은 아직도 lfs pointer인 상태로 유지되고 있다. 따라서 이때도 마찬가지로 rm --cache를 이용해서 unstaging한 후 다시 add해주어야, git lfs 가 관리하던 파일에서 git이 관리하는 파일로 변경된다.

git lfs untrack 17_4F_sprinkler_normal.png
 
git rm --cached 17_4F_sprinkler_normal.png
 
git add 17_4F_sprinkler_normal.png

좀더 자세한 내용은 Git 대형 파일 스토리지에서 파일 제거 참고하자.

하지만 기존에 대용량 파일을 포함하고 있는 커밋을 한 경우, 계속해서 같은 오류가 발생한다. 이 때에는 bfg를 통해 대용량 기존 커밋 내역에서 대용량 파일의 기록을 제거해 주어야 한다.

bfg로 파일 업로드 방법

먼저 bfg 공식 사이트에서 다운로드 받자. 그리고 Jupyter Notebook Terminal에서 아래 명령어를 실행해보자. 단 자신이 다운받은 bfg의 버전을 적어서 실행하자.

1
java -jar bfg-1.14.0.jar --strip-blobs-bigger-than 100M
cs

뒤에 100M은 사용자 선택 사항이다. 50M도 실험해보니 정상 작동 했다. 그리고 간혹 100M 이상의 파일이 없다고 나오는 오류가 아래와 같이 나오기도 한다. 이럴 때는 다시 위 명령어를 실행하고 아래 명령어를 실행하면 해결 된다.

Scanning packfile for large blobs completed in 12 ms.
Warning : no large blobs matching criteria found in packfiles
- does the repo need to be packed?
Please specify tasks for The BFG.
bfg 1.14.0

1

git repack && git gc

다시 실행해서 성공하면 아래와 같이 동작 문구가 생성된다.

BFG run is complate!
When ready, run: git reflog expire --expire=now --all && git rc --prune=now --aggressive

마지막으로 다시 업로드(push)하면 끝.

LEO & CHLOE Patio

이 블로그 검색