기본 콘텐츠로 건너뛰기

[General] CI/CD의 기본개념


요즘 AI시대와 더불어 많은 기업에서 업무 등 다방면의 디지털전환(DX, Digital Transformation) 추세이다. 각 기업마다 전문 소프트웨어 직군이 아닌 시민 개발자(Citizen Developer)의 수가 폭발적으로 증가하며 애플리케이션 등을 직접 코팅하며 업무의 혁신을 만들어가고 있다. 
프로 혹은 시민 개발자가 코드를 수정하고 빌드와 테스트를 하고 배포까지 하는데 보통 상당한 시간이 소요되어, 적기에 고객에 납품하는데 어려움이 있을 것이다.
(물론 프로는 시민보단 능숙하게 잘 할 것 이다. 하지만 요즘 시민 개발자도 많이 양성하고 있는 추세임)
만약 git에만 코드를 올리는 것으로 이러한 빌드와 테스트 및 배포 행위를 단축시켜준다면, 개발에 더 많은 시간을 투자할 수 있을 것입니다. 이러한 시간 단축을 통해 데이터 분석과 인공지능 모델 개발에 시간을 투자하는 것이 더 이득일 듯 하다.
앞서 말한 행위를 단축하는 CI/CD의 개념에 대해 간략하게 정리하겠습니다.

본격적으로 시작하기 앞서 간단한 내용부터 정리하고 시작하겠습니다.
  • Code: 개발자가 코드를 원격 코드 저장소인 GitHub repository에 push하는 단계
  • Build: 원격 코드 저장소로부터 코드를 가져와 유닛 테스트 후 빌드하는 단계
  • Test: 코드 빌드의 결과물이 디른 컴포넌트와 잘 통합되는지 확인하는 과정

CI(지속적인 통합, Continuous Integration)

  • CI는 지속적인 통합입니다. 간단히 요약하자면 빌드와 테스트를 자동화하는 과정
  • CI를 성공적으로 구현할 경우 애플리케이션에 대한 새로운 코드 변경 사항이 정기적으로 빌드 및 테스트됨
  • Git과 같은 공유 리포지토리에 통합하여 여러 명의 개발자가 동시에 애플리케이션 개발과 관련된 코드 작업을 할 경우 서로 충돌할 수 있는 문제를 해결할 수 있음
  • 지속적 통합의 실행은 소스와 버전 관리 시스템에 대한 변경 사항을 정기적으로 커밋하여 과제에 참여하는 모든 사람에게 동일 작업 기반을 제공하는 것으로 시작함
  • 커밋 할 때마다 빌드와 일련의 지동 테스트가 이루어져 동작을 확인하고 변경으로 인해 문제가 생기는 부분이 없도록 보장
  • CI/CD 전반적 파이프라인 구성 절차에 있어 중요한 첫 단계

CD(지속적인 배포, Continuous Delivery/Deployment)

  • CD는 지속적 배포임. 즉 배포 자동화 과정임
  • CD는 지속적인 서비스 제공(Continuous Delivery) 또는 지속적인 배포(Continuous Deployment)를 의미 함
  • 두 가지 의미 모두 파이프라인의 추가 단계에 대한 자동화를 뜻 함
  • 때로는 얼마나 많은 자동화가 이루어지고 있는 지를 설명하기 위해 별도로 사용함
  • 지속적 배포는 빌드, 테스트 및 배포 단계를 자동화하는 DevOps 방식의 정점
  • 코드 변경이 파이프라인의 이전 단계를 모두 성공적으로 통과하면 수동 개입 없이 해당 변경 사항이 프로덕션에 자동으로 배포
  • 지속적 배포를 채택하면 품질 저하 없이 최대한 빨리 사용자에게 새로운 기능을 제공할 수 있음
  • 지속적 배포는 또한 입증된 지속적 통합 및 지속적인 전달 단계를 기반으로 함
  • 간단한 코드 변경이 정기적으로 마스터에 커밋되고, 자동화된 빌드 및 테스트 프로세스를 거치며 다양한 프로덕션 환경으로 승격되며, 문제가 발견되지 않으면 최종적으로 배포됩됨
  • 강력하고 신뢰할 수 있는 자동화 배포 파이프라인을 구축하면 하루에도 여러 번 릴리즈 가능 함 (사용자는 눈치 못챔)

CI/CD 종류

  • Jenkins와 같이 단순 CI 서버부터 CD 허브까지 모든 것을 처리하도록 설계된 툴도 있음
  • 퍼블릭 클라우드 업체인 CircleCI, TravisCI, Github Actions등 에서도 CI/CD 솔루션을 제공 함
  • 사내에서 사용하는 툴은 Public Repository에는 Jenkins 임
  • DX등 업무에 사용하는 Private Repository는 Github Actions을 사용하고 있음
  • 본인이 느끼기에 가장 대중적인 Github Actions을 활용하여 애플리케이션의 CI/CD를 도입 함

참고문헌


댓글

이 블로그의 인기 게시물

[AI] RAG란 무엇인가?

자고 일어나면 인공지능 관련 기사와 내용이 참 많습니다. 소위 AI시대 대격변 속에서 무엇을 해야할지 고민이 많습니다. AI의 기본적인 이론도 중요하지만, 최근 트렌드를 잘 알고 잘 써먹을 수 있는 것도 개인의 역량이 아닐까 싶습니다. 즉 AI를 하나의 도구로 생각하고 도구를 잘 써먹으면 좋지 않을까요? 오늘은 RAG(검색-증강-생성)이란 무엇인지 간략하게 끄적여보겠습니다. 3줄 요약 ⓐ 검색(Retrieval)은 요청된 외부 지식 을 가져온다. ⓑ 증강(Augmented)은 질문 것에 요청된 것을 더한다 . ⓒ 생성(Generation)은 사용자의 질문에 더한 것을 받아 텍스트로 생성 한다.   ⅰ RAG(검색-증강-생성)이란 무엇인가? 최근 인공지능 기술의 발전은 다양한 분야에서 혁신을 일으키고 있으며, 그 중에서도 텍스트 기반의 생성형 AI는 특히 주목받고 있습니다. 하지만 이러한 인공지능 기술이 가진 정확성과 신뢰성의 문제는 사용자와 개발자 모두에게 중요한 과제로 남아 있습니다. 이 문제를 해결하기 위해 등장한 기술 중 하나가 바로 RAG(Retrieval-Augmented Generation)입니다. 자세한 기술적 내용은 RAG 용어가 등장한 2020년 아래의 논문을 참고하기 바랍니다. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020) (본지는 간단한 내용 만을 기술할 목적이기 때문에 IT 기업의 설명 자료를 참고하여 본인이 이해한 내용을 작성 하였습니다. 혹시나 잘못된 정보가 있다면 알려주세요.) RAG(Retrieval-Augmented Generation)는 단어 풀이 그대로 '검색 증강 생성'이란 뜻 입니다. 먼저 Retrieval 이란 의미는 검색이란 뜻보다는 외부 지식 데이터베이스에서 가져오는 것, 어딘가에서 요청된 무엇인가를 가져오는 것 을 이야기합니다. 그리고 Augmented 는 증강이란 뜻으로 원래 것에 뭔가를 더하거나 보태어 더 실해졌다 는 ...

[Machine Learning] 경사 하강법 (Gradient Descent)

모델의 오류는 왜 중요할까? 들어가기 전에 한 줄 요약해보겠습니다. 의심하며 본문의 내용을 읽어주세요. 혹시나 다른 내용이 있다면 덧글 부탁드립니다. 모델의 계수를 구하기 위해 가중치를 바꿔가며 전역(global) 기울기가 0인 곳을 잘 찾아보자 . 들어가기 머신러닝 혹은 딥러닝의 가장 적합한 모델 이라 함은 대부분 모델의 오류(error)를 최소화 하는 것을 의미한다. 즉, 어떤 모델(단변량 함수)의 계수의 최적값을 찾는 것으로 생각 할 수 있다. 최적화 문제를 풀기위해 경사 하강법 이라 부르는 방법을 사용할텐데, 이는 곧 함수의  기울기 를 계산하고 경사의 이동방향의 반대 방향으로 이동하여 극값 (=0) 을 찾는 문제 와 같다. 접선의 오류를 찾는 손실함수는 다음 포스트에서 다루도록 하겠다. (즉 머신러닝/딥러닝 최적 모델은 함수의  기울기와 접선의 오차를 줄이는  것이다) 본 포스트에서는 경사 하강법의 기본 개념에 한하여 설명하도록 하겠다. 우리가 생각하는 1차원 혹은 2차원에서의 기울기 최소값이 아닌 아래 그림과 같이 3차원 이상의 다차원에서는 함수에 하나의 전역 최소값(global minimum) 이 존재하는 경우 꽤 쓸만하지만, 함수에 지역 최소값(local minimum) 여러 개 있는 경우에는 시작점을 어디에 잡냐에 따라 잘못된 곳으로 빠질 수 있다. (*딥러닝의 경우 때에 따라 다차원 함수의 최소값을 찾아야 한다. 이는 인간의 머리로는 한계가 있다.) Python 코드를 활용해 간단한 그라디언트 함수를 만들어 보자. f가 단변수 함수인 경우, 점 x 에서의 미분값은 x가 아주 조금 변했을 때 f(x)의 변화량 을 의미한다. x의 변화량을 식에서는 h로 표기한다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 from  typing  import  Callable def  difference_quoitemt(f: Callab...

[Machine Learning] 데이터 증강 (Data Augmentation) 이란?

데이터 증강 (Data Augmentation)이란? 본격적으로 들어가기전 내용을 간략하게 요약하자면 다음과 같다. 요약을 바탕으로 본문에서는 좀더 깊이있게 설명하도록 하겠다. 이미지 데이터의 증강은 회전, 크기 조절, 색생 변화 등 다양한 변환을 통해 학습데이터의 다양성을 인위적으로 늘려 모델의 성능을 형상 시키는 방법 시계열 데이터의 증강은 시간 축 변환, 크기 조절, 시간 이동 등 다양한 기법을 통해 원본 데이터를 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화를 향상 시키는 기법 CNN, R-CNN, YOLO 등 모델의 성능을 높이고 오버피팅을 극복할 수 있는 가장 좋은 방법은 다양한 유형의 학습 이미지 불균형 극복을 위한 데이터 양을 늘리는 것입니다. 하지만 사진, 동영상과 같은 이미지 데이터의 경우 학습 데이터 량을 늘리는 것은 쉽지가 않다. 이미지 데이터의 양을 늘리긴 위해서는 결국 클라스(라벨링)의 수도 증가하며, 이는 곧 엄청난 노가다가 필요하기 때문이다. 데이터 증강은 학습 이미지의 개수를 늘리는 것이 아니고 학습 시(epoch) 마다 개별 원본 이미지를 변형해서 학습하는 것 이다. 아래 첨부의 그림과 같이 학습 이미지를 변형할 수 있다. (출처:  https://blog.insightdatascience.com/automl-for-data-augmentation-e87cf692c366) 데이터 증강을 우리 일상생활로 쉽게 설면하자면 우리가 핸드폰 카메라를 통해 사진을 촬영하고 사진의 밝기, 크기, 좌우반전 등을 행하는 것을 이미지 데이터의 증강으로 이해하면 쉽다. tensorflow 에서 간단한 예제를 활용하여 이미지 데이터의 증강을 설명하고 있다. 본 블로그에서는 몇 가지 대표적인 데이터 증강 종류를 간단히 설명하고 마무리 하겠다. 기회가 된다면 텍스트 및 시계열 데이터의 증강 방법도 간략히 소개 후 마무리 하겠다. 이미지 데이터의 증강 (출처:  https://www.invivoo.com/ ) 이미지에 아래와 같이...