본문 바로가기
IT

AI 코딩 에이전트를 팀 전체에 깔았을 때 실제로 일어난 일

by 안드뽀개기 2026. 5. 14.
반응형

이 방법이 맞는 팀

엔지니어링 조직이 20명 이상이고, 반복적인 PR 리뷰와 레거시 리팩터링에 개발자 시간이 잠식되고 있다면 이 글이 맞다. 스택은 무관하다. AutoScout24처럼 멀티 브랜드, 멀티 리전 환경이 아니어도 된다. Codex(유료, API 기준)와 ChatGPT Enterprise(월정액) 두 가지를 사용하며, 둘 다 클라우드 기반이라 별도 인프라 설치는 없다.

전제 조건은 하나다. 팀에 "AI 쓰지 말자"는 합의가 없어야 한다. 관리자 한 명만 설득되면 파일럿을 시작할 수 있다.


Before: 2주짜리 작업이 발목을 잡던 시절

우리 팀의 전형적인 사이클은 이랬다. 기능 개발 5일, PR 리뷰 대기 2일, 수정 반영 1일, QA 3일. 여기에 레거시 코드를 건드리다 생긴 사이드 이펙트 수정이 또 2~3일. 이 루틴을 반복하면 스프린트 하나에 기능 하나를 겨우 냈다.

문서화는 더 심각했다. 온보딩 문서, 포스트 인시던트 리포트, API 명세를 누가 쓰냐를 두고 암묵적으로 미루는 문화가 있었다. 결국 안 쓰거나, 분기에 한 번 몰아서 쓰거나 둘 중 하나였다.


After: 코드 에이전트를 워크플로에 직접 연결하다

전환점은 Codex를 IDE 외부에서 쓰기 시작하면서였다. 에이전트에게 PR 단위로 작업을 주고, 결과를 사람이 검토하는 구조로 바꿨다. 일부 프로젝트 기준 개발 사이클이 2~3주에서 2~3일로 줄었다.

PR 리뷰 자동화에 쓰는 프롬프트는 이렇다:

다음 PR 변경사항을 리뷰해라.

[PR 제목]: {title}
[변경 파일 목록]: {file_list}
[diff 내용]:
{diff}

다음 기준으로 검토하고, 각 항목별로 OK / WARN / FAIL 로 표시해라:
1. 비즈니스 로직의 엣지 케이스 누락
2. 테스트 커버리지 충분 여부
3. 기존 패턴과의 일관성
4. 잠재적 성능 이슈

FAIL 항목은 수정 예시 코드를 포함해서 설명해라.

포스트 인시던트 리포트 작성에는 이걸 쓴다:

다음 인시던트 타임라인을 바탕으로 PIR을 작성해라.

[타임라인]:
{timeline_log}

포함할 섹션:
- 영향 범위 (서비스, 사용자 수, 지속 시간)
- 근본 원인 (기술적 원인 + 프로세스적 원인)
- 복구 조치 및 소요 시간
- 재발 방지 액션 아이템 (담당자, 기한 포함)

기술 스택: {stack}
대상 독자: 엔지니어링 팀 + 비기술 관리자

온보딩 문서를 더 이상 손으로 쓰지 않게 된 건 덤이었다. 신규 입사자 온보딩에 필요한 문서는 기존 코드와 팀 컨벤션을 붙여서 에이전트가 초안을 만든다. 사람은 사실 확인만 하면 된다.


팀 전체 도입 시 현실적인 조언

혼자 쓸 때와 팀 전체가 쓸 때 가장 크게 다른 점은 프롬프트 품질의 편차다. 잘 쓰는 사람과 못 쓰는 사람 사이에 결과물 격차가 크게 벌어진다. AutoScout24가 'AI Champions 네트워크'를 만든 이유가 여기 있다. 팀마다 잘 쓰는 사람 한 명을 지정해서 템플릿을 만들고, 그걸 공유하는 구조가 필요하다.

"이걸 왜 써야 하냐"는 동료를 설득하는 논리는 하나면 충분하다. "PR 리뷰 대기 시간이 줄면 우리가 다른 팀의 블로커가 되는 빈도가 줄어든다." 생산성보다 팀 내 병목 제거로 말하면 반발이 적다.

반발이 있을 경우 억지로 도입하지 말고, 파일럿 지원자부터 시작해라. 효과가 보이면 자연스럽게 번진다.


함정과 한계

가장 많이 실패하는 케이스는 컨텍스트 없이 대형 리팩터링을 맡길 때다. 코드베이스의 암묵적 관행, 팀의 네이밍 컨벤션, 비즈니스 도메인 용어를 모르는 상태에서 나온 결과물은 다시 고쳐야 한다. 시스템 프롬프트에 팀 컨벤션 문서를 붙이거나, 작업 단위를 작게 쪼개는 게 해결책이다.

자동 PR 리뷰가 LGTM만 찍어주는 체크박스가 되는 경우도 흔하다. 에이전트 리뷰를 인간 리뷰의 대체가 아닌 전처리로 포지셔닝하고, 사람은 에이전트가 FAIL 친 항목만 집중 검토하는 방식으로 역할을 나눠라.

비용도 현실적으로 봐야 한다. 2,000명 규모의 비용 구조는 스타트업에 그대로 적용하기 어렵다. 핵심 사용자 10명에게 먼저 집중 배포하고, ROI를 측정한 뒤 확장하는 게 안전하다.


지금 바로 시작하는 최소 단계

오늘 퇴근 전에 할 수 있는 한 가지가 있다. 가장 최근에 올린 PR 하나를 골라서, 위에 공개한 PR 리뷰 프롬프트에 diff를 붙여 ChatGPT에 넣어봐라. 결과물을 실제 리뷰어의 코멘트와 비교해라. 어디서 겹치고 어디서 빠졌는지를 보면, 팀에 이 방식을 제안할 때 쓸 수 있는 구체적인 근거가 생긴다.

전체 도입 계획은 그다음이다.

※ 본 글은 정보 제공 목적이며 특정 제품·서비스의 추천이 아닙니다.

반응형