데모와 운영 사이 : 가능성은 증명됐고, 이제 남은 것은 운영이다.

바이브 코딩 중이거나, AI로 작업을 하고 있다면 순식간에 나오는 데모를 본 적이 있을 것이다. 화면 위에서 AI가 질문에 답하고, 코드를 쓰고, 이미지를 만들고, 데이터를 분석하고, 보고서를 정리한다. 3분이면 끝난다. “이 정도면 거의 됐죠?”라는 말이 나온다. 경영진이 고개를 끄덕인다. 예산이 잡힌다. 파일럿 팀이 꾸려진다.

6개월 뒤. 파일럿은 “성공”으로 보고됐다. 제한된 환경에서 제한된 데이터로 제한된 결과를 냈고, 그 결과는 충분히 인상적이었다. 다음 단계로 넘어가자는 승인이 떨어진다. 그리고 프로덕션으로 가는 길에서 모든 것이 달라진다. 이 구간 — 데모에서 프로덕션 사이 — 에서 사라지는 것들이 있다. 2026년 기술 산업은 이 사라진 것들과 정면으로 마주하고 있다.

2026년 3월, 650개 기업 기술 리더 서베이에서 나온 숫자: 파일럿 운영 78%, 프로덕션 스케일 14%. MIT Sloan의 숫자는 더 극적이다: 생성형 AI 파일럿의 95%가 프로덕션으로 스케일하지 못했다. 이 숫자들이 말하는 건 기술이 부족하다는 게 아니다. 기술은 충분하다. 데모가 그 증거다. 부족한 건 기술과 현실 사이를 잇는 인프라, 프로세스, 그리고 조직의 의지다.

스케일링 실패의 89%를 설명하는 다섯 개의 간극이 있다.

첫째, 레거시 통합. 모든 조직에는 이미 돌아가고 있는 시스템이 있다. ERP, CRM, 내부 데이터베이스, 이메일 시스템. AI 에이전트가 아무리 똑똑해도 이 시스템들과 대화하지 못하면 사람이 수동으로 연결해야 한다. 파일럿에서는 이 문제가 안 보인다. 파일럿은 깨끗한 데이터와 단순한 환경에서 돌아가니까. 프로덕션에서는 이 문제가 첫날부터 터진다.

둘째, 볼륨 품질 불일치. 10건의 고객 문의를 처리할 때 95% 정확도를 보여준 에이전트가, 10,000건으로 넘어가면 정확도가 80%로 떨어진다. 이 15%의 차이가 고객 불만, 법적 리스크, 브랜드 손상으로 이어진다. 파일럿의 성공률은 프로덕션의 성공률과 같지 않다. 이걸 모르고 넘어간 조직이 3개월 뒤에 뒤늦게 발견한다.

셋째, 모니터링 부재. 에이전트가 무엇을 하고 있는지, 얼마나 정확한지, 어디서 틀리는지, 비용이 얼마나 나가는지를 실시간으로 보여주는 시스템이 없다. 파일럿에서는 사람이 수동으로 체크할 수 있다. 프로덕션에서는 불가능하다. 모니터링 없는 에이전트는 눈 감고 운전하는 것과 같다.

넷째, 조직 소유권 불명확. AI 에이전트의 결과물에 대한 책임은 누구에게 있는가. 에이전트가 잘못된 답을 고객에게 보냈을 때, 그건 AI 팀의 책임인가, 비즈니스 팀의 책임인가, IT의 책임인가. 실패한 프로젝트의 73%에서 이 질문에 답이 없었다. 경영진이 “AI가 하니까”라고 생각하는 사이, 아무도 결과를 책임지지 않는 공백이 생긴다.다섯째, 도메인 데이터 부족. 범용 모델은 범용 결과를 낸다. 의료 분야에서 쓰려면 의료 데이터와 규제를 학습시켜야 하고, 금융에서 쓰려면 금융 용어와 규정을 넣어야 한다. 파일럿에서는 “잘 되는 영역”만 골라서 보여줄 수 있다. 프로덕션에서는 모든 영역을 커버해야 한다. 산업별로 보면 금융이 프로덕션 배치율 21%로 가장 높고, 헬스케어가 8%로 가장 낮다. 규제가 복잡할수록 간극이 커진다.

다섯째, 도메인 데이터 부족. 범용 모델은 범용 결과를 낸다. 의료 분야에서 쓰려면 의료 데이터와 규제를 학습시켜야 하고, 금융에서 쓰려면 금융 용어와 규정을 넣어야 한다. 파일럿에서는 “잘 되는 영역”만 골라서 보여줄 수 있다. 프로덕션에서는 모든 영역을 커버해야 한다. 산업별로 보면 금융이 프로덕션 배치율 21%로 가장 높고, 헬스케어가 8%로 가장 낮다. 규제가 복잡할수록 간극이 커진다.

이 다섯 가지 간극에 공통점이 있다. 전부 데모에서는 보이지 않는다는 것.

데모는 최적의 조건에서 최상의 결과를 보여준다. 깨끗한 데이터, 단순한 환경, 통제된 변수, 준비된 시나리오. 그 3분 안에 레거시 통합 문제는 등장하지 않는다. 볼륨 이슈도, 모니터링도, 소유권 갈등도, 도메인 특화 실패도 보이지 않는다.

데모의 성공이 프로덕션의 필요성을 가린다. “이미 된 것 같으니까.” 경영진은 데모를 보고 “됐다”고 판단한다. 현장 팀은 프로덕션에서의 간극을 알지만, “데모에서 됐잖아”라는 압력 앞에서 목소리를 내기 어렵다. 간극은 보이지 않는 곳에서 커지고, 6개월 뒤에 프로젝트 실패로 표면에 나온다.

파일럿에서 프로덕션으로 가는 비용은 파일럿 구축 비용의 2~3배다. 이 비용이 초기 예산에 반영되지 않는 경우가 대부분이다. “데모가 이 정도니까 프로덕션도 비슷하겠지”라는 기대가 예산의 기초가 된다. 현실은 3배를 요구한다. 이번 주, 이 간극이 금융 시장에서 구체적으로 드러났다.

4월 28일, OpenAI 매출 목표 미달 보도. AI 산업의 선두 주자에서조차 “비전 → 수익”의 변환이 계획대로 진행되지 않고 있다는 신호. 테크주 전반이 흔들렸다.

4월 23일, ServiceNow와 IBM 실적 실망. AI 도구와 서비스가 기존 소프트웨어 비즈니스를 기대만큼 성장시키지 못하고 있다는 증거. 소프트웨어 주식 급락.

동시에 Mag 7의 네 곳(Microsoft, Meta, Alphabet, Amazon)은 매출을 이겼다. 그런데 이 네 곳의 2026년 AI 인프라 투자 합계가 6,500억 달러. 역사상 최대. Amazon의 자유 현금흐름이 급감한 이유가 AI 인프라에 593억 달러가 빠져나갔기 때문이다.

매출은 올라갔다. 지출 속도는 더 빨랐다. 비전에 걸린 돈은 역대 최대. 구현에서 나온 증거는 아직 최소. WEF는 이것을 AI reckoning이라 불렀다. Reckoning은 결산이다. 실험 단계가 끝나고, 지금까지 투자한 것의 실제 가치를 따져야 하는 시간이 왔다는 뜻이다. 기업의 약 4분의 3이 아직 AI에서 의미 있는 가치를 뽑아내지 못했다. 2026년이 그 가치를 증명해야 하는 해다. 증명하지 못하면 다음은 삭감이다.

McKinsey가 이 상황에서 고성과 조직과 저성과 조직을 가르는 기준을 하나로 잡았다. 고성과 조직은 기존 업무에 AI를 얹지 않았다. AI를 기준으로 업무를 다시 설계했다. 워크플로우를 근본적으로 재설계한 조직이 그렇지 않은 조직보다 3배 높은 비즈니스 임팩트를 냈다.

“이 업무를 더 빠르게 하려면?” 이 질문은 쉽다. 누구나 한다.

“이 업무가 여전히 필요한가?” 이 질문은 어렵다. 소수만 한다.

기술은 공평하게 배포된다. 같은 GPT-4, 같은 Claude, 같은 API를 누구나 쓸 수 있다. 차이를 만드는 건 기술 자체가 아니다. 기술을 기준으로 구조를 다시 만드는 의지다. 그 의지는 공평하게 배포되지 않는다.

이걸 개인 차원에서 읽으면 같은 구조가 보인다. 당신도 데모 단계에 있을 수 있다. AI 도구로 “이런 것도 가능하구나”를 경험했다. 몇 가지 빠른 승리를 얻었다. 생산성이 올라간 것 같았다. 그런데 그것이 당신의 워크플로우를, 당신의 업무 구조를, 당신의 시간 배분을 근본적으로 바꿨는가.

데모에서 운영으로 넘어간다는 건 “AI로 뭘 할 수 있는지”의 단계에서 “AI와 함께 매일 어떻게 일할 것인지”의 단계로 이동한다는 뜻이다. 전자는 흥미롭다. 후자는 지루하다. 전자는 가능성을 보여준다. 후자는 현실을 요구한다. 그런데 가치는 후자에 있다. 데모와 운영 사이에 사라지는 것들. 그것들이 진짜 가치가 있는 것들이다. 화려하지 않고, 프레젠테이션에 올라가지 않고, 누구도 칭찬하지 않지만, 이것들 없이는 아무것도 지속되지 않는다.

포르투나 프로토콜은 묻는다. 당신은 지금 데모의 흥분 위에 있는가, 운영의 지루함 속에 있는가. 그 차이를 인식하는 것이 다음 단계의 시작이다.

같은 카테고리 글 더 보기

위로 스크롤