Claude Opus 4.7 가격표는 그대로인데 왜 실제 팀 비용은 더 오르나

가격표만 보면 아무 일도 안 일어난 것처럼 보인다. Opus 4.7은 입력 백만 토큰당 5달러, 출력 백만 토큰당 25달러로 표면 가격을 그대로 유지했다.

그런데 팀이 실제로 느끼는 비용은 다르다. 이번 변화의 핵심은 가격 인상이 아니라 토크나이저 변경, adaptive thinking 전환, 그리고 장기 에이전트 루프에서 누적되는 운영비다. 결국 같은 가격표를 보고도 어떤 팀은 “괜찮네”라고 말하고, 어떤 팀은 “왜 이번 달 청구서가 이렇게 뛰지?”를 묻게 된다.

이 글은 그래서 모델 성능 소개가 아니라 이 질문에 답하려고 한다. 왜 Claude Opus 4.7은 가격표를 그대로 둔 채 실제 팀 비용을 더 올릴 수 있나, 그리고 그 비용을 어떻게 방어할 수 있나.

가격표는 그대로인데 청구서는 왜 커지나

이번 이슈의 출발점은 간단하다. 과금 단위는 가격표가 아니라 토큰 수인데, Opus 4.7은 같은 텍스트를 더 잘게 쪼개는 새 토크나이저를 사용한다.

즉 사용자가 보는 문장 길이가 같아도, 모델 내부에서 계산되는 토큰 수가 늘면 실제 청구서는 커질 수 있다. 이게 “가격은 그대로인데 비용은 오른다”는 역설의 정체다.

리서치 기준으로 특히 눈에 띄는 실측은 이쪽이다.

CLAUDE.md류 긴 지침 문서: 약 1.445배
기술 문서/설정 설명문: 약 1.47배
한국어 중심 CJK 텍스트: 약 1.01배

이 숫자가 의미하는 건 꽤 분명하다. 한국어로만 대화하면 영향이 작게 느껴질 수 있지만, 실제 팀 환경에서는 프롬프트 안에 한국어만 들어가지 않는다. 보통은 이런 요소가 함께 붙는다.

저장소 규칙 파일
정책 프롬프트
긴 prefix
코드 블록
에러 로그
테스트 출력

즉 한국어 팀도 코드와 운영 문서가 섞이는 순간 비용 상승을 피하기 어렵다.

같은 텍스트가 더 많은 토큰으로 쪼개지며 청구서가 커지는 구조

내가 보기엔 이건 단순한 가격 논란이 아니다. 코딩 에이전트 시대에는 매 요청이 짧은 채팅 한 번이 아니라, 지침 문서 + 코드베이스 맥락 + 추론 루프를 같이 태우는 구조라서 토크나이저 변화가 더 직접적으로 체감된다.

진짜 위험한 건 breaking change가 같이 왔다는 점이다

비용만 늘어난 게 아니라 운영 방식도 바뀌었다. 특히 기존 4.6 기준 습관에 익숙한 팀은 여기서 바로 사고가 난다.

가장 대표적인 변화는 budget_tokens 제거다. 예전처럼 thinking 설정에 enabled와 budget_tokens를 넘기면 400 에러가 날 수 있다. 이제는 adaptive thinking 전환과 effort 레벨 재설계가 필요하다.

// before
thinking: { type: "enabled", budget_tokens: 16000 }

// after
thinking: { type: "adaptive", effort: "medium" }

문제는 이게 단순 문법 변경으로 끝나지 않는다는 점이다.

thinking 필드를 아예 안 넘기면 에러 대신 성능 저하가 조용히 올 수 있다
temperature, top_p 같은 파라미터도 400 에러 원인이 될 수 있다
effort가 높아질수록 장기 세션 비용은 더 빨리 커진다

즉 이번 마이그레이션은 “모델 이름만 바꾸면 된다”가 아니다. 비용 구조와 추론 루프를 같이 다시 설계해야 하는 변경이다.

실제 체감은 여기서 갈린다. 한 사람의 단발성 프롬프트 비용이 조금 오르는 수준이면 대수롭지 않을 수 있다. 하지만 Claude Code나 긴 에이전트 세션처럼 반복 호출이 누적되는 환경에선, 토큰 증가와 추론 예산이 합쳐져 월간 예산을 훨씬 빨리 태운다.

팀 단위로 보면 왜 더 비싸게 느껴지나

개인 테스트보다 팀 운영에서 충격이 더 큰 이유는 반복 구조 때문이다.

예를 들어 이런 흐름을 생각해보면 쉽다.

긴 prefix와 정책 문서를 먼저 읽힌다
저장소 가이드를 다시 붙인다
코드와 로그를 넣고 분석한다
수정 후 테스트 결과를 다시 읽힌다
실패하면 같은 루프를 여러 번 반복한다

이 과정에서 청구서는 한 번에 크게 튀지 않아도, 세션 단위로 누적되면서 체감이 달라진다. 리서치 기준으로 Claude Code 80턴 세션 예시는 대략 이 범위를 보여준다.

Opus 4.6: 약 6.65달러
Opus 4.7: 약 7.86달러 ~ 8.76달러

즉 표면 가격표는 같아도, 실제 세션 비용은 20~30%대 증가가 충분히 나온다. GitHub Copilot 쪽에서 premium request가 더 빨리 닳는다는 체감이 나오는 것도 완전히 같은 맥락이다.

이건 결국 “더 좋은 모델을 쓰면 비용이 좀 느는구나” 수준이 아니다. 장기 에이전트 운영에서는 좋은 모델을 어떤 작업에만 쓰고, 어디서 멈추고, 무엇을 캐시할지가 훨씬 중요한 설계 문제가 된다.

장기 에이전트 루프에서 비용이 누적되는 구조와 방어 지점

그럼 어떻게 방어해야 하나

실무적으로는 세 가지가 가장 먼저 필요하다.

1. prompt caching을 기본값으로 본다

반복되는 prefix, 정책 문서, 규칙 파일, 공통 지침은 캐시 적중률만 높아져도 비용 방어 효과가 크다. 이번 국면에서 prompt caching은 선택지가 아니라 거의 필수에 가깝다.

2. 4.7을 모든 작업의 기본값으로 두지 않는다

깊은 추론이 진짜 필요한 작업과, 그렇지 않은 작업을 분리해야 한다. 예를 들면:

복잡한 계획 수립 / 어려운 리뷰 / 장기 디버깅: Opus 4.7
짧은 수정 / 반복 작업 / 비용 민감 루프: 기존 모델 또는 더 저렴한 경로

이렇게 라우팅을 나누지 않으면 좋은 모델 하나가 전체 예산을 잡아먹는다.

3. rollout 전에 실제 프롬프트를 샘플링해 토큰을 다시 잰다

이게 제일 중요하다. 문서에서 말하는 평균보다 우리 팀의 진짜 prefix가 더 길고 더 비쌀 수 있다. 특히 CLAUDE.md, 저장소 규칙, 리뷰 체크리스트를 길게 쓰는 팀은 출시 공지보다 자기 프롬프트를 먼저 봐야 한다.

내 기준으로는 이런 식의 운영 정책이 가장 현실적이다.

cost_defense:
  prompt_caching: enabled
  split_workloads:
    deep_reasoning: claude-opus-4-7
    routine_loops: cheaper_or_older_model
  rollout:
    sample_real_prompts: true
    compare_token_counts: true
    gradual_enablement: true

핵심은 간단하다. 모델 마이그레이션을 성능 업그레이드가 아니라 비용 구조 변경으로 봐야 한다.

한국 개발팀이 지금 체크해야 할 포인트

국내 팀에서 특히 먼저 볼 건 세 가지다.

첫째, 한국어 자체가 안전하다는 말만 믿지 말 것. 실무는 한국어 한 줄이 아니라 코드와 정책 문서, 로그가 같이 들어간다.

둘째, Claude Code나 에이전트 루프를 길게 굴리는 팀일수록 세션 비용을 따로 봐야 한다. 단건 프롬프트보다 반복 세션이 훨씬 아프다.

셋째, adaptive thinking 전환과 effort 조절을 비용 정책과 같이 묶어야 한다. reasoning 품질이 좋아지는 만큼, 운영자는 어디까지 돈을 태울지 명시해야 한다.

결론은 꽤 선명하다. Opus 4.7의 진짜 가격표는 공식 가격이 아니라, 우리 팀의 문서 길이와 추론 습관, 에이전트 루프 구조 안에 숨어 있다.

이런 비용 현실성과 운영 설계를 계속 보고 싶다면 아래 글도 같이 보면 이어진다.

비용보다 더 중요한 건 결국 운영 감각이다.

이런 글이 더 궁금하다면

매주 월요일, AI 자동화와 개발 이야기를 정리해서 보내고 있다. 블로그에 미처 못 쓴 삽질기와 운영 노하우도 함께 담는다.

주간 뉴스레터 구독하기 →

비슷한 구조를 우리 팀이 직접 만들어드리기도 한다. 관심 있으면 상담 신청을 남겨주시면 된다.

Claude Opus 4.7 가격표는 그대로인데 왜 실제 팀 비용은 더 오르나

가격표는 그대로인데 청구서는 왜 커지나

진짜 위험한 건 breaking change가 같이 왔다는 점이다

팀 단위로 보면 왜 더 비싸게 느껴지나

그럼 어떻게 방어해야 하나

1. prompt caching을 기본값으로 본다

2. 4.7을 모든 작업의 기본값으로 두지 않는다

3. rollout 전에 실제 프롬프트를 샘플링해 토큰을 다시 잰다

한국 개발팀이 지금 체크해야 할 포인트

이런 글이 더 궁금하다면

참고 자료

함께 읽으면 좋은 글

Supabase Agent Skills, 이제 AI 에이전트도 Postgres 베스트 프랙티스를 설치해 배운다

Anthropic x SpaceX, 이제 Claude 경쟁력은 모델보다 컴퓨트 조달이 좌우한다

OpenAI가 Claude Code 안으로 들어왔다, Codex 플러그인이 던진 새 질문