Claude Code Leak Phân Tích - Multi-Agent, Undercover Mode, Models Sắp Ra Mắt

Phân tích chi tiết source code Claude Code bị leak: hệ thống multi-agent, Undercover Mode, các model sắp ra mắt và feature gating nội bộ.

Tóm tắt nhanh

Claude Code có hệ thống điều phối đa agent với Coordinator Mode
Undercover Mode ngăn AI tiết lộ thông tin nội bộ khi làm việc trên kho công khai
Các model sắp ra mắt: Capybara, Opus 4.7, Sonnet 4.8 được phát hiện trong code
Hệ thống feature gating phân biệt bản nội bộ và bản công khai
Fast Mode được gọi nội bộ là “Penguin Mode”

Claude Code internal features analysis — Phân tích các tính năng nội bộ của Claude Code

Trong phần trước, chúng ta đã tìm hiểu về sự việc mã nguồn Claude Code bị lộ qua sourcemap trên npm cùng các tính năng như Buddy Tamagotchi, KAIROS, ULTRAPLAN. Trong phần này, mình sẽ phân tích sâu hơn về hệ thống đa agent, Undercover Mode và các model sắp được phát hành.

Nếu bạn quan tâm đến bảo mật website, hãy xem thêm bài OWASP Top 10 2026 để hiểu rõ hơn về các lỗ hổng bảo mật phổ biến nhất hiện nay.

Điều phối đa agent – Coordinator Mode

Claude Code sở hữu một hệ thống điều phối đa agent hoàn chỉnh, được kích hoạt thông qua biến môi trường CLAUDE_CODE_COORDINATOR_MODE=1. Khi bật chế độ này, Claude Code chuyển từ một agent đơn lẻ thành một “coordinator” có khả năng tạo ra, điều phối và quản lý nhiều worker agent chạy song song.

Hệ thống hoạt động theo 4 giai đoạn rõ ràng:

Sơ đồ 4 phases của multi-agent orchestration — 4 giai đoạn của Coordinator Mode

Research: Các worker chạy song song để khảo sát codebase, tìm file và hiểu vấn đề
Synthesis: Coordinator tổng hợp kết quả, hiểu rõ vấn đề và xây dựng đặc tả công việc
Implementation: Các worker thực hiện thay đổi theo đặc tả và commit code
Verification: Các worker kiểm tra xem thay đổi đã hoạt động đúng chưa

System prompt rõ ràng hướng dẫn về tính song song: “Parallelism is your superpower. Workers are async. Launch independent workers concurrently whenever possible — don’t serialize work that can run simultaneously.”

Các worker giao tiếp với nhau qua tin nhắn XML dạng <task-notification>. Ngoài ra còn có một thư mục scratchpad dùng chung (được kiểm soát bởi tengu_scratch) để chia sẻ thông tin bền vững giữa các worker.

Khả năng Agent Teams / Swarm

Hệ thống còn hỗ trợ Agent Teams/Swarm với các tính năng:

Teammates trong cùng process sử dụng AsyncLocalStorage để cách ly ngữ cảnh
Teammates dựa trên process sử dụng tmux hoặc iTerm2 panes
Đồng bộ bộ nhớ giữa các thành viên trong team
Gán màu sắc để phân biệt trực quan

Toàn bộ tính năng này được kiểm soát bởi feature flag tengu_amber_flint.

Undercover Mode – “Đừng để lộ thông tin”

Đây là một trong những phát hiện thú vị nhất từ góc nhìn chiến lược của doanh nghiệp.

Khi nhân viên Anthropic (được nhận diện qua USER_TYPE === 'ant') sử dụng Claude Code trên các repository công khai hoặc mã nguồn mở, Undercover Mode sẽ ngăn AI vô tình tiết lộ thông tin nội bộ qua commit và Pull Request.

Undercover Mode system prompt example — Undercover Mode ngăn rò rỉ thông tin nội bộ

Khi chế độ này hoạt động, nó sẽ chèn vào system prompt nội dung sau:

UNDERCOVER MODE - CRITICAL

You are operating UNDERCOVER in a PUBLIC/OPEN-SOURCE repository. Your commit
messages, PR titles, and PR bodies MUST NOT contain ANY Anthropic-internal
information. Do not blow your cover.

NEVER include in commit messages or PR descriptions:
* Internal model codenames (animal names like Capybara, Tengu, etc.)
* Unreleased model version numbers (e.g., opus-4-7, sonnet-4-8)
* Internal repo or project names
* Internal tooling, Slack channels, or short links (e.g., go/cc, #claude-code-…)
* The phrase "Claude Code" or any mention that you are an AI
* Co-Authored-By lines or any other attribution

Logic kích hoạt:

CLAUDE_CODE_UNDERCOVER=1 buộc bật chế độ (kể cả trong repo nội bộ)
Nếu không có cờ này, chế độ tự động kích hoạt TRỪ KHI remote repo nằm trong danh sách cho phép nội bộ
Không có chế độ tắt buộc — “nếu không chắc chắn đang ở repo nội bộ, chúng ta sẽ giữ nguyên undercover”

Điều này cho thấy:

Nhân viên Anthropic đang tích cực đóng góp vào mã nguồn mở bằng Claude Code, và AI được huấn luyện để che giấu việc nó là AI
Tên mã nội bộ của các model là tên động vật (Capybara, Tengu…)
“Tengu” xuất hiện hàng trăm lần như tiền tố cho feature flag và sự kiện analytics — rất có thể đây chính là tên mã nội bộ của Claude Code

Toàn bộ logic này đã bị loại bỏ (dead-code-eliminated) khỏi bản build công khai. Tuy nhiên, sourcemap vẫn giữ nguyên thông tin.

Các model sắp ra mắt: Capybara, Opus 4.7, Sonnet 4.8

Trong codebase có nhiều tham chiếu đến các model chưa được Anthropic công bố chính thức:

Claude “Capybara” — Họ model mới đã ở phiên bản 2, có biến thể capybara-v2-fast hỗ trợ cửa sổ ngữ cảnh 1 triệu token
Capybara có cả phiên bản “fast” và phiên bản suy nghĩ thông thường
Opus 4.7 và Sonnet 4.8 đã được đề cập trong code

Capybara model family concept — Capybara – họ model mới của Anthropic

Kỹ thuật sản xuất liên quan đến Capybara

Code cho thấy Anthropic đã quan sát được một lỗi thực tế trong môi trường production: Capybara có thể dừng sinh output sớm khi dạng prompt giống với ranh giới của một lượt hội thoại sau khi nhận kết quả tool. Thay vì chờ model được sửa, họ đã khắc phục bằng kỹ thuật prompt-shape surgery:

Buộc thêm marker an toàn (Tool loaded.) để tránh nhầm lẫn ranh giới lượt
Di chuyển các khối có nguy cơ cao để tránh kích hoạt dừng sớm
Gộp nội dung nhắc nhở vào kết quả tool để duy trì dòng chảy sinh output
Thêm marker không rỗng cho kết quả tool trống để tránh làm model bị nhầm

Tất cả các thay đổi này đều được bao quanh bởi kill-switch feature gates (các cờ có tiền tố tengu_*) để có thể triển khai theo giai đoạn và dễ dàng hoàn tác.

Các comment trong code chứa bằng chứng A/B test cụ thể, cho thấy đây là những khu vực quan trọng cần theo dõi chặt chẽ trước khi ra mắt. Comment kiểu “un-gate once validated on external via A/B” xác nhận rằng người dùng nội bộ (ant) đóng vai trò canary trước khi tính năng được mở rộng ra bên ngoài.

Feature Gating – Phân biệt bản nội bộ và bản công khai

Đây là một trong những phần kiến trúc thú vị nhất của codebase.

Claude Code sử dụng feature flag ở thời điểm biên dịch thông qua hàm feature() của Bun từ gói bun:bundle. Bundler sẽ thực hiện constant-folding và dead-code elimination các nhánh bị khóa trong bản build công khai.

Feature flags system diagram — Hệ thống feature gating trong Claude Code

Danh sách các feature flag đã biết:

Cờ (Flag)	Tính năng được kiểm soát
`PROACTIVE` / `KAIROS`	Chế độ trợ lý luôn sẵn sàng
`KAIROS_BRIEF`	Lệnh brief
`BRIDGE_MODE`	Điều khiển từ xa qua claude.ai
`DAEMON`	Chế độ daemon chạy nền
`VOICE_MODE`	Nhập liệu bằng giọng nói
`WORKFLOW_SCRIPTS`	Tự động hóa workflow
`COORDINATOR_MODE`	Điều phối đa agent
`TRANSCRIPT_CLASSIFIER`	Chế độ AFK (tự động phê duyệt bằng ML)
`BUDDY`	Hệ thống thú cưng đồng hành
`NATIVE_CLIENT_ATTESTATION`	Xác thực client
`HISTORY_SNIP`	Cắt gọn lịch sử
`EXPERIMENTAL_SKILL_SEARCH`	Khám phá kỹ năng

Ngoài ra, USER_TYPE === 'ant' còn kiểm soát các tính năng nội bộ sau:

Truy cập API staging (claude-ai.staging.ant.dev)
Header beta nội bộ
Undercover Mode
Lệnh /security-review
Công cụ ConfigTool, TungstenTool
Debug prompt được ghi ra thư mục ~/.config/claude/dump-prompts/

GrowthBook chịu trách nhiệm feature gating ở thời điểm chạy với cơ chế cache mạnh. Các flag có tiền tố tengu_ kiểm soát từ fast mode đến việc hợp nhất bộ nhớ. Nhiều kiểm tra sử dụng hàm getFeatureValue_CACHED_MAY_BE_STALE() để tránh chặn luồng chính — dữ liệu cũ được chấp nhận đối với feature gate.

Các phát hiện thú vị khác

Fast Mode = “Penguin Mode”

Fast Mode được gọi nội bộ là “Penguin Mode”. Endpoint API trong code:

const endpoint = ${getOauthConfig().BASE_API_URL}/api/claude_code_penguin_mode

Khóa config: penguinModeOrgEnabled. Kill-switch: tengu_penguins_off. Sự kiện analytics khi lỗi: tengu_org_penguin_mode_fetch_failed. Penguins all the way down!

Computer Use – “Chicago”

Claude Code có triển khai đầy đủ tính năng Computer Use, tên nội bộ là “Chicago”, được xây dựng trên gói @ant/computer-use-mcp. Tính năng bao gồm chụp ảnh màn hình, mô phỏng click/phím, và chuyển đổi tọa độ. Được giới hạn cho gói Max/Pro (người dùng nội bộ ant được bỏ qua).

Tên mã model trong các migration

Thư mục migrations/ tiết lộ lịch sử tên mã nội bộ:

migrateFennecToOpus — “Fennec” (cáo) là tên mã cũ của Opus
migrateSonnet1mToSonnet45 — Sonnet 1M context lên Sonnet 4.5
migrateSonnet45ToSonnet46 — Sonnet 4.5 → Sonnet 4.6
resetProToOpusDefault — Người dùng Pro được đặt lại về Opus mặc định

Attribution Header

Mọi yêu cầu API đều kèm theo header:

x-anthropic-billing-header: cc_version={VERSION}.{FINGERPRINT}; 
  cc_entrypoint={ENTRYPOINT}; cch={ATTESTATION_PLACEHOLDER}; cc_workload={WORKLOAD};

Tính năng NATIVE_CLIENT_ATTESTATION cho phép stack HTTP của Bun ghi đè placeholder cch=00000 bằng hash được tính toán — đây thực chất là cơ chế kiểm tra tính xác thực của client để Anthropic xác minh yêu cầu đến từ bản cài đặt Claude Code hợp lệ.

Nhận xét cuối cùng

Đây là một trong những cái nhìn toàn diện nhất mà chúng ta từng có về cách một AI coding assistant hàng đầu hoạt động từ bên trong.

Một số điểm nổi bật:

Kỹ thuật thực sự ấn tượng. Đây không phải là dự án cuối tuần gói trong CLI. Hệ thống điều phối đa agent, kiến trúc trigger ba lớp, loại bỏ code thừa ở thời điểm biên dịch — tất cả đều được thiết kế rất kỹ lưỡng.

Có rất nhiều tính năng sắp ra mắt. KAIROS (Claude luôn sẵn sàng), ULTRAPLAN (lập kế hoạch từ xa 30 phút), Buddy companion, coordinator mode, agent swarm, workflow scripts… Codebase hiện tại vượt xa phiên bản công khai khá nhiều. Hầu hết đều bị ẩn sau feature gate và không xuất hiện trong bản build bên ngoài.

Văn hóa nội bộ thể hiện rõ nét. Quy ước đặt tên động vật (Tengu, Fennec, Capybara), những cái tên vui nhộn (Penguin Mode, Dream System), hệ thống thú cưng Tamagotchi với cơ chế gacha. Có vẻ như có những người ở Anthropic đang rất tận hưởng công việc của mình.

Nếu phải rút ra một bài học, đó là bảo mật rất khó. Nhưng dường như .npmignore còn khó hơn nữa :P

Nguồn tham khảo

Kuber Studio – Claude Code Source Code Leak Analysis

Các câu hỏi thường gặp

Coordinator Mode trong Claude Code là gì?

Coordinator Mode là hệ thống điều phối đa agent trong Claude Code, cho phép Claude Code hoạt động như một coordinator có thể tạo và quản lý nhiều worker agent chạy song song để xử lý các nhiệm vụ phức tạp.

Undercover Mode hoạt động như thế nào?

Undercover Mode ngăn Claude Code tiết lộ thông tin nội bộ (tên mã model, tên dự án nội bộ, tên công cụ…) khi làm việc trên repository công khai hoặc mã nguồn mở. Chế độ này tự động kích hoạt trừ khi đang ở trong repo nội bộ.

Capybara là gì trong Anthropic?

Capybara là họ model mới của Anthropic, đã ở phiên bản 2 với biến thể capybara-v2-fast hỗ trợ cửa sổ ngữ cảnh 1 triệu token. Đây là model chưa được công bố chính thức được phát hiện trong mã nguồn bị lộ.

Feature gating là gì?

Feature gating là hệ thống cờ kiểm soát ở thời điểm biên dịch trong Claude Code, giúp phân biệt giữa bản nội bộ và bản công khai. Các tính năng như KAIROS, Coordinator Mode, Buddy system bị loại bỏ khỏi bản build dành cho người dùng bên ngoài.

Penguin Mode là gì?

Penguin Mode là tên nội bộ của Fast Mode trong Claude Code. Đây là tính năng cho phép Claude Code hoạt động với tốc độ nhanh hơn, chấp nhận đánh đổi về chất lượng.

Tengu là gì?

Tengu là tên mã nội bộ của Claude Code, xuất hiện hàng trăm lần trong source code dưới dạng tiền tố cho feature flag và sự kiện analytics. Đây là tên động vật theo quy ước đặt tên nội bộ của Anthropic.

Phân Tích vụ Claude Code Leak – Multi-Agent, Undercover Mode, Models Sắp Ra Mắt

Nội dung