Phân Tích vụ Claude Code Leak – Multi-Agent, Undercover Mode, Models Sắp Ra Mắt

Nội dung

Phân tích chi tiết source code Claude Code bị leak: hệ thống multi-agent, Undercover Mode, các model sắp ra mắt và feature gating nội bộ.

Tóm tắt nhanh

  • Claude Code có hệ thống điều phối đa agent với Coordinator Mode
  • Undercover Mode ngăn AI tiết lộ thông tin nội bộ khi làm việc trên kho công khai
  • Các model sắp ra mắt: Capybara, Opus 4.7, Sonnet 4.8 được phát hiện trong code
  • Hệ thống feature gating phân biệt bản nội bộ và bản công khai
  • Fast Mode được gọi nội bộ là “Penguin Mode”
Claude Code internal features analysis
Phân tích các tính năng nội bộ của Claude Code

Trong phần trước, chúng ta đã tìm hiểu về sự việc mã nguồn Claude Code bị lộ qua sourcemap trên npm cùng các tính năng như Buddy Tamagotchi, KAIROS, ULTRAPLAN. Trong phần này, mình sẽ phân tích sâu hơn về hệ thống đa agent, Undercover Mode và các model sắp được phát hành.

Nếu bạn quan tâm đến bảo mật website, hãy xem thêm bài OWASP Top 10 2026 để hiểu rõ hơn về các lỗ hổng bảo mật phổ biến nhất hiện nay.

Điều phối đa agent – Coordinator Mode

Claude Code sở hữu một hệ thống điều phối đa agent hoàn chỉnh, được kích hoạt thông qua biến môi trường CLAUDE_CODE_COORDINATOR_MODE=1. Khi bật chế độ này, Claude Code chuyển từ một agent đơn lẻ thành một “coordinator” có khả năng tạo ra, điều phối và quản lý nhiều worker agent chạy song song.

Hệ thống hoạt động theo 4 giai đoạn rõ ràng:

Sơ đồ 4 phases của multi-agent orchestration
4 giai đoạn của Coordinator Mode
  1. Research: Các worker chạy song song để khảo sát codebase, tìm file và hiểu vấn đề
  2. Synthesis: Coordinator tổng hợp kết quả, hiểu rõ vấn đề và xây dựng đặc tả công việc
  3. Implementation: Các worker thực hiện thay đổi theo đặc tả và commit code
  4. Verification: Các worker kiểm tra xem thay đổi đã hoạt động đúng chưa

System prompt rõ ràng hướng dẫn về tính song song: “Parallelism is your superpower. Workers are async. Launch independent workers concurrently whenever possible — don’t serialize work that can run simultaneously.”

Các worker giao tiếp với nhau qua tin nhắn XML dạng <task-notification>. Ngoài ra còn có một thư mục scratchpad dùng chung (được kiểm soát bởi tengu_scratch) để chia sẻ thông tin bền vững giữa các worker.

Khả năng Agent Teams / Swarm

Hệ thống còn hỗ trợ Agent Teams/Swarm với các tính năng:

  • Teammates trong cùng process sử dụng AsyncLocalStorage để cách ly ngữ cảnh
  • Teammates dựa trên process sử dụng tmux hoặc iTerm2 panes
  • Đồng bộ bộ nhớ giữa các thành viên trong team
  • Gán màu sắc để phân biệt trực quan

Toàn bộ tính năng này được kiểm soát bởi feature flag tengu_amber_flint.

Undercover Mode – “Đừng để lộ thông tin”

Đây là một trong những phát hiện thú vị nhất từ góc nhìn chiến lược của doanh nghiệp.

Khi nhân viên Anthropic (được nhận diện qua USER_TYPE === 'ant') sử dụng Claude Code trên các repository công khai hoặc mã nguồn mở, Undercover Mode sẽ ngăn AI vô tình tiết lộ thông tin nội bộ qua commit và Pull Request.

Undercover Mode system prompt example
Undercover Mode ngăn rò rỉ thông tin nội bộ

Khi chế độ này hoạt động, nó sẽ chèn vào system prompt nội dung sau:

UNDERCOVER MODE - CRITICAL

You are operating UNDERCOVER in a PUBLIC/OPEN-SOURCE repository. Your commit
messages, PR titles, and PR bodies MUST NOT contain ANY Anthropic-internal
information. Do not blow your cover.

NEVER include in commit messages or PR descriptions:
* Internal model codenames (animal names like Capybara, Tengu, etc.)
* Unreleased model version numbers (e.g., opus-4-7, sonnet-4-8)
* Internal repo or project names
* Internal tooling, Slack channels, or short links (e.g., go/cc, #claude-code-…)
* The phrase "Claude Code" or any mention that you are an AI
* Co-Authored-By lines or any other attribution

Logic kích hoạt:

  • CLAUDE_CODE_UNDERCOVER=1 buộc bật chế độ (kể cả trong repo nội bộ)
  • Nếu không có cờ này, chế độ tự động kích hoạt TRỪ KHI remote repo nằm trong danh sách cho phép nội bộ
  • Không có chế độ tắt buộc — “nếu không chắc chắn đang ở repo nội bộ, chúng ta sẽ giữ nguyên undercover”

Điều này cho thấy:

  1. Nhân viên Anthropic đang tích cực đóng góp vào mã nguồn mở bằng Claude Code, và AI được huấn luyện để che giấu việc nó là AI
  2. Tên mã nội bộ của các model là tên động vật (Capybara, Tengu…)
  3. “Tengu” xuất hiện hàng trăm lần như tiền tố cho feature flag và sự kiện analytics — rất có thể đây chính là tên mã nội bộ của Claude Code

Toàn bộ logic này đã bị loại bỏ (dead-code-eliminated) khỏi bản build công khai. Tuy nhiên, sourcemap vẫn giữ nguyên thông tin.

Các model sắp ra mắt: Capybara, Opus 4.7, Sonnet 4.8

Trong codebase có nhiều tham chiếu đến các model chưa được Anthropic công bố chính thức:

  • Claude “Capybara” — Họ model mới đã ở phiên bản 2, có biến thể capybara-v2-fast hỗ trợ cửa sổ ngữ cảnh 1 triệu token
  • Capybara có cả phiên bản “fast” và phiên bản suy nghĩ thông thường
  • Opus 4.7Sonnet 4.8 đã được đề cập trong code
Capybara model family concept
Capybara – họ model mới của Anthropic

Kỹ thuật sản xuất liên quan đến Capybara

Code cho thấy Anthropic đã quan sát được một lỗi thực tế trong môi trường production: Capybara có thể dừng sinh output sớm khi dạng prompt giống với ranh giới của một lượt hội thoại sau khi nhận kết quả tool. Thay vì chờ model được sửa, họ đã khắc phục bằng kỹ thuật prompt-shape surgery:

  1. Buộc thêm marker an toàn (Tool loaded.) để tránh nhầm lẫn ranh giới lượt
  2. Di chuyển các khối có nguy cơ cao để tránh kích hoạt dừng sớm
  3. Gộp nội dung nhắc nhở vào kết quả tool để duy trì dòng chảy sinh output
  4. Thêm marker không rỗng cho kết quả tool trống để tránh làm model bị nhầm

Tất cả các thay đổi này đều được bao quanh bởi kill-switch feature gates (các cờ có tiền tố tengu_*) để có thể triển khai theo giai đoạn và dễ dàng hoàn tác.

Các comment trong code chứa bằng chứng A/B test cụ thể, cho thấy đây là những khu vực quan trọng cần theo dõi chặt chẽ trước khi ra mắt. Comment kiểu “un-gate once validated on external via A/B” xác nhận rằng người dùng nội bộ (ant) đóng vai trò canary trước khi tính năng được mở rộng ra bên ngoài.

Feature Gating – Phân biệt bản nội bộ và bản công khai

Đây là một trong những phần kiến trúc thú vị nhất của codebase.

Claude Code sử dụng feature flag ở thời điểm biên dịch thông qua hàm feature() của Bun từ gói bun:bundle. Bundler sẽ thực hiện constant-foldingdead-code elimination các nhánh bị khóa trong bản build công khai.

Feature flags system diagram
Hệ thống feature gating trong Claude Code

Danh sách các feature flag đã biết:

Cờ (Flag)Tính năng được kiểm soát
PROACTIVE / KAIROSChế độ trợ lý luôn sẵn sàng
KAIROS_BRIEFLệnh brief
BRIDGE_MODEĐiều khiển từ xa qua claude.ai
DAEMONChế độ daemon chạy nền
VOICE_MODENhập liệu bằng giọng nói
WORKFLOW_SCRIPTSTự động hóa workflow
COORDINATOR_MODEĐiều phối đa agent
TRANSCRIPT_CLASSIFIERChế độ AFK (tự động phê duyệt bằng ML)
BUDDYHệ thống thú cưng đồng hành
NATIVE_CLIENT_ATTESTATIONXác thực client
HISTORY_SNIPCắt gọn lịch sử
EXPERIMENTAL_SKILL_SEARCHKhám phá kỹ năng

Ngoài ra, USER_TYPE === 'ant' còn kiểm soát các tính năng nội bộ sau:

  • Truy cập API staging (claude-ai.staging.ant.dev)
  • Header beta nội bộ
  • Undercover Mode
  • Lệnh /security-review
  • Công cụ ConfigTool, TungstenTool
  • Debug prompt được ghi ra thư mục ~/.config/claude/dump-prompts/

GrowthBook chịu trách nhiệm feature gating ở thời điểm chạy với cơ chế cache mạnh. Các flag có tiền tố tengu_ kiểm soát từ fast mode đến việc hợp nhất bộ nhớ. Nhiều kiểm tra sử dụng hàm getFeatureValue_CACHED_MAY_BE_STALE() để tránh chặn luồng chính — dữ liệu cũ được chấp nhận đối với feature gate.

Các phát hiện thú vị khác

Fast Mode = “Penguin Mode”

Fast Mode được gọi nội bộ là “Penguin Mode”. Endpoint API trong code:

const endpoint = ${getOauthConfig().BASE_API_URL}/api/claude_code_penguin_mode

Khóa config: penguinModeOrgEnabled. Kill-switch: tengu_penguins_off. Sự kiện analytics khi lỗi: tengu_org_penguin_mode_fetch_failed. Penguins all the way down!

Computer Use – “Chicago”

Claude Code có triển khai đầy đủ tính năng Computer Use, tên nội bộ là “Chicago”, được xây dựng trên gói @ant/computer-use-mcp. Tính năng bao gồm chụp ảnh màn hình, mô phỏng click/phím, và chuyển đổi tọa độ. Được giới hạn cho gói Max/Pro (người dùng nội bộ ant được bỏ qua).

Tên mã model trong các migration

Thư mục migrations/ tiết lộ lịch sử tên mã nội bộ:

  • migrateFennecToOpus — “Fennec” (cáo) là tên mã cũ của Opus
  • migrateSonnet1mToSonnet45 — Sonnet 1M context lên Sonnet 4.5
  • migrateSonnet45ToSonnet46 — Sonnet 4.5 → Sonnet 4.6
  • resetProToOpusDefault — Người dùng Pro được đặt lại về Opus mặc định

Attribution Header

Mọi yêu cầu API đều kèm theo header:

x-anthropic-billing-header: cc_version={VERSION}.{FINGERPRINT}; 
  cc_entrypoint={ENTRYPOINT}; cch={ATTESTATION_PLACEHOLDER}; cc_workload={WORKLOAD};

Tính năng NATIVE_CLIENT_ATTESTATION cho phép stack HTTP của Bun ghi đè placeholder cch=00000 bằng hash được tính toán — đây thực chất là cơ chế kiểm tra tính xác thực của client để Anthropic xác minh yêu cầu đến từ bản cài đặt Claude Code hợp lệ.

Nhận xét cuối cùng

Đây là một trong những cái nhìn toàn diện nhất mà chúng ta từng có về cách một AI coding assistant hàng đầu hoạt động từ bên trong.

Một số điểm nổi bật:

Kỹ thuật thực sự ấn tượng. Đây không phải là dự án cuối tuần gói trong CLI. Hệ thống điều phối đa agent, kiến trúc trigger ba lớp, loại bỏ code thừa ở thời điểm biên dịch — tất cả đều được thiết kế rất kỹ lưỡng.

Có rất nhiều tính năng sắp ra mắt. KAIROS (Claude luôn sẵn sàng), ULTRAPLAN (lập kế hoạch từ xa 30 phút), Buddy companion, coordinator mode, agent swarm, workflow scripts… Codebase hiện tại vượt xa phiên bản công khai khá nhiều. Hầu hết đều bị ẩn sau feature gate và không xuất hiện trong bản build bên ngoài.

Văn hóa nội bộ thể hiện rõ nét. Quy ước đặt tên động vật (Tengu, Fennec, Capybara), những cái tên vui nhộn (Penguin Mode, Dream System), hệ thống thú cưng Tamagotchi với cơ chế gacha. Có vẻ như có những người ở Anthropic đang rất tận hưởng công việc của mình.

Nếu phải rút ra một bài học, đó là bảo mật rất khó. Nhưng dường như .npmignore còn khó hơn nữa :P

Nguồn tham khảo

  1. Kuber Studio – Claude Code Source Code Leak Analysis

Các câu hỏi thường gặp

Coordinator Mode trong Claude Code là gì?

Coordinator Mode là hệ thống điều phối đa agent trong Claude Code, cho phép Claude Code hoạt động như một coordinator có thể tạo và quản lý nhiều worker agent chạy song song để xử lý các nhiệm vụ phức tạp.

Undercover Mode hoạt động như thế nào?

Undercover Mode ngăn Claude Code tiết lộ thông tin nội bộ (tên mã model, tên dự án nội bộ, tên công cụ…) khi làm việc trên repository công khai hoặc mã nguồn mở. Chế độ này tự động kích hoạt trừ khi đang ở trong repo nội bộ.

Capybara là gì trong Anthropic?

Capybara là họ model mới của Anthropic, đã ở phiên bản 2 với biến thể capybara-v2-fast hỗ trợ cửa sổ ngữ cảnh 1 triệu token. Đây là model chưa được công bố chính thức được phát hiện trong mã nguồn bị lộ.

Feature gating là gì?

Feature gating là hệ thống cờ kiểm soát ở thời điểm biên dịch trong Claude Code, giúp phân biệt giữa bản nội bộ và bản công khai. Các tính năng như KAIROS, Coordinator Mode, Buddy system bị loại bỏ khỏi bản build dành cho người dùng bên ngoài.

Penguin Mode là gì?

Penguin Mode là tên nội bộ của Fast Mode trong Claude Code. Đây là tính năng cho phép Claude Code hoạt động với tốc độ nhanh hơn, chấp nhận đánh đổi về chất lượng.

Tengu là gì?

Tengu là tên mã nội bộ của Claude Code, xuất hiện hàng trăm lần trong source code dưới dạng tiền tố cho feature flag và sự kiện analytics. Đây là tên động vật theo quy ước đặt tên nội bộ của Anthropic.

Tú Anh

Cây bút chính tại VietnamTutor

Bài viết cùng chuyên mục

Mã Nguồn Claude Code Leak Qua npm – Sự Việc 31/3/2026

Ngày 31/3/2026, toàn bộ source code Claude Code bị exposed qua npm sourcemap. Đây là cách leak xảy ra và những gì đã bị lộ.

Thiết Kế Website Agentic AI 2026: Hướng Dẫn Toàn Diện

Website tĩnh đang dần biến mất. Năm 2026, thiết kế website agentic AI giúp website tự động cá nhân hóa trải nghiệm người dùng, tối ưu

AI tạo hình ảnh 2026: Midjourney vs DALL-E vs Gemini — so sánh & hướng dẫn

Bạn đang tìm kiếm công cụ AI tạo hình ảnh tốt nhất năm 2026? Bài viết này so sánh chi tiết Midjourney, DALL-E và Gemini Imagen,

MCP (Model Context Protocol) là gì? Chuẩn Kết Nối AI Agent 2026

MCP (Model Context Protocol) là giao thức mã nguồn mở giúp AI agents kết nối với công cụ, dữ liệu và dịch vụ bên ngoài một

SEO On-Page Checklist cho WordPress: 37 Bước Tối Ưu 2026

Trong bài viết này, tôi sẽ đưa ra checklist 37 bước SEO on-page cho WordPress dựa trên thực hành tốt nhất năm 2026. Mỗi bước đều

Claude vs GPT vs Gemini 2026: So Sánh 3 AI Mạnh Nhất

OpenAI với GPT-5.2, Anthropic với Claude 4.6, và Google với Gemini 3.1. Mỗi bên đều có chiến lược riêng, và không có câu trả lời chung

Sự thật đằng sau “reset 5 giờ” của Antigravity Pro: Toàn bộ là dối trá?

Quota Antigravity Pro bị khóa cả tuần thay vì reset 5h? Google ép lên Ultra hay chống “bào” token? Đọc ngay để biết sự thật &

Mã độc VS Code, Go, npm, Rust: Nguy cơ đánh cắp dữ liệu dev

Mã độc trong VS Code extensions, gói Go, npm, Rust đang âm thầm đánh cắp dữ liệu dev. Tìm hiểu cách bảo vệ thông tin cá

Vibe Coding: Bí quyết dẫn đầu marketing AI 2025-2030

Vibe Coding - chìa khóa bứt phá marketing kỷ nguyên AI. Làm chủ sự kết hợp sáng tạo và tư duy hệ thống để tự động

Bảng xếp hạng công cụ AI xây dựng ứng dụng tối ưu

Bạn muốn xây ứng dụng AI? Khám phá bảng xếp hạng công cụ AI hàng đầu. Tìm nền tảng phù hợp cho ứng dụng cá nhân,

Lập trình viên: Xây doanh nghiệp một người, kiếm 10.000 USD/tháng

Lập trình viên: Khám phá khung làm việc để xây dựng doanh nghiệp một người, kiếm 10.000 USD/tháng. Biến kỹ năng code thành cỗ máy tiền,