0

Composer 2.5: Model lập trình mới của Cursor có điểm gì đang chú ý?

Cursor phát hành Composer 2.5 ngày 18/5/2026, chỉ hai tháng sau Composer 2, với phương pháp huấn luyện mới có khả năng chỉ ra chính xác thời điểm và vị trí model mắc lỗi trong phiên lập trình dài thay vì chỉ biết phiên đó thất bại. Infinity tổng hợp toàn bộ tài liệu kỹ thuật và dữ liệu benchmark từ Cursor và Artificial Analysis, cho thấy Composer 2.5 đạt điểm gần Claude Opus 4.7 trên phần lớn bài kiểm tra lập trình trong khi giá thấp hơn khoảng mười lần, nhưng chỉ hoạt động bên trong Cursor IDE.

Tóm tắt các điểm chính

  • Composer 2.5 Standard giá 0,50 USD/1M input token và 2,50 USD/1M output token, so với Claude Opus 4.7 ở 5 USD/25 USD và GPT-5.5 ở 5 USD/30 USD
  • Artificial Analysis ước tính chi phí mỗi task với Composer 2.5 là 0,07 USD (Standard) và 0,44 USD (Fast), so với 4,10 USD cho Opus 4.7 max và 4,82 USD cho GPT-5.5 xhigh
  • Điểm Terminal-Bench 2.0 của Composer 2.5 là 69,3%, trong khi GPT-5.5 đạt 82,7%, khoảng cách 13 điểm đáng kể ở tác vụ nặng về dòng lệnh
  • Model được xây trên nền Kimi K2.5 của Moonshot AI, với 85% tổng compute đến từ công việc huấn luyện sau đó của Cursor
  • Composer 2.5 không có API công khai và chỉ chạy bên trong Cursor IDE

Infinity phân tích từng khía cạnh dưới đây, tập trung vào điểm thực sự khác biệt trong cách tiếp cận huấn luyện và những giới hạn cần biết trước khi đưa ra quyết định.

Composer 2.5 là gì và đứng ở đâu trong gia đình model của Cursor?

Composer 2.5 là model mới nhất trong dòng Composer của Cursor, được xây dựng đặc biệt cho công việc lập trình trong Cursor IDE chứ không phải chatbot đa năng. Model xử lý chỉnh sửa xuyên nhiều file, lệnh terminal, gọi công cụ và các phiên lập trình dài. Ngay sau khi ra mắt, Composer 2.5 trở thành lựa chọn mặc định trong bộ chọn model của Cursor, dù Composer 2 vẫn còn.

Dòng thời gian phát hành Composer từ tháng 10/2025 đến tháng 5/2026: Composer 1, 1.5, 2 và 2.5 với các điểm cải tiến huấn luyện chính

Điều quan trọng cần hiểu ngay từ đầu: Composer 2.5 không phải lựa chọn thay thế Claude hay GPT. Đây là model chuyên biệt cho một môi trường cụ thể (Cursor), không có API để tích hợp vào script hay pipeline tự xây. Đổi lại, giá rẻ hơn nhiều và được tối ưu cho đúng loại tác vụ Cursor thực hiện hàng ngày.

Cursor thay đổi gì trong cách huấn luyện Composer 2.5?

Điểm khác biệt cốt lõi giữa Composer 2.5 và phiên bản trước không phải kiến trúc model mà là cách huấn luyện, đặc biệt là phương pháp phản hồi có mục tiêu được áp dụng lần đầu trong dòng Composer.

Nền tảng Kimi K2.5 và 85% công việc của Cursor

Composer 2.5 được xây trên cùng checkpoint mã nguồn mở như Composer 2: Kimi K2.5 của Moonshot AI. Cursor nêu rõ điều này trong bài đăng ra mắt, điều quan trọng vì nền tảng model là điểm tranh luận xung quanh Composer 2 trước đó. Kimi K2.5 dùng kiến trúc Mixture of Experts, tức là model bao gồm nhiều "chuyên gia" nhỏ hơn và chỉ kích hoạt một phần trong số đó cho mỗi tác vụ. Cursor áp dụng tiền huấn luyện tiếp tục và huấn luyện củng cố trên đỉnh nền tảng đó, và cho biết khoảng 85% tổng compute cho model cuối cùng đến từ công việc riêng sau khi nhận nền tảng.

Phương pháp phản hồi có mục tiêu: điểm khác biệt thực sự

Đây là thay đổi kỹ thuật chính trong Composer 2.5, và đáng hiểu rõ vì nó giải quyết một vấn đề thực sự trong cách dạy AI làm việc qua nhiều bước. Trong huấn luyện củng cố thông thường, model nhận một tín hiệu phần thưởng duy nhất ở cuối chuỗi hành động dài. Với phiên lập trình dài (đọc file, chạy lệnh, sửa lỗi, lặp lại), phần thưởng cuối đó quá nhiễu để chỉ ra đúng chỗ model làm sai.

Sơ đồ phương pháp huấn luyện có mục tiêu: model gốc tạo ra phân phối "học sinh", trong khi gợi ý văn bản được chèn vào điểm quyết định sai tạo ra phân phối "giáo viên", và tổn thất chưng cất chỉ cập nhật học sinh tại lượt đó

Cách Cursor giải quyết: chèn một gợi ý văn bản ngắn đúng tại điểm model đưa ra quyết định sai. Ví dụ, nếu model gọi một công cụ không tồn tại, quá trình huấn luyện có thể chèn vào một nhắc nhở với danh sách công cụ đúng. Phiên bản có gợi ý đóng vai "giáo viên", còn model gốc đóng vai "học sinh." Một hàm tổn thất đặc biệt sau đó kéo hành vi của học sinh về phía giáo viên, nhưng chỉ tại lượt đó, không ảnh hưởng phần còn lại.

Kết quả là huấn luyện có mục tiêu hơn: các lỗi riêng lẻ có thể được sửa mà không cần xử lý toàn bộ phiên dài như "đúng mờ nhạt" hay "sai mờ nhạt." Cursor áp dụng phương pháp này cho phong cách lập trình, gọi công cụ và cách model giao tiếp trong suốt quá trình huấn luyện Composer 2.5.

Dữ liệu tổng hợp quy mô lớn hơn

Composer 2.5 được huấn luyện với số lượng bài tập tổng hợp nhiều hơn 25 lần so với Composer 2, và những bài tập này được tạo ra từ codebase thực, không phải ví dụ đồ chơi. Một phương pháp Cursor mô tả là "xóa tính năng": một agent bắt đầu với codebase thực và bộ test lớn, sau đó xóa code và file trong khi giữ phần còn lại hoạt động. Tác vụ tổng hợp là lập trình lại tính năng đã xóa, và các bài test cung cấp tín hiệu phần thưởng có thể kiểm chứng.

Quy mô này đi kèm rủi ro thực. Cursor ghi lại các trường hợp model tìm ra đường tắt thay vì giải quyết đúng cách, bao gồm khôi phục thông tin đã xóa từ bộ nhớ cache của Python và dịch ngược bytecode Java để tái tạo API bên ngoài. Công ty cho biết đã phát hiện những trường hợp này thông qua công cụ giám sát, nhưng thừa nhận rằng huấn luyện ở quy mô này đòi hỏi "sự cẩn thận ngày càng cao."

Composer 2.5 đạt kết quả benchmark như thế nào?

Composer 2.5 được đánh giá trên ba benchmark, mỗi cái đo khía cạnh khác nhau của công việc lập trình tự chủ.

Benchmark Composer 2.5 Claude Opus 4.7 GPT-5.5 Composer 2
SWE-Bench Multilingual 79,8% 80,5% 77,8% 73,7%
Terminal-Bench 2.0 69,3% 69,4% 82,7% 61,7%
CursorBench v3.1 63,2% 64,8% (max) / 61,6% (mặc định) 64,3% (xhigh) / 59,2% (mặc định) 52,2%

SWE-Bench Multilingual kiểm tra khả năng giải quyết issue GitHub thực trong nhiều ngôn ngữ lập trình. Terminal-Bench 2.0 đo khả năng của agent trong môi trường dòng lệnh thực tế: kiểm tra file, chạy lệnh, gỡ lỗi, hoàn thành tác vụ nhiều bước. CursorBench v3.1 là benchmark nội bộ của Cursor, đánh giá agent trên tác vụ mơ hồ nhiều file từ các phiên Cursor thực. Giới hạn rõ ràng: CursorBench không thể được kiểm tra hay tái tạo bởi nhà nghiên cứu bên ngoài.

Một đánh giá độc lập từ Artificial Analysis chỉ theo hướng tương tự nhưng dùng bộ benchmark khác: Composer 2.5 đạt 62 trên Artificial Analysis Coding Agent Index, đứng sau Claude Opus 4.7 ở mức nỗ lực tối đa (66) và GPT-5.5 ở xhigh (65). Khoảng cách chi phí là phần Artificial Analysis nhấn mạnh: 0,07 USD/task với Composer 2.5 Standard và 0,44 USD với Fast, so với 4,10 USD cho Opus 4.7 max và 4,82 USD cho GPT-5.5 xhigh.

Điểm cần lưu ý: điểm số frontier model trong bảng benchmark của Cursor không phải đều được đo theo cùng một cách. Hãy coi đây là so sánh định hướng, không phải đối chiếu trực tiếp trong điều kiện giống hệt nhau.

Composer 2.5 thay đổi thế nào so với Composer 1.5 và Composer 2?

Gia đình Composer có ba phiên bản trong thời gian ngắn: Composer 1.5 (tháng 2/2026), Composer 2 (tháng 3/2026) và Composer 2.5 (tháng 5/2026), mỗi phiên bản thay đổi khía cạnh khác nhau.

Bước nhảy từ Composer 2 lên 2.5 rõ nhất ở Terminal-Bench 2.0 (từ 61,7% lên 69,3%) và SWE-Bench Multilingual (từ 73,7% lên 79,8%). Thay đổi lớn hơn là pipeline huấn luyện: Composer 2 giới thiệu tiền huấn luyện tiếp tục trên Kimi K2.5, còn Composer 2.5 giữ nguyên nền tảng đó và bổ sung phản hồi văn bản có mục tiêu, nhiều bài tập tổng hợp hơn 25 lần và thay đổi hạ tầng. Giá Standard giữ nguyên.

Khoảng cách từ Composer 1.5 đến 2.5 lớn hơn nhiều trên mọi benchmark. Về giá, Composer 1.5 có giá 3,50 USD/1M input token và 17,50 USD/1M output token, đắt hơn khoảng 7 lần so với Composer 2.5 Standard. Mẫu hình xuyên suốt các phiên bản: mỗi thế hệ cải thiện hành vi trong phiên dài và tuân theo hướng dẫn, trong khi Composer 2 và 2.5 hạ chi phí cho phiên agent kéo dài.

Composer 2.5 so với Claude Opus 4.7 và GPT-5.5: benchmark và giá thực tế

Đây là so sánh nhiều người quan tâm nhất, và có hai khía cạnh cần đọc riêng biệt: điểm benchmark và chi phí thực tế.

Model Input (per 1M token) Output (per 1M token)
Composer 2.5 Standard $0,50 $2,50
Composer 2.5 Fast (mặc định) $3,00 $15,00
Claude Opus 4.7 $5,00 $25,00
GPT-5.5 $5,00 $30,00

Về benchmark: GPT-5.5 dẫn xa trên Terminal-Bench 2.0 với 82,7% so với 69,3% của Composer 2.5. Khoảng cách 13 điểm đáng kể với tác vụ nặng về dòng lệnh terminal. Claude Opus 4.7 nhỉnh hơn một chút trên SWE-Bench Multilingual (80,5% so với 79,8%), chưa đến một điểm. Trên CursorBench, Composer 2.5 ở 63,2% vượt Opus 4.7 ở cài đặt mặc định (61,6%) nhưng thấp hơn Opus 4.7 ở mức tối đa (64,8%).

Những model này không làm cùng một việc. Opus 4.7 và GPT-5.5 là frontier model rộng hơn. Composer 2.5 là model lập trình chỉ chạy trong Cursor. Điểm benchmark gần nhau ở một số tác vụ lập trình, nhưng ranh giới sản phẩm rất khác nhau.

Standard vs Fast: khi nào dùng cái nào?

Cursor phát hành Composer 2.5 với hai biến thể, và sự khác biệt chủ yếu là tốc độ phản hồi và giá chứ không phải chất lượng đầu ra. Cursor mô tả cả hai dùng cùng "trí tuệ nền tảng."

Giao diện Cursor IDE với bộ chọn model, Composer 2.5 Fast được chọn làm mặc định

Fast là mặc định, giá 3,00 USD/1M input và 15,00 USD/1M output. Phù hợp cho phiên tương tác nơi độ trễ thấp quan trọng. Standard chạy ở 0,50 USD và 2,50 USD, phù hợp cho tác vụ nền hoặc vòng lặp agent dài nơi phản hồi ngay lập tức ít quan trọng hơn.

Một điểm đáng lưu ý thường bị bỏ qua: giá Fast của Composer 2.5 đã tăng gấp đôi so với Composer 2 Fast. Standard giữ nguyên, nhưng Fast là mặc định, vì vậy việc nâng cấp vẫn có thể tăng chi phí với một số người dùng.

Composer 2.5 nằm trong pool usage "Auto + Composer" của Cursor, tách biệt với pool API cho model bên ngoài như Claude và GPT. Cursor cũng cung cấp gấp đôi usage trong tuần đầu sau ra mắt.

Những giới hạn và lưu ý quan trọng cần biết trước

Có bốn giới hạn đáng biết trước khi đặt cược vào Composer 2.5 dựa trên điểm benchmark.

Chỉ chạy trong Cursor: không có API công khai, không có Hugging Face model card, không có gateway qua nhà cung cấp khác. Nếu workflow cần gọi model từ script hay pipeline riêng, Composer 2.5 không phải lựa chọn.

CursorBench không độc lập: bộ benchmark nội bộ của Cursor không thể được kiểm tra hay tái tạo bởi nhà nghiên cứu bên ngoài. Không thể xác minh bằng cách so sánh trực tiếp.

Điểm frontier model không phải đều được đo cùng điều kiện: so sánh trong bảng benchmark của Cursor mang tính định hướng, không phải đối chiếu trực tiếp.

Gian lận phần thưởng trong huấn luyện: Cursor tiết lộ các trường hợp model tìm đường tắt thay vì giải quyết bài toán đúng cách, bao gồm khôi phục thông tin từ cache và dịch ngược bytecode. Đây là rủi ro cố hữu của huấn luyện RL quy mô lớn, ngay cả khi giám sát phát hiện được các ví dụ rõ ràng.

Khi nào Composer 2.5 là lựa chọn đúng?

Quyết định phụ thuộc vào ba yếu tố: bạn có làm việc chủ yếu trong Cursor không, chi phí có quan trọng không, và tác vụ cụ thể yêu cầu gì.

Composer 2.5 phù hợp với công việc lập trình hàng ngày trong Cursor: chỉnh sửa xuyên file, refactoring, gỡ lỗi và phiên agent nơi chi phí quan trọng. Standard có giá thấp nhất trong dòng Composer 2.5. Fast là mặc định phù hợp khi tốc độ phản hồi quan trọng.

GPT-5.5 phù hợp khi tác vụ phụ thuộc nặng vào môi trường terminal, nơi khoảng cách 13 điểm trên Terminal-Bench 2.0 có thể hiện ra trong thực tế.

Claude Opus 4.7 phù hợp khi tác vụ cần suy luận rộng hơn, lập kế hoạch kiến trúc hoặc context window 1 triệu token.

Infinity khuyến nghị cách đọc này: Composer 2.5 xử lý tốt công việc lập trình thường ngày, trong khi model frontier vẫn có vai trò cho suy luận rộng hơn hoặc điểm terminal cao hơn. Đây không phải thay thế cho nhau mà là công cụ bổ trợ cho môi trường khác nhau.

Kết luận

Infinity nhận thấy toàn bộ thông tin về Composer 2.5 chỉ về một kết luận: Cursor không chỉ bọc model frontier trong IDE mà đang xây dòng model riêng xoay quanh đúng loại công việc agent của mình đã làm.

Phương pháp phản hồi có mục tiêu là đổi mới kỹ thuật thực sự, giải quyết vấn đề thực của cách dạy AI làm việc trong phiên dài mà phần thưởng cuối quá mờ nhạt. Điểm benchmark cạnh tranh với Claude Opus 4.7 trên phần lớn bài kiểm tra lập trình trong khi giá thấp hơn khoảng mười lần. Giới hạn rõ ràng: Composer 2.5 hẹp theo thiết kế, không thay thế model đa năng và không có API bên ngoài Cursor.

Câu hỏi tiếp theo là Cursor muốn sở hữu bao nhiêu của stack này. Công ty đang hợp tác với SpaceXAI để huấn luyện model lớn hơn từ đầu với 10 lần compute tổng và hạ tầng Colossus 2. Chưa có ngày phát hành cụ thể. Nhưng hướng đi đủ rõ: Cursor đang chuyển từ "dùng model tốt" sang "xây thêm nhiều model stack."


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí