Anthropic công bố mô hình AI thuộc dòng Mythos cho người dùng đại chúng Chỉ 2 tháng sau khi tuyên bố đã xây dựng mô hình AI quá mạnh để triển khai rộng rãi, ngày 9/6, Anthropic chính thức công bố Claude Fable 5, mô hình AI mới nh...
Chỉ 2 tháng sau khi tuyên bố đã xây dựng mô hình AI quá mạnh để triển khai rộng rãi, ngày 9/6, Anthropic chính thức công bố Claude Fable 5, mô hình AI mới nhất thuộc dòng Mythos cho người dùng đại chúng… Cùng với đó, công ty cũng giới thiệu Claude Mythos 5, phiên bản kế nhiệm của Mythos Preview được công bố hồi tháng 4.
Thông tin chính
Tuy nhiên, hiện tại, Anthropic chỉ cung cấp Claude Mythos 5 cho một nhóm đối tác được lựa chọn. Phần lớn trong số này là các tổ chức đã tham gia Dự án Glasswing của Anthropic, sáng kiến hợp tác giữa doanh nghiệp và các cơ quan nghiên cứu nhằm sử dụng AI để phát hiện, đánh giá và khắc phục các lỗ hổng phần mềm nghiêm trọng trước khi chúng bị khai thác trong thực tế. Trong khi đó, khác với Mythos Preview, Claude Fable 5 được phát hành công khai.
Anthropic cho biết quyết định này được đưa ra sau khi công ty xây dựng một loạt cơ chế bảo vệ nhằm hạn chế mô hình phản hồi đối với những lĩnh vực có độ rủi ro cao như an ninh mạng và sinh học. Theo đó, khi người dùng đặt câu hỏi liên quan đến các chủ đề nhạy cảm này, yêu cầu sẽ được chuyển sang mô hình Claude Opus 4.8 để xử lý thay vì để Fable 5 trực tiếp phản hồi. Một điểm đáng chú ý khác là Anthropic cho biết các yêu cầu bị nghi ngờ liên quan đến hoạt động "chưng cất mô hình" (model distillation) cũng sẽ bị chuyển hướng sang Claude Opus 4.8.
Điểm đáng chú ý
- Tuy nhiên, hiện tại, Anthropic chỉ cung cấp Claude Mythos 5 cho một nhóm đối tác được lựa chọn.
- Phần lớn trong số này là các tổ chức đã tham gia Dự án Glasswing của Anthropic, sáng kiến hợp tác giữa doanh nghiệp và các cơ quan nghiên cứu nhằm sử dụng AI để phát hiện, đánh giá và khắc phục các lỗ hổng phần mềm nghiêm trọng trước khi chúng bị khai thác trong thực tế.
- Trong khi đó, khác với Mythos Preview, Claude Fable 5 được phát hành công khai.
- Anthropic cho biết quyết định này được đưa ra sau khi công ty xây dựng một loạt cơ chế bảo vệ nhằm hạn chế mô hình phản hồi đối với những lĩnh vực có độ rủi ro cao như an ninh mạng và sinh học.
Bối cảnh
Đây là kỹ thuật thường được sử dụng để huấn luyện các mô hình AI nhỏ hơn bằng cách khai thác phản hồi từ các mô hình mạnh hơn. Theo công ty, quá trình chuyển hướng này sẽ diễn ra âm thầm và người dùng sẽ không được thông báo rằng yêu cầu của họ đang được xử lý bởi một mô hình khác. Để kiểm tra độ an toàn của Fable 5 trước khi phát hành, Anthropic đã thực hiện hơn 1.000 giờ "red teaming", quy trình trong đó các chuyên gia bảo mật chủ động tìm cách phá vỡ các lớp bảo vệ của hệ thống AI bằng tư duy và phương pháp tương tự như các đối tượng tấn công thực tế.
Theo công ty, những người tham gia thử nghiệm đã không tìm ra bất kỳ phương pháp bẻ khóa phổ quát nào có thể vô hiệu hóa toàn bộ cơ chế bảo vệ của mô hình. Bên cạnh đó, Anthropic còn hợp tác với nhiều tổ chức độc lập để đánh giá khả năng khai thác các điểm yếu của mô hình. Anthropic cho hay Claude Fable 5 được thiết kế để xử lý đồng thời nhiều tác vụ phức tạp, từ lập trình, giải toán nâng cao cho đến các bài toán đòi hỏi khả năng suy luận và hiểu biết trực quan.
Theo VnEconomy Kinh tế số