Mô hình o3-pro

  • Mới Ra mắt mô hình o3-pro, được thiết kế đặc biệt cho các tác vụ phức tạp đòi hỏi độ chính xác và đáng tin cậy cao như toán, khoa học, và lập trình.
  • Lưu ý Mô hình này đã có cho người dùng Pro và Team, và sẽ sớm có cho, Plus, Enterprise và Edu. Các hạn chế hiện tại bao gồm chưa hỗ trợ trò chuyện tạm thời (temporary chats), tạo ảnh và Canvas.

Mô tả: Biểu đồ thanh ngang này thể hiện tỷ lệ phần trăm chiến thắng (win-rate) của mô hình o3-pro so với o3, dựa trên đánh giá của người dùng thật.

  • Trục ngang (x-axis): Tỷ lệ chiến thắng của o3-pro so với o3 (%).

  • Các danh mục đánh giá:

    • All Queries (Tất cả các truy vấn): o3-pro thắng 64% các lần so với o3.

    • Scientific Analysis (Phân tích khoa học): 64.9%

    • Personal Writing (Viết cá nhân): 66.7%

    • Computer Programming (Lập trình): 62.7%

    • Data Analysis (Phân tích dữ liệu): 64.3%

📌 Kết luận: o3-pro liên tục vượt trội hơn o3 trong tất cả các loại tác vụ, đặc biệt là trong viết cá nhân và phân tích khoa học.

Mô tả: Biểu đồ cột so sánh hiệu suất mô hình qua các bài kiểm tra chuẩn hóa (benchmark tests), đo lường độ chính xác khi đưa ra câu trả lời đúng ngay lần đầu tiên (pass@1).

  1. Competition Math (AIME 2024):

    • o1-pro: 86%

    • o3 (medium): 90%

    • o3-pro: 93%

  2. PhD Science Questions (GPQA Diamond):

    • o1-pro: 79%

    • o3 (medium): 81%

    • o3-pro: 84%

  3. Competition Code (Codeforces):

    • o1-pro: 1707 (Elo score)

    • o3 (medium): 2517

    • o3-pro: 2748

📌 Kết luận: o3-pro đạt điểm cao nhất trong tất cả các bài kiểm tra, cho thấy khả năng toán học, khoa học, và lập trình vượt trội hơn các phiên bản trước.