OpenAI ra mắt GPT-5.4 – mô hình mạnh nhất hiện nay, tối ưu cho công việc chuyên nghiệp

OpenAI vừa chính thức giới thiệu GPT‑5.4, mô hình AI mới được hãng mô tả là mạnh mẽ và hiệu quả nhất của mình ở thời điểm hiện tại. Với phiên bản này, OpenAI đã đưa nhiều cải tiến về khả năng suy luận, lập trình và quy trình làm việc dạng “agent” – vốn từng xuất hiện trong các mô hình dòng Codex – vào một mô hình AI đa dụng. Nhờ đó, GPT-5.4 có thể xử lý tốt các tác vụ chuyên nghiệp như tạo bảng tính, soạn thảo tài liệu hay thiết kế bài thuyết trình.

GPT-5.4 là mô hình mạnh nhất hiện nay, được tối ưu cho công việc chuyên nghiệp

Theo OpenAI, GPT-5.4 có khả năng thực hiện các công việc phức tạp với độ chính xác, hiệu quả và tốc độ cao hơn so với các thế hệ trước.

Mô hình mới hiện có mặt trên ChatGPT, Codex cũng như thông qua API dành cho nhà phát triển, với hai biến thể khác nhau. Trong ChatGPT, người dùng có thể truy cập GPT-5.4 ThinkingGPT-5.4 Pro. Khi nhận được câu hỏi, mô hình sẽ hiển thị trước một bản kế hoạch về cách nó dự định suy nghĩ và xử lý vấn đề, cho phép người dùng điều chỉnh hướng tiếp cận ngay cả khi AI đang tạo câu trả lời.

OpenAI cũng nhấn mạnh rằng GPT-5.4 xử lý các truy vấn nghiên cứu web chuyên sâu tốt hơn so với GPT‑5.3 Instant.

Một điểm đáng chú ý khác là khả năng điều khiển máy tính của GPT-5.4 được cải thiện đáng kể. Trong bài kiểm tra OSWorld-Verified Computer Use, mô hình đạt 75% điểm số. Ngoài ra, OpenAI lần đầu tiên cung cấp bản xem trước với khả năng hỗ trợ ngữ cảnh lên tới 1 triệu token.

Ở các bài benchmark, GPT-5.4 cũng đạt kết quả rất cao. Trong GDPval, mô hình đạt mức điểm 83% – thiết lập kỷ lục mới. Trên bộ đánh giá MMMU-Pro, GPT-5.4 đạt tỷ lệ thành công 81,2% ngay cả khi không sử dụng công cụ hỗ trợ, vượt nhẹ so với Gemini 3.1 Pro với 80,5%.

Trước đây, một trong những phàn nàn phổ biến về các mô hình GPT của OpenAI là khả năng tạo tài liệu và bài thuyết trình chưa thật sự đẹp mắt. OpenAI cho biết họ đã cải thiện điểm yếu này trong GPT-5.4, giúp mô hình tạo ra tài liệu có bố cục thẩm mỹ hơn, đa dạng về phong cách trực quan và tận dụng tốt hơn khả năng tạo hình ảnh.

Ngoài hiệu năng tốt hơn, OpenAI cũng khẳng định GPT-5.4 là mô hình suy luận có hiệu quả sử dụng token cao nhất của hãng tính đến thời điểm hiện tại.

Bên cạnh đó, các nhà phát triển còn có thể sử dụng chế độ /fast mới trong Codex. Chế độ này giúp tăng tốc độ xử lý token lên tới 1,5 lần khi chạy GPT-5.4 mà không làm giảm chất lượng suy luận. Trong API, mô hình cũng được tối ưu cách sử dụng công cụ: thay vì phải đưa toàn bộ định nghĩa công cụ vào prompt ngay từ đầu, GPT-5.4 chỉ nhận danh sách công cụ rút gọn kèm khả năng tìm kiếm công cụ khi cần.

Về khả năng truy cập, GPT-5.4 Thinking hiện đã có sẵn cho người dùng ChatGPT Plus, Team và Pro, thay thế cho GPT-5.2 Thinking. Tuy vậy, GPT-5.2 Thinking vẫn sẽ được giữ lại trong danh sách mô hình cũ trong khoảng ba tháng tới. Trong khi đó, GPT-5.4 Pro dành riêng cho người dùng ChatGPT Pro và gói Enterprise.

Đối với API, OpenAI định giá gpt-5.4 ở mức 2,50 USD cho mỗi triệu token đầu vào15 USD cho mỗi triệu token đầu ra. Phiên bản gpt-5.4-pro có mức giá cao hơn, lần lượt là 30 USD cho mỗi triệu token đầu vào180 USD cho mỗi triệu token đầu ra.

Các tính năng mới của GPT-5.4

GPT-5.4 là mô hình tiên tiến hợp nhất mới của OpenAI. Nó kết hợp những thành tựu tốt nhất của OpenAI về suy luận, lập trình và sử dụng máy tính.

Nó thay thế GPT-5.2 Thinking trong ChatGPT, có sẵn trong API và Codex, với cửa sổ ngữ cảnh 1 triệu token thử nghiệm trong Codex. Nó cũng đi kèm với phiên bản Pro.

Cửa sổ ngữ cảnh 1 triệu token (thử nghiệm trong Codex)

Cửa sổ ngữ cảnh tiêu chuẩn có 272 nghìn token, nhưng người dùng Codex giờ đây có thể cấu hình GPT-5.4 để sử dụng tối đa 1 triệu token, đưa nó ngang hàng với các mô hình như Gemini 3 và Sonnet 4.6.

Ngữ cảnh mở rộng này được thiết kế cho các tác vụ dài hạn, nơi mô hình cần lập kế hoạch, thực thi và xác minh công việc trên phạm vi lớn hơn nhiều so với những mô hình trước đây cho phép.

Tìm kiếm công cụ trong API

Tìm kiếm công cụ là một tính năng mới của API cho phép load định nghĩa công cụ theo yêu cầu thay vì tải tất cả cùng một lúc. Nếu không có tính năng này, các hệ sinh thái công cụ lớn có thể thêm hàng chục nghìn token vào mỗi yêu cầu. Hiệu quả đạt được rất đáng kể.

Sử dụng máy tính trực tiếp

Đây là một điểm quan trọng. GPT-5.4 là mô hình đa năng đầu tiên của OpenAI tích hợp khả năng sử dụng máy tính trực tiếp. Nó có thể tương tác với desktop thông qua ảnh chụp màn hình, điều khiển chuột và bàn phím, và viết code bằng Playwright để tự động hóa trình duyệt.

Cải thiện khả năng tạo bảng tính và bài thuyết trình

GPT-5.4 đạt điểm cao hơn trong các tác vụ mô hình hóa bảng tính, và những người đánh giá thích kết quả trình bày của nó hơn so với GPT-5.2. Sự khác biệt chính nằm ở định dạng và bố cục trực quan.

Giảm thiểu ảo giác

GPT-5.4 là mô hình chính xác nhất của OpenAI cho đến nay. Các tuyên bố riêng lẻ ít có khả năng sai hơn 33% so với GPT-5.2, và những câu trả lời đầy đủ ít có khả năng chứa bất kỳ lỗi nào hơn 18%. Những con số này dựa trên các prompt đã được ẩn danh, trong đó người dùng đã đánh dấu những lỗi thực tế.

Khả năng điều hướng

Đối với các truy vấn dài và phức tạp, mô hình mới hiện nay phác thảo kế hoạch của nó ngay trước khi tiếp tục, tương tự như Codex. Nó cho phép người dùng thêm hướng dẫn hoặc điều chỉnh hướng phản hồi nếu họ không hài lòng với cách tiếp cận của GPT hoặc đã thay đổi ý định sau khi gửi yêu cầu.

Khả năng điều hướng này đã được chứng minh là rất hữu ích cho các tác vụ lập trình, và GPT-5.4 mang chức năng này đến để hoạt động trong những lĩnh vực khác nữa.

Benchmark GPT-5.4

Như chúng ta đã thấy với các bản phát hành gần đây của OpenAI, những benchmark mà họ đưa ra thường được so sánh với các mô hình GPT trước đó hơn là với những mô hình tiên tiến từ các công ty khác. Điều này đôi khi có thể gây khó khăn trong việc đánh giá hiệu suất của các mô hình đó trong bối cảnh rộng hơn.

Hãy cùng xem những gì OpenAI đã cung cấp và đưa ra thêm một số ngữ cảnh nếu có thể.

Công việc trí tuệ (GDPval)

GPT-5.4 hoạt động tốt hơn các mô hình GPT trước đó trên GDPval, một tiêu chuẩn đánh giá hiệu suất AI trên những nhiệm vụ thực tế, có giá trị kinh tế trong 44 ngành nghề, chẳng hạn như quản lý dự án, nhà phân tích tài chính và chuyên gia chăm sóc sức khỏe.

Điều thú vị là, phiên bản GPT-5.4 cũng đạt điểm cao hơn trong bài kiểm tra so với chính phiên bản Pro của nó.

Kết quả đánh giá hiệu năng công việc tri thức GPT-5.4
Kết quả đánh giá hiệu năng công việc tri thức GPT-5.4

Khi so sánh với công việc của các chuyên gia trong ngành, GPT-5.4 đạt hoặc vượt trội về chất lượng công việc trong 83% trường hợp, so với 70,9% của GPT-5.2 và GPT-5.3-Codex, điều này khá ấn tượng.

Sự gia tăng hiệu năng cũng được thể hiện rõ ràng trong một số bài kiểm tra hiệu năng chuyên ngành, ví dụ như các tác vụ mô hình hóa ngân hàng đầu tư (87,3% so với 79,3% trong GPT-5.3-Codex).

Một điều cần lưu ý là hiệu năng được kiểm tra bằng tham số nỗ lực suy luận xhigh.

GPT-5.4 đứng đầu bảng xếp hạng GDPval-AA với số điểm 1667, vượt trội hơn Claude Sonnet 4.6 (1633) và Claide Opus 4.6 (1606).

Hiệu năng lập trình

Trong khi nhiều đối thủ cạnh tranh vẫn sử dụng SWE-bench Verified làm bài kiểm tra hiệu năng lập trình, OpenAI gần đây đã từ bỏ nó để chuyển sang sử dụng SWE-bench Pro.

GPT-5.4 có hiệu năng mạnh hơn một chút so với GPT-5.3-Codex (57,7% so với 56,8%) với độ trễ thấp hơn trên các cấp độ suy luận. Sự gia tăng hiệu năng có vẻ nhỏ, nhưng điều này là điều có thể dự đoán được do tập trung vào các tác vụ công việc chuyên nghiệp tổng quát hơn và khoảng thời gian ngắn giữa hai phiên bản.

Kết quả kiểm tra hiệu năng lập trình GPT-5.4
Kết quả kiểm tra hiệu năng lập trình GPT-5.4

Phiên bản mới không đạt được điểm số tương đương với GPT-5.3-Codex trong Terminal-Bench 2.0, được thiết kế đặc biệt cho các tác vụ tác nhân. Tuy nhiên, GPT-5.4 vẫn rất gần (75% so với 77,3%) và cho thấy sự cải thiện đáng kể so với GPT-5.2 (62,2%).

Để so sánh, Gemini 3.1 Pro đạt 78,4% và Claude Opus 4.6 đạt 74,7%.

Thứ Hai, 11/05/2026 11:15
52 👨 215
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
❖ AI cho người mới