Vào ngày 26/03/2025, OpenAI chính thức công bố tích hợp tính năng tạo hình ảnh trực tiếp vào ChatGPT thông qua mô hình GPT-4o. Tính năng này cho phép người dùng tạo và chỉnh sửa hình ảnh bằng cách nhập văn bản mô tả, mang đến trải nghiệm tương tác liền mạch trong cửa sổ trò chuyện.
GPT-4o là mô hình đa phương thức, có khả năng xử lý đồng thời văn bản, hình ảnh và âm thanh. Khả năng mới này giúp ChatGPT tạo ra hình ảnh chi tiết, chính xác theo mô tả của người dùng, đồng thời cải thiện việc hiển thị văn bản trong hình ảnh, một thách thức mà các mô hình trước đây thường gặp phải.
Trước đây, tính năng tạo ảnh trong ChatGPT sử dụng mô hình DALL·E 3, cho phép người dùng nhập văn bản để tạo hình ảnh nhưng còn một số hạn chế trong việc chỉnh sửa và kiểm soát chi tiết. Trong bản cập nhật mới, OpenAI đã thay thế DALL·E 3 bằng GPT-4o, mang lại những cải tiến đáng kể. Một cải tiến đáng chú ý của GPT-4o là phương pháp “Binding”, giúp duy trì mối liên kết chính xác giữa các thuộc tính và đối tượng trong hình ảnh.
Khác với DALL·E 3, GPT-4o sẽ cho phép vừa tạo hình ảnh, vừa chỉnh sửa ngay trong cuộc trò chuyện. Người dùng có thể thay đổi màu sắc, bố cục hoặc thêm bớt chi tiết mà không cần tạo lại ảnh từ đầu. Ngoài ra, khả năng hiển thị văn bản trên hình ảnh cũng được nâng cấp, khắc phục lỗi hiển thị chữ không rõ ràng, đây là một điểm yếu phổ biến ở các mô hình trước.
Tính năng tạo ảnh mới đang được triển khai cho cả người dùng miễn phí và các gói đăng ký như Plus, Pro và Team. Tuy nhiên do nhu cầu cao, OpenAI đã trì hoãn việc phát hành cho người dùng miễn phí và chưa xác định ngày cụ thể cho việc này.
Để ngăn chặn việc sử dụng sai mục đích, OpenAI đã triển khai các biện pháp bảo vệ, bao gồm chặn nội dung có hại và tích hợp siêu dữ liệu C2PA để chỉ ra rằng hình ảnh được tạo bởi AI. Người dùng có quyền sở hữu và sử dụng các hình ảnh được tạo ra trong phạm vi chính sách sử dụng của OpenAI.
Xem thêm: DeepSeek giới thiệu mô hình AI DeepSeek-V3-0324