Microsoft vừa chính thức triển khai tính năng mới mang tên Copilot Vision, một phần mở rộng của trợ lý trí tuệ nhân tạo Copilot, hiện đang được cung cấp miễn phí cho người dùng trình duyệt Microsoft Edge. Đây là bước tiến tiếp theo trong nỗ lực tích hợp AI vào trải nghiệm duyệt web, khi cho phép người dùng điều khiển và tương tác với nội dung hiển thị trên màn hình chỉ bằng giọng nói.
Không giống như các trợ lý giọng nói thông thường, Copilot Vision có khả năng “nhìn” nội dung xuất hiện trên trình duyệt và phản hồi theo thời gian thực. Để sử dụng, người dùng chỉ cần chạm vào biểu tượng micro trong Microsoft Edge để kích hoạt. Khi được bật, công cụ sẽ nhận diện hình ảnh trên màn hình và bắt đầu tiếp nhận mệnh lệnh bằng giọng nói, đồng thời phát tín hiệu hình ảnh và âm thanh để xác nhận việc lắng nghe.
Ví dụ khi người dùng đang mở một bài báo dài hoặc tài liệu học thuật, Copilot Vision có thể tóm tắt nội dung chính hoặc đọc to từng đoạn theo yêu cầu. Nếu đang xem một trang web hướng dẫn sử dụng phần mềm, công cụ này có thể hướng dẫn thao tác từng bước dựa trên nội dung hiển thị. Việc này giúp người dùng tiếp nhận thông tin nhanh chóng mà không phải tự điều hướng qua nhiều phần hay thực hiện tra cứu thủ công.
Tuy nhiên, Microsoft cảnh báo người dùng không nên sử dụng Copilot Vision để xử lý các tài liệu nhạy cảm, đặc biệt là sơ yếu lý lịch hoặc hồ sơ cá nhân, nhằm tránh những sai sót hoặc rủi ro về bảo mật thông tin. Việc xác minh bằng tay vẫn được khuyến nghị để đảm bảo độ chính xác tuyệt đối.
Phiên bản miễn phí của Copilot Vision hỗ trợ cơ bản tính năng nhận diện hình ảnh màn hình và tương tác bằng giọng nói. Khi phiên làm việc kết thúc hoặc trình duyệt bị đóng, tính năng này cũng sẽ tự động ngắt. Với nhu cầu sử dụng nâng cao, người dùng có thể lựa chọn nâng cấp lên Copilot Pro. Phiên bản trả phí này hiện có giá khoảng 20 USD mỗi tháng (tương đương hơn 500.000 VNĐ), mở rộng khả năng tích hợp sâu hơn với các phần mềm như Photoshop, công cụ chỉnh sửa video và thậm chí là trò chơi điện tử như Minecraft.
Việc bổ sung Copilot Vision vào Edge cho thấy sự đầu tư nghiêm túc của Microsoft trong việc chuyển hóa trình duyệt thành một không gian tương tác thông minh. Người dùng giờ đây có thể truy vấn, tìm kiếm và thực hiện thao tác đơn giản mà không cần sử dụng chuột hay bàn phím, mở ra tiềm năng mới cho duyệt web bằng giọng nói trong thời đại AI phát triển.
Xem thêm: Google mở rộng tính năng Gemini Live cho mọi thiết bị Android