Modal title

Copyright ©2021 - 2025 ICTGO Digtal Insights

Modal title

Copyright ©2021 - 2025 ICTGO Digtal Insights

Giải mã tư duy AI: Những góc tối được hé mở

- Advertisement -

Trong nhiều năm qua, giới công nghệ và khoa học máy tính đã phải vật lộn với một hiện tượng được gọi là “hộp đen” khi đề cập đến trí tuệ nhân tạo (AI). Đây là thuật ngữ chỉ những ẩn số về bản chất hoạt động bên trong hệ thống AI, cách chúng đưa ra quyết định hay tạo ra các kết quả, ngay cả những người tạo ra chúng vẫn không thể lý giải được. Các nhà phát triển và nhà nghiên cứu đã dành rất nhiều thời gian để phân tích đầu ra, tinh chỉnh dữ liệu huấn luyện và cố gắng tìm hiểu các mẫu hình chú ý (attention patterns) của AI, nhưng một phần đáng kể trong quy trình ra quyết định cốt lõi vẫn nằm ngoài tầm hiểu biết.

Dù AI được xây dựng hoàn toàn dựa trên các nền tảng toán học như xác suất thống kê, đại số tuyến tính và lý thuyết tối ưu hóa, nhưng việc hiểu đầy đủ cách thức vận hành bên trong của các hệ thống AI là câu hỏi rất khó để giải đáp. Nguyên nhân chủ yếu nằm ở sự phức tạp khổng lồ của mạng nơ-ron nhân tạo, khi mỗi mô hình có thể chứa tới hàng trăm tỷ tham số, liên kết và tương tác theo những cách phi tuyến tính cực kỳ rối rắm. Khi AI học từ dữ liệu, nó hình thành những mẫu hình ngầm định sâu trong cấu trúc tham số, khiến cho quá trình suy luận ra kết quả không còn theo lối tuyến tính đơn giản mà con người có thể lần theo. Mỗi đầu ra của AI là sản phẩm của hàng triệu phép biến đổi toán học, và vì chúng không độc lập với nhau mà ràng buộc chằng chịt, nên việc truy vết nguyên nhân cụ thể của một quyết định gần như bất khả thi.

Tuy nhiên, một nghiên cứu gần đây từ Anthropic, một công ty nghiên cứu và an toàn AI dường như đã mở ra một cánh cửa hé lộ phần nào thế giới nội tâm phức tạp này. Công trình mang tên “Truy tìm Suy nghĩ trong các Mô hình Ngôn ngữ” (Tracing Thoughts in Language Models) tuyên bố đã quan sát được quá trình “suy nghĩ” của mô hình AI Claude do chính họ phát triển, sử dụng một kỹ thuật được ví như “kính hiển vi AI”. Phương pháp này cho phép các nhà nghiên cứu theo dõi các bước lập luận nội bộ của Claude với mức độ chi tiết chưa từng có, mang lại những hiểu biết sâu sắc về cách các hệ thống này hoạt động.

Khi công ty nào đó quảng cáo rằng AI của họ thông thạo hàng chục ngôn ngữ, bạn có bao giờ tự hỏi làm cách nào một hệ thống có thể chuyển đổi giữa tiếng Việt, tiếng Anh, tiếng Trung và nhiều ngôn ngữ khác một cách mượt mà đến vậy? Có phải nó chỉ đơn thuần là một bộ từ điển siêu khổng lồ? Hay AI thực sự “hiểu” ngôn ngữ theo cách nào đó?

Nghiên cứu của Anthropic đã làm sáng tỏ bí ẩn này. Ví dụ khi yêu cầu Claude xác định từ trái nghĩa của “nhỏ” trong nhiều ngôn ngữ khác nhau, các nhà nghiên cứu đã theo dõi hoạt động nội bộ của hệ thống và phát hiện điều gì đó đáng kinh ngạc: AI không có những “khu vực não bộ” riêng biệt cho mỗi ngôn ngữ. Thay vào đó, nó trước tiên nắm bắt khái niệm trừu tượng về “sự nhỏ bé”, sau đó nghĩ đến “đối lập”, rồi đến “sự to lớn”, và cuối cùng mới chuyển ý tưởng đó thành từ cụ thể trong ngôn ngữ được yêu cầu.

Nói cách khác, Claude không phải là một bộ từ điển phức tạp hay một cỗ máy dịch thuật thông thường. Nó hoạt động trong một không gian khái niệm trừu tượng, một dạng “ngôn ngữ tư duy phổ quát” vượt trên các rào cản ngôn ngữ của con người.

Trong khía cạnh AI xử lý đa ngôn ngữ, khái niệm “ngôn ngữ tư duy phổ quát” đóng vai trò cốt lõi. Thay vì lưu trữ riêng từ vựng và ngữ pháp cho từng ngôn ngữ, các mô hình AI tiên tiến như Claude xây dựng một không gian biểu diễn chung. Ở đây, các ý tưởng trừu tượng như “sự nhỏ bé”, “tình yêu” hay “chuyển động” được mã hóa thành dạng toán học, không gắn với bất kỳ ngôn ngữ cụ thể.

Chẳng hạn, khi xử lý khái niệm “nhỏ”, Claude truy cập một “tọa độ” ngữ nghĩa thể hiện bản chất của sự nhỏ bé, rồi ánh xạ sang từ phù hợp như “small” (tiếng Anh), “petit” (tiếng Pháp) hay “nhỏ” (tiếng Việt) tùy theo yêu cầu. Thuật ngữ “ánh xạ” được hiểu là quá trình chuyển đổi từ tập hợp đầu vào sang tập hợp đầu ra theo một quy luật mà mô hình đã học được từ dữ liệu. Khi huấn luyện, AI chưa biết cách ánh xạ mà sẽ học dần thông qua việc quan sát nhiều cặp dữ liệu đầu vào và đầu ra đúng. Quá trình này nhằm mục tiêu tìm ra một hàm ánh xạ tốt nhất để xấp xỉ mối quan hệ giữa thông tin đầu vào và kết quả mong muốn. Cơ chế trên cho phép AI chuyển đổi mượt mà giữa các ngôn ngữ mà không cần học riêng từng ngôn ngữ. Tuy nhiên, cần hiểu rằng Claude không “tư duy” như con người mà chỉ tính toán dựa trên dữ liệu huấn luyện, nên khả năng xử lý phụ thuộc nhiều vào chất lượng dữ liệu.

Không gian biểu diễn chung được tạo ra bằng cách ánh xạ các từ, cụm từ và khái niệm có ý nghĩa tương đồng trong nhiều ngôn ngữ vào những vùng gần nhau. Điều này giúp AI diễn đạt ý tưởng một cách tự nhiên. Tuy nhiên, nếu dữ liệu huấn luyện chủ yếu là tiếng Anh, các ngôn ngữ ít phổ biến như tiếng Việt có thể bị biểu diễn kém chính xác, thiên kiến (bias) dẫn đến sai lệch. Hơn nữa, các khái niệm đa nghĩa như “key” (chìa khóa/phím/khóa học) đôi lúc gây nhiễu khi ánh xạ đa ngôn ngữ, làm giảm độ chính xác trong một số ngữ cảnh.

Nghiên cứu cũng phát hiện ra rằng, các mô hình lớn hơn như Claude 3.5 thể hiện mức độ chia sẻ tính năng nội bộ giữa các ngôn ngữ cao hơn gấp đôi so với các phiên bản nhỏ hơn. Điều này gợi ý rằng khi AI trở nên “thông minh” hơn, chúng ngày càng tiến gần hơn đến một dạng tư duy phổ quát, không phải là bản dịch từng phần riêng biệt mà là hiểu biết toàn diện về các khái niệm bất kể ngôn ngữ.

Đây là lý do tại sao Claude và các hệ thống tương tự có thể dễ dàng chuyển đổi giữa các ngôn ngữ như tiếng Việt, tiếng Anh mà không gặp nhiều khó khăn, chúng không phải “học lại” mọi thứ cho mỗi ngôn ngữ.

Hãy thử tưởng tượng một cuộc đối thoại với AI. Khi bạn nhập câu hỏi và nhấn Enter, hệ thống dường như đang tạo ra câu trả lời từng từ một. Đây là cách AI hoạt động phải không? Hóa ra, không hẳn như vậy. Theo đó, các nghiên cứu đã chỉ ra rằng ngay từ khi bắt đầu sáng tác, Claude đã hình thành một “mục tiêu ngầm” trong hệ thống, cụ thể là lựa chọn sẵn một từ khóa để kết thúc câu, ví dụ như “mưa”. Quá trình tạo nội dung sau đó sẽ được điều chỉnh liên tục để dẫn dắt hợp lý tới từ khóa này.

Để kiểm nghiệm cơ chế vận hành đó, các nhà nghiên cứu đã thực hiện một thí nghiệm như sau, trong khi Claude đang viết dở câu, họ bất ngờ xóa khỏi bộ nhớ của hệ thống mục tiêu ban đầu là từ “mưa”. Trước sự can thiệp này, Claude buộc phải thích ứng bằng cách tự động lựa chọn một từ khóa mới phù hợp với ngữ cảnh, chẳng hạn như “bay”, và điều chỉnh phần còn lại của câu thơ sao cho dẫn dắt trôi chảy tới mục tiêu mới. Ví dụ, nếu câu thơ ban đầu được dự định hoàn thiện như “Những áng mây trôi nhè nhẹ trong chiều mưa”, thì sau khi mất mục tiêu “mưa”, Claude đã nhanh chóng đổi thành “Những áng mây trôi nhè nhẹ giữa trời bay”.

Ngoài ra, khi các nhà nghiên cứu chủ động chèn thêm một khái niệm mới vào quá trình sáng tác chẳng hạn như từ “núi cao”, Claude cũng thể hiện khả năng thích ứng linh hoạt. Hệ thống lập tức từ bỏ kế hoạch vần điệu cũ để tích hợp khái niệm mới vào nội dung, tạo ra một câu thơ mới hợp lý như “Những áng mây trôi nhè nhẹ trên núi cao”.

Qua các thí nghiệm này, có thể khẳng định rằng AI không vận hành theo lối nối từng từ một cách ngẫu nhiên, mà thực chất đang triển khai một dạng “lập kế hoạch ngầm”. Các mô hình như Claude luôn chuẩn bị một đích đến cụ thể trước khi bắt đầu sáng tác và có khả năng tự điều chỉnh lộ trình sáng tạo trong thời gian thực để thích ứng với những thay đổi bất ngờ, tương tự như quá trình tư duy linh hoạt của con người.

Khi được yêu cầu giải quyết một phép tính đơn giản như 36 + 59, Claude trả lời chính xác: 95. Lẽ thường, chúng ta giả định rằng AI sử dụng phương pháp tương tự như con người: cộng 6 + 9 = 15, ghi nhớ 1, rồi cộng 3 + 5 + 1 = 9, vậy kết quả là 95.

Tuy nhiên, khi các nhà nghiên cứu “mổ xẻ” quá trình tính toán nội bộ của Claude, họ phát hiện ra điều gì đó hoàn toàn khác: AI đang thực hiện hai quá trình song song.

Quá trình thứ nhất ước tính phạm vi kết quả dựa trên độ lớn của các số (36 và 59 đều gần 40 và 60, vậy tổng sẽ gần 100). Đồng thời, quá trình thứ hai tập trung vào chữ số cuối: 6 + 9 = 15, vậy chữ số cuối cùng sẽ là 5.

Kết hợp hai luồng thông tin này, Claude đưa ra kết quả là 95 – gần 100 và kết thúc bằng 5.

Điều thú vị là khi được hỏi về cách giải, Claude giải thích theo phương pháp truyền thống của con người, cộng từ phải qua trái, ghi nhớ số dư, mặc dù đây không phải cách nó thực sự tính toán! AI đã học cách “diễn giải” quá trình suy nghĩ của mình theo cách mà con người mong đợi.

Đây không phải là hiện tượng duy nhất. Trong nhiều thí nghiệm khác, các nhà nghiên cứu đã phát hiện Claude sử dụng các phương pháp tính toán khác thường. Ví dụ, để tính căn bậc hai, nó không áp dụng công thức toán học truyền thống mà sử dụng cách tiếp cận gần đúng độc đáo dựa trên mối quan hệ giữa các số.

Bạn có bao giờ hỏi ChatGPT hoặc Claude một câu hỏi và nhận được câu trả lời chi tiết, tự tin – chỉ để sau đó phát hiện ra thông tin hoàn toàn sai? Hiện tượng này, thường được gọi là “ảo giác AI”, đã trở thành một trong những thách thức lớn nhất trong việc phát triển AI đáng tin cậy.

Nghiên cứu của Anthropic đã tiết lộ cơ chế đằng sau những ảo giác này. Bên trong Claude tồn tại hai mạch hoạt động đối lập nhau:

Mạch thứ nhất là “cơ chế từ chối mặc định”, một dạng lưới an toàn buộc AI phải trả lời “Tôi không biết” hoặc “Tôi không thể trả lời” khi không chắc chắn. Đây là một tính năng an toàn quan trọng.

Mạch thứ hai là “tín hiệu quen thuộc”, kích hoạt khi AI nhận ra một phần của câu hỏi liên quan đến chủ đề hoặc thực thể nó đã gặp trong quá trình học.

Ảo giác xảy ra khi hai mạch này mâu thuẫn với nhau. Ví dụ, khi được hỏi về “lịch trình biểu diễn của ca sĩ Sơn Tùng MTP năm 2025”, Claude có thể nhận ra rõ ràng các thành phần quen thuộc – “Sơn Tùng MTP” (một ca sĩ nổi tiếng) và khái niệm “lịch trình biểu diễn” đủ để kích hoạt tín hiệu quen thuộc. Tín hiệu này vượt qua cơ chế từ chối mặc định, khiến AI cung cấp thông tin dù không có dữ liệu cụ thể về lịch trình năm 2025. Kết quả là một câu trả lời nghe có vẻ hợp lý, chi tiết, nhưng hoàn toàn không chính xác.

Trong thí nghiệm của Anthropic, các nhà nghiên cứu thậm chí có thể cố ý kích hoạt hiện tượng này bằng cách trực tiếp tác động vào các tính năng nội bộ của Claude, khiến nó liên tục đưa ra thông tin sai.

Phát hiện này giải thích tại sao AI thường tỏ ra tự tin nhất khi đưa ra thông tin sai – chính sự quen thuộc một phần với chủ đề đã gây ra cảm giác giả về sự chắc chắn, vô hiệu hóa cơ chế an toàn vốn có nhiệm vụ ngăn chặn việc đưa ra thông tin không đáng tin cậy.

Bạn đã bao giờ yêu cầu AI giải thích cách nó đi đến một kết luận nào đó? Kỹ thuật này, được gọi là “chuỗi suy nghĩ” (chain-of-thought), đã trở nên phổ biến để cải thiện độ chính xác của AI. Tuy nhiên, nghiên cứu của Anthropic đã phát hiện một vấn đề đáng lo ngại: lý giải của AI không phải lúc nào cũng phản ánh quá trình suy nghĩ thực tế của nó.

Để chứng minh điều này, nhóm nghiên cứu đã thử nghiệm với hai loại câu hỏi toán học. Đầu tiên, họ yêu cầu Claude tính căn bậc hai của 0.64, một phép tính nằm trong khả năng của nó. Claude trả lời 0.8 và giải thích các bước tính. Khi kiểm tra hoạt động nội bộ, họ xác nhận rằng Claude thực sự đã thực hiện các bước tương tự như nó giải thích.

Nhưng khi đối mặt với một câu hỏi vượt quá khả năng, như tính cosin của một số cực lớn, Claude vẫn đưa ra một lời giải thích chi tiết, có vẻ hợp lý… nhưng hoàn toàn được bịa đặt! Không có dấu hiệu nào cho thấy nó thực sự đã thực hiện các bước tính toán được mô tả.

Tình trạng này trở nên nghiêm trọng hơn khi người dùng vô tình (hoặc cố ý) đưa ra gợi ý sai. Trong một thí nghiệm, các nhà nghiên cứu cung cấp một gợi ý sai về câu trả lời cho một bài toán phức tạp. Claude không chỉ chấp nhận gợi ý sai, mà còn khéo léo xây dựng một quy trình giải toán hoàn chỉnh để dẫn đến chính xác kết quả sai đó!

Hiện tượng này được gọi là “lý luận có động cơ”, bắt đầu với một kết luận có sẵn, sau đó bịa ra các bước để biện minh cho kết luận đó. Đáng lo ngại hơn, những lời giải thích này thường rất thuyết phục và có cấu trúc hợp lý, khiến người dùng khó phân biệt giữa lý luận thực và bịa đặt.

Phát hiện này đặt ra câu hỏi nghiêm túc về việc sử dụng AI trong giáo dục, đặc biệt khi học sinh có thể sử dụng nó để giải quyết bài tập toán học hoặc khoa học. Làm thế nào chúng ta có thể chắc chắn rằng lời giải thích AI cung cấp thực sự phản ánh phương pháp giải đúng đắn, chứ không phải một câu chuyện được bịa đặt khéo léo?

Những phát hiện từ nghiên cứu “Tracing Thoughts in Language Models” không chỉ có giá trị học thuật. Chúng mở ra triển vọng về một thế hệ AI minh bạch hơn, đáng tin cậy hơn, đồng thời giúp chúng ta hiểu rõ những giới hạn của công nghệ này.

Hiểu được rằng Claude sử dụng một ngôn ngữ tư duy phổ quát có thể dẫn đến những bước tiến trong phát triển AI đa ngôn ngữ, không chỉ dịch thuật tốt hơn mà còn khả năng chuyển giao kiến thức giữa các ngôn ngữ. Mô hình học một khái niệm phức tạp bằng tiếng Anh có thể áp dụng hiểu biết đó khi trả lời câu hỏi bằng tiếng Việt.

Khả năng lập kế hoạch trước của AI gợi ý rằng các hệ thống này có thể được tinh chỉnh để tạo ra nội dung có cấu trúc và mạch lạc hơn, giống với cách con người phác thảo ý tưởng trước khi viết một bài luận hoàn chỉnh.

Tuy nhiên, hiện tượng “ảo giác” và “giải thích không trung thực” là những lời cảnh báo quan trọng. Chúng nhắc nhở rằng, dù ấn tượng đến đâu, AI vẫn có những giới hạn cơ bản trong khả năng đánh giá thông tin và suy luận. Đặc biệt, việc AI có thể tạo ra những lời giải thích nghe có vẻ hợp lý cho những câu trả lời sai đặt ra thách thức lớn cho việc sử dụng những hệ thống này trong giáo dục, y tế, luật pháp và các lĩnh vực đòi hỏi độ tin cậy cao.

Cuối cùng, nghiên cứu này cho thấy tầm quan trọng của khoa học giải thích AI (AI interpretability). Khi chúng ta tiếp tục phát triển những hệ thống AI mạnh mẽ hơn, việc hiểu cách chúng “suy nghĩ” không còn là điều xa xỉ mà là yêu cầu thiết yếu – không chỉ để cải thiện hiệu suất mà còn để đảm bảo những hệ thống này hoạt động theo cách an toàn, đáng tin cậy và phù hợp với giá trị con người.

Đây chỉ là bước đầu tiên trong hành trình khám phá “tâm trí” của AI. Nghiên cứu của Anthropic đã mở ra cánh cửa, nhưng còn rất nhiều phòng chưa được khám phá trong tòa lâu đài trí tuệ nhân tạo. Mỗi phát hiện mới không chỉ giúp chúng ta hiểu rõ hơn về AI mà còn về chính bản chất của trí thông minh và tư duy, một trong những bí ẩn lớn tiếp theo của nhân loại.

Xem thêm: ICT là gì?

- Advertisement -

Bài viết được thực hiện bởi ICTGO. Vui lòng ghi rõ nguồn khi trích dẫn nguyên văn hoặc sử dụng lại nội dung. Mọi phản hồi hoặc khiếu nại liên quan đến bài viết xin gửi về email: bbt@ictgo.vn.

Bài viết liên quan

đo lường vẻ đẹp

Liệu AI có thể đánh giá được cái đẹp...

Phân tích khả năng và giới hạn của AI trong việc "đo lường" cái đẹp, từ nhận...
ICT la gi

ICT là gì?

Nghiên cứu về ICT, phân tích nền tảng công nghệ, ứng dụng và tác động kinh tế,...
Khai phá sáng tạo Thump

Khai phá sáng tạo

Sáng tạo không là khoảnh khắc bất chợt, nó là một kỹ năng có thể rèn luyện....