Tuesday, November 18, 2025

Geoffrey Hinton – Hiểu biết là gì?

Hiểu biết là gì?

(What Is Understanding?)

Geoffrey Hinton

 






Hiểu biết là gì?

 

Chúng ta cần cộng đồng khoa học đồng ý về hiểu biết là gì

 

Vì vậy, hôm nay tôi nói về sự hiểu biết là gì. Nếu bạn nghĩ về bước đầu tiên trong việc giải quyết sự biến đổi khí hậu toàn cầu, chúng ta phải đạt được một đồng thuận khoa học về nhữnggây ra nó trước khi chúng ta có thể đưa ra khuyến nghị phải làm gì để giải quyết. Bây giờ, với những mô hình ngôn ngữ lớn và chatbot như hiện nay, vẫn còn nhiều nhà khoa học không nghĩ rằng chúng không thực sự hiểu biết theo cùng một cách như chúng ta. Họ tin vào một mô hình rất khác biệt của hiểu biết của con người là gì

 

Hai khuôn mẫu rất khác nhau về trí thông minh

 

Trong 70 năm qua, đã có hai khuôn mẫu rất khác nhau về trí thông minh.

 

Khuôn mẫu khởi hứng từ logic, vốn thống trị trong khoảng 50 năm đầu của AI, cho rằng bản chất của trí thông minh là lý luận. Lý luận được thực hiện bằng cách dùng những quy tắc biểu tượng để vận dụng những biểu thức biểu tượng. Vì vậy, kiến thức của bạn là một tập hợp những biểu thức biểu tượng trong đầu bạn. Họ nghĩ rằng việc học có thể chờ đợi – điều đầu tiên chúng ta cần hiểu là cách kiến thức được biểu diễn. Đó là một ngôn ngữ đặc biệt, rõ ràng về mặt logic, và việc tìm ra cách kiến thức được biểu diễn phải được thực hiện trước tiên.

 

Ngược lại, là một cách nghiên cứu giải quyết khởi hứng từ sinh học. Đó là điều mà những người như Turing và Von Neumann tin tưởng. Ở đó, bản chất của trí thông minh là học hỏi sức mạnh của những kết nối trong mạng lưới nơ-ron. Những người này nghĩ rằng lý luận có thể chờ đợi – trước tiên, chúng ta phải hiểu cách thức học tập diễn ra, và sau đó, chúng ta sẽ hiểu lý luận. Lý luận là một gì xuất hiện rất muộn về mặt sinh học. [1]

 

AlexNet

 

Sự chuyển đổi thực sự đối với hầu hết mọi người tin vào phương pháp nghiên cứu giải quyết sinh học thay vì phương pháp logic diễn ra vào năm 2012, khi một mạng nơ-ron sâu [2] được huấn luyện bằng phương pháp lan truyền ngược [3], đạt tỷ lệ lỗi chỉ bằng một nửa so với những hệ thống máy tính-thị giác tiêu chuẩn, vốn đã được tinh chỉnh kỹ lưỡng cho cuộc thi ImageNet. Sau đó, toàn bộ cộng đồng máy tính-thị giác đã nhanh chóng chuyển sang dùng mạng nơ-ron. Điều này đã mở ra cánh cổng cho những gì chúng ta thấy ngày nay, đó là mạng nơ-ron được dùng cho mọi thứ. Giờ đây, khi nói đến AI, mọi người thường nghĩ ngay đến mạng nơ-ron nhân tạo. Trong một thời gian dài, AI chắc chắn không phải là mạng nơ-ron nhân tạo – mà là AI biểu tượng. [4]

 

Thế còn ngôn ngữ thì sao?

 

Ngay cả khi tầm nhìn có thể được thực hiện tốt hơn so với AI biểu tượng tiêu chuẩn, nhiều người trong cộng đồng AI biểu tượng vẫn nói, “Được thôi, nhưng chúng sẽ không bao giờ làm được ngôn ngữ.” Nếu AI biểu tượng có ích cho bất cứ điều gì, thì đó chính là ngôn ngữ, bởi vì đó là: chuỗi ký hiệu vào, chuỗi ký hiệu ra.

 

Những nhà ngôn ngữ học cũng rất hoài nghi. Hầu hết những nhà ngôn ngữ học đều tin vào lý thuyết của Chomsky, mà theo tôi rõ ràng là nhầm lẫn, không đáng tin [5] – rằng ngôn ngữ không phải là thứ có thể học được. Tôi nghĩ Chomsky được ngưỡng mộ bởi một sự trung thành mù quáng, sùng bái, gần như thể ông là một giáo chủ.[6] Nếu bạn có thể thuyết phục mọi người chấp nhận một điều hiển nhiên là vô lý – rằng ngôn ngữ không thể học được, thì bạn đã thực sự khiến họ hoàn toàn bị thuyết phục và trung thành.

 

Chomsky chưa bao giờ xây dựng một lý thuyết về ý nghĩa; công trình của ông hoàn toàn tập trung vào cấu trúc và quy tắc của ngôn ngữ (cú pháp) nhưng không đề cập đến cách ngôn ngữ kết nối với ý nghĩa hoặc hiểu biết trong thế giới thực tại. Đối với những nhà ngôn ngữ học, ý tưởng rằng một mạng nơ-ron lớn với trọng số ngẫu nhiên và không có kiến thức bẩm sinh thực sự có thể học được cả cú pháp lẫn ngữ nghĩa chỉ bằng cách xem xét dữ liệu là điều bị lên án. Họ rất tự tin rằng điều đó sẽ không bao giờ xảy ra. Chomsky tự tin đến mức ngay cả sau khi điều đó đã xảy ra, ông vẫn đăng những bài viết nói rằng, “Những mạng lưới sẽ không bao giờ có thể làm được điều này”, nhưng không thực sự kiểm chứng, và yêu cầu chúng làm điều đó – vốn chúng đã làm rất thành công. [7]

 

Hai lý thuyết rất khác nhau về ý nghĩa của một từ

 

Trong một thời gian dài, có vẻ như hai lý thuyết này chỉ là những lý thuyết thay thế nhau về ý nghĩa:

 

  • Lý thuyết AI biểu tượng cho rằng nghĩa của một từ xuất phát từ quan hệ của nó với những từ khác. Nghĩa của một động từ được xác định bởi cách nó xuất hiện cùng những từ khác trong câu. Để nắm bắt nghĩa, chúng ta cần một gì gì đó giống như biểu đồ quan hệ: những từ, những liên kết giữa chúng, những quan hệ gắn liền với những liên kết – một dạng biểu đồ kiến thức.

 

  • Những nhà tâm lý học, đặc biệt là vào những năm 1930, cho rằng nghĩa của một từ thực chất là một tập hợp lớn những đặc điểm ngữ nghĩa. Cũng có thể có những đặc điểm cú pháp, và những từ có nghĩa tương tự thì có những đặc điểm ngữ nghĩa tương tự. Ví dụ, Tuesday (Thứ Ba) và Wednesday (Thứ Tư) có những tập hợp đặc điểm ngữ nghĩa rất giống nhau, trong khi Tuesday (Thứ Ba) và although (Mặc dù) có những tập hợp đặc điểm ngữ nghĩa và cú pháp rất khác nhau. [8]

 

Một mô hình ngôn ngữ nhỏ để thống nhất hai lý thuyết đó

 

Năm 1985, tôi đã phát triển một mô hình ngôn ngữ nhỏ để cố gắng thống nhất hai lý thuyết đó. [9] Ý tưởng là bạn sẽ học những đặc điểm ngữ nghĩa cho mỗi ký hiệu từ và tìm hiểu cách tất cả những đặc điểm của những từ trước đó tương tác với nhau để dự đoán những đặc điểm của từ tiếp theo. Mô hình được huấn luyện bằng phương pháp lan truyền ngược để dự đoán từ tiếp theo – giống như những mô hình ngôn ngữ lớn ngày nay. [10]

 

Và giống như những mô hình AI ngày nay, thay vì lưu trữ những câu hoặc mệnh đề hoàn chỉnh như AI biểu tượng [11] mà mọi người nghĩ bạn nên làm, nó sẽ tạo ra những câu bằng cách liên tục dự đoán từ tiếp theo khi nó muốn tạo ra một câu. Không có câu nào bên trong (Nói cách khác, không có câu hoàn chỉnh nào được lưu trữ bên trong (bộ nhớ của) hệ thống); kiến thức là những quan hệ, nằm ở cách những đặc điểm của từ tương tác với nhau để dự đoán từ tiếp theo. Điều này rất khác so với một loạt những mệnh đề và quy tắc để vận dụng chúng (như AI biểu tượng).

 

Những gì đã xảy ra trong 30 năm tiếp theo

 

Nếu bạn hỏi điều gì đã xảy ra trong 30 năm tiếp theo:

 

  • Khoảng 10 năm sau mô hình ngôn ngữ nhỏ bé đó – thực sự rất nhỏ, chỉ với vài nghìn trọng số – Yoshua Bengio đã chứng minh rằng bạn có thể dùng những loại mô hình tương tự để dự đoán từ tiếp theo trong ngôn ngữ tự nhiên thực tại. Nó gần như tương đương với những phương pháp tiên tiến nhất vào thời điểm đó.

 

  • Khoảng 10 năm sau, những nhà ngôn ngữ học tính toán hàng đầu bắt đầu chấp nhận rằng những vectơ đặc trưng (mà họ gọi là nhúng) [12] là một cách tốt để mô hình hóa ý nghĩa của từ.

 

  • Khoảng 10 năm sau đó, những nhà nghiên cứu tại Google đã phát minh ra kiến trúc mô hình học sâu [13] và công bố chúng. OpenAI sau đó đã dùng chúng và cho thế giới thấy khả năng của chúng. Đó là lúc mọi người – không chỉ những nhà nghiên cứu, mà tất cả mọi người – bắt đầu quan tâm đến những gì đang diễn ra trong những mô hình ngôn ngữ lớn này. Liệu chúng có thực sự hiểu những gì chúng đang nói không? [14]

 

Những mô hình ngôn ngữ lớn

 

Những mô hình ngôn ngữ lớn có thể được xem (đặc biệt là theo tôi) như là hậu duệ của mô hình ngôn ngữ nhỏ. Chúng dùng nhiều từ hơn làm input. Chúng có ngữ cảnh rộng hơn. Chúng dùng nhiều lớp nơ-ron hơn để giúp phân biệt nghĩa của những từ khi chúng đi qua mạng. Một từ như “may” – ban đầu, bạn biểu diễn nó bằng một vectơ đặc trưng, phân biệt giữa tháng, cách dùng động từ, hay tên một người phụ nữ. Khi đi qua mạng, bạn dùng những tương tác với ngữ cảnh để tinh chỉnh nó thành một trong ba nghĩa đó.

 

Họ dùng những tương tác phức tạp hơn nhiều giữa những đặc điểm đã học – trong mô hình ngôn ngữ nhỏ ban đầu, tương tác rất đơn giản. Trong những mô hình ngôn ngữ lớn hiện tại, nó rất phức tạp. Chúng dùng thứ gọi là “sự chú ý”. [15]

 

Một phép so sánh Lego về cách thức hoạt động của từ ngữ

 

Bây giờ, tôi sẽ cố gắng đưa ra cho bạn một so sánh tương tự về cách ngôn từ vận hành. Điều này khá tham vọng, bởi vì tôi nghĩ mọi người đã hoàn toàn hiểu sai mô hình ngôn ngữ mô phỏng thực tại. Tôi muốn đưa ra một mô hình thay thế. Nó không hoàn hảo; nó chỉ là một phép so sánh – nó có rất nhiều điểm chưa ổn, nhưng nó cho bạn một điểm tựa khi suy nghĩ về cách chúng ta dùng ngôn ngữ để mô phỏng thực tại. Chúng ta cần một cách nào đó để mô phỏng sự vật; đó chính là ý nghĩa. Ý nghĩa là có một mô hình.

 

Vậy nên, hãy hình dung từ ngữ như những khối Lego đa chiều. Với khối Lego, bạn có thể mô hình hóa khá tốt bất kỳ hình dạng 3D nào – đừng lo về bề mặt, vì nó có thể là hình chữ nhật, nhưng bạn có thể mô hình hóa thể tích khá tốt nếu nó lớn, bằng khối Lego 3D. Nhưng từ ngữ cũng giống như những khối Lego với hàng ngàn chiều không gian.

 

Thật khó để hình dung – làm sao ai đó có thể làm được điều đó? Bạn nghĩ đến một khối Lego ba chiều và tự nói thật to “nghìn”. Đó là tất cả những gì bạn có thể làm được. [16]

 

Có những khối Lego nghìn chiều; hình dạng của chúng rất phức tạp. Chúng ta dùng sự kết hợp của chúng để mô hình hóa bất cứ thứ gì – không chỉ vật chất trong không gian ba chiều, mà bất cứ thứ gì, chẳng hạn như những lý thuyết về cách thức hoạt động của bộ óc. Thay vì chỉ có một vài loại khối Lego, chúng ta có hàng ngàn loại khối Lego đặc biệt đa chiều này, cụ thể là tất cả những từ ngữ khác nhau. Mỗi khối không có hình dạng cố định; mỗi khối có một loạt hình dạng mà nó có thể áp dụng. Nó linh hoạt, có thể biến dạng – nhưng không thể áp dụng bất kỳ hình dạng cũ nào. Một khi bạn biết từ ngữ là gì, bạn sẽ bị giới hạn bởi hình dạng đó. Có thể có nhiều hình dạng khả dĩ – như với từ “may”. Đối với những thứ chỉ có một ý nghĩa trung tâm, sẽ có một loạt hình dạng khả dĩ.

 

Những khối sẽ biến dạng để phù hợp với những từ khác trong ngữ cảnh; ngữ cảnh sẽ tạo cho mỗi từ một hình dạng cụ thể.

 

Điều đáng nói là: trong kiến trúc mô hình học sâu , điều này thực sự xảy ra với những mảnh từ, nhưng hãy giả sử đó là những từ. Thay vì ghép lại với nhau bằng những ống nhựa cắm vào lỗ (theo kiểu Lego cứng nhắc), hãy hình dung những từ như có rất nhiều bàn tay nhỏ. Những bàn tay này có hình dạng kỳ lạ. Cách chúng ghép lại với nhau là qua những kiểu bắt tay [17] – gọi là những bắt tay khóa truy vấn [18]trong kiến trúc mô hình học sâu . Khi bạn thay đổi vectơ đang dùng cho nghĩa của một từ, khi ngữ cảnh thay đổi, bạn sẽ thay đổi hình dạng của những bàn tay. Vì vậy, hình dạng của bàn tay không cố định – chúng thay đổi theo sự biến dạng.

 

Mục đích là để những từ biến dạng và thay đổi hình dạng bàn tay của chúng, để những từ trong ngữ cảnh có thể bắt tay với những từ khác. Và đó chính là sự hiểu biết.

 

Hiểu là lấy những từ đó, tìm cách biến dạng chúng và làm thế nào để biến dạng bàn tay của chúng để chúng có thể bắt tay với những từ khác. Khi đó, bạn có một cấu trúc. Nó hơi giống như những phân tử tạo thành một cấu trúc, nhưng phức tạp hơn nhiều và trong một ngàn chiều. Đó là hình ảnh của tôi về hiểu biết là gì: bạn lấy những ký hiệu từ ngữ – những ký hiệu mà bản thân chúng không có ý nghĩa gì. Chúng cần một người phiên dịch. Bạn là người phiên dịch – bộ óc của bạn là người đó. Nó biến dạng những hình dạng ngàn chiều này để tất cả những bàn tay của chúng có thể bắt tay với nhau. Khi bạn hình thành cấu trúc đó, đó chính là ý nghĩa của việc hiểu một điều gì đó. Cấu trúc đó chính là sự hiểu biết.

 

Hiểu Lầm Về Những Mô Hình Ngôn Ngữ Lớn

 

Những mô hình ngôn ngữ lớn, nếu muốn mô phỏng toàn bộ kiến thức của con người, sẽ trở nên rất phức tạp. Chúng có nhiều lớp và những tương tác vô cùng phức tạp. Do đó, rất khó để phân tích những gì chúng thực sự đã học và để nhận ra liệu chúng có thực sự hiểu những gì chúng đang nói—đặc biệt khi bạn dùng một mô hình sai lầm về sự hiểu biết. Những người chịu ảnh hưởng từ AI biểu tượng, Chomsky và những nhà ngôn ngữ học khác đã đặt câu hỏi liệu chúng có thực sự thông minh hay thực sự hiểu những gì chúng nói hay không. Và họ đã đưa ra hai luận điểm chính:

Luận điểm thứ nhất họ đưa ra là: “Đó chỉ là tính năng tự động hoàn thiện (autocomplete). Nó chỉ dùng những tương quan thống kê để ghép nối những đoạn văn bản và dự đoán từ tiếp theo. Toàn bộ văn bản đều do con người tạo ra, nên nó chẳng có tính sáng tạo nào cả.” Thực tế, những mô hình này thường vượt trội hơn hầu hết con người trong những bài kiểm tra tiêu chuẩn về sáng tạo. Vì vậy, luận điểm này không thực sự thuyết phục.

Luận điểm thứ hai họ dùng là: “Chúng thường sinh ra những thông tin không có thật (hallucinate), điều đó chứng tỏ chúng không thực sự hiểu bất cứ điều gì.

 

Phản Đối Tính năng Tự Động Hoàn Thiện

 

Hãy cùng xem xét phản đối về tính năng tự động hoàn thiện [19]. Trước đây, tính năng tự động hoàn thiện bao gồm việc lưu trữ bảng về tần suất xuất hiện của những tổ hợp từ cụ thể. Ví dụ: bạn có thể lưu trữ bảng những bộ ba từ, vì vậy khi bạn thấy “fish and”, bạn nhận ra “fish and chips” xuất hiện rất nhiều, khiến “chips” có khả năng là từ tiếp theo. Tôi đã có bài phát biểu này tại Thượng Viện nước Anh và thấy rằng ở đó, “fish and hunt[20] có khả năng xuất hiện cao hơn “fish and chips”. Có những lựa chọn thay thế, nhưng đó hoàn toàn không phải là cách những LLM dự đoán từ tiếp theo.

 

Điều đó đã biến mất trong những hệ thống hiện tại – chúng không lưu trữ bất kỳ văn bản hay bảng kết hợp từ nào. Chúng mô hình hóa tất cả văn bản chúng đã thấy bằng cách tạo ra những vectơ đặc trưng cho những từ, những vectơ biến dạng theo ảnh hưởng của ngữ cảnh. Những từ này tương tác theo những cách phức tạp – những cái bắt tay này. Kiến thức của chúng gồm những tương tác đó; nó là một tập hợp những trọng số trong mạng nơ-ron. Đó chính là kiến thức trong những mô hình ngôn ngữ lớn này – và đó cũng chính là kiến ​​thức trong chúng ta.

 

Mô hình ngôn ngữ nhỏ ban đầu không được phát minh ra để mô hình hóa ngôn ngữ tự nhiên. Nó được phát minh để giải thích cách chúng ta có thể hiểu nghĩa của từ. Làm sao tôi có thể hiểu một câu như “ She scrummed him with the frying pan/ Cô ấy đánh anh ta bằng cái chảo rán “? Tôi chưa bao giờ nghe từ “scrum” trước đây, nhưng chỉ trong một câu, tôi đã biết khá nhiều về nghĩa của nó bởi vì khoảng trống do ngữ cảnh tạo ra cho bạn biết nó nên có nghĩa gì. Vì vậy, tôi cho rằng chúng ta mô hình hóa thực tại bằng cách dùng những cụm từ này theo cách tương tự như máy tính. Rõ ràng là không hoàn toàn giống nhau.

 

Liệu hiện tượng sinh những thông tin không có thật (hallucination) có chứng tỏ LLMs thực sự không hiểu gì cả?

 

Một luận điểm khác cho rằng hiện tượng này chứng tỏ những mô hình ngôn ngữ lớn (LLMs) thực sự không hiểu gì cả. Trước hết, chúng ta nên gọi đó là confabulations (hiện tượng bịa đặt thông tin). Hiện tượng này đã được những nhà tâm lý học nghiên cứu từ lâu và rất đặc trưng ở con người. Chúng ta lưu trữ kiến thức dưới dạng những trọng số (weights), chứ không phải dưới dạng những chuỗi văn bản được lưu trữ sẵn. Chúng ta thường nghĩ rằng mình lưu trữ những file trong trí nhớ và sau đó truy xuất chúng ra. Nhưng trí nhớ của chúng ta không hoạt động như vậy. Chúng ta tạo ra một ký ức khi cần thiết. Chúng ta xây dựng nó. Đây là một tiến trình rất sáng tạo, chứ không phải được lưu trữ sẵn ở đâu cả. Ký ức được tạo ra khi chúng ta cần đến nó, và vì vậy, nó sẽ bị ảnh hưởng bởi những điều chúng ta học được sau khi sự kiện xảy ra. Chúng ta thậm chí có thể rất tự tin vào những chi tiết sai lầm mà mình tạo ra. Chúng ta thường tự tin về những chi tiết sai lầm vốn chúng ta đã nhớ. [21]

 

Ký ức của John Dean

 

Có một ví dụ điển hình: ký ức của John Dean khi ông làm chứng tại phiên tòa Watergate. Ông ấy đã làm chứng về những gì đã xảy ra trong Phòng Bầu dục (Tòa Nhà Trắng)– về những cuộc họp ở đó – và ông ấy không hề biết có băng ghi âm. Ông ấy đã cố gắng nói sự thật, nhưng ông ấy đã sai về nhiều chi tiết. Đối với những cuộc họp mà ông ấy nói là diễn ra giữa một số người nhất định – những cuộc họp đó không hề diễn ra. Ông ấy nói một người đã nói điều này, nhưng thực ra là một người khác đã nói. Tuy nhiên, cốt lõi những gì ông ấy nói là hoàn toàn chính xác. Có một sự che đậy, và đó là những điều thường được nói đến.

 

Ông ấy đã tạo ra những cuộc họp này trong đầu, xây dựng chúng theo những gì có vẻ hợp lý. Đó là những gì chatbot làm – và đó là những gì con người làm. Hiện tại, chatbot còn kém hơn hầu hết những người không phải là tổng thống trong việc nhận biết liệu họ có đang bịa chuyện hay không, nhưng điều đó sẽ thay đổi.

 

Chúng ta chia sẻ kiến thức với nhau như thế nào?

 

Cuối cùng, làm thế nào để chúng ta chia sẻ kiến thức? Chúng ta có những từ ngữ có tên. Vậy nên, tôi tạo ra một cấu trúc từ những khối Lego nghìn chiều phức tạp này, bắt tay nhau. Tôi không thể cho bạn biết toàn bộ cấu trúc, nhưng tôi có thể cho bạn biết tên của những từ. Giờ đây, bạn có thể tạo ra cùng một cấu trúc bằng cách dùng tên của những từ đó. Tôi cũng có thể đưa vào những khối phức tạp này những gợi ý về việc cái gì nên bắt tay với cái gì – đó gọi là cú pháp.

 

Lý thuyết AI tượng trưng cho rằng chúng ta chia sẻ kiến thức bằng cách sao chép một mệnh đề từ đầu tôi sang đầu bạn hoặc sang máy tính, và mệnh đề này được viết bằng một thứ ngôn ngữ logic đặc biệt khác thường này

 

Lý thuyết mạng nơ-ron là bạn có một thày giáo và một học sinh. Thày giáo thực hiện một hành động, và học sinh cố gắng bắt chước hành động đó. Về ngôn ngữ, thày giáo nói một chuỗi từ, học sinh cố gắng dự đoán từ tiếp theo, và nhận lỗi trong khi dự đoán và lan truyền ngược chúng – đây là cách bạn học cách chuyển đổi ký hiệu thành những vectơ đặc trưng (những khối Lego nghìn chiều này) và cách những khối này tương tác với nhau. Tiến trình này được gọi là chưng cất kiến thức (distillation). [22]. Chưng cất không hiệu quả, nhưng đó là cách chúng ta đưa kiến thức từ con người vào máy tính. Những mô hình ngôn ngữ lớn học bằng cách cố gắng dự đoán từ tiếp theo mà một người nói – nhưng nó không hiệu quả.

 

Chưng cất kiến thức có hiệu quả như thế nào?

 

Một câu thông thường – một chuỗi ký hiệu – có khoảng 100 bit. Có thể vài trăm, hoặc ít hơn 100, nhưng thứ tự đó. Đó là tín hiệu tối đa mà học sinh có thể nhận được từ một câu. Đó không phải là tín hiệu học tập đáng kể.

 

Chia sẻ trọng số hoặc độ dốc giữa nhiều bản sao của cùng một tác nhân có hiệu quả như thế nào?

 

Hãy so sánh điều đó với những gì xảy ra với nhiều bản sao của cùng một tác nhân – tác nhân kỹ thuật số. Bạn có thể có nhiều bản sao; những bản sao có cùng trọng số, và chúng hoạt động giống hệt nhau vì chúng là kỹ thuật số. Một bản sao nhìn vào một bit của internet, một bản sao khác nhìn vào một bit khác. Mỗi bản sao tìm ra cách nó muốn thay đổi trọng số của mình, sau đó chúng chia sẻ cách chúng muốn thay đổi trọng số của mình. Giờ đây, cả hai bản sao đều biết những gì mỗi bản sao đã trải qua.

 

Khi chúng chia sẻ trọng số hoặc gradient trọng số, chúng đang chia sẻ hàng nghìn tỷ bit – nếu chúng có hàng nghìn tỷ trọng số. Vậy nên, sự khác biệt giữa việc chia sẻ hàng nghìn tỷ bit và chia sẻ hàng trăm bit – là không có cạnh tranh.

 

Nó chỉ hiệu quả nếu những tác nhân là kỹ thuật số và dùng trọng số của họ theo cùng một cách và có cùng trọng số – nhưng nó hiệu quả hơn rất nhiều. Đó là lý do tại sao GPT-4 có thể biết nhiều hơn hàng nghìn lần so với bất kỳ cá nhân nào. Nó không phải là một chuyên gia giỏi trong mọi lĩnh vực.

 

Kết luận

 

Điểm chính ở đây là: những hệ thống AI kỹ thuật số hiện đại không hiểu ngôn ngữ theo một cách kỳ lạ, xa lạ nào đó. Thực ra, chúng hiểu nó theo một cách khá giống với con người. Những hệ thống này gần với cách học tập và lập luận theo kiểu con người hơn là những chương trình máy tính kiểu cũ dựa trên những quy tắc cứng nhắc và logic biểu tượng.

 

Tuy nhiên, vẫn có những khác biệt quan trọng. Máy tính kỹ thuật số dùng nhiều năng lượng hơn vì mọi hoạt độn đều phải được thực hiện bằng những công tắc bật/tắt chính xác trong những transistors. Chúng không thể tận dụng được trạng thái về điện và hóa học liên tục, trôi chảy của não bộ - những đặc điểm “ analog “ mượt mà, được phân cấp của những tế bào thần kinh thực sự, cho phép tính toán sinh học hoạt động với công suất cực thấp. Bộ óc của chúng ta tiết kiệm năng lượng đáng kể chính xác là vì chúng khai thác những đặc tính liên tục, linh hoạt này thay vì những công tắc kỹ thuật số cứng nhắc.

 

Tuy nhiên, những hệ thống kỹ thuật số có một lợi thế rất lớn: chúng có thể chia sẻ những gì chúng biết. Một hệ thống có thể ngay lập tức truyền những trọng số hoặc gradient đã học được sang một hệ thống khác, và hệ thống thứ hai giờ đây biết tất cả những gì hệ thống đầu tiên đã học được. Con người không thể làm được điều gì tương tự như vậy. Chúng ta có thể dạy lẫn nhau, nhưng không thể sao chép kiến ​​thức trực tiếp từ bộ óc này sang bộ óc khác với độ chính xác hoàn hảo.

 

Vì vậy, kết luận chung là: nếu năng lượng rẻ hoặc dễ kiếm, thì hệ thống kỹ thuật số cuối cùng sẽ chiếm ưu thế. Khả năng chia sẻ kiến ​​thức một cách hoàn hảo và nhanh chóng của chúng, theo nghĩa sâu xa, khiến chúng mạnh mẽ hơn bộ óc sinh học. Và nhận thức đó thật đáng lo ngại.

 

Geoffrey Hinton [23]

 

 

Lê Dọn Bàn tạm dịch – bản nháp thứ nhất

(May/2025)

(Còn tiếp... )

 

http://chuyendaudau.blogspot.com/

http://chuyendaudau.wordpress.com

 

 



[1] Trong khoảng nửa thế kỷ đầu của trí thông minh nhân tạo (AI), quan điểm chủ đạo là mô hình khởi hứng từ logic hoặc mô hình biểu tượng, cho rằng bản chất của trí thông minh là lý luận và lý luận được thực hiện bằng cách áp dụng những quy tắc biểu tượng rõ ràng vào những biểu thức biểu tượng. Theo truyền thống này, tâm trí được hình dung rất giống một chương trình máy tính cổ điển: nó thao tác những mệnh đề bằng một ngôn ngữ hình thức, và kiến thức bao gồm những biểu diễn biểu tượng được cấu trúc tốt được lưu trữ bên trong đầu. Những nhân vật như John McCarthy, Marvin Minsky, Allen Newell và Herbert Simon đã trở thành những người ủng hộ trung tâm của cách tiếp cận này. Họ tin rằng trước khi một hệ thống thông minh có thể học bất cứ điều gì, trước tiên những nhà nghiên cứu phải xác định cách thức kiến thức nên được biểu diễn theo một định dạng rõ ràng, chính xác về mặt logic. Việc học được coi là thứ yếu – hoặc thậm chí không cần thiết – bởi vì một khi những cấu trúc biểu tượng chính xác đã được thiết lập, về nguyên tắc, lý luận có thể xử lý phần còn lại. Trong suốt những năm 1960 đến 1980, quan điểm này đã định hình những thuật toán lập kế hoạch, hệ thống chuyên gia và hy vọng rằng trí thông minh có thể được thiết kế bằng cách chính thức hóa lý luận của con người từng bước một.

Song hành cùng truyền thống này, nhưng trong một thời gian dài thuộc nhóm thiểu số, là một quan điểm rất khác: mô hình khởi hứng từ sinh học hoặc mô hình kết nối. Cách tiếp cận này bắt nguồn từ những ý tưởng ban đầu về mạng nơ-ron của McCulloch và Pitts vào những năm 1940, perceptron của Frank Rosenblatt vào những năm 1950 và định hướng thần kinh học của những nhà tư tưởng như Alan Turing và John von Neumann. Thay vì bắt đầu với những quy tắc rõ ràng, quan điểm kết nối cho rằng bản chất của trí thông minh nằm ở việc học – cụ thể là điều chỉnh cường độ của những kết nối trong một mạng lưới những đơn vị đơn giản. Kiến thức không phải là một tập hợp những mệnh đề tượng trưng mà là một mô hình phân tán được mã hóa theo trọng số. Theo quan điểm này, lý luận không phải là nền tảng của trí thông minh mà là một khả năng mới nổi sau này phát triển từ những biểu diễn đã học. Sự hồi sinh của mạng nơ-ron vào giữa những năm 1980, đặc biệt là qua thuật toán lan truyền ngược do Rumelhart, Hinton và Williams phát triển, đã tiếp thêm sinh lực cho mô hình này, mặc dù nó vẫn bị lu mờ bởi AI tượng trưng trong nhiều năm.

Sự tương phản giữa những khuôn mẫu này đã định hình những cuộc tranh luận trong ngôn ngữ học, tâm lý học và khoa học máy tính. những nhà lý thuyết biểu tượng, thường chịu ảnh hưởng của lập luận của Chomsky về cấu trúc ngôn ngữ bẩm sinh, nghi ngờ rằng những mạng lưới không có quy tắc tích hợp có thể học ngôn ngữ hoặc ý nghĩa từ dữ liệu. Những người theo chủ nghĩa kết nối lập luận ngược lại: ý nghĩa và cấu trúc có thể xuất hiện từ việc tiếp xúc lặp đi lặp lại, được mã hóa không phải dưới dạng những quy tắc rõ ràng mà dưới dạng những mẫu hình trong không gian đa chiều. Trong nhiều thập kỷ, khía cạnh biểu tượng không chỉ chi phối nguồn tài trợ của những tổ chức mà còn cả uy tín học thuật, đặc biệt là trong thời kỳ bùng nổ hệ thống chuyên gia những năm 1980.

Cán cân đã thay đổi đáng kể sau năm 2012, khi mạng nơ-ron sâu đạt được bước đột phá quyết định trong cuộc thi ImageNet, giảm một nửa tỷ lệ lỗi so với những hệ thống dựa trên biểu tượng hoặc đặc trưng được thiết kế cẩn thận. Thành công này, được thúc đẩy bởi nhóm của Hinton, đã khơi mào một làn sóng chuyển dịch rộng rãi trong những lĩnh vực nghiên cứu AI sang mô hình kết nối. Khi những mạng lưới ngày càng lớn chứng tỏ khả năng học nhận dạng giọng nói, dịch thuật và cuối cùng là tạo ra ngôn ngữ tự nhiên, giả định lâu nay cho rằng những quy tắc biểu tượng là cần thiết để hiểu ngôn ngữ đã sụp đổ. Sự ra đời của kiến trúc biến đổi vào năm 2017, cùng với sự trỗi dậy sau đó của những mô hình ngôn ngữ lớn, đã chứng minh rõ ràng rằng mạng nơ-ron có thể thu được những biểu diễn cú pháp và ngữ nghĩa phong phú chỉ bằng cách mở rộng quy mô và học hỏi từ dữ liệu.

Tóm lại, lịch sử AI phản ánh sự căng thẳng giữa hai quan điểm về tư duy: một quan điểm cho rằng trí thông minh được thiết kế từ trên xuống qua cấu trúc logic, và một quan điểm cho rằng nó xuất hiện từ dưới lên qua học tập và thích nghi. Ngày nay, sau nhiều thập kỷ tranh luận, mô hình khởi hứng từ sinh học đã trở nên thống trị, không phải vì nó giải thích hoàn hảo nhận thức của con người, mà bởi vì nó đã chứng minh – bằng thực nghiệm và bằng những bằng chứng rõ nét – rằng những hệ thống dựa trên học tập có thể đạt được những năng lực mà trước đây được cho là chỉ cần đến tư duy biểu tượng.

[2] deep neural network

[3] backpropagation

[4] ImageNet, do Giáo sư Fei-Fei Li tại Princeton lập nên và sau đó phát triển tại Stanford, và chính thức ra mắt dưới dạng một cuộc thi vào năm 2010, đã trở thành tiêu chuẩn đánh giá hàng đầu cho nhận dạng hình ảnh quy mô lớn. Năm 2012, tại hội nghị ECCV ở Florence, mô hình học sâu AlexNet đã giảm tỷ lệ lỗi xuống còn một nửa, vượt trội hơn hẳn tất cả những hệ thống trước đó.

[5] Nguyên văn “crazy” , trong nội dung này, “ crazy “Hinton muốn diễn đạt sự bất đồng một cách thông tục, mạnh mẽ “hoàn toàn sai, vô lý hoặc phi lý”. Ông chỉ trích quan điểm của Chomsky rằng ngôn ngữ không phải do học, cho thấy Hinton hoàn toàn không đồng tình và cho rằng quan điểm này vô nghĩa.

[6] Những người theo Chomsky chấp nhận lý thuyết ngôn ngữ của ông, với lòng trung thành gần như với giáo diều tôn giáo, thay vì chất vấn chúng một cách phê phán.

[7] Tại sao những nhà ngôn ngữ học – đặc biệt là những người theo trường phái Chomsky – lại hoài nghi đến vậy

Bình luận của Geoff Hinton chỉ ra sự chia rẽ lâu đời giữa hai truyền thống trong nghiên cứu ngôn ngữ: ngôn ngữ học Chomsky phương pháp tiếp cận thống kê/kết nối .

Bắt đầu từ cuối những năm 1950, Noam Chomsky đã cách mạng hóa ngôn ngữ học bằng cách tuyên bố rằng khả năng ngôn ngữ của con người là bẩm sinh , được “lập trình sẵn” về mặt sinh học và không có được qua việc học theo nghĩa thông thường. Lập luận của ông dựa trên “ sự nghèo nàn của kích thích “: trẻ em chỉ nhận được đầu vào ngôn ngữ ồn ào, một phần và hạn chế, nhưng chúng lại tạo ra những câu mà chúng chưa từng nghe trước đây. Do đó, Chomsky lập luận, con người phải được sinh ra với một “Ngữ pháp phổ quát” tích hợp sẵn, một hệ thống nội bộ chuyên biệt để tạo ra và hiểu những cấu trúc ngữ pháp. Theo quan điểm này, cú pháp – cấu trúc hình thức của câu – là đối tượng nghiên cứu trung tâm. Ngược lại, ý nghĩa là hỗn loạn, theo ngữ cảnh và gắn liền với thế giới, vì vậy ngôn ngữ học Chomskyan chính thống đã không phát triển một lý thuyết nghiêm túc về ngữ nghĩa.

Trong suốt những năm 1960, 1970 và 1980, trường phái Chomsky đã trở thành thế lực thống trị trong ngôn ngữ học lý thuyết. Uy tín trí thức của ông rất lớn, và nhiều nhà ngôn ngữ học đã lấy khuôn khổ của ông làm nền tảng của lĩnh vực này. Sự thống trị này cũng đồng nghĩa với sự hoài nghi đối với những phương pháp cố gắng giải thích ngôn ngữ qua học tập, thống kê, hoặc mạng nơ-ron , mà Chomsky cho là về cơ bản không đủ. Theo quan điểm của Chomsky, ý tưởng cho rằng một hệ thống không có cấu trúc ngôn ngữ bẩm sinh có thể học ngôn ngữ từ dữ liệu thô dường như là bất khả thi – gần như là một sai lầm về phạm trù.

Đây chính là bối cảnh đằng sau những nhận xét của Hinton. Khi học sâu bắt đầu cho thấy triển vọng vào những năm 2000 và 2010, hầu hết những nhà ngôn ngữ học được đào tạo theo truyền thống Chomsky đều bác bỏ ý tưởng rằng mạng nơ-ron có thể thu được cú pháp hoặc ngữ nghĩa thực sự. Họ cho rằng những mô hình như vậy sẽ thất bại với bất kỳ thứ gì ngoài những mẫu hình bề mặt. Tuy nhiên, vào cuối những năm 2010, đặc biệt là sau sự phát triển của những bộ biến đổi mô hình ngôn ngữ lớn , mạng nơ-ron đột nhiên bắt đầu hoạt động cực kỳ tốt trong những tác vụ mà Chomsky và những người theo ông tin rằng không thể thực hiện được nếu không có kiến thức ngữ pháp bẩm sinh: phụ thuộc từ xa, cấu trúc thành phần, giải quyết sự mơ hồ ngữ nghĩa, v.v.

Hinton đang chỉ ra sự trớ trêu rằng ngay cả sau khi những hệ thống như vậy chứng minh được những khả năng mà Chomsky dự đoán là bất khả thi, Chomsky vẫn tiếp tục viết rằng mạng nơ-ron “không bao giờ” có thể làm được những điều này – nếu không thử nghiệm hoặc thậm chí không nghiêm túc xem xét những kết quả thực nghiệm. Tuyên bố của ông rằng Chomsky đang hành động “như một thủ lĩnh giáo phái” là một lời cường điệu khoa trương, nhưng nó phản ánh sự thất vọng mà nhiều nhà nghiên cứu cảm thấy đối với một cơ sở ngôn ngữ học đã bác bỏ những phương pháp tiếp cận dựa trên dữ liệu dựa trên cơ sở triết học thay vì dựa trên thực nghiệm.

Tóm lại, đoạn văn này đề cập đến một xung đột lịch sử sâu xa: lý thuyết cú pháp bẩm sinh, từ trên xuống của Chomsky về ngôn ngữ so với phương pháp tiếp cận từ dưới lên, lấy học tập làm động lực mà những mạng nơ-ron hiện đại thể hiện. Sự thành công của những mô hình ngôn ngữ lớn đã buộc chúng ta phải đánh giá lại những giả định lâu nay về khía cạnh nào của ngôn ngữ phải là bẩm sinh và xét cho cùng, điều gì có thể học được từ dữ liệu.

[8] giải thích cách những nhà tâm lý học từng cố gắng biểu diễn ý nghĩa của từ bằng cách dùng những đặc trưng:

(a) Tuesday (Thứ Ba) và Wednesday (Thứ Tư) → cả hai đều là ngày trong tuần, nên chúng chia sẻ nhiều đặc trưng ngữ nghĩa chung (như 'ngày trong tuần', 'đơn vị thời gian', 'đến sau Thứ Hai', v.v.).

(b) Tuesday (Thứ Ba) và although (mặc dù) → một từ là ngày, từ kia là liên từ, nên chúng hầu như không chia sẻ bất kỳ đặc trưng ngữ nghĩa nào và có những đặc trưng cú pháp (loại từ, vai trò ngữ pháp) rất khác nhau.

Nói đơn giản hơn:

Những từ có ý nghĩa tương tự nhau chia sẻ nhiều đặc trưng ngữ nghĩa; còn những từ có ý nghĩa và vai trò ngữ pháp rất khác nhau thì hầu như không chia sẻ hoặc không có đặc trưng chung nào.

[9] Khi nói đến “mô hình ngôn ngữ nhỏ” (tiny language model), Hinton ám chỉ một mô hình ngôn ngữ nơ-ron sơ khai mà ông xây dựng vào khoảng giữa năm 1985. Mô hình này cố gắng dự đoán từ tiếp theo bằng cách học những đặc trưng ngữ nghĩa phân tán cho mỗi từ và dùng phương pháp lan truyền ngược (backpropagation). Mặc dù vô cùng nhỏ bé so với tiêu chuẩn hiện nay (vốn từ vựng hạn hẹp, ít tham số và công suất tính toán thấp), nó đã dự báo trước kiến trúc cơ bản của những mô hình ngôn ngữ lớn hiện đại.

[10] Bối cảnh về Tham chiếu của Hinton đến những Đặc điểm Ngữ nghĩa và Mô hình năm 1985 của ông

Hinton đang dựa vào một chủ đề chính trong tâm lý học và ngôn ngữ học đầu thế kỷ 20: ý tưởng rằng nghĩa của một từ có thể được biểu diễn như một tập hợp những “đặc điểm” trừu tượng. Quan điểm này phổ biến trong giới hành vi học và những nhà tâm lý học nhận thức đầu tiên vào những năm 1930–1960, những người tin rằng biết nghĩa của một từ về cơ bản là biết một danh sách những thuộc tính liên quan đến nó. Ví dụ, nghĩa của từ dog (chó) có thể bao gồm những đặc điểm như động vật, bốn chân, thuần hóa động vật có vú. những từ có tập hợp những đặc điểm chồng chéo được cho là tương tự về mặt ngữ nghĩa. Quan điểm này cũng được mở rộng sang cú pháp: hành vi ngữ pháp của một từ (danh từ, động từ, giới từ) cũng có thể được mã hóa thành một tập hợp những đặc điểm cú pháp. Trong khuôn khổ này, Tuesday (thứ Ba) Wednesday (thứ Tư) có chung nhiều đặc điểm ngữ nghĩa (cả hai đều là những ngày trong tuần), trong khi Tuesday (thứ Ba) although (mặc dù ) hầu như không có đặc điểm nào.

Đến những năm 1970 và 1980, những nhà nghiên cứu AI đã cố gắng chính thức hóa những ý tưởng này thành những hệ thống tính toán. Nhưng có hai truyền thống đối lập nhau:

1.      Truyền thống biểu tượng (ngôn ngữ học + AI khởi hứng từ logic)

Ý nghĩa và phạm trù cú pháp là những đặc điểm biểu tượng rõ ràng – được định nghĩa thủ công, cứng nhắc và rời rạc.

2.      Truyền thống kết nối (mạng lưới nơ-ron):

Ý nghĩa phải xuất phát từ những mô hình hoạt động đã học trong mạng, chứ không phải từ danh sách tính năng được xác định trước.

Đóng góp của Hinton vào năm 1985 là một nỗ lực ban đầu nhằm kết nối hai thế giới này. Ông đã xây dựng một mạng nơ-ron nhỏ học những biểu diễn phân tán của từ – tiền thân của cái mà ngày nay chúng ta gọi là nhúng. Mỗi từ được biểu diễn không phải bằng một danh sách những đặc điểm do con người thiết kế (“danh từ”, “hoạt hình”, v.v.), mà bằng một vectơ những đặc điểm số đã học được do mô hình tự động phát hiện. Sau đó, mạng học cách những đặc điểm của những từ trước đó kết hợp với nhau để dự đoán từ tiếp theo trong câu.

Kiến trúc này được huấn luyện bằng phương pháp lan truyền ngược , cùng thuật toán học được dùng trong học sâu hiện đại. Mặc dù mô hình này khá nhỏ so với tiêu chuẩn ngày nay, nhưng nó đã giới thiệu hai khái niệm sau này trở thành nền tảng:

·        Biểu diễn phân tán: Ý nghĩa được mã hóa dưới dạng một mẫu trên nhiều đặc điểm số thay vì một danh sách ký hiệu rõ ràng.

·        Đào tạo dự đoán: Mô hình có thể học cả cú pháp và ngữ nghĩa bằng cách cố gắng dự đoán từ tiếp theo dựa trên từ trước đó.

Trên thực tế, mạng lưới năm 1985 của Hinton chính là tiền thân tối giản của những mô hình ngôn ngữ lớn ngày nay. Ý tưởng cốt lõi – rằng ý nghĩa xuất hiện khi một hệ thống học được những quy luật thống kê trong dữ liệu ngôn ngữ, thay vì được mã hóa cứng – đã dự đoán trước cơ chế cơ bản đằng sau những bộ biến đổi và nhúng từ hiện đại. Đây là lý do tại sao Hinton nói: “Điều đó cũng giống như những mô hình ngôn ngữ lớn ngày nay.”

[11] AI biểu tượng—còn được gọi là “cổ điển”, “GOFAI” ((Good Old-Fashioned AI), hoặc AI dựa trên quy tắc—cho rằng tâm trí là một hệ thống thao tác biểu tượng được quản lý theo quy tắc. Ý nghĩa và lập luận được thể hiện rõ ràng dưới dạng mệnh đề, ngữ pháp và quy tắc logic, trái ngược với những phương pháp tiếp cận mạng nơ-ron nhân tạo học những biểu diễn phân tán mà không lưu trữ những câu rõ ràng.

[12] embeddings

[13] Transformers = kiến trúc mô hình học sâu - những mô hình AI dùng sự chú ý (tập trung vào những phần quan trọng nhất của input). để hiểu và tạo ra ngôn ngữ một cách hiệu quả.

[14] Bối cảnh lịch sử về sự phát triển của những mô hình ngôn ngữ hiện đại

Dòng thời gian của Hinton tóm tắt 30 năm thay đổi trong cách những nhà nghiên cứu AI nghĩ về việc ngôn ngữ nên được biểu diễn và học như thế nào. Vào giữa những năm 1980, mạng nơ-ron vẫn còn nhỏ bé và lỗi thời; hầu hết những nhà nghiên cứu AI tin rằng ngôn ngữ cần những quy tắc biểu tượng, chứ không phải những biểu diễn đã học. Thí nghiệm năm 1985 của Hinton – huấn luyện một mạng nơ-ron nhỏ để dự đoán từ tiếp theo bằng cách dùng những vectơ đặc trưng đã học – mang tính kích thích trí thức nhưng lại đi trước thời đại rất xa.

Mười năm sau (giữa những năm 1990):

Yoshua Bengio bắt đầu phát triển ý tưởng này xa hơn. Khi sức mạnh tính toán tăng lên, ông đã áp dụng mạng nơ-ron vào dữ liệu ngôn ngữ tự nhiên thực tại thay vì những câu văn mẫu. Trong giai đoạn 2001–2003, Bengio, Ducharme, Vincent và Jauvin đã công bố mô hình ngôn ngữ xác suất nơ-ron có khả năng mở rộng đầu tiên. Mô hình này học những biểu diễn phân tán của từ (về cơ bản là những phép nhúng từ thời kỳ đầu) và dùng chúng để dự đoán từ tiếp theo. Lần đầu tiên, một mô hình nơ-ron hoạt động tốt như những phương pháp thống kê tốt nhất thời bấy giờ. Đây là một bằng chứng khái niệm quan trọng: những biểu diễn vectơ đã học có thể hoạt động trên dữ liệu thực tại, chứ không chỉ trên những trình diễn trong phòng thí nghiệm nhỏ.

Một thập kỷ sau (đầu những năm 2010):

Những nhà ngôn ngữ học tính toán, vốn từ lâu đã hoài nghi về những phương pháp thần kinh, đã bắt đầu chấp nhận rằng những vectơ đặc trưng – nay được gọi là nhúng – là những công cụ mạnh mẽ để mô hình hóa ý nghĩa. Word2Vec (Mikolov và cộng sự, 2013) và GloVe (Pennington và cộng sự, 2014) đặc biệt có ảnh hưởng. Họ đã chứng minh rằng những phương pháp thần kinh đơn giản có thể học những không gian ngữ nghĩa chất lượng cao, nắm bắt những phép loại suy như vua – đàn ông + phụ nữ ≈ hoàng hậu. Điều này đã thuyết phục nhiều nhà ngôn ngữ học và nhà nghiên cứu NLP rằng ý nghĩa có thể xuất hiện từ cấu trúc thống kê trong dữ liệu thay vì từ những quy tắc viết tay hoặc những đặc điểm bẩm sinh.

Một thập kỷ sau (cuối những năm 2010):

Những nhà nghiên cứu của Google đã giới thiệu kiến trúc mô hình học sâu (transformer) vào năm 2017 (“Attention Is All You Need”). kiến trúc mô hình học sâu đã giải quyết những điểm nghẽn chính của những mạng nơ-ron trước đó bằng cách cho phép xử lý song song hiệu quả và mô hình hóa phụ thuộc tầm xa. Kiến trúc này cho phép đào tạo những mô hình trên những tập dữ liệu khổng lồ, điều mà những mạng hồi quy cũ gặp khó khăn.

OpenAI sau đó đã mở rộng quy mô của những bộ biến đổi một cách đáng kể. GPT-2 (2019), GPT-3 (2020), và sau đó là GPT-4 đã chứng minh rằng việc chỉ cần huấn luyện những bộ biến đổi trên những tập văn bản khổng lồ đã tạo ra những hệ thống cực kỳ giỏi trong việc lập luận, tóm tắt, dịch thuật và tạo ra ngôn ngữ mạch lạc. Đây là thời điểm sự quan tâm lan rộng ra ngoài phạm vi phòng thí nghiệm đến công chúng: những hệ thống này dường như chứng minh được những hình thức hiểu biết mà nhiều người từng cho là không thể đối với những mô hình thống kê thuần túy.

Câu hỏi Hinton kết thúc bằng – “Liệu họ có thực sự hiểu những gì họ đang nói không?” – nắm bắt được sự chuyển dịch triết học được khơi mào bởi sự tiến triển này. Những gì bắt đầu từ những thí nghiệm nhỏ về những đặc điểm của từ đã học cuối cùng đã tạo ra những mô hình có khả năng buộc những nhà khoa học, nhà ngôn ngữ học và công chúng phải xem xét lại “ý nghĩa”, “học tập” và “hiểu biết” có thể trông như thế nào trong máy móc.

[15] Attention (cơ chế chú ý) = cơ chế trong mô hình Transformer cho phép mô hình “tập trung” vào những từ liên quan trong ngữ cảnh.

[16] Biểu diễn từ ngữ trong AI (Phép so sánh Lego của Hinton):

Từ ngữ trong những mô hình ngôn ngữ lớn được biểu diễn dưới dạng vectơ trong một không gian rất nhiều chiều—giống như những khối Lego, nhưng với hàng nghìn chiều thay vì ba chiều. Mỗi chiều mã hóa một đặc điểm của từ, cho phép mô hình nắm bắt những quan hệ tinh tế giữa những từ. Con người không thể dễ dàng hình dung ra những không gian nhiều chiều như vậy, vì vậy Hinton đã hài hước gợi ý tưởng tượng một khối Lego 3D và nói to “hàng nghìn”. Đơn giản hơn: Từ ngữ giống như những khối Lego trong hàng nghìn chiều, với mỗi chiều đại diện cho một phần ý nghĩa của từ.

[17] handshakes

[18] query-key handshakes Trong Transformers, “bắt tay” khóa truy vấn là cách cơ chế chú ý xác định những từ nào trong câu quan trọng với nhau. Mỗi từ có một truy vấn, đại diện cho nội dung nó đang tìm kiếm, và một khóa, đại diện cho thông tin nó có thể cung cấp. Mô hình so sánh mỗi truy vấn với tất cả những khóa và tính điểm dựa trên mức độ liên quan của từng từ với từ hiện tại. Quá trình này giống như một “bắt tay” giữa những từ: truy vấn yêu cầu ngữ cảnh, và khóa cung cấp ngữ cảnh, giúp mô hình tập trung vào những quan hệ quan trọng nhất trong văn bản.

[19] Autocomplete : tự động hoàn thiện = dự đoán gợi ý từ tiếp theo dựa trên những tổ hợp từ đã quan sát trước đó hoặc mẫu câu đã được lưu trữ sẵn.

[20] Trong bối cảnh Nghị viện Anh, cụm từ “fish and” có khả năng cao được theo sau bởi “hunt” (săn bắn) vì chủ đề đang bàn, trong khi trong ngôn ngữ hàng ngày, “fish and chips” (món cá và khoai tây chiên) phổ biến hơn. Quan điểm của Hinton là: Những mô hình ngôn ngữ lớn (LLMs) dự đoán từ dựa trên ngữ cảnh, chứ không phải dựa trên những tổ hợp từ cố định như những hệ thống tự động hoàn thiện cũ.

[21] Trong khuôn khổ của Hinton, nghĩa của một từ không phải là một ký hiệu cố định hay định nghĩa từ điển, mà là một mô hình đa chiều những đặc điểm đã học được trong một mạng nơ-ron. Mỗi từ được biểu diễn dưới dạng một vectơ (hoặc một tập hợp những đặc điểm) tương tác với những vectơ của những từ khác để tạo ra những dự đoán phù hợp với ngữ cảnh. Ví dụ, nghĩa của từ “bank” được định hình động bởi những từ xung quanh: “river bank” so với “savings bank”. những vectơ này nắm bắt những mối quan hệ ngữ nghĩa, do đó những từ có nghĩa tương tự (ví dụ: Tuesday và Wednesday) có những mô hình đặc điểm tương tự, trong khi những từ không liên quan (Tuesday và although) lại khác biệt rất nhiều.

Về mặt triết học, cách tiếp cận của Hinton đánh dấu một sự thay đổi đáng kể so với quan điểm cổ điển về ngôn ngữ. Theo truyền thống, những nhà tư tưởng như John Locke coi từ ngữ là nhãn hiệu tương ứng với những ý niệm cố định trong tâm trí, trong khi Leibniz nhấn mạnh những mối quan hệ logic, có cấu trúc giữa những khái niệm. Sau đó, Frege đã chính thức hóa ý nghĩa trong logic qua sự phân biệt giữa nghĩa (Sinn) và tham chiếu (Bedeutung), và những nhà triết học phân tích như Russell coi kiến thức và ý nghĩa là mệnh đề và dựa trên sự kiện. Vào giữa thế kỷ 20, triết học sau này của Wittgenstein đã chuyển trọng tâm: ý nghĩa phát sinh từ việc dùng , từ cách những từ ngữ hoạt động trong ngữ cảnh, thay vì tồn tại như những thực thể nội tại. những nhà tâm lý học nhận thức như Quillian và Osgood đã phát triển thêm ý tưởng rằng ý nghĩa có thể được mô hình hóa thành những mẫu tương đồng ngữ nghĩa, dự đoán những phương pháp tiếp cận kết nối hiện đại.

Quan điểm của Hinton được xây dựng trực tiếp dựa trên những ý tưởng này nhưng mang đến cho chúng một hình thức cụ thể, mang tính toán: kiến thức và ý nghĩa được mã hóa trong những mô hình kết nối bên trong mạng nơ-ron, được học từ việc tiếp xúc với dữ liệu. Chúng xuất hiện, phân tán và phụ thuộc vào ngữ cảnh, không cố định hay mang tính biểu tượng. Do đó, việc hiểu một từ – hay thế giới – không phải là việc lưu giữ những mệnh đề rõ ràng trong tâm trí mà là việc có một cấu trúc nội tại có thể tạo ra dự đoán, diễn giải ý nghĩa và phản hồi phù hợp. Quan điểm này tích hợp hàng thế kỷ tư tưởng triết học và tâm lý học, cho thấy cả sự hiểu biết của con người và máy móc đều có thể nảy sinh từ những mô hình và tương tác đã học, thay vì những dữ kiện được lưu trữ hay những quy tắc bẩm sinh.

[22] distillation

[23] Geoffrey Hinton (1947) là một nhà khoa học máy tính và nhận thức người Canada gốc Anh, được mệnh danh là “Cha đẻ của AI” nhờ những công trình tiên phong về mạng nơ-ron nhân tạohọc sâu. Là Giáo sư Hồi hưu Danh dự tại Đại học Toronto, ông cũng đã dành một thập kỷ tại Google Brain và đồng sáng lập Viện Vector tại Toronto. Ông đã góp phần phổ biến algorithm lan truyền ngược, giám sát việc tạo ra AlexNet, và sau đó nhận được cả Giải thưởng Turing năm 2018 và Giải Nobel Vật lý năm 2024. Năm 2023, ông rời Google để cảnh báo về những đe dọa tiềm ẩn của AI về hiện hữu – gồm việc dùng sai mục đích, mất việc làm và những đe dọa tiềm tàng nguy hiểm có thể hủy diệt nhân loại hoặc chấm dứt vĩnh viễn nền văn minh nhân loại. – kêu gọi hợp tác toàn cầu về an toàn AI (bảo đảm AI đáng tin cậy, có thể kiểm soát, không phản đạo đức và không gây hại cho nhân loại.

Trong bài phát biểu quan trọng này tại IASEAI ’25, GeoffreyHinton nói về ý nghĩa của việc AI “hiểu” mọi sự vật việc. Dùng những ví dụ từ mạng nơ-ron sâu và khoa học nhận thức, ông khám phá liệu AI ngày nay có thực sự hiểu ý nghĩa hay chỉ phát hiện ra những mẫu hình, và giải thích tại sao sự khác biệt này lại quan trọng để đảm bảo AI an toàn và phù hợp với những mục tiêu của con người.

Bài trên là bài dịch từ bản ghi lại của - IASEAI - International Association for Safe & Ethical AI - 2025 (https://www.youtube.com/watch?v=6fvXWG9Auyg )