Deep Learning – Cuộc Cách Mạng Học Sâu

[Review Sách] “Deep Learning – Cuộc Cách Mạng Học Sâu“: Từ Một Lĩnh Vực Học Thuật Phức Tạp Trở Thành Một Công Nghệ Đột Phá Trong Nền Kinh Tế Thông Tin!

Năm 1943, chủ tịch IBM Thomas J. Waston được biết đến với câu nói: “Tôi nghĩ chỉ có khoảng năm chiếc máy tính cho thị trường toàn cầu!. Nhưng cho đến thời điểm hiện tại có tới hàng triệu triệu máy tính ra đời phục vụ cho nhu cầu con người. Nói như vậy đủ thấy trí tuệ nhân tạo AI (Artificial Intelligence) có sức ảnh hưởng lớn như thế nào. Là một phần của nền kinh tế thông tin ấy, Deep Learning – Cuộc cách mạng học sâu của tác giả Terrence J. Sejonowski chính là cuốn sách chỉ dẫn cho quá khứ, hiện tại và tương lai của học sâu.

Năm 1956, dự án nghiên cứu Dartmouth Artificial Intelligence Summer đã khai sinh ra lĩnh vực AI, thúc đẩy một thế hệ các nhà khoa học khám phá ra tiềm năng để công nghệ thông tin phù hợp với khả năng của con người. Tính đến nay, AI đã trở thành một trợ thủ đắc lực của chúng ta.

Deep learning – Học sâu là gì? Học sâu chính là một nhánh của học máy, có nguồn gốc từ toán học khoa học máy tính và khoa học thần kinh.

Phần I: Định nghĩa lại trí thông minh.

Biểu hiện rõ nhất của sự thay đổi lớn trong nền kinh tế được công nghệ thông tin thúc đẩy là những chiếc xe tự lái – chúng có thể tự học dữ liệu để dự đoán đường đi. Thông tin được trích ra từ dữ liệu thô đang dần chuyển hoá thành kiến thức về con người và sự vật: chúng ta làm gì, chúng ta muốn gì và chúng ta là ai. Ngày càng nhiều thiết bị sử dụng kiến thức này để giao tiếp với chúng ta thông qua lời nói. Không giống với những kiến thức thụ động trong sách vở, tri thức trên đám mây là trí tuệ bên ngoài, vượt ra khỏi não bộ của chúng ta, trở thành một phần hiện hữu trong cuộc sống của con người.

Học sâu tác động đến rất nhiều các ứng dụng mà con người đang sử dụng. Một ví dụ tiêu biểu nhất là việc dịch ngôn ngữ – chiếc chén thánh của trí tuệ nhân tạo vì nó phụ thuộc vào khả năng hiểu một câu. Tải ứng dụng Google Translate về máy, hướng vào từ, câu muốn dịch, lập tức nó sẽ dịch cho bạn, không những thế, ngôn ngữ còn được nối với nhau rất mạch lạc. Một chiếc chén thánh khác của trí tuệ nhân tạo là nhận dạng giọng nói: trợ lí ảo Alexa của Amazon, Siri của Apple,… chính là kết quả của sự đột phá này. Giao tiếp giữa AI và con người trở nên phổ biến hơn bao giờ hết. Có thể thấy máy móc đang dần thay thế khả năng con người trong mọi lĩnh vực. Nếu như vậy, trí tuệ nhân tạo có phải là mối đe doạ sinh tồn không? Câu trả lời là không bởi AI là do con người chúng ta tạo ra nên chúng ta hoàn toàn có thể kiểm soát và ngăn chặn điều đó, ít nhất là đến thời điểm ta đang sống. Chúng ta sẽ thích ứng với trí tuệ nhân tạo để từ đó mà trở nên thông minh hơn!

Cuộc cách mạng học sâu chính là cuốn sách khám phá nguồn gốc và hậu quả của việc học sâu từ quan điểm cá nhân Senjnowski với tư cách là người tiên phong phát triển thuật toán học cho mạng nơ – ron nhân tạo vào năm 1980.

Deep Learning

Trong sự phát triển của trí tuệ nhân tạo, thị giác máy tính từng được xem là một vấn đề hết sức khó khăn. Không ai nghĩ rằng nó sẽ có hiệu suất ngang với con người. Nhưng không, phương pháp tiếp cận trí tuệ nhân tạo đã được lấy cảm hứng từ nguyên lí sinh học thực tế của não bộ được gọi với cái tên khác nhau như “mạng nơ – ron”, “chủ nghĩa kết nối”, “xử lí phân tán”,… đã giải quyết vấn đề khó khăn ấy mà trước kia AI dựa trên logic không thể vượt qua. Thay vì viết một chương trình máy tính dựa trên logic và suy nghiệm thì các nhà nghiên cứu đã cho mạng nơ – ron nhận diện hành vi con người bằng cách quan sát hành vi của họ. Mùa xuân cho các nhà nghiên cứu mạng nơ – ron bắt đầu, kĩ thuật học sâu cho phép tự động hoá quá trình tìm kiếm những đặc trưng cơ bản để phân biệt các vật thể khác nhau trong một hình ảnh và đó chính là lí do tại sao thị giác máy tính dần trở nên tốt hơn! Đó cũng chính là lúc bình minh mạng nơ – ron nhân tạo chiếu những tia sáng đầu tiên.

Cách thức hoạt động của não bộ trở thành chủ đề nghiên cứu chính của các nhà khoa học. Nhận thức và cảm xúc là sản phẩm của não bộ, chúng làm việc với nhau trong một chu trình cân bằng và khéo léo học hỏi để tạo ra trí thông minh của con người. “Giá như AI có bộ não và trái tim?” – câu hỏi ấy đã thôi thúc các nhà khoa học khám phá để tìm ra câu trả lời. Những mô hình mạng nơ – ron ra đời đầu tiên chính là minh chứng cho thành quả ấy: máy Beltzmann của Geoffrey, mạng đa tầng của Neocognition (tiền thân trực tiếp của mạng học sâu), mạng Kohonen,… Các nhà nghiên cứu đã có một bước tiến lớn trong việc nghiên cứu mạng học sâu. Nhưng tất cả đều chưa thể giải quyết các vấn đề cần thiết trong thế giới thực bởi còn có vô số thông tin ẩn chứa bên trong vỏ não mà chúng ta vẫn chưa thể khám phá hết được.

Bộ não chúng ta làm công việc nó giỏi nhất – giải quyết vấn đề bằng cách nhận dạng khuôn mẫu được truyền từ thị giác. Thị giác là giác quan sắc bén nhất và cũng là giác quan được nghiên cứu nhiều nhất trong lĩnh vực học sâu. Một nửa vỏ não của chúng ta dành cho thị giác. Và cũng chính cấu tạo vỏ não thị giác ấy là nguồn cảm hứng cho mạng học sâu thành công nhất. Nếu theo dõi tín hiệu tạo ra bởi một hình ảnh đi vào bộ não, chúng ta có thể thấy cách nó được biến đổi hết lần này đến lần khác mỗi khi nó di chuyển từ giai đoạn này đến giai đoạn tiếp theo trong quá trình xử lí. Thị giác bắt đầu từ võng mạc, nơi các tế bào cảm quang chuyển đổi ánh sáng thành tín hiệu điện, sẽ có hai lớp trong tế bào thần kinh trong võng mạc xử lí các tín hiệu ấy, kết thúc với các tế bào hạch dẫn ra các dây thần kinh thị giác. Mỗi tế bào thần kinh trong vỏ não thị giác có thể được xem như một máy đo tính năng thị giác, chỉ hoạt động khi nó nhận được đầu vào trên một ngưỡng nhất định cho tính năng đưa ra trong một mảng cụ thể của trường thị giác. Nếu một mắt của người hay vật nào đó không thể tác động đến các tế bào thần kinh vỏ não được nữa sẽ dẫn đến tình trạng gọi là “giảm thị lực”. Sự thiếu hụt một mắt là một ví dụ về mức độ dẻo dai cao hiện diện trong những giai đoạn phát triển ban đầu khi môi trường tạo ra các kết nối khớp thần kinh giữa các tế bào thần kinh trong vỏ não và các bộ phận khác của não bộ. Khớp thần kinh chứa hàng trăm protein độc nhất kiểm soát sự giải phóng các chất dẫn truyền thần kinh và kích hoạt các thụ thể trên tế bào thần kinh nhận.

Sự pha trộn giữa máy tính và thị giác sinh học đã được Steven Zucker từng bước nghiên cứu, sử dụng phương pháp tiếp cận dựa trên cấu trúc chính xác của vỏ não sơ cấp – một cấu trúc không thể tìm thấy ở bất kì đâu trong vỏ não. Steven rất tham vọng muốn hiểu về cách chúng ta nhận biết hình dạng của vật thể từ bóng của nó trên bề mặt và các dấu hiệu của nếp nhăn và nếp gấp. Ông đã lí giải được điều đó dựa trên quan hệ mật thiết giữa các đường nét ba chiều của bề mặt như chúng ta chúng ta vẫn thấy trên những bản đồ thể hiện đường đồng mức của ngọn núi. Ông đã đưa ra kết luận rằng: chức năng của một tế bào thần kinh được quyết định không chỉ đơn giản bởi cách nó phản ứng với đầu vào mà còn bởi các tế bào thần kinh nó kích hoạt xuôi dòng bởi “trường chiếu ảnh”. Bản đồ thị giác trong vỏ não được tổ chức theo cấp bậc các đầu ra và đầu vào của mỗi vùng thị giác trong vỏ não và sắp xếp chúng theo một sơ đồ phân cấp. Tất cả những điều đó thức đẩy sự ra đời của một ngành khoa học mới: ngành khoa học thần kinh nhận thức, thu hút những nhà nghiên cứu từ những lĩnh vực khoa học khác.

Phần II: Các cách học máy.

Perceptron là mạng lưới thần kinh một nơ – ron. Cấu trúc mạng lưới đơn giản nhất tiếp theo có nhiều hơn một nơ – ron trong tầng đầu ra; với mỗi nơ – ron đầu vào kết nối với một nơ – ron tầng đầu ra, chuyển đổi các kiểu mẫu trên tầng đầu vào thành các kiểu mẫu trên tầng đầu ra. Mạng này không chỉ phân loại được các nguồn đầu vào mà còn có thể học cách thực hiện việc tách nguồn mù! Một thuật toán mới ra đời mang tên “Phân tích thành phần độc lập (ICA)”. Phân tích thành phần độc lập đã được sử dụng cho hàng nghìn ứng dụng thực tế và ngày nay đã có mặt trong các cuốn sách về xử lí tín hiệu. Khi áp dụng cho các mảnh nhỏ từ những hình ảnh tự nhiên của khung cảnh ngoài trời, các nguồn độc lập của ICA được khoanh vùng lại, định hướng các bộ lọc biên, tương tự với những tế bào đơn giản trong vỏ não thị giác của mèo và khỉ. ICA chỉ cần một vài trong số rất nhiều nguồn để xây dựng lại một mảnh ghép của hình ảnh, sự tái hiện này được gọi theo ngôn ngữ toán học là “rời rạc” (sparse). Mạng ICA được hình thành có số lượng các đơn vị đầu vào và đầu ra ngang bằng nhau và một tập hợp trọng số kết nối đầy đủ giữa chúng. Nếu như perceptron là một thuật toán học có giám sát thì ICA phân tích thành phần độc lập không có giám sát dùng để đo lường sự độc lập giữa các đơn vị đầu ra như một hàm chi phí, nó không biết mục tiêu là gì giúp việc tách nguồn âm thanh trở nên hiệu quả hơn bao giờ hết.

Deep Learning

Mặc dù các mạng nơ – ron có thể đưa ra câu trả lời chính xác cho một vấn đề nhưng vẫn chưa thể giải thích cách chúng đạt đến câu trả lời đó. Sự phát triển của mạng nơ – ron, AI sẽ mở ra một tương lai mới cho thế giới nhưng đó cũng là mối đe doạ mà chúng ta khó có thể đoán trước được. Khả năng của máy tính tiếp tục được tăng theo cấp số nhân, nó có thể huấn luyện các mạng lớn hơn bao giờ hết. Trong thị giác máy tính, những tiến bộ ổn định của việc nhận dạng vật thể trong hình ảnh ở các thập niên cuối thế kỉ trước và mười năm đầu thế kỉ XXI đã cải thiện hiệu suất của điểm chuẩn. Yann Lecun đã cho ra đời mạng thị giác của mình với cái tên Convnet. Các khối được xây dựng cơ bản của mạng dựa trên phép toán tích chập, có thể được coi như bộ lọc trượt nhỏ được truyền qua hình ảnh, tạo ra một tầng các tính năng trên hình ảnh.

Hầu hết các thuật toán học tập hiện tại đã được phát hiện cách đây hơn 25 năm, vậy tại sao phải mất quá lâu để chúng có tác động đến thế giới thực Với các máy tính và dữ liệu được dán nhãn có sẵn cho các nhà nghiên cứu trong những năm 1980, chỉ có thể chứng minh về nguyên tắc đối với các vấn đề thử nghiệm. Tuy có một số kết quả đầy hứa hẹn, các nhà khoa học vẫn không biết việc học máy và hiệu suất mạng sẽ mở rộng như thế nào khi số lượng đơn vị và kết nối tăng lên để phù hợp với sự phức tạp của các bài toán trong thế giới thực. Hầu hết các thuật toán trong AI có khả năng mở rộng rất kém và không bao giờ vượt ra ngoài việc giải quyết các vấn đề thử nghiệm. Bây giờ, chúng ta biết rằng việc học tập của mạng nơ – ron có thể được mở rộng tốt và hiệu suất tiếp tục tăng theo kích thước của mạng và số tầng. Mặc dù các mạng học sâu đã chứng tỏ được bản thân trong nhiều ứng dụng, chúng sẽ không bao giờ có thể tự tồn tại trong thế giới thực. Chúng được mã hóa bởi các nhà nghiên cứu cung cấp dữ liệu cho chúng, họ tinh chỉnh các siêu tham số của chúng như tốc độ học tập, số tầng và số đơn vị trong mỗi tầng để cải thiện sự hội tụ và cung cấp cho chúng nguồn tài nguyên điện toán khổng lồ. Mặt khác, vỏ não không thể tồn tại trong thế giới thực mà không có phần còn lại của não và cơ thể để cung cấp hỗ trợ, và tự chủ, trong một thế giới luôn thay đổi, là một vấn đề khó khăn hơn nhiều so với nhận dạng kiểu mẫu.

Không chỉ có vậy, mạng nơ – ron còn có thể học tập bằng cách tự chơi, sử dụng sự giám sát của chuyên gia để huấn luyện các mạng và giải thuật lan truyền ngược để đánh giá thế cờ và nước cờ khả thi. Đó chính là cơ sở ra đời của chương trình “TD – Gamon”. Thành tựu này là một bước ngoặt trong lịch sử trí tuệ nhân tạo bởi chúng ta đã học được nhiều điều mới từ một chương trình AI, và hơn thế, tự dạy cho mình cách làm chủ một chiến lược phức tạp trong một lĩnh vực độ phá!

Yếu tố giúp học sâu cất cánh là gì? Đó chính là dựa vào dữ liệu lớn (big data). Sự bùng nổ của dữ liệu lớn đang tạo ra ảnh hưởng lớn không chỉ cho khoa học kĩ thuật mà còn cho tất cả mọi lĩnh vực trong xã hội. Nếu không có hàng triệu hình ảnh và dữ liệu được gắn nhãn trên Internet thì chúng ta khó mà có thể huấn luyện được những mạng học sâu thực sự lớn. Có thể nhận thấy rằng, trong học máy, người có được nhiều dữ liệu nhất sẽ là người chiến thắng và tên khổng lồ Facebook đã làm được điều đó!

Những đột phá lớn trong lĩnh vực học tập với mạng nơ – ron nhân tạo xuất hiện cứ mỗi 30 năm, bắt đầu với việc ra mắt của perceptrons vào những năm 1950, thuật toán học tập cho perceptrons đa tầng trong thập niên 1980, và học sâu vào năm 2010. Trong mỗi trường hợp, có một khoảng thời gian đầy phấn khích, khi có nhiều tiến triển chỉ trong một giai đoạn ngắn, tiếp sau đó là khoảng thời gian dài với những tiến bộ chậm hơn, từng chút một. Tuy nhiên, một điểm khác biệt là tác động của giai đoạn phấn khích tăng theo mỗi lần phát sinh. Chính sự sẵn có rộng khắp của dữ liệu lớn đã thúc đẩy đà tăng trưởng mới nhất.

Phần III: Tác động của khoa học kĩ thuật.

deep learning

Thời đại điện toán nhận thức đang mở ra. Không bao lâu nữa mọi thứ của chúng ta sẽ được tự động hoá một cách dễ dàng, từ y tế, xây dựng, dịch vụ, nhận dạng tội phạm (an ninh), robot,… AI đã và đang trở thành một phần của cuộc sống hàng ngày. Các thiết bị nhận dạng như Alexa trong bộ loa của Amazon, trợ lí ảo Siri của Apple hay những chú robot thông minh đã có thể tương tác với bạn giúp cuộc sống của bạn dễ dàng hơn và bổ ích hơn! Dần dần, chúng có khả năng như con người, “Emotion” được thành lập để thương mại hoá việc phân tích tự động khuôn mặt. Chỉ cần một vài phút là các thiết bị thông minh có thể phát hiện ra Donald Trump có tác động cảm xúc cao nhất đối với phương pháp phỏng vấn của chính đảng nào! Rất có thể rằng, trong tương lai không xa, iPhone sẽ không chỉ hỏi bạn lí do bạn khó chịu mà còn có cách giúp bạn bình tĩnh trở lại!

Suy nghĩ về tương lai của AI, chúng ta cần phải có cái nhìn lâu dài, vì chúng ta còn thiếu sức mạnh điện toán cần thiết để đạt được mức độ thông minh của con người. Mạng học sâu giờ đây có hàng triệu đơn vị và hàng tỉ trọng số. Đây là con số ít hơn 10.000 lần so với số các tế bào thần kinh và khớp thần kinh trong vỏ não của con người. Nếu tất cả các cảm biến trên thế giới được kết nối với Internet và kết nối với nhau bằng mạng học sâu, một ngày nào đó, nó có thể xuất hiện và nói: “Xin chào thế giới!”.

Có thể thấy rằng, ngày nay, việc tìm kiếm thông tin trên Internet dễ dàng hơn nhiều so với việc tìm kiếm thông tin bên trong sách vở. Chúng ta đang sống trong thời đại bùng nổ thông tin với nhiều hình thức khác nhau. Nền kinh tế theo hướng số hoá và kĩ năng lập trình trở thành nhu cầu lớn tại nhiều công ty. Nền kinh tế đang chuyển dần từ công nghiệp sang thông tin! Học sâu cho chúng ta thấy rằng, giống như các mạng nơ – ron của bộ não, mô hình mạng nơ – ron của máy tính có khả năng khái quát ngôn ngữ và chúng có thể được huấn luyện để nhận biết có chọn lọc các bài phát biểu từ nhiều ngôn ngữ, để dịch giữa các ngôn ngữ và tạo chú thích cho hình ảnh với cú pháp hoàn hảo. Như vậy, có thể nói, mạng nơ – ron chính là điểm kết trên con đường đạt được trí tuệ nhân tạo nói chung.

Học sâu phụ thuộc vào việc tối ưu hóa một hàm chi phí. Các hàm chi phí trong tự nhiên là gì? Nghịch đảo giá trị trong quá trình tiến hóa được gọi là sự thích hợp, nhưng đó là một khái niệm chỉ có ý nghĩa trong bối cảnh của một tập hợp các ràng buộc cụ thể, từ môi trường hoặc từ hệ thống được tối ưu hóa. Trong não bộ có một số giá trị bẩm sinh điều chỉnh hành vi, chẳng hạn như nhu cầu về thực phẩm, sưởi ấm, an toàn, oxy và sinh sản. Trong học tăng cường, các hành động được thực hiện để tối ưu hóa những phần thưởng trong tương lai. Nhưng ngoài những phần thưởng đảm bảo cho sự sống còn, một loạt các phần thưởng có thể được tối ưu hóa, thấy được rõ ràng từ phạm vi gây hoang mang của hành vi con người. Câu hỏi đến cuối cùng vẫn gây nhiều tranh cãi cho các nhà khoa học là: “Liệu có một vài hàm chi phí tổng quát cơ bản chịu trách nhiệm cho sự đa dạng này?”

Lời kết:

Chúng ta vẫn đang tìm kiếm các khái niệm cốt lõi sẽ tiết lộ bí mật về những dạng thức thông minh cao nhất. Chúng ta đã xác định được một vài nguyên tắc chính nhưng không có khung khái niệm giải thích cách thức bộ não hoạt động lôi cuốn như DNA làm nên bản chất của sự sống. Các thuật toán học tập là một nguồn tốt để tìm kiếm những khái niệm thống nhất. Có thể tiến bộ chúng ta đang tạo ra trong việc tìm hiểu cách mạng lưới học sâu giải quyết các vấn đề thực tế sẽ mang lại nhiều manh mối hơn. Có thể chúng ta sẽ khám phá các hệ điều hành tạo nên sự tiến hóa trong các tế bào và não bộ. Nếu con người có thể giải quyết những vấn đề này, sẽ có được những lợi ích không thể hình dung.  Tự nhiên có thể thông minh hơn mỗi cá nhân chúng ta nhưng hãy tin chắc rằng với sự những bước phát triển của Deep learning – Cuộc cách mạng học sâu, một ngày nào đó chúng ta có thể cùng nhau giải quyết câu đố về trí thông minh ấy!

Theo Ybox.vn