Geoffrey Hinton, giáo sư tại Đại học Toronto và đồng nghiệp kỹ sư tại Bộ não Google, gần đây đã xuất bản một bài báo về Forward-Forward thuật toán (FF), một kỹ thuật huấn luyện mạng thần kinh sử dụng hai lần chuyển tiếp dữ liệu qua mạng, thay vì Lan truyền ngược, để cập nhật trọng số mô hình.

Động lực của Hinton đối với thuật toán là giải quyết một số thiếu sót của đào tạo lan truyền ngược tiêu chuẩn đòi hỏi kiến ​​thức đầy đủ về tính toán trong chuyển tiếp chuyển tiếp để tính toán đạo hàm và lưu trữ các giá trị kích hoạt trong quá trình đào tạo. Cái nhìn sâu sắc của Hinton là sử dụng hai lần chuyển tiếp dữ liệu đầu vào—một tích cực và một tiêu cực—có các hàm mục tiêu ngược lại được tối ưu hóa. Hinton đã chỉ ra rằng các mạng được đào tạo bằng FF có thể thực hiện các tác vụ thị giác máy tính (CV) cũng như các mạng được đào tạo bằng cách sử dụng lan truyền ngược. Theo Hinton,

Thuật toán Forward-Forward (FF) có thể so sánh về tốc độ với lan truyền ngược nhưng có ưu điểm là nó có thể được sử dụng khi chưa biết chi tiết chính xác của tính toán chuyển tiếp. Nó cũng có lợi thế là nó có thể học trong khi sắp xếp dữ liệu tuần tự qua mạng thần kinh mà không cần lưu trữ các hoạt động thần kinh hoặc dừng để truyền các dẫn xuất lỗi….Hai lĩnh vực mà thuật toán chuyển tiếp có thể vượt trội so với lan truyền ngược là mô hình học tập trong vỏ não và như một cách sử dụng phần cứng tương tự công suất rất thấp mà không cần dùng đến học tập tăng cường.

Mặc dù mạng thần kinh nhân tạo (ANN) dựa trên một mô hình toán học của bộ não, thuật toán lan truyền ngược tiêu chuẩn được sử dụng để đào tạo các mạng này không dựa trên bất kỳ quy trình sinh học đã biết nào. Bên cạnh việc không hợp lý về mặt sinh học, lan truyền ngược cũng có một số nhược điểm về tính toán như đã lưu ý ở trên. Hinton chỉ ra rằng ANN có thể được đào tạo bằng cách sử dụng phương pháp học tăng cường (RL) mà không cần lan truyền ngược, nhưng kỹ thuật này “tỷ lệ kém... đối với các mạng lớn chứa nhiều triệu hoặc hàng tỷ tham số”. Vào năm 2021, InfoQ đã đề cập đến một giải pháp thay thế hợp lý về mặt sinh học cho lan truyền ngược được gọi là học suy luận không phân kỳ (Z-IL) có thể tái tạo chính xác kết quả lan truyền ngược.

Thuật toán FF của Hinton thay thế các đường chuyền tiến-lùi của đào tạo lan truyền ngược bằng hai đường chuyền tiến “hoạt động theo cùng một cách với nhau”. Chuyển tiếp đầu tiên hoạt động trên dữ liệu tích cực từ tập huấn luyện và trọng số mạng được điều chỉnh để khiến đầu vào này tăng lớp tốt giá trị. Trong lần chuyển tiếp thứ hai, mạng được cung cấp một ví dụ tiêu cực được tạo không được lấy từ tập dữ liệu. Trọng số mạng được điều chỉnh sao cho đầu vào này làm giảm độ tốt của lớp.

Hinton đã sử dụng FF để đào tạo một số mạng thần kinh để thực hiện các tác vụ CV trên DANH SÁCH và CIFAR bộ dữ liệu. Các mạng tương đối nhỏ, chứa hai hoặc ba lớp tích chập ẩn và được đào tạo trong vòng chưa đầy 100 kỷ nguyên. Khi được đánh giá trên các tập dữ liệu thử nghiệm, các mạng được đào tạo bằng FF hoạt động “chỉ kém hơn một chút” so với các mạng được đào tạo bằng cách sử dụng lan truyền ngược.

Diego Fiori, CTO tại Nebuly, đã triển khai thuật toán FF của Hinton và thảo luận về kết quả của mình trên Twitter:

Bài báo của Hinton đề xuất 2 thuật toán Forward-Forward khác nhau, mà tôi gọi là Base và Recurrent. Hãy xem lý do tại sao, bất chấp tên gọi, Base thực sự là thuật toán hiệu quả nhất….thuật toán Base FF có thể tiết kiệm bộ nhớ hơn nhiều so với backprop cổ điển, tiết kiệm tới 45% bộ nhớ cho các mạng sâu.