Nhắc nhở Chuỗi Tư duy (CoT) là một phương pháp nhắc nhở được phát triển gần đây, khuyến khích LLM giải thích lý do của nó. Hình 1 bên dưới hiển thị một vài lời nhắc tiêu chuẩn (trái) so với một chuỗi suy nghĩ (phải).
Ý tưởng chính của CoT là bằng cách hiển thị cho LLM một số mẫu làm trong đó quy trình suy luận được giải thích trong các mẫu, LLM cũng sẽ hiển thị quy trình lý luận khi trả lời lời nhắc. Cách giải thích lý luận này thường dẫn đến kết quả chính xác hơn.
Dưới đây là một vài bản demo. Hình đầu tiên cho thấy GPT-3 (davinci-003) không giải được một bài toán chữ đơn giản. Phần thứ hai cho thấy GPT-3 (davinci-003) giải quyết thành công vấn đề tương tự bằng cách sử dụng lời nhắc CoT.
Cách nào nhanh hơn để đi làm?
Lựa chọn 1: Đi xe buýt 1000 phút, sau đó đi tàu nửa giờ và cuối cùng là đạp xe 10 phút.
Lựa chọn 2: Đi xe buýt 800 phút, sau đó đi tàu một giờ và cuối cùng là đạp xe 30 phút.
Lựa chọn 1 là cách nhanh hơn để đi làm.
Đường nào về nhà nhanh hơn?
Lựa chọn 1: Đi xe buýt 10 phút, sau đó đi xe buýt 40 phút và cuối cùng là đi tàu 10 phút.
Lựa chọn 2: Đi tàu 90 phút, sau đó đạp xe 45 phút và cuối cùng là xe buýt 10 phút.
Lựa chọn 1 sẽ mất 10+40+10 = 60 phút.
Lựa chọn 2 sẽ mất 90+45+10=145 phút.
Vì Lựa chọn 1 mất 60 phút và Lựa chọn 2 mất 145 phút nên Lựa chọn 1 nhanh hơn.
Cách nào nhanh hơn để đi làm?
Lựa chọn 1: Đi xe buýt 1000 phút, sau đó đi tàu nửa giờ và cuối cùng là đạp xe 10 phút.
Lựa chọn 2: Đi xe buýt 800 phút, sau đó đi tàu một giờ và cuối cùng là đạp xe 30 phút.
Lựa chọn 1 sẽ mất 1000+30+10 = 1040 phút.
Lựa chọn 2 sẽ mất 800+60+30 = 890 phút.
Vì Lựa chọn 2 mất 890 phút và Lựa chọn 1 mất 1040 phút nên Lựa chọn 2 nhanh hơn.
CoT đã được chứng minh là có hiệu quả trong việc cải thiện kết quả của các nhiệm vụ như nhiệm vụ lý luận số học, thông thường và ký hiệu. Đặc biệt, nhắc nhở PaLM 540B đạt được tỷ lệ giải quyết chính xác 57% trên GSM8K (SOTA vào thời điểm đó).
Điều quan trọng, CoT chỉ mang lại hiệu suất tăng khi được sử dụng với các mô hình có tham số ∼ 100B. Các mô hình nhỏ hơn viết ra những chuỗi suy nghĩ phi logic, dẫn đến độ chính xác kém hơn so với cách nhắc nhở tiêu chuẩn. Các mô hình thường nhận được mức tăng hiệu suất nhờ lời nhắc CoT theo cách tỷ lệ thuận với kích thước của mô hình.
Điều này dựa vào việc nhận thấy rằng bằng cách thêm từ “Hãy suy nghĩ từng bước.” vào cuối câu hỏi, LLM có thể tạo ra một chuỗi suy nghĩ để trả lời câu hỏi. Từ chuỗi suy nghĩ này, họ có thể rút ra những câu trả lời chính xác hơn.
Câu lệnh Hãy suy nghĩ từng bước cũng có hiệu quả trong việc cải thiện kết quả trong các nhiệm vụ lý luận số học, thông thường và biểu tượng. Tuy nhiên, không có gì ngạc nhiên khi nó thường không hiệu quả bằng việc nhắc nhở CoT. Một trường hợp sử dụng quan trọng của Hãy suy nghĩ từng bước là khi khó có được một vài ví dụ để nhắc nhở CoT.
Thử nghiệm một số lời nhắc khác nhau (ví dụ: “Hãy giải quyết vấn đề này bằng cách chia nó thành các bước.” hoặc “Hãy suy nghĩ về điều này một cách logic.“), nhưng kết quả nhận thấy rằng “Hãy suy nghĩ từng bước” là tốt nhất hiệu quả cho nhiệm vụ đã lựa chọn.
Ngoài ra, việc hiệu quả tốt hơn, vẫn có tác dụng phụ là kết quả lâu hơn. Và ngữ cảnh giải thích đôi khi khá dài khi cho ra kết quả cuối cùng.