Gemini Ultra chưa đưa ra sử dụng đã bị truất ngôi đầu bảng
Tuần trước, mọi người đang háo hức về việc Gemini Ultra vượt qua GPT-4 trong 30 trên 32 benchmark nhưng quan trọng nhất là benchmark MMLU đạt 90.04 điểm trên 100. MMLU là đánh giá uy tínsử dụng tổ hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề, các câu hỏi rất khó đòi hỏi sự suy luận chứ không chỉ vào khả năng thuộc bài. Tranh chấp MML quan trọng là vi thế. Bạn hơn được chỉ số MML xem như vượt trội (outperform) và 30 chỉ số kia cũng chỉ để tham khảo. Kiểu như bạn xuất sắc môn toán còn các môn kia như văn, thể dục, vẽ, giáo dục công dân, kinh tế chính trị, lịch sử Đảng kém tý cũng không sao.
Nhưng hôm qua, Microsoft đã lật ngược thế cờ khi công bố Medprompt, là kỹ thuật Prompt Engineering để vượt lên trên Gemini Ultra với 90.1 điểm.
Gemini Ultra chưa đưa vào sử dụng, Google mới chỉ giới thiệu phiên bản Gemini Pro cho sản phẩm chat Google Bard và hoãn sự ra mắt công chúng Ultra vào năm sau. Như thế Gemini Ultra chưa kịp ra mắt đã bị truất ngôi đầu bảng. Google ở vào thế tréo ngoe.
Nhưng các chuyên gia như Boris Power (OpenAI), Aravind Srinivas - Co-founder, CEO - Perplexity lại thấy khá buồn cười với cái gọi là @31 shots CoT, @32.
Những kỹ thuật gây hoang mang mọi người kia là thế nào?
Như chúng ta đã biết một mô hình ngôn ngữ lớn (LLM) sau khi huấn luyện thì các tham số (hàng tỷ) đã bị "đông cứng" (frozen) và không thay đổi, quá trình học xem như đã xong. Chúng ta đặt câu hỏi và lời nhắc, con Chatbot dựa trên LLM này sẽ cung cấp các phán đoán dựa vào các dữ liệu đã được huấn luyện. Và nó không thể trả lời những thứ liên quan đến sự kiện sau khi huấn luyện.
Người ta đã tìm cách khắc phục bằng cái gọi là In-Context Learning. Cho phép nó học ngay trong ngữ cảnh bằng cách đưa vào các ví dụ mẫu.
Rồi người ta còn hướng dẫn nó cách lập luận bằng Chain of Thought (CoT).
1. Đưa vào 1 ví dụ mẫu (One-shot CoT)
Q: Bạn có 5 quả táo, bạn cho Hằng 2 quả táo. Sau đó bạn mua thêm 3 quả nữa. Hỏi bạn có mấy quả
A: Bạn có 5 quả táo, bạn cho Hằng 2 quả, bạn còn 5-2= 3 quả.
Sau đó bạn mua 3 quả thì số táo bạn có là 3+3= 6 quả.
Q: Bạn có 2 viên bi, bạn làm mất một viên bi, lát sau bạn tìm lại được viên bi đã mất. Hỏi bạn có mấy viên bi?
A:
2. Đưa vào 2 mẫu thí dụ để lập luận (Two-Shot CoT):
Q: Tác giả đã viết cuốn sách 'Giết con chim nhại'? sống ở đâu?"
A: "Tác giả của 'Giết con chim nhại' là Harper Lee"
"Harper Lee sinh ra ở Monroeville, Alabama."
Trong CoT hai lần cho Q&A, mô hình cần sử dụng hai thông tin này để trả lời chính xác câu hỏi.
3. Đưa vào nhiều mẫu ví dụ (CoT@n-shot)
Thường người ta đưa ra 5 mẫu ví dụ (CoT@5) và như thế là khá nhiều với một người bình thường. Đưa ra 5 suy luận cho một giải pháp, nước đi.
Đằng này để vượt GPT-4, anh DeepMind của Google đã sử dụng đến 32-shots! (CoT@32) đưa vào 32 bước lập luận để hỗ trợ Gemini Ultra trong việc trả lời các câu hỏi đánh giá MMLU.
Thế là một cuộc đưa benchmark đã xảy ra. Lần này, Microsoft với chiến thuật tương tự đã thực hiện lại thành tích với 32 shot ( Medprompt+@31, ít hơn Google 1 shot, để giành lại ngôi vương.