Kinh nghiệm dạy học

Gemini Ultra chưa đưa ra sử dụng đã bị truất ngôi đầu bảng

KaroEducationKaroEducation
Thursday 14/12/2023 - 08:48
Featured blog post

Tuần trước, mọi người đang háo hức về việc Gemini Ultra vượt qua GPT-4 trong 30 trên 32 benchmark nhưng quan trọng nhất là benchmark MMLU đạt 90.04 điểm trên 100. MMLU là đánh giá uy tínsử dụng tổ hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề, các câu hỏi rất khó đòi hỏi sự suy luận chứ không chỉ vào khả năng thuộc bài. Tranh chấp MML quan trọng là vi thế. Bạn hơn được chỉ số MML xem như vượt trội (outperform) và 30 chỉ số kia cũng chỉ để tham khảo. Kiểu như bạn xuất sắc môn toán còn các môn kia như văn, thể dục, vẽ, giáo dục công dân, kinh tế chính trị, lịch sử Đảng kém tý cũng không sao.

May be an image of text that says "Benchmark MMLU GPT Prompt GSM8K Mdpompt+ GPT-4 Results MATH Zero-shot 90.10% Gemini Ultra Results HumanEval Zero-shot 95.27% 90.04% Zero-shot BIG-Bench-Hard 68.42% 94.4% DROP 87.8% Few-shot+ CoT* 53.2% HellaSwag 89.0% Zero-shot CoT 74.4% 10-shot** 83.7% 83.6% 82.4% 95.3%** *followed the norm fevaluations and used standard few-shot examples from dataset creators source: Google 87.8% Table 1:Model, strategies, and results"

Nhưng hôm qua, Microsoft đã lật ngược thế cờ khi công bố Medprompt, là kỹ thuật Prompt Engineering để vượt lên trên Gemini Ultra với 90.1 điểm.

Gemini Ultra chưa đưa vào sử dụng, Google mới chỉ giới thiệu phiên bản Gemini Pro cho sản phẩm chat Google Bard và hoãn sự ra mắt công chúng Ultra vào năm sau. Như thế Gemini Ultra chưa kịp ra mắt đã bị truất ngôi đầu bảng. Google ở vào thế tréo ngoe.

Nhưng các chuyên gia như Boris Power (OpenAI), Aravind Srinivas - Co-founder, CEO - Perplexity lại thấy khá buồn cười với cái gọi là @31 shots CoT, @32.

Những kỹ thuật gây hoang mang mọi người kia là thế nào?

Như chúng ta đã biết một mô hình ngôn ngữ lớn (LLM) sau khi huấn luyện thì các tham số (hàng tỷ) đã bị "đông cứng" (frozen) và không thay đổi, quá trình học xem như đã xong. Chúng ta đặt câu hỏi và lời nhắc, con Chatbot dựa trên LLM này sẽ cung cấp các phán đoán dựa vào các dữ liệu đã được huấn luyện. Và nó không thể trả lời những thứ liên quan đến sự kiện sau khi huấn luyện.

May be a graphic of text

Người ta đã tìm cách khắc phục bằng cái gọi là In-Context Learning. Cho phép nó học ngay trong ngữ cảnh bằng cách đưa vào các ví dụ mẫu.

Rồi người ta còn hướng dẫn nó cách lập luận bằng Chain of Thought (CoT).

1. Đưa vào 1 ví dụ mẫu (One-shot CoT)

Q: Bạn có 5 quả táo, bạn cho Hằng 2 quả táo. Sau đó bạn mua thêm 3 quả nữa. Hỏi bạn có mấy quả

A: Bạn có 5 quả táo, bạn cho Hằng 2 quả, bạn còn 5-2= 3 quả.

Sau đó bạn mua 3 quả thì số táo bạn có là 3+3= 6 quả.

Q: Bạn có 2 viên bi, bạn làm mất một viên bi, lát sau bạn tìm lại được viên bi đã mất. Hỏi bạn có mấy viên bi?

A:

2. Đưa vào 2 mẫu thí dụ để lập luận (Two-Shot CoT):

Q: Tác giả đã viết cuốn sách 'Giết con chim nhại'? sống ở đâu?"

A: "Tác giả của 'Giết con chim nhại' là Harper Lee"

"Harper Lee sinh ra ở Monroeville, Alabama."

Trong CoT hai lần cho Q&A, mô hình cần sử dụng hai thông tin này để trả lời chính xác câu hỏi.

3. Đưa vào nhiều mẫu ví dụ (CoT@n-shot)

Thường người ta đưa ra 5 mẫu ví dụ (CoT@5) và như thế là khá nhiều với một người bình thường. Đưa ra 5 suy luận cho một giải pháp, nước đi.

Đằng này để vượt GPT-4, anh DeepMind của Google đã sử dụng đến 32-shots! (CoT@32) đưa vào 32 bước lập luận để hỗ trợ Gemini Ultra trong việc trả lời các câu hỏi đánh giá MMLU.

Thế là một cuộc đưa benchmark đã xảy ra. Lần này, Microsoft với chiến thuật tương tự đã thực hiện lại thành tích với 32 shot ( Medprompt+@31, ít hơn Google 1 shot, để giành lại ngôi vương.

KaroEducation

Về tác giả

KaroEducation hướng đến mục tiêu đem lại sự đột phá và cách mạng công nghệ cho các doanh nghiệp, học viên. Thông qua việc hướng dẫn và tư vấn sẽ giúp các khách hàng hiểu rõ hơn về tiềm năng của các công nghệ mới như Trí tuệ nhân tạo (AI), Internet of Things (IoT), blockchain và máy học (Machine Learning). Đồng thời, công ty cũng đảm bảo rằng khách hàng biết cách tích hợp những công nghệ này vào quy trình kinh doanh của họ để tối đa hóa lợi ích và tăng cường độ cạnh tranh trong thị trường ngày càng khốc liệt

Bài viết nổi bật

© Karo Education - NỀN TẢNG CUNG CẤP CÁC KHÓA HỌC ONLINE