Google Chính Thức Công Bố Gemini - Bước Đột Phá Trong Khả Năng Trí Tuệ Nhân Tạo
Trong một bài đăng trên blog chính thức, Sundar Pichai - CEO của Google và Alphabet đã chia sẻ về đột phá mới nhất của Google trong lĩnh vực trí tuệ nhân tạo - Gemini. Đây là mô hình trí tuệ nhân tạo lớn nhất và tiên tiến nhất của công ty từ trước tới nay, Gemini hứa hẹn sẽ cách mạng hóa cách chúng ta tương tác với công nghệ và mở ra vô số khả năng cho sự đổi mới và tiến bộ.
Tầm nhìn của Sundar Pichai về trí tuệ nhân tạo
Trong một lời nhắn cá nhân, Pichai cho biết ông tin rằng sự chuyển đổi hiện tại sang trí tuệ nhân tạo sẽ là sự biến đổi công nghệ sâu sắc nhất của thời đại chúng ta. Ông nhấn mạnh tiềm năng của trí tuệ nhân tạo để tạo ra cơ hội từ những việc đơn giản đến những việc phi thường, đưa vào làn sóng đổi mới và tiến bộ kinh tế trên quy mô chưa từng có.
"Mỗi sự chuyển đổi công nghệ đều là cơ hội để thúc đẩy khám phá khoa học, tăng tốc tiến bộ nhân loaijt và cải thiện cuộc sống," Pichai nói. "Tôi tin rằng sự chuyển đổi mà chúng ta đang chứng kiến ngay bây giờ với trí tuệ nhân tạo sẽ là sự biến đổi sâu sắc nhất trong đời chúng ta."
Giới thiệu Gemini: Game-Changer
Theo Demis Hassabis, CEO và Đồng sáng lập của Google DeepMind, Gemini là kết quả của nhiều năm nỗ lực hợp tác trên các đội ngũ khác nhau của Google, bao gồm Google Research. Thiết kế để trở thành mô hình trí tuệ nhân tạo phổ quát và có khả năng tân tiến nhất từ trước đến nay, Gemini là một mô hình Trí tuệ nhân tạo đa thể thức (Multimodal AI), có khả năng hiểu và hoạt động mượt mà trên các loại thông tin khác nhau, bao gồm văn bản, mã, âm thanh, hình ảnh và video.
"Cảm giác Trí tuệ nhân tạo sẽ ít giống như một phần mềm thông minh mà thay vào đó là một thứ gì đó hữu ích và trực quan - một trợ lý hay một chuyên gia," Hassabis giải thích.
Ba phiên bản của Gemini: Ultra, Pro và Nano
Mô hình Gemini 1.0 có ba kích thước được tối ưu hóa, phục vụ cho nhiều nhiệm vụ khác nhau:
- Gemini Ultra: Mô hình lớn nhất và có khả năng nhất cho các nhiệm vụ phức tạp.
- Gemini Pro: Mô hình tốt nhất để mở rộng quy mô trên một loạt các nhiệm vụ.
- Gemini Nano: Mô hình hiệu quả nhất cho các nhiệm vụ trên thiết bị.
Chatbot của Google, Bard, đã trở nên hấp dẫn hơn khi tích hợp mô hình mới Gemini Pro (mô hình bậc trung), nhằm mang đến trải nghiệm nhanh chóng và hiệu quả nhưng vẫn đảm bảo khả năng cao cho người dùng tiếng Anh ở 170 quốc gia, với kế hoạch mở rộng Gemini ra nhiều ngôn ngữ và quốc gia trong tương lai gần.
Hiệu suất tiên tiến
Hiệu suất của Gemini Ultra đã được kiểm tra và đánh giá chặt chẽ trên một loạt các bài test. Mô hình này vượt qua các mô hình hiện có (đặc biệt là GPT-4) trên 30/32 tiêu chuẩn học thuật phổ biến, cho thấy khả năng tiên tiến của mình. Đáng chú ý, Gemini Ultra đạt được điểm số 90,0% trên tiêu chuẩn Massive Multitask Language Understanding (MMLU), vượt qua các chuyên gia con người.
Khả năng lập trình tiên tiến của mô hình cũng được nhấn mạnh với khả năng hiểu, giải thích và tạo ra mã nguồn chất lượng cao trong các ngôn ngữ lập trình phổ biến.
Khả năng của các mô hình thế hệ tiếp theo
Khác với các phương pháp truyền thống đối với các mô hình Trí tuệ nhân tạo đa thể thức, Gemini được thiết kế để đa dạng hóa từ bản đầu tiên trên các phương tiện khác nhau. Tiếp cận đổi mới này cho phép Gemini dễ dàng hiểu và suy luận về các đầu vào đa dạng, nổi bật hơn so với các mô hình đa thể thức hiện có.
Suy luận tinh vi và lập trình tiên tiến
Khả năng suy luận đa dạng tinh vi của Gemini khiến nó thành thạo trong việc trích xuất thông tin từ thông tin viết và hình ảnh phức tạp. Từ việc hiểu văn bản, hình ảnh và âm thanh đồng thời, Gemini xuất sắc trong việc giải thích lý do trong các chủ đề phức tạp như toán học và vật lý.
Hơn nữa, khả năng tiên tiến của Gemini trong lập trình được thể hiện rõ ràng trong khả năng hiểu, giải thích và tạo ra mã chất lượng cao trong các ngôn ngữ lập trình phổ biến, làm cho nó trở thành mô hình nền tảng hàng đầu cho lập trình trên toàn cầu.
Đáng tin cậy, có khả năng mở rộng và hiệu quả hơn
Gemini 1.0 được đào tạo trên quy mô trên cơ sở hạ tầng tối ưu hóa trí tuệ nhân tạo của Google bằng cách sử dụng các đơn vị xử lý Tensor (TPU), đó là các thiết bị phần cứng chuyên dụng có thể thực hiện tính toán song song nhanh hơn so với CPU hoặc GPU thông thường. Điều này cho phép Gemini mở rộng mà không ảnh hưởng đến tốc độ hoặc độ chính xác.
Ngoài ra, Gemini 1.0 được tối ưu hóa cho hiệu quả bằng cách sử dụng các kỹ thuật như pruning (loại bỏ các tham số không cần thiết), quantization (giảm độ chính xác) và distillation (nén các mô hình lớn thành các mô hình nhỏ hơn). Những kỹ thuật này cho phép Gemini chạy trên các thiết bị khác nhau với tài nguyên hoặc bộ nhớ giới hạn.
Gemini vượt qua GPT-4 sẽ là tin nổi bật trong giới công nghệ vài ngày tới. Theo công bố của Deepmind, đơn vị về AI của Google, Gemini Ultra đã vượt trội hơn GPT-4 trong 30/32 đánh giá (Benchmark). Đáng chú ý là Gemini thiết lập kỷ lục về đánh giá MMLU:
"Với số điểm 90,0%, Gemini Ultra là mô hình đầu tiên vượt qua các chuyên gia con người về MMLU ((massive multitask language understanding), kết hợp 57 lĩnh vực như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra kiến thức và khả năng giải quyết vấn đề." - Sundar Pichai, CEO Google
Lưu ý là mô hình Gemini đã vượt "chuyên gia" chứ GPT-4 với số điểm 86.4% đã vượt năng lực người bình thường rồi (xem hinh).
Như vậy, điều này xác nhận lời đồn cách đây một tháng rằng Gemini đã được huấn luyện xong và đang thử nghiệm để ra mắt công chúng. Cuộc đua về AI giữa các hãng công nghệ khổng lồ như Google, Microsoft (OpenAI), Amazon, X (Twitter) vẫn đang ở giai đoạn cao trào.
Google buộc phải tung ra Gemini sớm vì nếu muộn hơn khi GPT-5 mà OpenAI đang được huấn luyện ra mắt công chúng thì thành dở hơi - người ta không công bố mô hình sau kém năng lực hơn mô hình trước!
Ngoài benchmark vượt trội và trở thành SOTA (The State of The Art) mới của Mô hình ngôn ngữ (LLM), một vài điểm chính về Gemini như sau:
- Bốn model với các kích cỡ khác nhau (Ultra, Pro và các model trên thiết bị di động Nano-1 1.8B và Nano-2 3.25B).
- Mô hình nguyên khối (dense) chứ không phải MoE (sparse) như GPT-4.
- Ultra có thể có tham số khoảng vào khoảng 1T-2T được đào tạo trên một lượng từ 20T-40T (nghìn tỷ) Tokens; Tỉ lệ Chinchilla được xác nhận trong báo cáo kỹ thuật (20:1 Hai mươi token huấn luyện trên 1 tham số).
- Đa phương thức ( Multimodality) văn bản, hình ảnh, âm thanh và video làm đầu vào): Gemini có thể nhập trực tiếp tín hiệu âm thanh ở tần số 16kHz từ các tính năng của Mô hình giọng nói phổ quát (Universal Speech Model - USM). Điều này cho phép mô hình ghi lại các sắc thái thường bị mất khi âm thanh được ánh xạ một cách đơn giản vào đầu vào văn bản. Nói cách khác, mô hình có thể nghe được âm sắc giọng nói và suy ra cảm xúc…
Bard đã được hỗ trợ bởi phiên bản Gemini Pro nhưng đáng tiếc năng lực lại không bằng GPT-4 là điều đáng nói. Phiên bản Ultra SOTA so sánh với GPT-4 được hoãn đưa vào sử dụng năm sau. Nghĩa là Google vẫn hoãn kế hoạch tung ra Gemini Ultra vào năm sau như thông báo trước đây và việc công bố này thực chất là bố cáo thiên hạ về một mô hình đã huấn luyện xong và chuyển Bard sang Gemini Pro mà thôi.
Trong một diễn biến khác, tiến sĩ Alan Thompson, chuyên gia tư vấn chiến lược về AI đã nâng mức độ thực hiện AGI (Mô hình trí tuệ tổng quát) từ 56 điểm lên 61 điểm trên 100 (xem hình).
Với đà này, chúng ta có AGI trong 1 đến 2 năm nữa?