200 Sáng Tạo Nổi Bật Năm 2023: Bước Đi Vượt Bậc Trong Thế Giới Công Nghệ

Mỗi năm, sự phát triển không ngừng của khoa học và công nghệ đưa ra những sáng tạo độc đáo và ấn tượng. Năm 2023 không là một ngoại lệ và đã chứng kiến sự ra đời của hàng trăm dự án đáng chú ý trên khắp thế giới. Dưới đây là danh sách 14 dự án về Trí tuệ Nhân tạo (AI) trong 200 dự án đổi mới sáng tạo mà chúng ta hy vọng sẽ thúc đẩy tiến bộ công nghệ trong tương lai.

Chúng tôi sẽ lần lượt chia sẻ với các bạn về các dự án này để cùng hình dung về cuộc cách mạng thực sự trong công nghệ:

1. Photo Editing Outside the Box: Adobe Photoshop - Công Cụ Trí Tuệ Nhân Tạo Độc Đáo

Trong năm 2023, Adobe đã mang đến cho hàng triệu người khả năng sử dụng trí tuệ nhân tạo thông qua ứng dụng chỉnh sửa ảnh phổ biến nhất thế giới: Adobe Photoshop. Sử dụng Firefly, công cụ tạo hình ảnh dựa trên trí tuệ nhân tạo của Adobe, Photoshop hiện đã tích hợp các tính năng Generative Expand và Generative Fill. Hai tính năng này cho phép người dùng thực hiện những công việc mà trước đây có thể đòi hỏi kiến thức kỹ thuật sâu hoặc nhiều giờ làm việc.

Generative Expand: Tính năng này cho phép bạn dễ dàng điền nội dung ảo vào bức ảnh vượt ra ngoài biên hình ảnh gốc. Bạn có thể mở rộng ảo tưởng và tạo ra những khung cảnh mà trước đây không thể có trong ảnh gốc.

Generative Fill: Tính năng này cho phép bạn thêm hoặc xóa các yếu tố trong một bức ảnh hiện có chỉ bằng cách nhập vài từ đơn giản. Bạn không cần kiến thức kỹ thuật đặc biệt để thực hiện công việc này, mà chỉ cần nhập mô tả ngắn về điều bạn muốn thay đổi hoặc thêm vào ảnh.

Những tính năng này không chỉ tiết kiệm thời gian mà còn giúp người dùng trực quan hóa những ý tưởng và sáng tạo của họ một cách nhanh chóng. Theo lời của Ashley Still, Phó Chủ tịch cao cấp của phòng truyền thông số của Adobe, những lựa chọn này cho phép "khách hàng biến các tưởng tượng của họ thành hiện thực với tốc độ của tư duy." Điều này là một ví dụ rõ ràng về cách AI đã đánh bại rào cản kỹ thuật và giúp tạo ra những sản phẩm sáng tạo và dễ sử dụng hơn cho mọi người.

2. OpenAI GPT-4: Bước Đột Phá Mới Về Trí Tuệ Nhân Tạo

Khoảng tám tháng kể từ khi ra mắt vào tháng 3, GPT-4 của OpenAI vẫn là mô hình trí tuệ nhân tạo mạnh mẽ nhất để điều khiển một chatbot mà công chúng có thể truy cập. So với người tiền nhiệm của nó, ChatGPT, chỉ vượt qua được 10% thí sinh trong bài thi luật sư, GPT-4 đã vượt qua 90% trong cùng bài thi. GPT-4 không chỉ giỏi về lý luận ngôn ngữ mà còn có khả năng phân tích những khái niệm phức tạp thành ngôn ngữ đơn giản và thậm chí có thể giải thích tại sao một câu đùa lại hài hước.

Vào tháng 9, OpenAI đã bắt đầu triển khai khả năng tương tác với mô hình bằng giọng nói và sử dụng hình ảnh làm đầu vào. Cập nhật này, GPT-4V, đã được thử nghiệm với tổ chức Be My Eyes, một tổ chức xây dựng công cụ cho người mắc khuyết tật về thị giác, và có khả năng mô tả nội dung của hình ảnh bằng ngôn ngữ tự nhiên.

Khả năng của GPT-4 là một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo và chatbot. Không chỉ là một công cụ mạnh mẽ cho việc giao tiếp ngôn ngữ, mà còn là một cỗ máy thông minh có khả năng xử lý thông tin âm thanh và hình ảnh. Điều này mở ra nhiều ứng dụng mới trong việc giúp người khuyết tật thị giác, trong việc đào tạo, và trong việc hỗ trợ người dùng trực tiếp trong nhiều ngữ cảnh khác nhau. GPT-4 thể hiện sự tiến bộ liên tục trong lĩnh vực trí tuệ nhân tạo và hứa hẹn mang lại lợi ích to lớn cho mọi người.

3. Runway's Gen-2: Biểu tượng mới của Trí Tuệ Nhân Tạo trong Lĩnh Vực Thị Giác

Trong tháng 6, Runway - một công ty khởi nghiệp được Google hậu thuẫn và được sử dụng công cụ hiệu ứng hình ảnh của họ để tạo ra đồ họa động ấn tượng trong bộ phim đoạt giải Oscar "Everything Everywhere All At Once" - đã giới thiệu phiên bản Gen-2 của họ. Phiên bản mới này cho phép bất kỳ ai tạo ra các video hoàn chỉnh chỉ dựa trên các gợi ý văn bản, hình ảnh hoặc video khác.

Cristóbal Valenzuela, người sáng lập và CEO của Runway, so sánh công nghệ mới với sự phát minh của máy ảnh cách đây 200 năm. Ông nói, "Trí tuệ nhân tạo là một loại máy ảnh mới," và công nghệ này sẽ làm thay đổi cách chúng ta kể chuyện mãi mãi và dẫn đến sự xuất hiện của các bộ phim toàn bộ được tạo ra hoàn toàn bằng máy tính.

Runway Gen-2 đánh dấu một bước tiến đột phá trong lĩnh vực trí tuệ nhân tạo và thị giác máy tính. Khả năng tạo video từ các gợi ý văn bản, hình ảnh hoặc video trước đây là điều khó kìm lại, nhưng với sự phát triển nhanh chóng của công nghệ, nó trở nên hiện thực. Điều này sẽ có tác động lớn đến ngành công nghiệp giải trí và tạo ra cơ hội mới cho việc sáng tạo nội dung truyền hình và điện ảnh. Runway Gen-2 chứng tỏ rằng trí tuệ nhân tạo đang thay đổi cách chúng ta sáng tạo và chia sẻ câu chuyện, mở ra một tương lai đầy triển vọng trong ngành công nghiệp nghệ thuật.

4. FeaturePrint: Giải Pháp Trí Tuệ Nhân Tạo Chống Hàng Giả

Một giải pháp đối phó với vấn đề hàng giả trị giá hàng nghìn tỷ đô la có thể đơn giản như việc đưa điện thoại di động của bạn vào một chiếc đồng hồ hoặc chiếc túi xách và để phần mềm thông minh xác định tính hợp pháp của nó. FeaturePrint, một công nghệ trí tuệ nhân tạo quang học, đầu tiên "nhìn thấy" các chi tiết bề mặt nhỏ nhất của các sản phẩm vật lý và "vân tay" chúng thành các danh tính toán học duy nhất. Sau đó, nó có thể cho bạn biết liệu một món đồ có giả mạo hay thật bằng một cú nhấp chuột. "Không cần dán, nhãn, hoặc đánh dấu," theo lời của CEO Alitheon Roei Ganzarski. Một trong những khách hàng của họ là Argor-Heraeus, công ty sản xuất thanh vàng cho các ngân hàng quốc gia.

FeaturePrint đại diện cho một xu hướng quan trọng trong cuộc chiến chống hàng giả, sử dụng trí tuệ nhân tạo và công nghệ quang học để phát hiện sự giả mạo. Điều này có tiềm năng thay đổi cách mà chúng ta kiểm tra tính xác thực của các sản phẩm và tránh hàng giả. Nó không chỉ giúp bảo vệ quyền lợi của người tiêu dùng mà còn giúp bảo vệ các thương hiệu và sản phẩm của họ khỏi việc bị làm giả. FeaturePrint đang mang đến một giải pháp đột phá cho vấn đề hàng giả toàn cầu, và hứa hẹn giúp làm cho thị trường trở nên minh bạch và an toàn hơn.

5. Dedrone's City-Wide Drone Detection: Bảo Vệ Không Gian Đô Thị Khỏi Rối Loạn Của Drone

Drone có thể gây rối loạn cũng như mang lại lợi ích. Sản phẩm Dedrone City-Wide Drone Detection tạo ra một nguyên tắc bảo vệ ảo xung quanh một khu vực địa lý, cảnh báo cho cơ quan thực thi pháp luật chỉ trong vài giây nếu một drone xâm nhập vào không gian được chỉ định. Dedrone theo dõi một loạt tín hiệu độc quyền từ các drone, bao gồm tần số radio, dữ liệu ADS-B (cũng được sử dụng trong máy bay), và các bộ đèn RemoteID, để xác định vị trí của sự xâm phạm. Mary-Lou Smulders, giám đốc tiếp thị chính của công ty, so sánh nó với một hệ thống kiểm soát giao thông hàng không dành cho drone - điều mà trước đây chưa từng tồn tại. Các khách hàng bao gồm Con Edison, đang sử dụng nó để bảo vệ cơ sở hạ tầng của họ; lực lượng cảnh sát của Barcelona; và một số sân bay không được tiết lộ số lượng.

Dedrone City-Wide Drone Detection đại diện cho một giải pháp quan trọng trong việc quản lý và kiểm soát hoạt động của drone trong môi trường đô thị. Việc theo dõi và phát hiện sớm drone có thể giúp đảm bảo an ninh và bảo vệ cơ sở hạ tầng quan trọng, cũng như tránh nguy cơ xâm nhập và sử dụng trái phép của drone. Điều này có ý nghĩa lớn đối với các tổ chức và cơ quan chức năng như cơ quan điện lực, cảnh sát địa phương và các sân bay, giúp họ quản lý an ninh và an toàn của các khu vực quan trọng trong thành phố một cách hiệu quả hơn.

6. Meta's SeamlessM4T AI Model: Trình Dịch Ngôn Ngữ Vượt Bậc Như Babel Fish

Meta so sánh mô hình trí tuệ nhân tạo SeamlessM4T của họ với Babel Fish, trình dịch ngôn ngữ phổ biến trong "The Hitchhiker's Guide to the Galaxy." Phần mềm của công ty có khả năng hiểu gần 100 ngôn ngữ từ cả lời nói và văn bản, và có khả năng dịch ngay lập tức giữa chúng ở nhiều định dạng khác nhau - từ lời nói sang lời nói, từ văn bản sang văn bản, từ lời nói sang văn bản hoặc từ văn bản sang lời nói. Ngoài việc làm việc với nhiều ngôn ngữ hơn so với các sản phẩm tiền nhiệm, hệ thống này còn hiệu quả hơn và ít gặp lỗi hơn, theo Meta - và nó thậm chí có thể giải mã nhiều ngôn ngữ kết hợp trong cùng một câu.

Việc giới thiệu Meta's SeamlessM4T là một bước tiến quan trọng trong việc giao tiếp và hiểu ngôn ngữ trong thế giới đa ngôn ngữ của chúng ta. Nó không chỉ giúp giao tiếp hiệu quả trong thương mại và giao tiếp cá nhân, mà còn có tiềm năng tạo ra cơ hội mới trong lĩnh vực nghiên cứu, giáo dục, và văn hóa. Việc Meta phát hành mô hình này dưới dạng mã nguồn mở cũng cho phép các nhà nghiên cứu trên khắp thế giới sử dụng mã nguồn của nó để phát triển và tùy chỉnh các ứng dụng dịch ngôn ngữ, mở rộng sức mạnh của công nghệ này và đem lại lợi ích cho mọi người.

7. Ghostwriter and So-VITS-SVC: Cách Sáng Tạo Âm Nhạc Mới Với Trí Tuệ Nhân Tạo

Trước đây trong năm nay, một người sáng tạo vô danh tự gọi mình là Ghostwriter đã tạo nên sự xôn xao với bản nhạc mang tựa đề "Heart on My Sleeve," trong đó có sử dụng giọng ca được tạo ra bằng trí tuệ nhân tạo mà nghe như Drake và The Weeknd. (Bản nhạc này sau đó bị gỡ bỏ khỏi các dịch vụ phát trực tuyến hợp pháp, nhưng không trước khi trở nên phổ biến trên mạng.) Các giọng ca này được tạo ra bằng phần mềm mã nguồn mở được biết đến với tên gọi So-VITS-SVC, cho phép những người có kiến thức về công nghệ huấn luyện một mạng thần kinh dựa trên giọng ca của một ca sĩ và sau đó sản xuất bất kỳ bài hát nào bằng giọng ca do trí tuệ nhân tạo tạo ra.

Những người yêu thích âm nhạc đã bắt đầu trao đổi các mô hình giọng ca - từ Bad Bunny đến Taylor Swift và James Hatfield - trong cộng đồng trên nền tảng Discord. Trong khi đó, các trang web thân thiện với người dùng sử dụng phần mềm này đã nảy mầm và trở nên phổ biến.

Ghostwriter và So-VITS-SVC đại diện cho một sự thay đổi quan trọng trong cách chúng ta tạo âm nhạc và sáng tác bài hát. Trí tuệ nhân tạo giúp cho việc tạo ra giọng ca và âm nhạc trở nên dễ dàng và linh hoạt hơn bao giờ hết. Tuy nhiên, điều này cũng đặt ra nhiều câu hỏi về bản quyền âm nhạc và vấn đề về đạo đức trong việc sử dụng giọng ca được tạo ra bằng trí tuệ nhân tạo trong âm nhạc thương mại.

8. AlertCalifornia: Sử Dụng Trí Tuệ Nhân Tạo để Phát Hiện Rừng Cháy Sớm

Phát hiện rừng cháy trước khi chúng lan ra là một thách thức hiện nay ảnh hưởng nhiều địa phương trên khắp thế giới. Chương trình an toàn công cộng AlertCalifornia tại Đại học California San Diego đã sử dụng trí tuệ nhân tạo để giúp giải quyết vấn đề này. Hợp tác với Cal Fire, chương trình đã huấn luyện trí tuệ nhân tạo để phát hiện khói và các dấu hiệu sớm khác của hỏa hoạn trên hình ảnh từ mạng lưới hơn 1.050 camera đặt trong các khu rừng trải dài trên toàn bang California. Khi hệ thống phát hiện điều gì đó bất thường, nó gửi tin nhắn văn bản thông báo tới phòng cứu hỏa địa phương. Trong hai tháng đầu tiên, hệ thống đã xác định chính xác 77 vụ cháy trước khi có cuộc gọi 911 nào được thực hiện. "Câu chuyện thành công lớn nhất của hệ thống này là những vụ cháy mà bạn không bao giờ nghe về chúng," theo lời của Falco Kuester, cộng tác viên chính tại AlertCalifornia.

AlertCalifornia đại diện cho một ứng dụng quan trọng của trí tuệ nhân tạo trong việc đảm bảo an toàn và bảo vệ môi trường. Sử dụng trí tuệ nhân tạo để phát hiện rừng cháy sớm giúp giảm thiểu thời gian đáp ứng và làm tăng khả năng giữ cho những người dân sống trong các khu vực rừng nguy hiểm tránh được những thảm họa. Điều này thể hiện rõ sự tiềm năng của trí tuệ nhân tạo trong việc giải quyết các vấn đề quan trọng của xã hội và môi trường.

9. Stable Audio by Stability AI: Sáng Tạo Âm Thanh Bằng Trí Tuệ Nhân Tạo

Với sức mạnh của trí tuệ nhân tạo tạo ra bởi Stability AI, Stable Audio có khả năng tạo ra gần như bất kỳ âm thanh hoặc bài hát nào bạn muốn chỉ với vài gợi ý văn bản đơn giản. (Ví dụ, việc nhập "âm thanh techno không gian, máy trống, yên bình, nhạc cụ" đã tạo ra một bản nhạc new age thư giãn, phù hợp với một quán lounge thời thượng.) Mô hình này được huấn luyện trên một tập dữ liệu từ một trang web cung cấp âm thanh có bản quyền (nên hoàn toàn hợp pháp), bao gồm hơn 800.000 tệp âm thanh, tổng cộng lên đến 20.000 giờ, và có thể được sử dụng cho cả dự án chuyên nghiệp và dự án tự tạo.

Stable Audio by Stability AI đại diện cho một tiến bộ quan trọng trong việc sáng tạo âm nhạc và âm thanh. Trí tuệ nhân tạo đã mở ra cơ hội cho người sáng tạo âm nhạc cả chuyên nghiệp lẫn không chuyên có thể tạo ra âm thanh và bản nhạc một cách nhanh chóng và dễ dàng, chỉ qua một số gợi ý văn bản. Điều này có thể tạo ra nhiều ứng dụng trong lĩnh vực sản xuất âm nhạc, quảng cáo, và nhiều lĩnh vực sáng tạo khác, mở rộng tầm tưởng tượng và khả năng của người sáng tạo.

10. TrailGuard AI: Sử Dụng Trí Tuệ Nhân Tạo để Bảo Vệ Động Vật Nguy Cấp

Ở một số khu vực tại Ấn Độ và châu Phi, việc săn bắn trái phép vẫn là mối đe dọa lớn nhất đối với loài voi và các loài mèo lớn, ngay cả trong các khu vực được bảo vệ. TrailGuard AI, một hệ thống được tạo ra bởi Resolve, một tổ chức môi trường có trụ sở tại Hoa Kỳ, sử dụng các máy ảnh nhỏ, được cung cấp công nghệ bởi Intel, để theo dõi các loài nguy cấp và phát hiện người săn bắn trái phép. Hệ thống sử dụng tín hiệu di động hoặc tín hiệu radio từ xa để truyền tải hình ảnh đến điện thoại của các cơ quan chức năng chỉ trong vòng 30 giây. Các mô hình trí tuệ nhân tạo tùy chỉnh của TrailGuard có thể được huấn luyện để phát hiện không chỉ con người mà còn bất kỳ loài động vật nào có giá trị quan tâm, từ hổ đến linh dương. Công nghệ này đã dẫn đến sự bắt giữ của hơn 30 tay săn trái phép trong giai đoạn thử nghiệm tại Đông Phi, và hiện đang được thử nghiệm trên diện rộng tại vùng Trung Ấn Độ nơi số lượng hổ rất đông.

TrailGuard AI là một ví dụ tuyệt vời về cách trí tuệ nhân tạo và công nghệ có thể được sử dụng để bảo vệ các loài động vật quý báu và nguy cấp khỏi săn bắn trái phép. Việc sử dụng máy ảnh và trí tuệ nhân tạo để phát hiện hoạt động săn bắn trái phép giúp nhanh chóng phát hiện và ngăn chặn những người săn bắn trái phép và bảo vệ các loài động vật quý báu.

11. DALL-E 3 by OpenAI: Cuộc Cách Mạng Mới Trong Tạo Hình Ảnh với Trí Tuệ Nhân Tạo

Khi OpenAI phát hành ChatGPT vào thế giới vào tháng 11, họ đã thay đổi một cách đáng kể cảnh quan trí tuệ nhân tạo. Công ty hy vọng DALL-E 3 - phiên bản mới và cải tiến rất nhiều của trình tạo hình ảnh trí tuệ nhân tạo của họ - sẽ có cùng tác động. Theo Aditya Ramesh của OpenAI, nhà phát minh của DALL-E 3, các trình tạo hình ảnh trước đây đòi hỏi phải học một ngôn ngữ kỹ thuật mới, bao gồm việc thêm chuỗi văn bản với dấu trừ và số để có được kết quả tốt nhất. Tuy nhiên, với DALL-E 3, việc này không còn cần thiết, bởi nó tích hợp vào ChatGPT, cho phép người dùng nhập các lệnh trò chuyện và nhận được một hình ảnh phù hợp với mô tả của họ.

DALL-E 3 đại diện cho một sự tiến bộ quan trọng trong lĩnh vực tạo hình ảnh và sáng tạo nội dung với trí tuệ nhân tạo. Việc làm cho việc tạo hình ảnh trở nên dễ dàng và trực quan hơn có tiềm năng mở ra rất nhiều ứng dụng trong việc tạo hình ảnh, thiết kế, và nhiều ngành khác. Điều này cũng giúp rút ngắn khoảng cách giữa người sử dụng không chuyên về công nghệ và khả năng sáng tạo với trí tuệ nhân tạo.

12. Open Audiobook Collection: Biên Soạn Sách Nói Từ Các Sách Kỹ Thuật Nhân Tạo

Project Gutenberg là thư viện số lâu đời nhất, bắt đầu vào năm 1971 nhằm làm cho sách điện tử trở nên dễ tiếp cận hơn. Tuy nhiên, Giám đốc điều hành Greg Newby cho biết rằng nó "không xuất sắc trong việc tạo ra hoặc phân phối sách." Vì vậy, Microsoft và MIT đã hợp tác để tạo ra Bộ sưu tập Sách nói Mở, sử dụng công nghệ chuyển đổi văn bản thành giọng đọc tổng hợp miễn phí từ 5.000 cuốn sách, hiện đã có sẵn trên Spotify. Phần mềm hỗ trợ dự án này cũng đã được phát hành miễn phí.

13. AudioShake: Biểu Tượng Trí Tuệ Nhân Tạo cho Xử Lý Âm Thanh

Khi một trong những ban nhạc rock lớn nhất gần đây ký kết một hợp đồng để sử dụng ca khúc hit của họ từ những năm 1970 trong một quảng cáo, các thành viên của ban nhạc đều hết sức phấn khích. Tuy nhiên, có một vấn đề: các nhà quảng cáo chỉ muốn sử dụng phần nhạc cụ, và tất cả những gì ban nhạc có là phiên bản mix cuối cùng. Vì vậy, đội ngũ của ban nhạc đã tiếp cận AudioShake, một chương trình trí tuệ nhân tạo cô lập các yếu tố âm thanh đã được ghi trước để tách nó thành các phần cấu thành. "Chúng tôi biến âm thanh trở nên tương tác và có thể chỉnh sửa và làm cho nó có thể phục vụ những ứng dụng thực tế giúp các nghệ sĩ kiếm tiền," theo lời của đồng sáng lập và CEO Jessica Powell.

AudioShake đại diện cho một sự tiến bộ quan trọng trong việc xử lý âm thanh và âm nhạc bằng trí tuệ nhân tạo. Công nghệ này có khả năng trích xuất và phân loại các phần của âm thanh từ tệp gốc, giúp người sáng tạo âm nhạc, biên tập âm thanh và các nghệ sĩ sử dụng lại âm thanh một cách linh hoạt và hiệu quả. Điều này không chỉ giúp tạo ra sáng tạo mới mà còn mở ra cơ hội trong việc sáng tạo âm nhạc và âm thanh trong nhiều lĩnh vực khác nhau.

14. Humane Ai Pin: Trợ Lý Cá Nhân Trí Tuệ Nhân Tạo Thế Hệ Mới

Hai cựu giám đốc điều hành của Apple, người đã khởi đầu dự án Humane*, đang hình dung một tương lai không có màn hình, và Ai Pin là bước đầu tiên của họ. Khi chiếc Ai Pin siêu nhẹ của Humane* được gắn vào áo quần của bạn bằng cách sử dụng nam châm, nó trở thành trợ lý cá nhân được trang bị trí tuệ nhân tạo của bạn. Sử dụng một sự kết hợp giữa phần mềm độc quyền và GPT của OpenAI, thiết bị này cho phép bạn làm mọi thứ, từ đặt câu hỏi phức tạp đến thực hiện cuộc gọi và gửi tin nhắn, tất cả chỉ bằng giọng nói của bạn. Đồng thời, một máy ảnh tích hợp có thể nhận biết các đối tượng và cung cấp thông tin bối cảnh, chẳng hạn như ước tính lượng calo cho một loại thức phẩm. Một chỉ báo quyền riêng tư nổi bật được gọi là "Đèn Tin Cậy" sẽ bật khi máy ảnh, microphone hoặc các cảm biến đang hoạt động để đảm bảo rằng tất cả mọi người xung quanh biết khi nó đang lắng nghe hoặc ghi âm. Và nếu bạn cần hình ảnh, một máy chiếu nhỏ sẽ phát chúng thẳng vào lòng bàn tay bạn khi bạn duỗi tay ra. Pin dự kiến sẽ ra mắt vào ngày 9 tháng 11.

Theo Time.com