ViGen cung cấp dữ liệu AI tiếng Việt mở, miễn phí cho cộng đồng

Trong bối cảnh trí tuệ nhân tạo (AI) đang định hình lại mọi mặt đời sống, việc sở hữu một nguồn tài nguyên dữ liệu chất lượng cao, đặc biệt là ngôn ngữ bản địa, trở thành yếu tố then chốt quyết định sự thành công và khả năng cạnh tranh của một quốc gia. Tại Việt Nam, thách thức lớn nhất nằm ở sự thiếu hụt dữ liệu tiếng Việt chuẩn, mở và đủ lớn để huấn luyện các mô hình AI. Các mô hình ngôn ngữ lớn (LLM) quốc tế hiện nay, dù mạnh mẽ, nhưng lại chứa phần lớn là tiếng Anh, với tiếng Việt chỉ chiếm chưa đến 1%, khiến chúng gặp khó khăn trong việc hiểu sâu sắc văn hóa và sắc thái ngôn ngữ của người Việt.

Nhận thức được thực trạng này, dự án ViGen đã ra đời với sứ mệnh mang tính đột phá: xây dựng và cung cấp một bộ dữ liệu tiếng Việt mở, miễn phí cho toàn cộng đồng. Đây không chỉ là một kho dữ liệu đơn thuần mà còn là nền tảng vững chắc để thúc đẩy ứng dụng và phát triển AI tại Việt Nam, hướng tới các giải pháp “Made in Vietnam” thực sự am hiểu người Việt và có khả năng vươn ra toàn cầu. Với tinh thần “người dùng là trên hết”, ViGen cam kết tạo ra một môi trường mở, nơi mọi nhà nghiên cứu, nhà phát triển và doanh nghiệp đều có thể tiếp cận và khai thác tối đa tiềm năng của AI.

ViGen: Nền tảng dữ liệu mở mở đường cho trí tuệ nhân tạo Việt

Tại hội thảo quan trọng trong khuôn khổ Ngày hội Đổi mới sáng tạo Quốc gia 2025, diễn ra vào ngày 2/10 tại Hòa Lạc (Hà Nội), dự án ViGen đã chính thức công bố Vi-Primer 1.0 – bộ dữ liệu mở tiền huấn luyện (pre-training) được đánh giá là bộ dữ liệu tiếng Việt lớn nhất tính đến thời điểm hiện tại. Ông Vũ Xuân Sơn, Giám đốc công nghệ dự án, chia sẻ rằng nhóm đã thu thập một kho dữ liệu thô khổng lồ với 150 tỷ token từ nhiều nguồn mở và sẵn có trên mạng. Qua quy trình xử lý, phân loại và tinh lọc nghiêm ngặt, ViGen đã tạo ra một bộ dữ liệu chất lượng cao chứa 50 tỷ token, sẵn sàng cho việc huấn luyện các mô hình AI. Điều đặc biệt là bộ dữ liệu này được phát hành theo giấy phép ODC-By 1.0, cho phép cộng đồng tự do sử dụng, chia sẻ và phát triển cho mọi mục đích, kể cả thương mại, với điều kiện có ghi nhận nguồn gốc rõ ràng.

Sự ra đời của bộ dữ liệu tiếng Việt chất lượng cao và có tính “mở” như ViGen mang ý nghĩa vô cùng to lớn, giải quyết trực tiếp những hạn chế của các mô hình AI quốc tế khi xử lý tiếng Việt. Ông Sơn đã đưa ra ví dụ điển hình về việc các công cụ AI nước ngoài như ChatGPT thường trả lời theo thông tin cũ, không cập nhật khi được hỏi về số lượng tỉnh thành của Việt Nam sau sáp nhập. ViGen chính là lời giải cho bài toán này, giúp các dự án xây dựng công cụ AI tiếng Việt chính xác, hoạt động tốt và thực sự am hiểu bối cảnh địa phương dành riêng cho người Việt.

Để đảm bảo chất lượng và khả năng ứng dụng của các mô hình AI, ViGen cũng đã giới thiệu 5 khung đánh giá toàn diện. Các khung này được xây dựng trên 4.020 mẫu, kiểm tra AI trên nhiều phương diện quan trọng như:

  • Kiến thức chuyên sâu: Đánh giá khả năng hiểu và xử lý thông tin chuyên ngành.
  • Khả năng lập trình: Kiểm tra năng lực hỗ trợ và thực thi các tác vụ lập trình.
  • Tư duy logic: Đo lường khả năng suy luận và giải quyết vấn đề.
  • Sự an toàn: Đảm bảo AI hoạt động an toàn và không tạo ra nội dung độc hại.
  • Mức độ am hiểu văn hóa và sắc thái ngôn ngữ đặc trưng của người Việt: Yếu tố then chốt để AI có thể giao tiếp tự nhiên và phù hợp với người dùng Việt.

Không dừng lại ở đó, ViGen còn dự kiến ra mắt phiên bản thử nghiệm, nơi người dùng và các tổ chức có thể trực tiếp đóng góp dữ liệu, sử dụng tài nguyên để huấn luyện mô hình, cũng như kiểm tra và đánh giá chất lượng AI. Đại diện dự án cho biết, nền tảng sẽ tích hợp cơ chế thi đua khen thưởng, theo dõi và vinh danh những người đóng góp hàng đầu, qua đó thúc đẩy việc xây dựng kho dữ liệu Việt vì người Việt một cách trực quan và hứng khởi. Ông Trần Việt Hùng, nhà sáng lập AI for Vietnam, nhấn mạnh: “Nền tảng sẽ tạo điều kiện cho các nhà nghiên cứu, nhà phát triển và đơn vị đổi mới sáng tạo trên khắp Việt Nam hợp tác, đóng góp, xây dựng giải pháp AI ‘Made in Vietnam’ nhưng có khả năng phục vụ thị trường toàn cầu.”

Bộ dữ liệu ViGen không chỉ là một sản phẩm công nghệ, mà còn là một tuyên bố mạnh mẽ về tầm nhìn của Việt Nam trong kỷ nguyên AI. Phó giám đốc NIC, ông Võ Xuân Hoài, khẳng định rằng AI là một trong những lĩnh vực trọng tâm mà Việt Nam đang đẩy mạnh, và dữ liệu là một trong những trụ cột quan trọng nhất. “Việt Nam cần một bộ dữ liệu tiếng Việt tiêu chuẩn và nguồn mở. Dữ liệu cần mở để tất cả, từ doanh nghiệp, startup đến tổ chức, cá nhân trong và ngoài nước đều có thể sử dụng. Đây chính là cơ sở để hình thành một môi trường mà AI không bị độc quyền,” ông Hoài phát biểu. Ông Philip Chua, Giám đốc Chính sách công và sản phẩm, Khu vực châu Á – Thái Bình Dương của Meta, cũng đánh giá cao cột mốc này, nhấn mạnh rằng AI mã nguồn mở sẽ mở rộng khả năng tiếp cận công nghệ tiên tiến, giúp các nhà phát triển Việt Nam xây dựng giải pháp AI thực sự am hiểu bối cảnh địa phương và phục vụ cộng đồng.

Việc ViGen cung cấp bộ dữ liệu AI tiếng Việt mở và miễn phí là một bước tiến chiến lược, không chỉ giải quyết được bài toán thiếu hụt tài nguyên ngôn ngữ mà còn mở ra cánh cửa rộng lớn cho sự phát triển của trí tuệ nhân tạo tại Việt Nam. Đây là cơ hội vàng để cộng đồng AI Việt Nam kiến tạo những giải pháp đột phá, mang đậm bản sắc văn hóa và ngôn ngữ Việt, từ đó khẳng định vị thế của mình trên bản đồ công nghệ toàn cầu. Các nhà phát triển, nghiên cứu và tổ chức hãy cùng nhau chung tay khai thác tối đa tiềm năng của ViGen để xây dựng một tương lai AI rực rỡ cho Việt Nam.

Share your love
Gọi ngay Chat