Trong bối cảnh công nghệ AI tạo sinh đang bùng nổ, Meta cũng không nằm ngoài cuộc đua với mô hình trí tuệ nhân tạo hàng đầu của mình, được gọi là Llama. Điểm đặc biệt của Llama so với các mô hình lớn khác trên thị trường là tính chất “mở” của nó. Điều này có nghĩa là các nhà phát triển có thể tải xuống và sử dụng Llama theo ý muốn của họ, tất nhiên là với một số giới hạn nhất định. Khác hẳn với cách tiếp cận của Anthropic với Claude, Google với Gemini, xAI với Grok, hay hầu hết các mô hình ChatGPT của OpenAI, vốn chỉ có thể truy cập thông qua các giao diện lập trình ứng dụng (API).
Với mục tiêu mang lại sự lựa chọn tối ưu cho cộng đồng nhà phát triển, Meta đã hợp tác với nhiều đối tác lớn như AWS, Google Cloud và Microsoft Azure để cung cấp các phiên bản Llama được lưu trữ trên nền tảng đám mây. Bên cạnh đó, công ty cũng xuất bản nhiều công cụ, thư viện và “công thức” trong Llama cookbook của mình, giúp các nhà phát triển dễ dàng tinh chỉnh, đánh giá và điều chỉnh mô hình phù hợp với lĩnh vực chuyên môn. Với các thế hệ mới hơn như Llama 3 và Llama 4, những khả năng này đã được mở rộng, bao gồm hỗ trợ đa phương thức (multimodal) nguyên bản và triển khai rộng rãi hơn trên đám mây.
Bài viết này sẽ cung cấp cho bạn mọi thông tin cần thiết về Llama của Meta, từ khả năng, các phiên bản cho đến nơi bạn có thể sử dụng nó. Chúng tôi sẽ liên tục cập nhật bài viết này khi Meta phát hành các nâng cấp và giới thiệu các công cụ phát triển mới để hỗ trợ việc sử dụng mô hình.
Nội dung chính
Llama là gì và những phiên bản nổi bật?

Llama không phải là một mô hình đơn lẻ mà là một họ các mô hình trí tuệ nhân tạo. Phiên bản mới nhất là Llama 4, được phát hành vào tháng 4 năm 2025, bao gồm ba mô hình chính:
- Scout: Có 17 tỷ tham số hoạt động, tổng cộng 109 tỷ tham số và cửa sổ ngữ cảnh (context window) lên tới 10 triệu token. Con số này tương đương với khoảng 80 cuốn tiểu thuyết thông thường.
- Maverick: Với 17 tỷ tham số hoạt động, tổng cộng 400 tỷ tham số và cửa sổ ngữ cảnh 1 triệu token, bằng khoảng tám cuốn tiểu thuyết.
- Behemoth: Hiện chưa được phát hành, nhưng sẽ có 288 tỷ tham số hoạt động và 2 nghìn tỷ tham số tổng cộng. Meta coi đây là “giáo viên” cho các mô hình nhỏ hơn.
Trong khoa học dữ liệu, token là các đơn vị nhỏ hơn của dữ liệu thô, ví dụ như các âm tiết “fan”, “tas”, và “tic” trong từ “fantastic”. Cửa sổ ngữ cảnh của một mô hình đề cập đến lượng dữ liệu đầu vào (ví dụ: văn bản) mà mô hình xem xét trước khi tạo ra đầu ra. Ngữ cảnh dài có thể giúp mô hình không “quên” nội dung của các tài liệu gần đây và tránh đi chệch chủ đề. Tuy nhiên, cửa sổ ngữ cảnh quá dài cũng có thể khiến mô hình “quên” một số rào cản an toàn, dễ tạo ra nội dung theo hướng hội thoại dẫn đến suy nghĩ ảo tưởng ở người dùng.
Tất cả các mô hình Llama 4 đều được huấn luyện trên “lượng lớn dữ liệu văn bản, hình ảnh và video không nhãn” để mang lại “khả năng hiểu biết thị giác rộng”, cũng như trên 200 ngôn ngữ. Llama 4 Scout và Maverick là những mô hình đa phương thức (multimodal) nguyên bản, mã nguồn mở đầu tiên của Meta. Chúng được xây dựng bằng kiến trúc “mixture-of-experts” (MoE), giúp giảm tải tính toán và cải thiện hiệu quả trong quá trình huấn luyện và suy luận. Ví dụ, Scout có 16 chuyên gia, trong khi Maverick có 128 chuyên gia. Llama 4 được xây dựng dựa trên dòng Llama 3, bao gồm các mô hình 3.1 và 3.2, được sử dụng rộng rãi cho các ứng dụng tinh chỉnh theo hướng dẫn và triển khai trên đám mây.
Llama có thể làm được những gì và ưu điểm của từng phiên bản?

Giống như các mô hình AI tạo sinh khác, Llama có thể thực hiện một loạt các tác vụ hỗ trợ đa dạng, từ viết mã, trả lời các câu hỏi toán học cơ bản cho đến tóm tắt tài liệu bằng ít nhất 12 ngôn ngữ (bao gồm tiếng Ả Rập, tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Hindi, tiếng Indonesia, tiếng Ý, tiếng Bồ Đào Nha, tiếng Tây Ban Nha, tiếng Tagalog, tiếng Thái và tiếng Việt). Hầu hết các khối lượng công việc dựa trên văn bản – như phân tích các tệp lớn như PDF và bảng tính – đều nằm trong khả năng của nó. Đặc biệt, tất cả các mô hình Llama 4 đều hỗ trợ đầu vào văn bản, hình ảnh và video.
- Llama 4 Scout được thiết kế cho các quy trình làm việc dài hơn và phân tích dữ liệu lớn.
- Maverick là một mô hình đa năng, cân bằng tốt hơn giữa sức mạnh suy luận và tốc độ phản hồi, phù hợp cho việc viết mã, chatbot và trợ lý kỹ thuật.
- Behemoth được thiết kế cho nghiên cứu nâng cao, chưng cất mô hình và các nhiệm vụ STEM.
Mỗi mô hình Llama 4 được thiết kế cho các mục đích cụ thể:
Các mô hình Llama, bao gồm cả Llama 3.1, có thể được cấu hình để tận dụng các ứng dụng, công cụ và API của bên thứ ba để thực hiện các tác vụ. Chúng được huấn luyện để sử dụng Brave Search cho các câu hỏi về sự kiện gần đây; API Wolfram Alpha cho các truy vấn liên quan đến toán học và khoa học; và một trình thông dịch Python để xác thực mã. Tuy nhiên, những công cụ này yêu cầu cấu hình phù hợp và không được tự động kích hoạt ngay từ đầu.
Sử dụng Llama ở đâu và Meta hỗ trợ nhà phát triển như thế nào?

Nếu bạn chỉ muốn trò chuyện với Llama, nó đang cung cấp sức mạnh cho trải nghiệm chatbot Meta AI trên Facebook Messenger, WhatsApp, Instagram, Oculus và Meta.ai tại 40 quốc gia. Các phiên bản Llama đã được tinh chỉnh được sử dụng trong trải nghiệm Meta AI tại hơn 200 quốc gia và vùng lãnh thổ.
Đối với các nhà phát triển, các mô hình Llama 4 Scout và Maverick hiện có sẵn trên Llama.com và các đối tác của Meta, bao gồm nền tảng phát triển AI Hugging Face. Mô hình Behemoth vẫn đang trong quá trình huấn luyện. Các nhà phát triển xây dựng với Llama có thể tải xuống, sử dụng hoặc tinh chỉnh mô hình trên hầu hết các nền tảng đám mây phổ biến. Meta tuyên bố có hơn 25 đối tác đang lưu trữ Llama, bao gồm Nvidia, Databricks, Groq, Dell và Snowflake. Mặc dù “bán quyền truy cập” vào các mô hình mở của Meta không phải là mô hình kinh doanh chính, công ty vẫn kiếm tiền thông qua các thỏa thuận chia sẻ doanh thu với các nhà cung cấp dịch vụ lưu trữ mô hình. Một số đối tác này đã xây dựng thêm các công cụ và dịch vụ dựa trên Llama, bao gồm các công cụ cho phép mô hình tham chiếu dữ liệu độc quyền và hoạt động với độ trễ thấp hơn.
Quan trọng là, giấy phép của Llama có những ràng buộc về cách các nhà phát triển có thể triển khai mô hình: các nhà phát triển ứng dụng có hơn 700 triệu người dùng hàng tháng phải yêu cầu một giấy phép đặc biệt từ Meta, và công ty sẽ cấp giấy phép này theo quyết định của mình. Vào tháng 5 năm 2025, Meta đã khởi động một chương trình mới để khuyến khích các công ty khởi nghiệp áp dụng các mô hình Llama của mình. Chương trình Llama for Startups cung cấp cho các công ty sự hỗ trợ từ đội ngũ Llama của Meta và cơ hội tiếp cận nguồn vốn tiềm năng.
- Llama Guard: Một khung kiểm duyệt nội dung.
- Prompt Guard: Một công cụ bảo vệ chống lại các cuộc tấn công tiêm nhiễm câu lệnh (prompt-injection attacks).
- CyberSecEval: Một bộ công cụ đánh giá rủi ro an ninh mạng.
- Llama Firewall: Một hàng rào bảo mật được thiết kế để xây dựng các hệ thống AI an toàn.
- Code Shield: Cung cấp hỗ trợ lọc mã không an toàn do LLM tạo ra trong thời gian suy luận.
Bên cạnh Llama, Meta còn cung cấp các công cụ nhằm giúp mô hình “an toàn hơn” khi sử dụng:
Llama Guard cố gắng phát hiện nội dung có khả năng gây vấn đề, dù được đưa vào hay tạo ra bởi mô hình Llama, bao gồm nội dung liên quan đến hoạt động tội phạm, bóc lột trẻ em, vi phạm bản quyền, thù hận, tự hại và lạm dụng tình dục. Tuy nhiên, đây rõ ràng không phải là một giải pháp toàn diện, vì các hướng dẫn trước đây của Meta từng cho phép chatbot tham gia vào các cuộc trò chuyện nhạy cảm với trẻ vị thành niên, và một số báo cáo cho thấy chúng đã biến thành các cuộc trò chuyện mang tính tình dục. Các nhà phát triển có thể tùy chỉnh các danh mục nội dung bị chặn và áp dụng các chặn này cho tất cả các ngôn ngữ mà Llama hỗ trợ.Tương tự Llama Guard, Prompt Guard có thể chặn văn bản dành cho Llama, nhưng chỉ chặn văn bản nhằm “tấn công” mô hình và khiến nó hoạt động theo những cách không mong muốn. Meta tuyên bố rằng Prompt Guard có thể chống lại các câu lệnh độc hại rõ ràng (ví dụ: jailbreak nhằm vượt qua các bộ lọc an toàn tích hợp của Llama) ngoài các câu lệnh chứa “đầu vào bị tiêm nhiễm”. Llama Firewall hoạt động để phát hiện và ngăn chặn các rủi ro như tiêm nhiễm câu lệnh, mã không an toàn và tương tác công cụ rủi ro. Còn Code Shield giúp giảm thiểu các gợi ý mã không an toàn và cung cấp khả năng thực thi lệnh an toàn cho bảy ngôn ngữ lập trình.
Về CyberSecEval, nó ít giống một công cụ hơn mà là một bộ các điểm chuẩn để đo lường bảo mật mô hình. CyberSecEval có thể đánh giá rủi ro mà mô hình Llama gây ra (ít nhất là theo tiêu chí của Meta) cho các nhà phát triển ứng dụng và người dùng cuối trong các lĩnh vực như “kỹ thuật xã hội tự động” và “mở rộng các hoạt động tấn công mạng”.
Mặc dù có nhiều ưu điểm, Llama cũng đi kèm với một số rủi ro và hạn chế, giống như tất cả các mô hình AI tạo sinh khác. Ví dụ, các tính năng đa phương thức của mô hình mới nhất chủ yếu giới hạn ở tiếng Anh cho đến hiện tại.
Ngoài ra, Meta đã sử dụng một tập dữ liệu gồm sách điện tử và bài viết vi phạm bản quyền để huấn luyện các mô hình Llama của mình. Một thẩm phán liên bang gần đây đã đứng về phía Meta trong một vụ kiện bản quyền do 13 tác giả sách đưa ra, phán quyết rằng việc sử dụng các tác phẩm có bản quyền để huấn luyện thuộc phạm vi “sử dụng hợp lý”. Tuy nhiên, nếu Llama tái tạo một đoạn mã có bản quyền và ai đó sử dụng nó trong một sản phẩm, họ có thể vi phạm bản quyền và phải chịu trách nhiệm pháp lý. Meta cũng gây tranh cãi khi huấn luyện AI của mình trên các bài đăng, ảnh và chú thích trên Instagram và Facebook, đồng thời khiến người dùng khó có thể từ chối.
Lập trình là một lĩnh vực khác mà bạn nên thận trọng khi sử dụng Llama. Điều này là do Llama có thể – có lẽ nhiều hơn các đối tác AI tạo sinh khác – tạo ra mã lỗi hoặc không an toàn. Trên LiveCodeBench, một điểm chuẩn kiểm tra các mô hình AI về các vấn đề mã hóa cạnh tranh, mô hình Llama 4 Maverick của Meta đạt 40%. Con số này so với 85% của GPT-5 high của OpenAI và 83% của Grok 4 Fast của xAI. Như mọi khi, tốt nhất là nên có một chuyên gia con người xem xét lại bất kỳ mã nào do AI tạo ra trước khi tích hợp nó vào một dịch vụ hoặc phần mềm.
Cuối cùng, cũng như các mô hình AI khác, các mô hình Llama vẫn có lỗi khi tạo ra thông tin nghe có vẻ hợp lý nhưng lại sai hoặc gây hiểu lầm, dù đó là trong mã hóa, hướng dẫn pháp lý hay các cuộc trò chuyện cảm xúc với các nhân vật AI.