Một tuần hè nọ, Taylor và bạn cùng phòng đã đeo máy quay GoPro lên trán để thực hiện các công việc như vẽ, điêu khắc và làm việc nhà. Họ đang huấn luyện một mô hình AI thị giác, cẩn thận đồng bộ hóa cảnh quay của mình để hệ thống có thể thu nhận nhiều góc độ về cùng một hành vi. Công việc này đầy thử thách, nhưng họ được trả công xứng đáng, cho phép Taylor dành phần lớn thời gian trong ngày để sáng tạo nghệ thuật.
Taylor chia sẻ rằng họ thức dậy, thực hiện quy trình sinh hoạt thường ngày, sau đó đeo máy quay và đồng bộ thời gian. Tiếp theo, họ chuẩn bị bữa sáng và dọn dẹp bát đĩa, rồi mỗi người tách ra để làm việc nghệ thuật riêng. Ban đầu, họ được yêu cầu cung cấp năm giờ quay đồng bộ mỗi ngày, nhưng Taylor nhanh chóng nhận ra cần dành bảy giờ để có đủ thời gian nghỉ ngơi và phục hồi sức khỏe, bởi việc này gây ra những cơn đau đầu và để lại vết đỏ trên trán sau khi tháo máy.
Taylor, một người làm nhập liệu tự do cho Turing, một công ty AI, đã tham gia vào dự án này. Mục tiêu của Turing không phải là dạy AI cách vẽ tranh sơn dầu, mà là trang bị cho nó những kỹ năng trừu tượng hơn về giải quyết vấn đề tuần tự và lý luận thị giác. Khác với các mô hình ngôn ngữ lớn, mô hình thị giác của Turing được huấn luyện hoàn toàn bằng video, và phần lớn dữ liệu này được chính Turing thu thập trực tiếp.
Ngoài các nghệ sĩ như Taylor, Turing còn hợp tác với các đầu bếp, công nhân xây dựng và thợ điện – bất kỳ ai làm việc bằng tay. Sudarshan Sivaraman, Giám đốc AGI của Turing, cho biết việc thu thập dữ liệu thủ công là cách duy nhất để có được một bộ dữ liệu đủ đa dạng. Ông nhấn mạnh rằng việc thu thập dữ liệu từ nhiều loại công việc chân tay khác nhau nhằm mục đích có được sự đa dạng dữ liệu trong giai đoạn tiền huấn luyện, giúp mô hình hiểu cách một nhiệm vụ cụ thể được thực hiện.
Công việc của Turing về mô hình thị giác phản ánh một xu hướng ngày càng rõ rệt trong cách các công ty AI xử lý dữ liệu. Nếu trước đây các bộ huấn luyện thường được lấy từ web một cách tự do hoặc từ những người gắn nhãn dữ liệu với mức lương thấp, thì giờ đây, các công ty sẵn sàng chi trả mức giá cao cho dữ liệu được tuyển chọn kỹ lưỡng. Với sức mạnh của AI đã được thiết lập, các công ty đang xem dữ liệu huấn luyện độc quyền như một lợi thế cạnh tranh, và họ thường tự mình thực hiện công việc này thay vì thuê ngoài.
Công ty Fyxer, sử dụng các mô hình AI để sắp xếp email và soạn thảo phản hồi, là một ví dụ. Sau những thử nghiệm ban đầu, người sáng lập Richard Hollingsworth nhận ra cách tiếp cận hiệu quả nhất là sử dụng một loạt các mô hình nhỏ với dữ liệu huấn luyện tập trung cao độ. Fyxer xây dựng dựa trên mô hình nền tảng của người khác, nhưng quan điểm cốt lõi là tương tự: “Chúng tôi nhận ra rằng chất lượng dữ liệu, chứ không phải số lượng, mới thực sự định nghĩa hiệu suất.”
Trong thực tế, điều này dẫn đến những lựa chọn nhân sự không theo lệ thường. Trong giai đoạn đầu, số lượng trợ lý điều hành cần thiết để huấn luyện mô hình đôi khi đông gấp bốn lần số kỹ sư và quản lý của Fyxer. Hollingsworth cho biết họ đã sử dụng nhiều trợ lý điều hành có kinh nghiệm vì cần huấn luyện về các nguyên tắc cơ bản của việc phản hồi email, coi đây là một vấn đề rất định hướng con người và việc tìm kiếm những người giỏi là vô cùng khó khăn.
Tốc độ thu thập dữ liệu không ngừng tăng, nhưng theo thời gian, Hollingsworth trở nên coi trọng hơn các bộ dữ liệu, ưu tiên các bộ nhỏ hơn, được tuyển chọn kỹ lưỡng hơn cho giai đoạn sau huấn luyện. Ông lặp lại quan điểm: “chất lượng dữ liệu, chứ không phải số lượng, mới thực sự định nghĩa hiệu suất.” Điều này đặc biệt đúng khi sử dụng dữ liệu tổng hợp, làm tăng phạm vi các tình huống huấn luyện có thể xảy ra và tác động của bất kỳ sai sót nào trong bộ dữ liệu gốc. Turing ước tính rằng 75% đến 80% dữ liệu của họ là tổng hợp, được ngoại suy từ các video GoPro ban đầu, do đó, việc giữ cho bộ dữ liệu gốc có chất lượng cao nhất càng trở nên quan trọng. Sivaraman khẳng định: “Nếu dữ liệu tiền huấn luyện không có chất lượng tốt, thì bất cứ điều gì bạn làm với dữ liệu tổng hợp cũng sẽ không có chất lượng tốt.”
Ngoài mối quan tâm về chất lượng, có một logic cạnh tranh mạnh mẽ đằng sau việc giữ cho việc thu thập dữ liệu ở nội bộ. Đối với Fyxer, công việc khó khăn trong thu thập dữ liệu là một trong những hàng rào bảo vệ tốt nhất chống lại sự cạnh tranh. Hollingsworth cho rằng bất kỳ ai cũng có thể tích hợp một mô hình mã nguồn mở vào sản phẩm của mình, nhưng không phải ai cũng có thể tìm được những người gắn nhãn chuyên nghiệp để huấn luyện nó thành một sản phẩm khả dụng. Ông tin rằng “Cách tốt nhất để làm điều đó là thông qua dữ liệu, thông qua việc xây dựng các mô hình tùy chỉnh, thông qua huấn luyện dữ liệu chất lượng cao, do con người dẫn dắt.”
Việc các startup AI chủ động thu thập và kiểm soát dữ liệu huấn luyện của riêng mình đang trở thành một chiến lược then chốt để tạo ra lợi thế cạnh tranh bền vững. Thay vì dựa vào nguồn dữ liệu công khai hoặc thuê ngoài với chi phí thấp, các công ty đang đầu tư vào việc xây dựng bộ dữ liệu độc quyền, chất lượng cao, phù hợp với mục tiêu cụ thể của họ. Điều này không chỉ đảm bảo hiệu suất vượt trội cho các mô hình AI mà còn tạo ra một rào cản gia nhập đáng kể cho đối thủ. Các nhà lãnh đạo doanh nghiệp nên xem xét việc đầu tư vào quy trình quản lý và thu thập dữ liệu nội bộ như một ưu tiên chiến lược để định hình tương lai thành công của sản phẩm AI.




