Token Counter
Tính toán số ký tự và token cho văn bản của bạn
Tìm hiểu về tokenization trong các mô hình ngôn ngữ
Các mô hình ngôn ngữ lớn của OpenAI xử lý văn bản bằng cách sử dụng tokens, là những chuỗi ký tự phổ biến xuất hiện trong một tập văn bản. Các mô hình học cách hiểu mối quan hệ thống kê giữa những token này và xuất sắc trong việc dự đoán token tiếp theo trong một chuỗi token. Tìm hiểu thêm.
Bạn có thể sử dụng công cụ trên đây để hiểu cách một đoạn văn bản có thể được token hóa bởi mô hình ngôn ngữ, và tổng số token trong đoạn văn bản đó.
Một token thường tương ứng với khoảng 4 ký tự văn bản đối với văn bản tiếng Anh thông thường. Điều này có nghĩa là khoảng ¾ của một từ (vì vậy 100 token ≈ 75 từ).
Đối với tiếng Việt: Do đặc điểm của ngôn ngữ tiếng Việt với các dấu thanh và cấu trúc từ khác biệt, tỷ lệ token có thể cao hơn một chút. Thông thường 1 token ≈ 3-4 ký tự tiếng Việt, tương đương khoảng 0.8-1 từ tiếng Việt.
Tại sao cần biết về token?
- Tối ưu chi phí: Các API AI tính phí theo số token sử dụng
- Quản lý giới hạn: Mỗi mô hình có giới hạn token tối đa
- Hiệu suất tốt hơn: Hiểu token giúp tối ưu hóa prompt và response
- Lập kế hoạch: Ước tính chi phí trước khi sử dụng API