1. Công cụ này làm gì
Bộ tách văn bản trực tuyến miễn phí này tách văn bản thành từ, ký tự hoặc dòng và hiển thị mỗi loại xuất hiện bao nhiêu lần — đếm từ, số từ duy nhất và bảng tần suất ngay. Dùng cho đếm từ, phân tích văn bản hoặc đếm token cho tài liệu và chuẩn bị dữ liệu. Không đăng ký, không tải lên; mọi tách chạy trên trình duyệt. Sao chép token hoặc bảng tần suất, hoặc gửi số đếm đến Máy tính Thống kê để phân tích thêm. Lý tưởng cho đếm từ, phân tích văn bản, NLP hoặc pipeline thống kê.
2. Cách sử dụng
Bắt đầu nhanh: Chọn chế độ Từ, Ký tự hoặc Dòng, dán văn bản, nhấp Tách, rồi xem số đếm và bảng tần suất. Sao chép kết quả hoặc nhấp "Phân tích trong Thống kê" để mở Máy tính Thống kê với số đếm điền sẵn.
- Chọn chế độ — Chọn Từ, Ký tự hoặc Dòng tùy cách bạn muốn tách văn bản.
- Nhập hoặc dán văn bản — Gõ hoặc dán vào vùng nhập. Dùng Tạo văn bản giả để điền nhanh nội dung mẫu.
- Nhấp Tách — Công cụ tách văn bản và hiển thị số token, số duy nhất và bảng tần suất.
- Sao chép kết quả — Sao chép token theo định dạng dấu phẩy hoặc xuống dòng, hoặc sao chép bảng tần suất (token, tab, số đếm mỗi dòng).
- Phân tích thêm — Nhấp Phân tích trong Thống kê để mở Máy tính Thống kê với số đếm tần suất điền sẵn.
3. Cách hoạt động
- Chế độ Từ — Tách theo khoảng trắng, bỏ dấu câu đầu và cuối mỗi từ, và lọc chuỗi rỗng.
- Chế độ Ký tự — Mỗi ký tự là một token; khoảng trắng, tab, xuống dòng và dấu câu bị loại trừ.
- Chế độ Dòng — Tách theo xuống dòng (xử lý cả
\nvà\r\n), trim mỗi dòng, bỏ dấu câu cuối và lọc dòng rỗng.
Tần suất tính bằng đếm số lần xuất hiện mỗi token và sắp xếp theo số đếm giảm dần. Mọi tính toán chạy hoàn toàn trên trình duyệt. Không có dữ liệu được gửi lên server.
4. Trường hợp sử dụng & ví dụ
- Đếm từ — Lấy tổng số từ và số từ duy nhất trong tài liệu.
- Phân tích văn bản — Xem từ hoặc ký tự nào xuất hiện thường xuyên nhất.
- Chuẩn bị dữ liệu — Xuất token sang định dạng dấu phẩy hoặc xuống dòng cho bảng tính hoặc công cụ khác.
- Pipeline thống kê — Dùng "Phân tích trong Thống kê" để tính trung bình, trung vị, phân phối và phân vị trên số đếm token.
- NLP và ngữ liệu — Tách nhanh cho văn bản nhỏ đến trung bình trước khi xử lý thêm.
Ví dụ
Với đầu vào: "hello world hello." ở chế độ Từ:
- Token:
hello,world,hello(dấu chấm cuối bỏ) - Tần suất:
hello(2),world(1)
5. Giới hạn & lưu ý
- Giới hạn đầu vào — Tối đa 512KB (~512.000 ký tự). Đầu vào lớn hơn trả về lỗi.
- Chỉ phía client — Không server; xử lý chạy trên trình duyệt. Đầu vào rất lớn có thể gây trễ giao diện nhẹ trên thiết bị chậm.
- Tách đơn giản — Chế độ Từ chỉ tách theo khoảng trắng; không stemming, lemmatization hay tách theo ngôn ngữ. Dấu câu bỏ ở biên token.