1. 이 도구는 무엇을 하나요
이 무료 온라인 텍스트 토크나이저는 텍스트를 단어, 글자, 줄로 나누고 각각이 얼마나 나오는지 보여 줍니다. 즉시 단어 수, 고유 수, 빈도표. 단어 수 세기, 텍스트 분석, 토큰 수로 문서·데이터 준비에 사용하세요. 가입·업로드 불필요, 모든 토크나이징은 브라우저에서 이루어집니다. 토큰·빈도표를 복사하거나 통계 계산기로 수를 보내 추가 분석할 수 있습니다. 단어 수, 텍스트 분석, NLP, 통계 파이프라인에 적합합니다.
2. 사용 방법
빠른 시작: 단어·글자·줄 모드 중 선택하고 텍스트를 붙여넣은 뒤 토크나이즈를 클릭하면 개수·빈도표가 표시됩니다. 결과를 복사하거나 "통계에서 분석"을 클릭해 통계 계산기를 수가 미리 채워진 상태로 열 수 있습니다.
- 모드 선택 — 텍스트를 어떻게 나눌지 단어, 글자, 줄 중 선택.
- 텍스트 입력·붙여넣기 — 입력 영역에 입력 또는 붙여넣기. 더미 텍스트 생성으로 샘플로 빠르게 채우기.
- 토크나이즈 클릭 — 도구가 텍스트를 나누고 토큰 수, 고유 수, 빈도표를 표시합니다.
- 결과 복사 — 토큰을 쉼표 또는 줄바꿈 형식으로, 또는 빈도표(토큰, 탭, 개수 한 줄씩) 복사.
- 추가 분석 — 통계에서 분석을 클릭해 빈도 수가 미리 채워진 통계 계산기를 열기.
3. 작동 방식
- 단어 모드 — 공백으로 분할, 각 단어의 앞뒤 구두점 제거, 빈 문자열 제거.
- 글자 모드 — 각 글자가 토큰, 공백·탭·줄바꿈·구두점 제외.
- 줄 모드 — 줄바꿈(
\n,\r\n)으로 분할, 각 줄 trim, 끝 구두점 제거, 빈 줄 제거.
빈도는 각 토큰 출현 횟수를 세고 개수 내림차순 정렬로 계산합니다. 모든 연산은 브라우저에서만 이루어지며 서버로 데이터가 전송되지 않습니다.
4. 사용 사례 및 예시
- 단어 수 — 문서의 총 단어 수·고유 단어 수 확인.
- 텍스트 분석 — 어떤 단어·글자가 가장 자주 나오는지 확인.
- 데이터 준비 — 토큰을 쉼표·줄바꿈 형식으로 내보내 스프레드시트·다른 도구에 사용.
- 통계 파이프라인 — "통계에서 분석"으로 토큰 수에 대한 평균·중앙값·분포·백분위수 계산.
- NLP·말뭉치 — 중소형 텍스트의 빠른 토크나이징 후 추가 처리.
예시
입력 "hello world hello." 단어 모드:
- 토큰:
hello,world,hello(끝 마침표 제거) - 빈도:
hello(2),world(1)
5. 제한 사항 및 알려진 제약
- 입력 한도 — 최대 512KB(약 512,000자). 더 큰 입력은 오류를 반환합니다.
- 클라이언트 전용 — 서버 없음, 처리는 브라우저에서. 매우 큰 입력은 느린 기기에서 잠깐 UI 지연을 일으킬 수 있습니다.
- 단순 토크나이징 — 단어 모드는 공백으로만 분할, 형태소·표제어·언어별 토크나이징 없음. 구두점은 토큰 경계에서 제거됩니다.
- 글자는 공백·구두점 제외 — 공백·탭·줄바꿈·구두점은 글자 토큰으로 세지 않습니다.