1. Wofür ist dieses Tool
Dieser kostenlose Online-Text-Tokenizer teilt Text in Wörter, Zeichen oder Zeilen und zeigt, wie oft jedes vorkommt—sofort Wortanzahl, Anzahl eindeutiger Tokens und Häufigkeitstabelle. Nutzen Sie ihn als Wortzähler, Textanalyse oder Token-Zähler für Dokumente und Datenaufbereitung. Keine Anmeldung, kein Upload; die gesamte Tokenisierung läuft in Ihrem Browser. Tokens oder Häufigkeitstabelle kopieren oder Anzahlen an den Statistik-Rechner zur weiteren Analyse senden. Ideal für Wortanzahlen, Textanalyse, NLP oder Statistik-Pipeline.
2. So verwenden Sie es
Schnellstart: Wählen Sie Modus Wörter, Zeichen oder Zeilen, fügen Sie Ihren Text ein, klicken Sie auf Tokenisieren, dann sehen Sie Anzahl und Häufigkeitstabelle. Ergebnisse kopieren oder „In Statistik analysieren“ klicken, um den Statistik-Rechner mit vorausgefüllten Anzahlen zu öffnen.
- Modus wählen — Wählen Sie Wörter, Zeichen oder Zeilen je nach gewünschter Aufteilung.
- Text eingeben oder einfügen — Tippen oder fügen Sie in den Eingabebereich ein. Nutzen Sie Platzhaltertext erzeugen für schnellen Beispielinhalt.
- Tokenisieren klicken — Das Tool teilt den Text und zeigt Tokenanzahl, Anzahl eindeutiger Tokens und eine Häufigkeitstabelle.
- Ergebnisse kopieren — Tokens im Komma- oder Zeilenformat kopieren oder die Häufigkeitstabelle (Token, Tab, Anzahl pro Zeile).
- Weiter analysieren — In Statistik analysieren klicken, um den Statistik-Rechner mit vorausgefüllten Häufigkeitswerten zu öffnen.
3. So funktioniert es
- Wörter-Modus — Aufteilung an Leerzeichen, führende und nachgestellte Satzzeichen pro Wort entfernt, leere Zeichenketten ausgefiltert.
- Zeichen-Modus — Jedes Zeichen ist ein Token; Leerzeichen, Tabs, Zeilenumbrüche und Satzzeichen werden ausgeschlossen.
- Zeilen-Modus — Aufteilung an Zeilenumbrüchen (
\nund\r\n), jede Zeile getrimmt, nachgestelltes Satzzeichen entfernt, leere Zeilen ausgefiltert.
Häufigkeit wird durch Zählen der Vorkommen jedes Tokens und Sortierung nach Anzahl absteigend berechnet. Die gesamte Berechnung läuft in Ihrem Browser. Es werden keine Daten an einen Server gesendet.
4. Anwendungsfälle & Beispiele
- Wortanzahl — Gesamtzahl und Anzahl eindeutiger Wörter in einem Dokument ermitteln.
- Textanalyse — Sehen, welche Wörter oder Zeichen am häufigsten vorkommen.
- Datenaufbereitung — Tokens im Komma- oder Zeilenformat für Tabellen oder andere Tools exportieren.
- Statistik-Pipeline — „In Statistik analysieren“ nutzen für Mittelwert, Median, Verteilung und Perzentile der Token-Anzahlen.
- NLP und Korpusarbeit — Schnelle Tokenisierung für kleine bis mittlere Texte vor weiterer Verarbeitung.
Beispiel
Für die Eingabe "hello world hello." im Modus Wörter:
- Tokens:
hello,world,hello(der nachgestellte Punkt wird entfernt) - Häufigkeit:
hello(2),world(1)
5. Einschränkungen & bekannte Grenzen
- Eingabelimit — Maximal 512 KB (~512.000 Zeichen). Größere Eingabe führt zu einer Fehlermeldung.
- Nur clientseitig — Kein Server; die Verarbeitung läuft im Browser. Sehr große Eingaben können auf langsameren Geräten kurz die Oberfläche verzögern.
- Einfache Tokenisierung — Wörter-Modus teilt nur an Leerzeichen; kein Stemming, Lemmatisierung oder sprachspezifische Tokenisierung. Satzzeichen wird an Token-Grenzen entfernt.
- Zeichen ohne Leerzeichen und Satzzeichen — Leerzeichen, Tabs, Zeilenumbrüche und Satzzeichen zählen nicht als Zeichen-Tokens.