рдпрд╣ рдЙрдкрдХрд░рдг рдХреНрдпрд╛ рдХрд░рддрд╛ рд╣реИ
рдпрд╣ рдореБрдлреНрдд рдСрдирд▓рд╛рдЗрди рд╡рд░реНрдб рдХреНрд▓рд╛рдЙрдб рдмрд┐рд▓реНрдбрд░ рджрд┐рдЦрд╛рддрд╛ рд╣реИ рдХреМрди рд╕реЗ рд╢рдмреНрдж рд╕рдмрд╕реЗ рдЬрд╝реНрдпрд╛рджрд╛ рдЖрддреЗ рд╣реИрдВтАФрдЯреЗрдХреНрд╕реНрдЯ рдкреЗрд╕реНрдЯ рдХрд░реЗрдВ, Generate Word Cloud рдХреНрд▓рд┐рдХ рдХрд░реЗрдВ, рдФрд░ рддреБрд░рдВрдд рд╡рд░реНрдб рдХреНрд▓рд╛рдЙрдб рд╡рд┐рдЬреБрдЕрд▓ рдкрд╛рдПрдВред рднрд╛рд╖рдг, рдЖрд░реНрдЯрд┐рдХрд▓ рдпрд╛ рдХрд┐рд╕реА рдЯреЗрдХреНрд╕реНрдЯ рдХрд╛ рдПрдХ рдирдЬрд╝рд░ рдореЗрдВ рд╕рд╛рд░рд╛рдВрд╢ рдХреЗ рд▓рд┐рдП рд╡рд░реНрдб рдХреНрд▓рд╛рдЙрдб рдЬрдирд░реЗрдЯрд░ рдпрд╛ рдЯреИрдЧ рдХреНрд▓рд╛рдЙрдб рдХреЗ рд░реВрдк рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВред рдмрдбрд╝реЗ рд╢рдмреНрдж рдорддрд▓рдм рдЕрдзрд┐рдХ рдЖрд╡реГрддреНрддрд┐ред рдмрд┐рдирд╛ рд╕рд╛рдЗрди-рдЕрдк, рдмрд┐рдирд╛ рдЕрдкрд▓реЛрдб; Text Tokenizer рдЬреИрд╕рд╛ рд╣реА рдЯреЛрдХрдирд╛рдЗрдЬрд╝реЗрд╢рди рдЖрдкрдХреЗ рдмреНрд░рд╛рдЙрдЬрд╝рд░ рдореЗрдВред рдХреНрд▓рд╛рдЙрдб рдлреЛрдХрд╕ рдХреЗ рд▓рд┐рдП Max words рдФрд░ Min count рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВред рддреНрд╡рд░рд┐рдд рдУрд╡рд░рд╡реНрдпреВ, рдкреНрд░реЗрдЬреЗрдВрдЯреЗрд╢рди, рдХрдВрдЯреЗрдВрдЯ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдпрд╛ рд╢рд┐рдХреНрд╖рд╛ рдХреЗ рд▓рд┐рдП рдЖрджрд░реНрд╢ред
рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдХреИрд╕реЗ рдХрд░реЗрдВ
рддреНрд╡рд░рд┐рдд рд╢реБрд░реБрдЖрдд: From text (рдкреЗрд╕реНрдЯ рдФрд░ рдЯреЛрдХрдирд╛рдЗрдЬрд╝) рдпрд╛ From list (рд╢рдмреНрдж рдФрд░ рдЖрд╡реГрддреНрддрд┐) рдЪреБрдиреЗрдВ, рдЗрдирдкреБрдЯ рджрд░реНрдЬ рдпрд╛ рдкреЗрд╕реНрдЯ рдХрд░реЗрдВ, Generate Word Cloud рдХреНрд▓рд┐рдХ рдХрд░реЗрдВ, рдлрд┐рд░ Max words рдФрд░ Min count рдПрдбрдЬрд╕реНрдЯ рдХрд░реЗрдВред рдЖрд╡реГрддреНрддрд┐ рдХрд╛рдЙрдВрдЯ рдХреЗ рд▓рд┐рдП рд╣реЛрд╡рд░ рдХрд░реЗрдВред
- рдЗрдирдкреБрдЯ рдореЛрдб рдЪреБрдиреЗрдВ тАФ From text рдкреЗрд╕реНрдЯ рдХрд┐рдпрд╛ рдЯреЗрдХреНрд╕реНрдЯ рдСрдЯреЛ рдЯреЛрдХрдирд╛рдЗрдЬрд╝ (Text Tokenizer рдЬреИрд╕рд╛)ред From list рд╢рдмреНрдж рдФрд░ рдЖрд╡реГрддреНрддрд┐ рдореИрдиреНрдпреБрдЕрд▓ рджрд░реНрдЬ, рдПрдХ рдкреНрд░рддрд┐ рд▓рд╛рдЗрди (рдЬреИрд╕реЗ
word 10рдпрд╛word<Tab>10)ред - рджрд░реНрдЬ рдпрд╛ рдкреЗрд╕реНрдЯ рдХрд░реЗрдВ тАФ рдЯреЗрдХреНрд╕реНрдЯ рдореЛрдб: рдЯреЗрдХреНрд╕реНрдЯ рдЯрд╛рдЗрдк рдпрд╛ рдкреЗрд╕реНрдЯ рдХрд░реЗрдВ; рдЬрд▓реНрджреА рднрд░рдиреЗ рдХреЗ рд▓рд┐рдП Generate dummy text рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВред рд▓рд┐рд╕реНрдЯ рдореЛрдб: рдПрдХ рдкреНрд░рддрд┐ рд▓рд╛рдЗрди
word frequencyрдЬреЛрдбрд╝реА рджрд░реНрдЬ рдХрд░реЗрдВред - Generate Word Cloud рдХреНрд▓рд┐рдХ рдХрд░реЗрдВ тАФ рдЯреВрд▓ рдЖрдкрдХрд╛ рдЗрдирдкреБрдЯ рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рддрд╛ рд╣реИ рдФрд░ рд╡рд░реНрдб рдХреНрд▓рд╛рдЙрдб рд░реЗрдВрдбрд░ рдХрд░рддрд╛ рд╣реИред
- рдСрдкреНрд╢рди рдПрдбрдЬрд╕реНрдЯ рдХрд░реЗрдВ тАФ рдХрд┐рддрдиреЗ рд╢рдмреНрдж рджрд┐рдЦреЗрдВ Max words (рдбрд┐рдлреЙрд▓реНрдЯ 80) рд╕реЗрдЯ рдХрд░реЗрдВ, рдФрд░ рдХрдо-рдЖрд╡реГрддреНрддрд┐ рд╢рдмреНрдж рдПрдХреНрд╕рдХреНрд▓реВрдб рдХреЗ рд▓рд┐рдП Min countред
- рдХрд╛рдЙрдВрдЯ рдХреЗ рд▓рд┐рдП рд╣реЛрд╡рд░ тАФ рдХрд┐рд╕реА рднреА рд╢рдмреНрдж рдкрд░ рд╣реЛрд╡рд░ рдХрд░реЗрдВ рддрд╛рдХрд┐ рдЯреВрд▓рдЯрд┐рдк рдореЗрдВ рдЙрд╕рдХреА рдЖрд╡реГрддреНрддрд┐ рдХрд╛рдЙрдВрдЯ рджрд┐рдЦреЗред
рдпрд╣ рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ
рд╡рд░реНрдб рдХрд╛рдЙрдВрдЯрд┐рдВрдЧ Text Tokenizer рдХреЛ рдбреЗрд▓реАрдЧреЗрдЯ: рдЯреЗрдХреНрд╕реНрдЯ рд╡реНрд╣рд╛рдЗрдЯрд╕реНрдкреЗрд╕ рдкрд░ рд╕реНрдкреНрд▓рд┐рдЯ, рд▓реАрдбрд┐рдВрдЧ рдФрд░ рдЯреНрд░реЗрд▓рд┐рдВрдЧ рд╡рд┐рд░рд╛рдо рд╕реНрдЯреНрд░рд┐рдк, рдЦрд╛рд▓реА рд╕реНрдЯреНрд░рд┐рдВрдЧ рдлрд╝рд┐рд▓реНрдЯрд░, рдлреНрд░реАрдХреНрд╡реЗрдВрд╕реА рдХрдВрдкреНрдпреВрдЯ рдФрд░ рдХрд╛рдЙрдВрдЯ рдбрд┐рд╕реЗрдВрдбрд┐рдВрдЧ рд╕реЗ рд╕реЙрд░реНрдЯред рдХреНрд▓рд╛рдЙрдб рд▓реЗрдЖрдЙрдЯ рдУрд╡рд░рд▓реИрдк рдмрд┐рдирд╛ рд╢рдмреНрдж рдкреИрдХ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП d3-cloud рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИред рдлреЙрдиреНрдЯ рд╕рд╛рдЗрдЬрд╝ рдЖрд╡реГрддреНрддрд┐ рдХреЗ рд╕рд╛рде рд╕реНрдХреЗрд▓ред рд╕рд╛рд░реА рдЧрдгрдирд╛ рдкреВрд░реА рддрд░рд╣ рдЖрдкрдХреЗ рдмреНрд░рд╛рдЙрдЬрд╝рд░ рдореЗрдВред рдХреЛрдИ рдбреЗрдЯрд╛ рдХрд┐рд╕реА рд╕рд░реНрд╡рд░ рдХреЛ рдирд╣реАрдВ рднреЗрдЬрд╛ рдЬрд╛рддрд╛ред
рдЙрдкрдпреЛрдЧ рдХреЗ рдорд╛рдорд▓реЗ рдФрд░ рдЙрджрд╛рд╣рд░рдг
- рддреНрд╡рд░рд┐рдд рдУрд╡рд░рд╡реНрдпреВ тАФ рдПрдХ рдирдЬрд╝рд░ рдореЗрдВ рджреЗрдЦреЗрдВ рдХреМрди рд╕реЗ рд╢рдмреНрдж рдбреЙрдХреНрдпреВрдореЗрдВрдЯ рдпрд╛ рдЯреНрд░рд╛рдВрд╕рдХреНрд░рд┐рдкреНрдЯ рдореЗрдВ рдкреНрд░рднрд╛рд╡реАред
- рдкреНрд░реЗрдЬреЗрдВрдЯреЗрд╢рди тАФ рдореАрдЯрд┐рдВрдЧ рдиреЛрдЯреНрд╕ рдпрд╛ рдЖрд░реНрдЯрд┐рдХрд▓ рд╕реЗ рдореБрдЦреНрдп рд╡рд┐рд╖рдп рдХрд╛ рд╡рд┐рдЬреБрдЕрд▓ рд╕рд╛рд░рд╛рдВрд╢ рдмрдирд╛рдПрдВред
- рдХрдВрдЯреЗрдВрдЯ рд╡рд┐рд╢реНрд▓реЗрд╖рдг тАФ рдмреНрд▓реЙрдЧ рдкреЛрд╕реНрдЯ рдпрд╛ рдХрд╕реНрдЯрдорд░ рдлреАрдбрдмреИрдХ рдореЗрдВ рджреЛрд╣рд░рд╛рдП рдЬрд╛рдиреЗ рд╡рд╛рд▓реЗ рдереАрдо рдкрд╣рдЪрд╛рдиреЗрдВред
- рд╢рд┐рдХреНрд╖рд╛ тАФ рдЯреЗрдХреНрд╕реНрдЯ рдореЗрдВ рд╡рд░реНрдб рдлреНрд░реАрдХреНрд╡реЗрдВрд╕реА рдФрд░ рд╢рдмреНрджрд╛рд╡рд▓реА рд╡рд┐рддрд░рдг рджрд┐рдЦрд╛рдПрдВред
рдЙрджрд╛рд╣рд░рдг
рдЗрдирдкреБрдЯ: "hello world hello.": рдЯреЛрдХрди: hello, world, helloред рдХреНрд▓рд╛рдЙрдб: "hello" "world" рд╕реЗ рдмрдбрд╝рд╛ рджрд┐рдЦрддрд╛ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рджреЛ рдмрд╛рд░ рдЖрддрд╛ рд╣реИред
рд╕реАрдорд╛рдПрдВ рдФрд░ рдЬреНрдЮрд╛рдд рдмрд╛рдзрд╛рдПрдВ
- рдЗрдирдкреБрдЯ рдХреИрдк тАФ рдЕрдзрд┐рдХрддрдо 512KB (~512,000 рдХреИрд░реЗрдХреНрдЯрд░)ред рдмрдбрд╝рд╛ рдЗрдирдкреБрдЯ рдПрд░рд░ рд▓реМрдЯрд╛рддрд╛ рд╣реИред
- рдХреЗрд╡рд▓ рдХреНрд▓рд╛рдЗрдВрдЯ-рд╕рд╛рдЗрдб тАФ рдХреЛрдИ рд╕рд░реНрд╡рд░ рдирд╣реАрдВ; рдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ рдмреНрд░рд╛рдЙрдЬрд╝рд░ рдореЗрдВред рдмрд╣реБрдд рдмрдбрд╝рд╛ рдЗрдирдкреБрдЯ рд╕рдВрдХреНрд╖рд┐рдкреНрдд UI рд▓реИрдЧ рдХрд░ рд╕рдХрддрд╛ рд╣реИред
- рд╕рд╛рдзрд╛рд░рдг рдЯреЛрдХрдирд╛рдЗрдЬрд╝реЗрд╢рди тАФ Text Tokenizer рдЬреИрд╕рд╛: рдХреЗрд╡рд▓ рд╡реНрд╣рд╛рдЗрдЯрд╕реНрдкреЗрд╕ рд╕реНрдкреНрд▓рд┐рдЯ; рдХреЛрдИ рд╕реНрдЯреЗрдорд┐рдВрдЧ, рд▓реЗрдореНрдорд╛рдЯрд╛рдЗрдЬрд╝реЗрд╢рди рдпрд╛ рднрд╛рд╖рд╛-рд╕реНрдкреЗрд╕рд┐рдлрд┐рдХ рдЯреЛрдХрдирд╛рдЗрдЬрд╝реЗрд╢рди рдирд╣реАрдВред
- рд╡рд┐рд╕реНрддреГрдд рд╡рд┐рд╢реНрд▓реЗрд╖рдг тАФ рдлреНрд░реАрдХреНрд╡реЗрдВрд╕реА рдЯреЗрдмрд▓, рдЖрдЙрдЯрдкреБрдЯ рдХреЙрдкреА рдФрд░ "Analyze in Statistics" рдЗрдВрдЯреАрдЧреНрд░реЗрд╢рди рдХреЗ рд▓рд┐рдП Text Tokenizer рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВред