Multilingual Tokenization Showdown

Analyzing 12 LLM Tokenizers

Across 204 Languages

Tokenizer Winners

🥇 GPT-OSS

95 languages (46.6%)

🥈 MiniMax-M2

41 languages (20.1%)

🥉 Llama-4

39 languages (19.1%)

Words Per Token: Bigger is Better

Worst in 190 out of 204 languages

Trained on English only - struggles with multilingual text

Russian

WPT: 0.134

German

WPT: 0.309

Second worst: Granite-4 (Avg WPT: 0.282)

Llama-4 70%

GPT-OSS 75%

MiniMax-M2 62.5%

Gemma-3 50%

✓ Semitic (Arabic): 100%

✓ Japanese: 100%

✓ Niger-Congo: 100%

✓ Semitic (Hebrew): 100%

✓ Korean: 100%

✓ Austroasiatic: 100%

✓ Sino-Tibetan (Burmese): 100%

🏆 Overall Winner: GPT-OSS (46.6% wins, highest avg WPT: 0.345)

🌍 Specialization Matters: Different tokenizers excel at different language families

⚠️ Legacy Issues: GPT-2 struggles dramatically outside English (93% worst)

💡 Recommendation: Choose GPT-OSS for multilingual applications