← テキスト
トークン・文字数換算シミュレーター
日本語テキストを各 LLM のコンテキストサイズに対してどれだけ占めるかを可視化(経験値ベースの概算)。
サンプル:
文字数の内訳
- 総文字数(UTF-16)
- 296
- グラフェム
- 296
- バイト(UTF-8)
- 674
- 行
- 5
- 単語
- 100
- 空白
- 18
文字種別
- 英数記号 (ASCII) 89(32.0%)
- ひらがな・カタカナ 123(44.2%)
- 漢字 (CJK) 52(18.7%)
- その他(絵文字等) 14(5.0%)
表示するモデルファミリー
コンテキスト占有率
推定誤差は概ね ±20%。実値は各社のトークナイザで確認してください。
- GPT-5 OpenAI (ChatGPT)176 / 400.0k tok0.0% 使用 残り 399.8k tok o200k_base 系
- GPT-4.1 OpenAI (ChatGPT)176 / 1.00M tok0.0% 使用 残り 999.8k tok o200k_base 系
- GPT-4o OpenAI (ChatGPT)176 / 128.0k tok0.1% 使用 残り 127.8k tok o200k_base(日本語効率↑)
- GPT-4 Turbo OpenAI (ChatGPT)226 / 128.0k tok0.2% 使用 残り 127.8k tok cl100k_base
- GPT-4 32k OpenAI (ChatGPT)226 / 32.8k tok0.7% 使用 残り 32.5k tok cl100k_base
- GPT-4 8k OpenAI (ChatGPT)226 / 8,192 tok2.8% 使用 残り 7,966 tok
- GPT-3.5 Turbo OpenAI (ChatGPT)226 / 16.4k tok1.4% 使用 残り 16.2k tok
- GPT-3 (text-davinci-003) OpenAI (ChatGPT)289 / 4,097 tok7.1% 使用 残り 3,808 tok p50k_base(legacy / 日本語非効率)
- Claude Opus 4.7 Anthropic (Claude)217 / 200.0k tok0.1% 使用 残り 199.8k tok
- Claude Sonnet 4.6 Anthropic (Claude)217 / 200.0k tok0.1% 使用 残り 199.8k tok
- Claude Haiku 4.5 Anthropic (Claude)217 / 200.0k tok0.1% 使用 残り 199.8k tok
- Claude 3.5 Sonnet Anthropic (Claude)217 / 200.0k tok0.1% 使用 残り 199.8k tok
- Claude 3 Opus Anthropic (Claude)217 / 200.0k tok0.1% 使用 残り 199.8k tok
- Gemini 3.1 Pro Preview Google (Gemini)124 / 1.00M tok0.0% 使用 残り 999.9k tok 新世代トークナイザ(日本語効率↑↑)
- Gemini 3 Pro Google (Gemini)124 / 1.00M tok0.0% 使用 残り 999.9k tok
- Gemini 2.0 Pro Google (Gemini)170 / 2.00M tok0.0% 使用 残り 2.00M tok 実測 1M〜2M
- Gemini 1.5 Pro Google (Gemini)170 / 2.00M tok0.0% 使用 残り 2.00M tok
- Gemini 1.5 Flash Google (Gemini)170 / 1.00M tok0.0% 使用 残り 999.8k tok
- Gemini 1.0 Pro Google (Gemini)170 / 32.8k tok0.5% 使用 残り 32.6k tok
文字あたりトークン換算
| モデル | tokens | tok/文字 | tok/byte |
|---|---|---|---|
| GPT-5 | 176 | 0.59 | 0.26 |
| GPT-4.1 | 176 | 0.59 | 0.26 |
| GPT-4o | 176 | 0.59 | 0.26 |
| GPT-4 Turbo | 226 | 0.76 | 0.34 |
| GPT-4 32k | 226 | 0.76 | 0.34 |
| GPT-4 8k | 226 | 0.76 | 0.34 |
| GPT-3.5 Turbo | 226 | 0.76 | 0.34 |
| GPT-3 (text-davinci-003) | 289 | 0.98 | 0.43 |
| Claude Opus 4.7 | 217 | 0.73 | 0.32 |
| Claude Sonnet 4.6 | 217 | 0.73 | 0.32 |
| Claude Haiku 4.5 | 217 | 0.73 | 0.32 |
| Claude 3.5 Sonnet | 217 | 0.73 | 0.32 |
| Claude 3 Opus | 217 | 0.73 | 0.32 |
| Gemini 3.1 Pro Preview | 124 | 0.42 | 0.18 |
| Gemini 3 Pro | 124 | 0.42 | 0.18 |
| Gemini 2.0 Pro | 170 | 0.57 | 0.25 |
| Gemini 1.5 Pro | 170 | 0.57 | 0.25 |
| Gemini 1.5 Flash | 170 | 0.57 | 0.25 |
| Gemini 1.0 Pro | 170 | 0.57 | 0.25 |
このツールについて
本ツールは、各 LLM の専用トークナイザ(tiktoken / Anthropic Tokenizer / SentencePiece など)を直接実行するのではなく、 文字種ごとのトークン化効率を 経験値(公開ベンチマークの中央値) で適用して概算します。 巨大な WASM をダウンロードせず、ブラウザだけで瞬時に推定できます。
精度について
- 誤差は典型的に ±20% 程度。コードや表など特殊な内容ではさらにぶれます。
- 正確な数値が必要な場合は OpenAI Tokenizer や各社の API を使ってください。
- 絵文字や合成文字は
Intl.Segmenterでグラフェム単位に集計しています(IE などの旧環境ではコードポイント単位にフォールバック)。
文字種ごとの目安(日本語)
- GPT-3 legacy (p50k_base): 漢字 1 文字 ≒ 1.45 トークン、ひらがな 1 文字 ≒ 1.30 トークン(最も非効率)
- GPT-4 (cl100k_base): 漢字 1 文字 ≒ 1.10 トークン、ひらがな 1 文字 ≒ 1.00 トークン
- GPT-4o / GPT-5 (o200k_base): 漢字 1 文字 ≒ 0.95 トークン、ひらがな 1 文字 ≒ 0.70 トークン
- Claude: 漢字 1 文字 ≒ 1.05 トークン
- Gemini 1.x / 2.x: 漢字 1 文字 ≒ 0.85 トークン
- Gemini 3.x: 漢字 1 文字 ≒ 0.55 トークン、ひらがな 1 文字 ≒ 0.47 トークン(最も効率的)
- 英数 ASCII: どのモデルも 1 文字 ≒ 0.25〜0.3 トークン(≒ 4 文字で 1 トークン)
- 校正データ(5000 文字の日本語混在テキスト実測): Gemini 3.1 Pro Preview 2,260 / GPT-5 系 3,390 / GPT-4 系 4,438 / GPT-3 legacy 5,728 トークン
主な用途
- 長文プロンプトを送る前に、コンテキストに収まるかをざっと判断
- RAG で投入するチャンクサイズを決める参考に
- OpenAI / Anthropic API のコスト試算(入力トークン × 単価)の前段階
入力テキストはブラウザ内のみで処理され、サーバーや外部 API には送信されません。