🤖 AI基礎・Claude入門 | 📖 7分

大規模言語モデル（LLM）の仕組み ― トークンと確率の世界

大規模言語モデル（LLM）とは？

LLM（Large Language Model：大規模言語モデル）は、膨大なテキストデータから言語のパターンを学習した巨大なAIモデルです。ChatGPTやClaudeの中核技術であり、人間のような自然な文章を生成できるのはこのLLMのおかげです。

LLMの「大規模」とは、学習に使うデータ量とモデル内のパラメータ数の両方を指します。最新のLLMは数千億〜数兆のパラメータを持ち、インターネット上の膨大なテキストから学習しています。

LLMは文章をそのまま理解するのではなく、「トークン」という小さな単位に分解して処理します。

たとえば「今日はいい天気ですね」という文は、日本語では約8〜12トークンに分解されます。LLMはこのトークン列を入力として受け取り、処理を行います。

LLMの核心は驚くほどシンプルです。それは「次に来る可能性が最も高いトークンを予測する」ということです。

たとえば「今日の天気は」という入力に対して、LLMは次に来る可能性が高い単語を確率で計算します：

この確率分布から1つのトークンを選び、さらにその続きを予測し…を繰り返すことで、自然な文章が生成されます。

LLMが人間のような文章を生成できる秘密は、「Attention（注意機構）」という仕組みにあります。これは2017年にGoogleが発表した「Transformer」アーキテクチャの核心技術です。

文章中のある単語を処理するとき、他のすべての単語との関連性の強さを計算する仕組みです。たとえば「銀行の川」と「銀行の口座」では、「銀行」の意味が異なりますが、Attentionは周囲の単語との関係を分析して、正しい意味を判断します。

LLMが一度に処理できるトークン数には上限があり、これを「コンテキストウィンドウ」と呼びます。

コンテキストウィンドウが大きいほど、長い文書や複数のファイルを同時に処理でき、より文脈に沿った応答が可能になります。Claudeの20万トークンは、一般的な書籍約1冊分に相当します。

💡 ポイント：LLMは「次に来る確率の高いトークンを予測する」というシンプルな原理で動いています。Attention機構により文脈を理解し、コンテキストウィンドウの範囲内で情報を処理します。この仕組みを知ることで、LLMの得意・不得意を理解し、より効果的に活用できるようになります。