🤖 AI基礎・Claude入門 | 📖 10分

生成AIとは ― 文章や画像を「作れる」AI

はじめに ― 「分析するAI」から「作るAI」へ

前のレッスンでAIの基本を学びました。従来のAIは「分類する」「予測する」「検出する」といった分析的なタスクが中心でした。しかし2022年以降、AIの世界に大革命が起きています。それが生成AI(Generative AI)の登場です。

生成AIは文章、画像、音声、動画、プログラムコードなど、これまで人間にしか作れなかったコンテンツを「生成」できるAIです。このレッスンでは、生成AIの種類、仕組み、そして主要サービスを詳しく見ていきましょう。

生成AIの種類 ― 5つのカテゴリ

カテゴリ何を作るか代表的なサービス活用例
テキスト生成文章・対話Claude、ChatGPT、Geminiメール作成、要約、翻訳、プログラミング
画像生成イラスト・写真Midjourney、DALL-E 3、Stable Diffusion広告素材、コンセプトアート、商品画像
音声生成音声・ナレーションElevenLabs、VOICEVOX、OpenAI TTSナレーション、ポッドキャスト、多言語対応
動画生成映像Sora、Runway、Pika広告動画、プロモーション、プロトタイプ
コード生成プログラムClaude、GitHub Copilot、Cursor開発効率化、バグ修正、コードレビュー

生成AIの仕組み ― トランスフォーマーを理解する

すべての始まり:Transformer(トランスフォーマー)

2017年にGoogleが発表した論文「Attention Is All You Need」で紹介されたTransformerアーキテクチャが、現在の生成AIの基盤です。

🔍 トランスフォーマーをカンタンに説明すると

従来のAIは文章を前から順番に1単語ずつ処理していました。まるで1行ずつしか読めない読書のようなもの。

トランスフォーマーは文章全体を一度に見渡して、各単語の関係性を理解します。まるで本の全ページを同時に読めるようなもの。

この「全体を見る」仕組みを「アテンション(注意)機構」と呼びます。例えば「私は東京に住んでいて、そこの天気は〜」という文で、「そこ」が「東京」を指していることをAIが理解できるのは、このアテンション機構のおかげです。

テキスト生成AIの動作原理

📖 Claude/ChatGPTが文章を生成する流れ

ステップ1:トークン化 ― ユーザーの入力を「トークン」(単語や文字の断片)に分割

ステップ2:エンコード ― 各トークンを数値ベクトル(数字の列)に変換

ステップ3:注意計算 ― すべてのトークン間の関係性をアテンション機構で計算

ステップ4:次のトークン予測 ― 「次に来る可能性が最も高いトークン」を確率的に選択

ステップ5:繰り返し ― ステップ4を繰り返して文章を1トークンずつ生成

💡 つまり生成AIは「次の単語を予測する」という作業を超高速で繰り返しているだけなのです。しかし、数兆語のテキストで訓練された結果、まるで「理解している」かのような文章が生成されます。

生成AIの歴史 ― タイムライン

出来事インパクト
2017年Transformer論文発表現在の生成AI技術の基盤
2018年GPT-1発表(OpenAI)大規模言語モデルの幕開け
2020年GPT-3発表1750億パラメータで高品質な文章生成
2021年DALL-E発表テキストから画像生成が現実に
2022年6月Midjourney公開高品質な画像生成が一般利用可能に
2022年11月ChatGPT公開2ヶ月で1億ユーザー突破、世界中に衝撃
2023年3月Claude初公開(Anthropic)安全性を重視したAIアシスタント
2023年3月GPT-4発表マルチモーダル対応(テキスト+画像入力)
2024年3月Claude 3ファミリーHaiku/Sonnet/Opusの3モデル体制
2025年〜Claude 4ファミリー、AIエージェント時代Claude 4.5/4.6へ進化。自律的タスク実行が可能なAIの普及

主要テキスト生成AIの比較

特徴Claude(Anthropic)ChatGPT(OpenAI)Gemini(Google)
強み長文理解・分析、コーディング、安全性汎用性、プラグイン、画像生成Google連携、検索統合
日本語品質◎ 非常に高い◎ 非常に高い○ 高い
コーディング◎ 特に優秀◎ 優秀○ 良い
長文処理◎ 20万トークン対応○ 12.8万トークン◎ 100万トークン
画像生成×(画像生成は非対応、画像入力は可能)◎ DALL-E 3統合○ Imagen統合
安全性◎ Constitutional AI○ 標準的○ 標準的
API価格中程度中程度比較的安い
無料利用○ 制限あり○ 制限あり○ 制限あり

📌 どのAIを使うべき?

正解は「目的に合わせて使い分ける」です。本ガイドではClaudeを中心に学びますが、他のAIの特徴も知っておくと、最適なツールを選べるようになります。

  • 文章作成・分析・コーディング → Claude がおすすめ
  • 画像生成を含む作業 → ChatGPT(DALL-E統合)
  • Google サービスとの連携 → Gemini
  • 専門的な画像生成 → Midjourney、Stable Diffusion

中級者向けヒント

🚀 技術的な深掘り

  • LLM(大規模言語モデル):数千億〜数兆のパラメータを持つニューラルネットワーク。「大規模」はデータ量とモデルサイズの両方を指す
  • 事前学習(Pre-training):インターネット上の膨大なテキストで基本的な言語能力を獲得
  • ファインチューニング:特定のタスクに合わせた追加学習
  • RLHF:人間のフィードバック(この回答の方が良い/悪い)を使ってAIの出力品質を改善する手法
  • マルチモーダル:テキスト・画像・音声など複数の入出力形式に対応するモデル

やってみよう!

✏️ ワーク:生成AIを体験してみよう

以下の3つのタスクをClaude(またはChatGPT)で試してみましょう。

  1. 文章生成:「私の会社の忘年会の案内メールを作成してください。日時:12月20日19時、場所:渋谷のイタリアン」と入力
  2. 要約:好きなニュース記事をコピー&ペーストして「この記事を3行で要約してください」と指示
  3. 翻訳:「以下の日本語を英語に翻訳してください:弊社は2025年創業のIT企業です」と入力

それぞれの結果を見て、「AIが作った文章」の品質を自分の目で確認してみてください。驚くほど自然な文章が返ってくるはずです。

📝 このレッスンのまとめ

  • 生成AIは「新しいコンテンツを作る」ことができるAI
  • テキスト・画像・音声・動画・コードの5カテゴリがある
  • Transformer(2017年)が現在の生成AIの基盤技術
  • 生成AIは「次のトークンを予測する」作業の繰り返しで文章を生成
  • Claude、ChatGPT、Geminiはそれぞれ強みが異なる
  • 目的に合わせてAIを使い分けることが重要