Claude Codeで記事を書かせるなら、上のモデルを使ったほうが記事のクオリティ良くなるよね?
そう思いますよね。僕もずっとそう思っていました。
でもClaudeCodeにおけるモデルの差って「推論力」と言われているんですよね。推論力とは、数学の証明やプログラミングコードのバグ探しなど「ひとつ狂うと全部崩れてしまう問題」を解く力らしいです。
そこで「ライティングに推論力って必要か?」という疑問が生まれました。SEOライティングにおいては、だいたい「型(書き方)」が決まっているためです。
つまり「ライティングに推論力は不要」なんですね
というわけで、ClaudeCodeに搭載されている3モデル「Opus 4.8・Sonnet 4.6・Haiku 4.5」それぞれに対して、複数のテーマで合計66本の記事を書いてもらいました。
結論から言うと、ライティングにおいてOpusとSonnetはほぼ同点でした。Sonnetで十分どころか、Haikuでも実用ラインをある程度クリアするケースが多かったです。
この記事を読めば「高いモデルほど記事がうまい」という思い込みからスッキリ解放されて、ムダにトークンを消費せずに済みます。
Claude Codeのライティングはモデルで大差なし
まずは検証結果から見ていきましょう。
| モデル | SEO平均 | 非SEO平均 | 総合平均 | 速度/記事 | コスト/記事 |
|---|---|---|---|---|---|
| Opus 4.8 | 100.0 | 93.3 | 97.2 | 5分04秒 | $1.93 |
| Sonnet 4.6 | 100.0 | 93.3 | 97.2 | 4分56秒 | $1.07 |
| Haiku 4.5 | 87.8 | 76.7 | 83.4 | 3分16秒 | $0.44 |
えっ、OpusとSonnetが同じ点数?ほんとに?
SEO記事に限ると両方100点満点でした。非SEO(エッセイ・解説記事)もまったく同スコアです♪
OpusとSonnetは同レベルの品質なのに、コストはSonnetのほうが半分程度です
とくに今回の検証でびっくりしたのは、Haikuのクオリティです。もちろんSonnetやOpusに比べると、ちょっと「AIっぽい」というか硬い感じはありました。でも正直「これは使い物にならない」というレベルではなかったのです。
下はHaikuが実際に書いた「副業の確定申告」SEO記事の冒頭です。

すごくわかりやすい文章!これが一番下のモデルなの!?
僕もちょっとこれは驚きました笑
僕は2024年からClaudeを活用しており、その頃は「さすがにHaikuでライティングはきびしい」という印象だったので、Haikuの進化に驚きです。
HaikuのコストはSonnetの半分以下ですから「ゼロベースから文章を考えるのが苦手!どうせ手修正絶対にするんだから、AIには大枠の文章構成を書いてもらうだけでいいよ」っていう用途ならぜんぜん行けるモデルだと思います。
モデル別ライティングの検証方法
今回は、合計8つのテーマで記事を書いてもらいました。検索上位を目指すことが目的のSEO記事、エッセイなどの非SEO記事、そしてちょっと創造力が試される短編小説です。
| 種別 | テーマ | 文字数 |
|---|---|---|
| SEO記事 | 節約・副業確定申告・国内一人旅 | 4,000字 |
| 非SEO | 体験エッセイ・クレカ解説 | 1,500字 |
| 短編小説(番外編) | コンビニ再会・手放す日・記憶売買 | 2,000字 |
そして今回、モデル別のライティング結果の信ぴょう性を上げるため、3つのルールを設けました。
8つのテーマをそれぞれ3回ずつ実施
1回だと出力ムラが出る可能性があるため、同じテーマ・同じモデルで3回ずつ書いてもらいました。合計54本の検証をしています。
| 種別 | テーマ数 | モデル | 回数 | 合計 | 備考 |
|---|---|---|---|---|---|
| SEO記事 | 3 | Opus Sonnet Haiku | 3 | 27本 | 1本あたり3工程(リサーチ→構成→執筆) |
| 非SEO | 2 | Opus Sonnet Haiku | 3 | 18本 | 1工程/本 |
| 短編小説 | 3 | Opus Sonnet Haiku | 1 | 9本 | 1工程/本(番外編のため1回のみ) |
| 合計 | — | — | — | 54本 |
採点や執筆は毎回新しいエージェントに行ってもらった
同じエージェントに対して「同じテーマの記事」を書かせようとすると、前回の内容を記憶していることから、3つの記事がそれぞれ似た傾向になってしまいます。
そのため、毎回新しいエージェントを呼び出して記事を書いてもらいました。

採点においても同じ理由から、余計な記憶が入らないように新しいエージェントで採点させました。
なお、採点時のモデルはOpus 4.8で行っています。
指示は最小限に絞った
モデル本来の素の能力を測るために作業時の指示(ルール)は必要最低限に抑えました。渡した指示は役割・文体・文字数の3点のみです。
| 種別 | 役割 | 文体 | 文字数 |
|---|---|---|---|
| SEO記事 | SEOライター | ですます調 | 4,000字(±200字) |
| 体験エッセイ | エッセイスト | ですます調 | 1,500字(±100字) |
| クレカ解説 | ライター | ですます調 | 1,500字(±100字) |
| 短編小説 | 小説家 | だ・である調 | 2,000字(±200字) |
細かい文体ルール・禁止表現・装飾指定は一切渡していません。SEO記事のみリサーチ工程があるためWeb検索を必須指示としています。
SEO記事の採点結果と3モデルの書き比べ
SEO記事で書かせたテーマは「節約 方法 一人暮らし」「副業 確定申告」「国内 一人旅」の3つです。採点はOpus 4.8が担当し、以下の8項目・100点満点で評価しています。
| # | チェック項目 | 配点 |
|---|---|---|
| 1 | タイトル・リード文でメインKWに直接答えているか | 15点 |
| 2 | H2/H3の論理的な流れ・階層の整合性があるか | 15点 |
| 3 | タイトル・H2・本文冒頭にKWが自然に入っているか | 15点 |
| 4 | 検索上位が扱うトピックをカバーできているか | 15点 |
| 5 | 根拠・出典・経験の表現があるか | 10点 |
| 6 | 段落の長さ・箇条書きの活用が適切か | 10点 |
| 7 | 記事の目的に沿った行動喚起(CTA)があるか | 10点 |
| 8 | AIっぽい硬さ・繰り返し表現がないか | 10点 |
各項目、条件を満たせば配点満点・満たさなければ0点のTrue/False判定です。各テーマを3回ずつ書いてもらったスコアの平均が以下です。
| モデル | 節約(3回平均) | 副業確定申告(3回平均) | 国内一人旅(3回平均) | SEO総平均 |
|---|---|---|---|---|
| Opus | 100.0 | 100.0 | 100.0 | 100.0 |
| Sonnet | 100.0 | 100.0 | 100.0 | 100.0 |
| Haiku | 88.3 | 90.0 | 85.0 | 87.8 |
OpusとSonnetは全テーマで満点でしたが、Haikuは全テーマで90点をも下回りました。
Haikuが減点された主な内容は以下です(全テーマ・全3回分の採点記録から整理)。
- 出典・根拠の明記なし:節約テーマで総務省の家計調査などの出典を省略
- 同内容の繰り返し・再掲:税テーマでは同一の具体例を別章でほぼ丸ごと再掲、旅テーマでも同表現の反復が目立った
- H2/H3の階層構造の重複:節約テーマで「通信費・光熱費」が固定費削減セクション内と独立H2の両方に出てきた(本文中に「前の章でも触れましたが」という自己言及まで登場)
- KW未回答のリード文:旅テーマの1本で「また仕事で疲れた…」という感情的な導入からはじまり、メインKW(国内 一人旅 おすすめ)への直接回答が後ろ倒しになった
実際の出力結果(各テーマ・3モデル分)
エッセイ・解説記事でHaikuの差が拡大
非SEOで書かせたテーマは「体験エッセイ(初めての一人旅)」と「クレジットカードのポイント解説」の2つです。採点はOpus 4.8が担当し、SEO記事と同じ8項目・100点満点(True/False判定)で評価しています。
各テーマ3本ずつ書いてもらったスコアの平均が以下です。
| モデル | エッセイ(3本平均) | クレカ解説(3本平均) | 非SEO総平均 |
|---|---|---|---|
| Opus | 93.3 | 93.3 | 93.3 |
| Sonnet | 100.0 | 86.7 | 93.3 |
| Haiku | 66.7 | 86.7 | 76.7 |
2つのテーマで、それぞれ特徴的な結果が出ました。
エッセイではOpusが「上手すぎた」ことで採点基準を外しています。採点エージェントのコメントに出ていました。
> 「opusの体験エッセイは『北へ』『小さな町』と詩的に抽象化した結果、地名・施設名が1つもなく項目3(具体的な地名が1か所以上ある)を落としました。逆にsonnetは『京都・鴨川』と固有名を入れて満点」(採点エージェント)
Opusは文学的な表現を勝手に追求した結果、「地名を入れる」という採点基準の項目を落としました笑。Sonnetはそこを外さずに全3本満点でした。
クレカ解説はSonnetとHaikuが同点。構造が明確な解説記事なら、HaikuもSonnetと同じ水準まで書けます。
実際の出力結果(各テーマ・3モデル分)
短編小説:3モデルとも採点基準をクリアした
これまでの検証は、いずれも「解説記事」でしたので、完全にストーリー重視の執筆ではどうなるか気になり、短編小説(2,000字)も追加で書いてもらいました。
指示はこんなざっくりとした感じ。
あなたは小説家です。
読者を引き込む短編小説を書くことを目的として、以下のお題で執筆してください。【お題】深夜のコンビニで偶然再会した元同僚との30分
【文体】だ・である調
【文字数】2,000字(±200字)
採点はOpus 4.8が担当し、以下の5項目・100点満点(True/False判定)で評価しています。
| # | チェック項目 | 配点 |
|---|---|---|
| 1 | お題に沿った物語になっている | 20点 |
| 2 | 登場人物の感情・心理描写がある | 20点 |
| 3 | 情景または場面の描写が1か所以上ある | 20点 |
| 4 | 冒頭と結末で登場人物の状況または心境が変化している | 20点 |
| 5 | 語り手の視点(一人称または三人称)が最初から最後まで一貫している | 20点 |
3モデル全テーマで満点でした。
| モデル | コンビニ再会 | 手放す日 | 記憶売買 | 合計(/300) |
|---|---|---|---|---|
| Opus | 100 | 100 | 100 | 300 |
| Sonnet | 100 | 100 | 100 | 300 |
| Haiku | 100 | 100 | 100 | 300 |
この採点は「物語として成立しているか」の確認です。文体の細かさや読後感の違いは採点に出ません。3モデルの質感の差が気になる方は、下のリンクから実際の出力を読み比べてみてください。
とくにストーリー性重視のライティングは、モデルによる差がないという結果になりました。
実際の出力結果(各テーマ・3モデル分)
コスト・速度の比較
品質はOpusとSonnetがほぼ同点だとわかったので、速度とコストを見てみましょう。
| モデル | 速度/記事 | コスト/記事 | 出力トークン/記事 |
|---|---|---|---|
| Opus 4.8 | 5分04秒 | $1.93 | 約10.3k |
| Sonnet 4.6 | 4分56秒 | $1.07 | 約12.5k |
| Haiku 4.5 | 3分16秒 | $0.44 | 約15.3k |
Haikuのほうがトークンを多く使ってるのに一番安いの?
Haikuの出力単価がOpusの1/5だからです。トークンが多くても、単価が違うので逆転します
ちなみにHaikuのトークンが多かった理由は、執筆の際に必要なツールの呼び出しや書き直しが多かったからです。Haikuは1記事を仕上げるまでの試行回数が多く、Opusは少ない手数で書き切るので出力が少なかく済みました。
サブスクプランには5時間ごとと7日間ごとの使用制限があり、Opusを使うほど制限に早く到達します。ライティング作業は品質に差が出にくいため、Sonnetに任せたほうが同じプランでこなせる作業量が増えるということですね。
結局Sonnetがいちばんコスパがいいってこと?
そうです。品質・速度・使用制限のどこから見ても、ライティング用途ならOpusはコストがもったいないという結果になりました。
Claude Codeのライティングでモデル差が出にくい理由
これまでの検証から、OpusとSonnetは品質にそこまで差はないことがわかりました。Haikuも確かに上位2モデルと比べてみると、多少違和感のある表現はあるものの「実用レベル」のライティングです。
モデル差がそこまで出なかった理由として、僕は2つの仮説を立てました。
モデル差の正体は推論力だから
Anthropicの公式ドキュメントには、各モデルの得意領域が書かれています。
- Opus:「complex reasoning(複雑な推論)とagentic codingのための最高性能モデル」
- Sonnet:「速度と知能の最良バランス」
- Haiku:「最速・最軽量でフロンティアに近い知能」
Opusが強いとされる「複雑な推論」とは、数学の証明やプログラムのバグ探しのような「途中で1つ間違えると全部崩れる」作業です。可能性を枝分かれさせながら正解にたどり着こうとする作業において、その真価が発揮されるわけですね。
ライティングの場合、言い回しに「唯一の正解」なんてありません。特に解説記事なんてものは「書くべき内容」は決まっています。
だから深く推論する力の差が出にくかったんじゃないかというのが僕の仮説です。
指示を守り切る力に差が出ているから
Haikuが減点となった原因は、おもに「字数オーバー・同じ内容の繰り返し・出典の入れ忘れ」です。これは賢さの問題というより最後まで指示を守り切れるかどうかの差の可能性もあります。
上位モデルは「頭が良い」というよりも「4,000字書き終わるまで、気を抜かずにルールを守りきろうとする意識」が違うのでは?という仮説が浮かびました。
「ルールを守りきる力に差があるなら、ルールが多すぎる作業をさせたときにどうなるのか」を確かめる必要があります。
追加検証:31個あるライティングルールをどれだけ守られるのか
それぞれのモデルには同じ見出し構成と、31個の執筆ルールを渡して執筆してもらいました。
つまり「ルールを全部守れるのか」だけを純粋に比べる設計です。
31個のルールは下記のとおりです。

これまでの検証に比べるとかなりの量に感じますが、内容はごく一般的なライティングルールです。
遵守率はOpus 100%・Sonnet 81%・Haiku 52%
検証結果は、モデル別の差が明らかなものになりました。
| モデル | ルールを守った数 | 遵守率 | 処理時間 |
|---|---|---|---|
| Opus | 31/31 | 100.0% | 14分55秒 |
| Sonnet | 25/31 | 80.6% | 16分39秒 |
| Haiku | 16/31 | 51.6% | 1分55秒 |
Opusが完璧、Sonnetが軽微な崩れのみ、Haikuが約半分しか守れない結果でした。処理時間の差は、それぞれの書き方から来ています。
Haikuは一気に書き上げて終わりなので速かった。Opusは書いたあと自分でルールを1つずつ見直す作業を繰り返していたので、時間はかかりましたが遵守率は100%という結果に。
一方でSonnetは見直しをせずに仕上げたものの、遵守率は若干下がりました。
これでモデル差は「ルールを守ろうとする力」ってことがハッキリ分かったんですね
そのはずだったんですが、検証結果が変わりそうな情報が、指示に含まれていたのが検証のあとにわかりました…
指示書の冒頭に「このファイルは制約が多い場合のモデル比較検証用です」という説明が入っていたんです。
【指示書の内容】 "ライティング規約(全31条・厳守) このファイルは「制約が多い場合のモデル比較検証」用の執筆ルールです。 渡された記事構成(見出し設計)はそのまま使い、本文の執筆において以下の31条をすべて守ってください。"
各モデルが「いまテストされている」と認識して、いつもより丁寧に守ろうとした可能性がでてきました。特にOpusの100%について。
そこで【このファイルは「制約が多い場合のモデル比較検証」用の執筆ルールです。】という説明文を取り除いて、改めて3回ずつ実施しました。
| モデル | 1回目 | 2回目 | 3回目 | 再検証平均 | 初回(参考) |
|---|---|---|---|---|---|
| Opus | 64.5% | 51.6% | 51.6% | 55.9% | 100.0% |
| Sonnet | 54.8% | 58.1% | 61.3% | 58.1% | 80.6% |
| Haiku | 51.6% | 54.8% | 64.5% | 57.0% | 51.6% |
再検証の結果すべてのモデルが55〜58%に収束し、ほぼ横並びになりました。
「これはテスト」という一言が遵守率を押し上げた可能性
「これはモデル比較検証です」という説明文を取り除いたら、3モデルが横並びになりました。この結果が示すのは「テストだと知っていたから遵守率が上がった」という可能性です。
つまり「ルールを守ろうとする集中力」はモデルが常に持っている能力ではなく、意識させられたときに発揮される可能性もでてきました。
ただし初回は1回しか検証していないので「たまたまOpusが好調だった」という可能性もあります。
モデルに関係なくAIが守れなかった7つの指示
再検証の9本すべてで、モデルを問わず共通して守られなかったルールが7つありました。
- 同じ文末(です/ます等)を3文以上続けない
- 各H2で文末に変化をつける
- 一文は50字以内
- 1段落は3文以内
- 接続詞(しかし・また・さらに等)で文を始めるのは全体で5回まで
- 指示語(これ・それ・この・その)で文を始めない
- 専門用語は初出時に10〜20字でかみ砕く
これらは「Claudeが苦手とする部分」ともいえます。
指示が多すぎると自然にできていたことも崩れた
通常のSEO執筆(ルールなし)の出力を31のルールで後から照らし合わせると、「同じ語尾(です/ます)を2文までに抑える」「1段落は3文以内」といった項目は結果として満たされていました。
ところが31のルールを渡してルールとして意識させると、その両方で違反が出るようになりました。
これは米国大手金融機関Capital OneのAI研究チームが発表した論文(arxiv.org/abs/2601.18554)の「15の制約を超えるとほぼすべてのモデルで遵守率が明確に低下する」という情報とも一致する現象です。
この結果から、ライティング時のルールは多すぎると遵守率が下がることがわかりました。
検証結果から見えた各モデルのライティングの傾向
スコアだけ見てもモデルの選び方はわかりません。今回の検証から、モデルごとに「どんな場面に向いているか」が見えてきたのでまとめます。
Opusはライティングでは力を発揮しにくい
最上位モデルのOpusなら、ライティングでも一番いいものができるはず…、こんな風に思っていた人は僕だけではないはず。
でも実際にはSonnetとほぼ同じスコアで、コストだけ約2倍かかっていました。
今回の検証で最上位モデルのOpusを選んだとしても、ライティングではその力を発揮できないという結果になりました。
Sonnetは最もブレない安定型
SonnetはOpusとほぼ同じ品質を、その半分のコストで出せました。SEO記事はOpusと同点で、体験エッセイに関してはOpusよりも高いスコアになったのが印象的です。
どの種類の記事を書かせても、結果の質が安定していたのはSonnetだけという結果になりました。
Haikuは速いが詰めが甘い
HaikuはSEO記事1本あたりの処理時間が平均3分16秒と3モデルで最速で、コストはSonnetの半分以下です。短編小説や構造がシンプルな解説記事では高いスコアが出ることもありました。
苦手なことははっきりしています。出典を省く、同じ内容を別の章で繰り返す、同じ言い回しが記事内に何度も出てくる、といったことが起きやすいです。
ただ個人的には、AIに完全に仕上げてもらうのではなく、最終的に自分で手を入れる前提なら、Haikuでも十分じゃないかと思っています。文章の構成自体は悪くないので、出典の補足や表現の修正を自分でやるなら、コスト面でHaikuはかなり魅力的です。
まとめ:Claude Codeのライティングに一番上のモデルは必須ではない
今回の検証から見えた3点を整理します。
- OpusとSonnetはSEO・非SEO両方でほぼ同点(総合97.2%)
- Sonnetは同品質でOpusの半額($1.07 vs $1.93/記事)
- Haikuは安く速いが、字数・繰り返し・出典で一段落ちる(総合83.4%)
ライティングに使うモデルは、一番上じゃなくていいというのが今回の結論です。
Opusをライティングに使い続けているなら、Sonnetに切り替えるだけでコストがほぼ半分になります。
実際にどんな文章が出てくるかは、各セクションのリンクから3モデルの出力を読み比べてみてください。
数字だけではわからない書き方の違いが見えてくると思います♪