マスログ

テキストデータ分析のキホン-第1回:数字だけでは分からない“理由”を読み解く!テキストデータ分析の全体像【統計学をやさしく解説】

公開日

2026年1月30日

更新日

2026年4月25日


この記事のポイント

・数字だけでは見えない「顧客や現場の理由」をテキストから読み解く
・テキストデータ分析の 4ステップ(収集/前処理/分析/解釈)
・代表的な 5つの分析手法(頻度・共起・分類・感情・要約)
・AIを味方にする 分析の進め方と注意点

和から無料セミナーのご案内バナー

数字は「何が起きたか」しか教えてくれない

「離職率が15%に上がった」「売上が前月比-8%」「NPSが10ポイント下がった」——定量データは状況を映しますが、原因(=理由)までは教えてくれません。

理由は大抵、テキストデータの中にあります。

・退職者の面談記録・退職理由メモ
・アンケートの自由回答欄
・カスタマーサポートへの問い合わせログ
・営業の商談メモ・失注理由
・商品レビュー・SNS投稿
・日報・議事録・社内チャット

「数字を見て仮説を立てる」→「テキストを読んで仮説を検証する」というループが、現場で何が起きているかを深く理解する王道です。

数値データとテキストデータの違いと、両者を組み合わせた分析の図

図1:数値データとテキストデータの違い

テキストデータ分析の4ステップ

ステップ やること ツールの例
① 収集 アンケート回答、問い合わせログ等を集める Googleフォーム、CRM、社内DB
② 前処理 表記統一、個人情報マスク、重複除去 Excel、Python、Power Query
③ 分析 頻度・共起・分類・感情・要約を算出 ChatGPT、Claude、KH Coder
④ 解釈 気づきを引き出し、次のアクションを決める 人間の判断+AIの壁打ち

重要なのは、①〜③はAIに任せて、④に人間の時間を使うことです。現場の文脈・事業の経緯を知っているからこそできる解釈が、最終的な価値を決めます。

代表的な5つの分析手法

① 頻度分析

出現する語の頻度を数える最もシンプルな方法。「どの言葉がよく出るか」を把握します。たとえば退職理由の自由回答から「人間関係」「労働時間」「評価」といった頻出語を抽出すれば、主要な不満テーマが見えます。

② 共起分析

一緒に出てくる語の組み合わせを分析する方法。「人間関係」と「上司」が高頻度で共起していれば、問題の原因がより特定できます。ネットワーク図で可視化すると、問題構造が一目瞭然です。

③ 分類(テーマ抽出)

文章をカテゴリに仕分けする方法。アンケートの1,000件の自由回答を「価格」「品質」「サポート」「デザイン」等のテーマに分類すれば、どこに改善リソースを集中すべきかが見えます。AIはこの分類を数分で実行できます。

④ 感情分析

ポジティブ/ネガティブ/中立の感情極性を判定する方法。SNSや商品レビューの大量データから「この機能を批判している声の割合」を定量化できます。

⑤ 要約

大量のテキストを要点のみに圧縮する方法。100件のインタビュー記録を10個のキーメッセージに要約する、といった使い方が有効です。AIが最も得意とする領域の一つです。

AIを使うテキスト分析の流れ(実例)

たとえば「顧客アンケートの自由回答500件」を分析する場合、次のようにAIを使います。

以下の500件の自由回答を分析してください。
・頻出の不満テーマを5〜7個に分類
・各テーマの件数と代表的な回答例を3つずつ
・改善優先度を「件数×インパクト」の2軸で評価
・改善アクション候補を3つ提案

回答データ:
[自由回答を貼り付け]

ChatGPT/Claude/Geminiのいずれも、このレベルの分析を数分でこなします。重要なのは 出力のテンプレートを指示に埋め込む こと。テーマ数・回答例数・評価軸を固定すると、結果を使いやすい形で受け取れます。

使うツールの選び方

ツール 向いているケース 特徴
ChatGPT/Claude/Gemini 〜1,000件程度の自由記述 対話しながら切り口を変えられる
KH Coder(フリー) 学術・定性調査での頻度・共起分析 日本語形態素解析に強い、統計的検定も可
Microsoft 365 Copilot Analyst Excel/CSV上のデータに対する分析 ブック内データを直接要約・分類
Python(pandas + MeCab等) 数万〜数十万件の大量データ 再現性・自動化が容易
BI+テキスト分析プラグイン 継続的なダッシュボード化 Tableau/Power BI等と連携

テキストデータ分析で陥りやすい3つの落とし穴

落とし穴1:感覚で結論を出してしまう
→ 「印象的な1件」に引きずられないよう、必ず件数(頻度)を併記。1件の強い批判と、100件の弱い共感は、どちらも重要です。

落とし穴2:前処理を軽視する
→ 半角・全角、表記ゆれ、個人情報のマスクを怠ると、後の分析精度が大きく落ちる。「入口の品質」が分析全体を決めます

落とし穴3:AIの解釈を検証しない
→ AIが「これが主因です」と言っても、必ず元データで裏取り。5件ほど該当回答を目で確認するだけでも、精度のズレはすぐ見つかります。

よくある質問(FAQ)

Q1. 何件から分析を始めるべき?

目的次第ですが、感覚的な傾向を掴むなら30件、統計的に有意な分類をしたいなら100件以上 が目安です。少量でも、AIは「分類の切り口」のアイデア出しには有用です。

Q2. 無料版のChatGPTに自由回答を貼っても安全?

個人情報や機密情報を含む場合は危険です。社外AIの無料版は入力が学習に使われる可能性があるため、ChatGPT Team/Enterprise、Claude for Work、Microsoft 365 Copilot等の学習されない契約を使うか、個人情報を事前にマスクしてください。

Q3. 分析結果をレポートにするときのコツは?

「頻度上位5テーマ → 各テーマの代表引用3件 → 改善仮説 → 次アクション」の順に並べるのが最も伝わりやすい構成です。引用をそのまま掲載すると、読み手が納得しやすくなります。

シリーズで扱う内容

本シリーズでは、実際の業務シーンごとにテキスト分析の活かし方を解説します。

第2回:アンケートの自由回答から”本当の改善点”を見つけた話
第3回:商品レビューから”売れなかった本当の理由”が分かった話
第4回:日報を分析したら”忙しさの正体”が見えてきた話
第5回:問い合わせを整理したら”同じ問題が繰り返される理由”が分かった話
第6回:テキストデータ分析を”仕事に定着させる”ための考え方

まとめ:数字の次に「テキスト」を読むクセをつける

・数字は「何が起きたか」、テキストは「なぜ起きたか」を教えてくれる
・4ステップ(収集/前処理/分析/解釈)で全体像を押さえる
・5手法(頻度・共起・分類・感情・要約)でテキストを料理する
・AIは①〜③を、人間は④を担う役割分担が鉄則

和から無料セミナーのご案内バナー

次回予告

次回(第2回)は、実例として「アンケートの自由回答から本当の改善点を見つけた話」を、AIを使った具体手順で解説します。

<文/岡崎 凌>

新着記事

同じカテゴリーの新着記事

同じカテゴリーの人気記事

この記事に関連する教室: 統計・データ分析教室 →社会人の学び直し講座 →

CONTACTお問い合わせ

個別講義や集団講義、また法人・団体向けの研修を行うスペース紹介です。遠人に在住の方や自宅で講義を受けたい方はオンライン講座をご用意しております。よくある質問はこちら