マスログ

【和から株式会社】テキストマイニング特別編-口コミ分析-動画抜粋

公開日

2024年11月23日

更新日

2025年3月5日

「テキストマイニング特別編-口コミ分析-」の講義の抜粋です。 「KH Coder」を用いた、実践形式のテキストマイニング講座を開催しました。

テキストマイニングについて興味のある方は無料セミナーへご参加ください。

とりあえず、テキストマイニングって何?

テキストマイニング超入門-言葉を分析して把握する-

テキストマイニングとは?

データ分析と聞くと、多くの人が統計学や数値データを用いた分析を思い浮かべるでしょう。しかし、データ分析には大きく分けて 定量分析 と 定性分析 の2種類が存在します。

■定量分析とは?
定量分析は、数値データを基にした分析手法です。例えば、以下のような分析が該当します。

男女比の割合を算出する
平均年齢を計算する
機械学習や回帰分析を用いて数値データを解析する

このような手法は長年データ分析の主流となっており、統計学や機械学習の分野でも広く活用されています。

■定性分析とは?
一方で、文章や音声、画像、動画といったデータは数値化が難しく、これらを扱う分析手法を 定性分析 と呼びます。

たとえば、文学作品の特徴を数値化して比較することは困難です。
ここで登場するのが テキストマイニング です。

テキストマイニングの概要

テキストマイニングとは、文章データを統計的に解析し、頻出する単語や関連語、文章のパターンを抽出する手法です。

今回使用するデータは 「口コミ.xlsx」 というExcelファイルで、ある観光ツアーに関するアンケートの結果が収められています。データの構成は以下の通りです。

ご意見・ご感想(自由記述のテキストデータ)
地域
性別
年代
満足度

この中で テキストマイニングが適用できるのは「ご意見・ご感想」 の項目です。その他の属性(性別や年代など)は定量的なデータとして扱います。

KH Coderを使ったテキストマイニング

KH Coder は、テキストデータを分析するためのオープンソースのソフトウェアです。Excelデータだけでなく、以下のようなデータ形式も扱うことができます。

・テキストデータ(.txt)
・カンマ区切りデータ(.csv)

KH Coderの基本操作

■KH Coderを起動する
インストールが完了していれば、KH Coder を開くとグレーの画面が表示されます。

見つからない場合は、Cドライブまたはドキュメントフォルダ内の「KH Coder3」フォルダから起動してください。

■データの読み込み
まず「口コミ.xlsx」データを読み込ませます。
特に「ご意見・ご感想」列のデータを解析対象とします。

■共起語の集計
KWIC(Key Word In Context)機能を使用すると、特定の単語の前後に出現する単語を集計できます。
例えば、「海」という単語がどのような単語と一緒に使われているかを分析できます。
「素晴らしい海」や「海の色」といった形で、特定の言葉との関連性が可視化されます。

■共起ネットワークの作成
共起ネットワーク は、単語同士の関連性をネットワーク構造で可視化する手法です。
KH Coder の「ツール」メニューから「抽出語」→「共起ネットワーク」を選択するだけで簡単に生成できます。
初回は特に設定を変更せずに「OK」を押すだけで、単語のつながりが自動的に計算されます。

まとめ

テキストマイニングは、自由記述のアンケートデータやレビューを解析する際に非常に有効な手法です。KH Coderを活用すれば、

・どの単語が頻出しているか
・どの単語がどの単語と一緒に使われているか
・テキストデータの構造を視覚的に把握できる

といった分析が可能になります。

新着記事

同じカテゴリーの新着記事

同じカテゴリーの人気記事

CONTACTお問い合わせ

個別講義や集団講義、また法人・団体向けの研修を行うスペース紹介です。遠人に在住の方や自宅で講義を受けたい方はオンライン講座をご用意しております。よくある質問はこちら