【和から株式会社】テキストマイニング特別編-口コミ分析-動画抜粋

公開日

2024年11月23日

更新日

2025年3月5日

「テキストマイニング特別編-口コミ分析-」の講義の抜粋です。「KH Coder」を用いた、実践形式のテキストマイニング講座を開催しました。

テキストマイニングについて興味のある方は無料セミナーへご参加ください。

とりあえず、テキストマイニングって何？

テキストマイニング超入門-言葉を分析して把握する-

この記事の主な内容

テキストマイニングとは？

データ分析と聞くと、多くの人が統計学や数値データを用いた分析を思い浮かべるでしょう。しかし、データ分析には大きく分けて定量分析と定性分析の2種類が存在します。

■定量分析とは？
定量分析は、数値データを基にした分析手法です。例えば、以下のような分析が該当します。

男女比の割合を算出する
平均年齢を計算する
機械学習や回帰分析を用いて数値データを解析する

このような手法は長年データ分析の主流となっており、統計学や機械学習の分野でも広く活用されています。

■定性分析とは？
一方で、文章や音声、画像、動画といったデータは数値化が難しく、これらを扱う分析手法を定性分析と呼びます。

たとえば、文学作品の特徴を数値化して比較することは困難です。
ここで登場するのがテキストマイニングです。

テキストマイニングの概要

テキストマイニングとは、文章データを統計的に解析し、頻出する単語や関連語、文章のパターンを抽出する手法です。

今回使用するデータは「口コミ.xlsx」というExcelファイルで、ある観光ツアーに関するアンケートの結果が収められています。データの構成は以下の通りです。

ご意見・ご感想（自由記述のテキストデータ）
地域
性別
年代
満足度

この中でテキストマイニングが適用できるのは「ご意見・ご感想」の項目です。その他の属性（性別や年代など）は定量的なデータとして扱います。

KH Coderを使ったテキストマイニング

KH Coder は、テキストデータを分析するためのオープンソースのソフトウェアです。Excelデータだけでなく、以下のようなデータ形式も扱うことができます。

・テキストデータ（.txt）
・カンマ区切りデータ（.csv）

KH Coderの基本操作

■KH Coderを起動する
インストールが完了していれば、KH Coder を開くとグレーの画面が表示されます。

見つからない場合は、Cドライブまたはドキュメントフォルダ内の「KH Coder3」フォルダから起動してください。

■データの読み込み
まず「口コミ.xlsx」データを読み込ませます。
特に「ご意見・ご感想」列のデータを解析対象とします。

■共起語の集計
KWIC（Key Word In Context）機能を使用すると、特定の単語の前後に出現する単語を集計できます。
例えば、「海」という単語がどのような単語と一緒に使われているかを分析できます。
「素晴らしい海」や「海の色」といった形で、特定の言葉との関連性が可視化されます。

■共起ネットワークの作成
共起ネットワークは、単語同士の関連性をネットワーク構造で可視化する手法です。
KH Coder の「ツール」メニューから「抽出語」→「共起ネットワーク」を選択するだけで簡単に生成できます。
初回は特に設定を変更せずに「OK」を押すだけで、単語のつながりが自動的に計算されます。