【和から株式会社】テキストマイニング特別編-口コミ分析-動画抜粋
公開日
2024年11月23日
更新日
2025年1月12日
和から株式会社主催「テキストマイニング特別編-口コミ分析-」の講義の抜粋です。 「KH Coder」を用いた、実践形式のテキストマイニング講座を開講しております。 ◎詳細・開催日程はこちら→https://wakara.co.jp/course/6961 #和から #テキストマイニング #集団セミナー
ではまず早速お話ししていきましょう
そもそもテキストマイニングとは何かというところですね
テキストマイニングってそもそも何かっていう時に
データ分析っていうのよく言うじゃないですか最近
データサイエンスデータサイエンティストの
有効求人倍率はどうのこうのって話をよくするんですけど
データ分析には定量分析と定性分析の2つあるんですよ
まずこの2種類あります
定量分析って何かっていうと
ご覧の皆さんが
統計学とかデータ分析ってイメージのものだと思います
数とか数値とかに基づく分析ですね
例えば平均値取ったりとか
例えば男性女性アンケートの集計したときに
男性が何パーセントで女性が何パーセントでっていう様な
比較を行ったりこれが定量分析です
例えば
年代はそのどの年代が年齢層が一番多いのかっていう
ところを見ていくのも例えば定量分析ということができます
なのでも性別をカウントしたり年齢の平均を調べたりっていうような
定量分析がですね
まぁ今まで主流の分析だったというか
いわゆる統計学とか
データ分析というところは長らくこの定量分析が主に行われてきたわけですね
例えば変量解析学とか機械学習
と呼ばれるのも定量分析というジャンルに入ります
逆にですねあともう一つ何なのかっていうと
定性分析今までのデータ分析っていう
ものの中にあんまり入らなかったものですね
例えば文章とか
音声、写真、動画って呼ばれるものは
いわゆる定性的なデータになります
数値化が非常に難しいんです
というのも例えばですね
あの文学作品の芥川龍之介と川端康成って二人言うじゃないですか
この2人の文章を比較しつつ数値化して比べてみましょう
ってこれできると思います?
芥川龍之介の定数ってなんですかね
川端康成の平均点っていくつでしょうね
数値化できないんですよ
あのできないっていうのはちょっと極端な言い方ですけど
数値化して単純に比較するって非常に難しいデータじゃないですか
その音声とか写真とかもそうです
ちょっと冒頭お話したその画像に意識のところでも
写真とかを数値化するって
めちゃくちゃ難しいんです
使うデータはあの口コミ. xlsx という形でお渡しをしています
どんなデータかというとですね
軽くエクセルデータのエクセルで開けるデータなので
観ていただければいいですけど
ご意見ご感想っていうところが一番左の列にあります
上をちょっと見ていくとですね
海岸の美化、清掃、航空運賃を安くする
那覇の交通渋滞って書いてあるから
なんとなく察しはつくかもしれないですけど
ある観光ツアー某所って書いてありますけども
沖縄ですね
アンケートの集計を結果
集めたものです
実際に
私が頂いたデータで
その地域、性別、年代、満足度っていう形で
それぞれ項目が出てきています
KH Coderではですね
エクセルデータもちろん読めるんですけど
他にもいくつか呼び込めるデータ形式あるので
もうちょっと紹介しておきます
今後の皆さんが
やられる時にエクセルデータと
テキストデータとカンマ区切りデータ
よくデータを保存する形式としてよく使われますけど
これはいずれも使うことができますね
なんでこれをKH Coder使って
今回は集計の方をしていきたいとおもいます
この項目の中でテキストマイニングが使えるのは
もちろんこのご意見ご感想のところですね
性別とか地域年代っていうところは
定量的なデータになります
それではちょっと早速お話をしていきましょう
まず一つ目
データを読み込ませる必要があります
皆さんのパソコンでですね
KH Coderをまず起動してみてください
あのインストールが無事終わっていればですね
KH Coder開けると思いますので開くとこんな形の
スライドに出ているようなグレーの画面が出てくると思います
もし見つからない方はですね
パソコンの c ドライブの直下か
ドキュメントの直下にですね
KH Coder3というファイルができていると思うので
そこから開いてあげればKH Coderスタートされると思いますね
実際にそのまぁ今回集計した結果ですね
これ数が多い場合
全部見ていくの大変っていう場合これもあの集計することができます
この集計したい場合は
このKWICのその右下の部分の集計ボタンを押して頂くと
コロケーション統計っていうのが出てきます
これは何かっていうとその海っていう言葉を中心に
その前後でどんな単語がたくさん使われているのか
提案集計しています
こういう海と同時に使われているものを
その共起語って言うんですけど
共に起きるって書いて共起語です
青と緑でちょっとここで枠囲ってますけど
この青の方はその左隣に使われているものです
例えば素晴らし海っていう場合は
この左1でその右隣の場合が
色って出てるんでこれ海の色っていうようなところになります
これがのコロケーション統計っていうふうに呼ばれるものです
なのであの抽出語リストを使ってですね
KWICを開いて
コロケーション統計っていうような形でより詳しく
単語を調べていくっていうのがの基本的な分析の流れ
っていうことになります
ここからですねあといくつかちょっと
可視化の方法とか集計の仕方について紹介できればなっていうふうに
思うんですけど
まず一つ目
共起ネットワークです
これは非常によく使われる
テキストマイニングの可視化のところなので
是非押さえておいてあげてください
で使い勝手非常に簡単です
あのツールっていうところを開いて
抽出語って言うところから
共起ネットワークって順番に開いてあげるだけです
ツール、抽出、共起ネットワークっていうふうに順番に選択してあげると
設定画面出てくるんですけど
まず最初は何も設定しなくていいです
あの特にここの部分触らずにそのまま ok ボタンを押して頂ければ
計算が自動的に始まります
もしあの何度か
慣れてくるとですね
ちょっと調整してあげるといいです