【和から株式会社】テキストマイニング特別編-SNS分析-講義抜粋
公開日
2024年12月4日
更新日
2025年4月2日

和から株式会社主催「テキストマイニング特別編-SNS分析-」の講義の抜粋です。
※開催は終了しております。
動画でもご覧いただけます。
テキストマイニングにご興味のある方は無料の「テキストマイニング超入門」へ。
この記事の主な内容
SNSデータの活用 〜Twitterを題材にしたテキストマイニング〜
今回のテーマは「SNSデータの活用」です。中でもSNSの中でも特に多くの人に利用されている「Twitter(現X)」を取り上げて、その分析手法について学んでいきます。
Twitterは、140文字以内の短いテキストを投稿するマイクロブログサービスです。日々の感想やニュースへのコメント、商品への意見など、実にさまざまな内容が投稿されています。有名人や企業も公式アカウントを通じて情報発信しており、ユーザーは気になるアカウントをフォローすることで、そのアカウントが発信する最新の投稿をすぐに確認できるようになります。
この「フォロー」機能と、それによって得られる「フォロワー数」は、アカウントの影響力や人気を測る重要な指標とも言えるでしょう。
データを活用する上での法律上の注意点
SNSデータを分析に活用する際には、法律面での配慮も欠かせません。
自分自身が収集したデータや、業務上保有しているデータをテキストマイニングに使うのは問題ありませんが、他者の投稿データを利用する際には注意が必要です。基本的には「情報解析を目的としている場合」に限り、データの収集と利用が許容されると解釈されています。
ただし、収集した生データをそのまま第三者に提供することは、プライバシー保護や著作権の観点から法律に違反する可能性があります。データを他者と共有する場合には、個人を特定できない形に加工するなど、適切な対応が求められます。
こうしたルールを守ることで、安全かつ合法的にSNSデータを分析に活用できるのです。
正規表現がもたらす強力な処理能力
SNSデータの前処理や整理の際に、大変役立つ技術のひとつが「正規表現」です。
たとえば、Twitterから収集したテキストの中に含まれるURLを一括で削除したいとき、手作業ではとても効率が悪くなります。しかし、正規表現を使えば、特定のパターンに一致する文字列(例えば「http://〜」や「https://〜」)を一括で抽出・削除することが可能になります。
この技術はSNSに限らず、あらゆるテキストデータの前処理に応用できます。少し学ぶだけで非常に多くの作業を自動化できる便利な手法なので、ぜひ活用してみてください。
リツイート数に注目した分析
Twitterデータを分析する際、リツイート数は非常に有用な指標となります。
多くリツイートされている投稿は、それだけ注目度が高く、多くの人の関心を集めていることを意味します。トレンドや世間の関心ごとを把握する手がかりとして、リツイート数の分布や内容を調べることは非常に効果的です。
逆に、あまりリツイートされていない投稿にも注目することで、「注目されにくい話題」や「拡散されにくい表現の特徴」など、新たな視点が得られるかもしれません。
このようにSNSデータの中には、私たちの社会の動きを映し出すさまざまなヒントが含まれているのです。