マスログ

「集める」を武器にする。データ収集のキホン-第7回:知らないと怖い!守るべきデータの法律とマナー【データリテラシーをやさしく解説】

公開日

2026年4月18日

更新日

2026年4月26日

この記事のポイント

・データ収集で守るべき 「3つの境界線」(法律/規約/実務作法)
・サーバーをパンクさせない 「インターバル」 の基本
著作権法 第30条の4 が認める「解析目的」の範囲
・利用規約に「禁止」とある場合の代替手段(API)

和から個別指導サービスのご案内バナー

「全サイトから情報を引っこ抜こう」の前に立ち止まる

これまでスクレイピングやAIの効率化を学んできました。強力な武器を持つと、つい色々試したくなります。でも、ここで立ち止まって確認すべきことがあります。

ルールを無視すると、相手のサーバーに負荷をかける/著作権侵害を指摘される/アクセス禁止で業務がストップする リスクがあります。第7回では、安全にデータを扱うために知っておくべき「法律と実務の作法」を整理します。

守るべき「3つの境界線」

【図1】守るべき3つの境界線

図1:守るべき3つの境界線

境界線 誰が定めるか 具体例
① 法律 著作権法不正アクセス禁止法個人情報保護法
② 利用規約 サイト運営者 「自動収集禁止」「商用利用禁止」など各サイト独自のルール
③ 実務作法 業界の慣習 サーバー負荷をかけない/待ち時間を入れる

サーバーを「パンクさせない」配慮

【図2】サーバーに負荷をかけないスクレイピング

図2:サーバーに負荷をかけないスクレイピングを心がける

スクレイピングで最も多いトラブルが「短時間の大量アクセス」です。プログラムは人間にできない速さでサイトを叩けます。でも、1秒間に何十回もアクセスすると、相手のサーバーは 「サイバー攻撃」 と判断し、あなたの会社のIPからのアクセスをすべて遮断することがあります。

これを防ぐ必須テクニックが 「インターバル(待ち時間)」 です。

対策 目安
リクエスト間隔 最低1秒、できれば2〜5秒
実行時間帯 サイトが空く深夜〜早朝
1回あたりの取得件数 目的に必要な分だけ(例:50件で十分なら100件取らない)
User-Agent 連絡先や用途を書いて運営者に分かるように

著作権法と「情報解析」の範囲

集めたデータを仕事で使うとき、最も気になるのが著作権です。日本の 著作権法 第30条の4 は、AI学習や統計分析など 「著作物に表現された思想・感情を人が味わうことを目的としない「情報解析」のための利用 を、必要な限度で認める規定です(詳細は 文化庁「AIと著作権について」 を参照)。

用途 原則
傾向分析・分類・統計化といった「情報解析」 30条の4の対象となり得る(材料としての利用、人が読むためではない利用)
分析結果を社内の意思決定に使う 同上の範囲に入りやすい
記事本文・画像・レビュー本文をそのまま社内資料に転載・要約配布・外部公開 NG(「人が読む」享受目的とみなされる)
自社ブログへの転載・本文入りリストの販売 NG(複製・公衆送信の問題が生じる)
個人情報・要配慮個人情報を含むデータ 著作権法とは別に 個人情報保護法 に従う

ポイントは、「人がその表現を味わうため」の利用か、「データを集計・分析するため」の利用か という視点です。後者なら規定の範囲に入りやすく、前者にあたる使い方は别途ライセンスや引用ルールを見る必要があります。また、周辺サービスと競合し、著作権者の利益を不当に害すような使い方は、同規定の例外(ただし書き)に該当しうるので注意が必要です。

なお、外部の生成AIサービスに個人情報を入力するときは、個人情報保護委員会の注意喚起(PDF) も合わせて確認しましょう。

利用規約の「禁止」を見逃さない

法律で一般的にOKでも、特定のサイトの 利用規約(Terms of Service) で禁止されているケースがあります。最近はSNS・求人・不動産ポータルなどで「自動プログラムによる取得を禁じます」と明記されているケースが増えています。

規約を無視して強引に集めると、サイトの利用を永久に禁止されたり、契約違反として法的措置のリスクもあります。

規約に「禁止」とあるときは、無理に集めず、公式に提供されているデータ取得窓口(API) がないか確認しましょう。多くの大手サービス(X、YouTube、Spotify等)は無料・有料のAPIを公開しています。

明日からできる3つのアクション

① 集める前にサイトの利用規約を1分だけ読む
「禁止」「prohibited」「自動」のキーワードを探す。これだけで多くのトラブルが避けられます。

② スクレイピングのコードに必ずsleep(待ち時間)を入れる
最低1秒、安全策で3〜5秒。AIに依頼するときも「3秒おきに」と明記する習慣を。

③ 「集めて分析する」と「集めて転載する」を区別
社内の意思決定資料に使うのはOK、外部公開や販売はNG――この線引きをチーム内で共有。

今回のまとめ

データ収集は強力な武器ですが、扱いを間違えると自分や会社を傷つけます。アクセス間隔を空ける/規約を確認/分析用途に限定 ――この3点を守れば、法的にも実務的にも「安全な土俵」で自信を持って活用できます。

次回はいよいよ最終回。「バラバラの数字が宝に変わる!データの整理と要約術」と題して、集めたデータを価値あるアウトプットに変える方法を解説します。

和から個別指導サービスのご案内バナー

<文/岡崎 凌>

新着記事

同じカテゴリーの新着記事

同じカテゴリーの人気記事

この記事に関連する教室: 統計・データ分析教室 →社会人の学び直し講座 →

CONTACTお問い合わせ

個別講義や集団講義、また法人・団体向けの研修を行うスペース紹介です。遠人に在住の方や自宅で講義を受けたい方はオンライン講座をご用意しております。よくある質問はこちら