「集める」を武器にする。データ収集のキホン-第7回:知らないと怖い!守るべきデータの法律とマナー【データリテラシーをやさしく解説】
公開日
2026年4月18日
更新日
2026年4月26日
この記事の主な内容
この記事のポイント
・データ収集で守るべき 「3つの境界線」(法律/規約/実務作法)
・サーバーをパンクさせない 「インターバル」 の基本
・著作権法 第30条の4 が認める「解析目的」の範囲
・利用規約に「禁止」とある場合の代替手段(API)
「全サイトから情報を引っこ抜こう」の前に立ち止まる
これまでスクレイピングやAIの効率化を学んできました。強力な武器を持つと、つい色々試したくなります。でも、ここで立ち止まって確認すべきことがあります。
ルールを無視すると、相手のサーバーに負荷をかける/著作権侵害を指摘される/アクセス禁止で業務がストップする リスクがあります。第7回では、安全にデータを扱うために知っておくべき「法律と実務の作法」を整理します。
守るべき「3つの境界線」

図1:守るべき3つの境界線
| 境界線 | 誰が定めるか | 具体例 |
|---|---|---|
| ① 法律 | 国 | 著作権法、不正アクセス禁止法、個人情報保護法 |
| ② 利用規約 | サイト運営者 | 「自動収集禁止」「商用利用禁止」など各サイト独自のルール |
| ③ 実務作法 | 業界の慣習 | サーバー負荷をかけない/待ち時間を入れる |
サーバーを「パンクさせない」配慮

図2:サーバーに負荷をかけないスクレイピングを心がける
スクレイピングで最も多いトラブルが「短時間の大量アクセス」です。プログラムは人間にできない速さでサイトを叩けます。でも、1秒間に何十回もアクセスすると、相手のサーバーは 「サイバー攻撃」 と判断し、あなたの会社のIPからのアクセスをすべて遮断することがあります。
これを防ぐ必須テクニックが 「インターバル(待ち時間)」 です。
| 対策 | 目安 |
|---|---|
| リクエスト間隔 | 最低1秒、できれば2〜5秒 |
| 実行時間帯 | サイトが空く深夜〜早朝 |
| 1回あたりの取得件数 | 目的に必要な分だけ(例:50件で十分なら100件取らない) |
| User-Agent | 連絡先や用途を書いて運営者に分かるように |
著作権法と「情報解析」の範囲
集めたデータを仕事で使うとき、最も気になるのが著作権です。日本の 著作権法 第30条の4 は、AI学習や統計分析など 「著作物に表現された思想・感情を人が味わうことを目的としない「情報解析」のための利用 を、必要な限度で認める規定です(詳細は 文化庁「AIと著作権について」 を参照)。
| 用途 | 原則 |
|---|---|
| 傾向分析・分類・統計化といった「情報解析」 | 30条の4の対象となり得る(材料としての利用、人が読むためではない利用) |
| 分析結果を社内の意思決定に使う | 同上の範囲に入りやすい |
| 記事本文・画像・レビュー本文をそのまま社内資料に転載・要約配布・外部公開 | NG(「人が読む」享受目的とみなされる) |
| 自社ブログへの転載・本文入りリストの販売 | NG(複製・公衆送信の問題が生じる) |
| 個人情報・要配慮個人情報を含むデータ | 著作権法とは別に 個人情報保護法 に従う |
ポイントは、「人がその表現を味わうため」の利用か、「データを集計・分析するため」の利用か という視点です。後者なら規定の範囲に入りやすく、前者にあたる使い方は别途ライセンスや引用ルールを見る必要があります。また、周辺サービスと競合し、著作権者の利益を不当に害すような使い方は、同規定の例外(ただし書き)に該当しうるので注意が必要です。
なお、外部の生成AIサービスに個人情報を入力するときは、個人情報保護委員会の注意喚起(PDF) も合わせて確認しましょう。
利用規約の「禁止」を見逃さない
法律で一般的にOKでも、特定のサイトの 利用規約(Terms of Service) で禁止されているケースがあります。最近はSNS・求人・不動産ポータルなどで「自動プログラムによる取得を禁じます」と明記されているケースが増えています。
規約を無視して強引に集めると、サイトの利用を永久に禁止されたり、契約違反として法的措置のリスクもあります。
規約に「禁止」とあるときは、無理に集めず、公式に提供されているデータ取得窓口(API) がないか確認しましょう。多くの大手サービス(X、YouTube、Spotify等)は無料・有料のAPIを公開しています。
明日からできる3つのアクション
① 集める前にサイトの利用規約を1分だけ読む
「禁止」「prohibited」「自動」のキーワードを探す。これだけで多くのトラブルが避けられます。
② スクレイピングのコードに必ずsleep(待ち時間)を入れる
最低1秒、安全策で3〜5秒。AIに依頼するときも「3秒おきに」と明記する習慣を。
③ 「集めて分析する」と「集めて転載する」を区別
社内の意思決定資料に使うのはOK、外部公開や販売はNG――この線引きをチーム内で共有。
今回のまとめ
データ収集は強力な武器ですが、扱いを間違えると自分や会社を傷つけます。アクセス間隔を空ける/規約を確認/分析用途に限定 ――この3点を守れば、法的にも実務的にも「安全な土俵」で自信を持って活用できます。
次回はいよいよ最終回。「バラバラの数字が宝に変わる!データの整理と要約術」と題して、集めたデータを価値あるアウトプットに変える方法を解説します。
<文/岡崎 凌>
新着記事
同じカテゴリーの新着記事
同じカテゴリーの人気記事
この記事に関連する教室: 統計・データ分析教室 → 社会人の学び直し講座 →





