はじめての統計学～データの種類について～

統計・機械学習トピック

公開日

2022年1月26日

更新日

2026年7月26日

こんにちは。和からの数学講師の岡本です。前回に引き続き「はじめての統計学」というシリーズで今回はデータの種類についてまとめていきたいと思います。データはその種類によって扱い方や分析手法の難易度までかなり変わってきますので、実は非常に重要なポイントになります。なお前回の内容はこちらから！

はじめての統計学～データの集計について～

この記事の主な内容

１．データの種類

データは大きく分けて2種類あります。前回扱った会社のデータを使って説明していきましょう。

１つは数字タイプのもので、量的データ（quantitative data）といい、もう一つは文字タイプのもので質的データ（qualitative data）といいます。例えば勤続年数や年齢は量的データで、出身地や喫煙の有無は質的データになります。注意しておきたいのは社員IDです。これらは一見すると数字のデータに見えますが、足し算に意味を持ちません。例えば「平均ID番号」なんて聞いたことありませんよね。こうしたデータは単なるナンバリングであり、数字を使って区別するための名前にすぎません。したがって、普通は質的データとして扱うことが多いです。なお、質的としてコンピュータに認識してもらうため、アルファベットを混ぜたIDがよく使われます。

２．量的データ

年齢やプロジェクト数のように、とびとびの値であるようなものを離散型（discrete type）といい、体温や体重などのように、隙間なく連続的に値をとりうるものを連続型（continuous type）と呼びます。

また、量的データの中でも大きく２つの種類に分かれます。１つは間隔や差に意味がある間隔尺度（interval scale）で、もう1つはさらに数字の比を考えることもできる比率尺度(ratio scale)です。多くの量的データは比率尺度ですが、例えば体温や気温などの「温度」の変化は比率では表現しません。「昨日より気温は５％上がった」なんて聞かないですよね。これは、「0℃」という温度があり、他の温度と同等に扱えるからです。対して、例えば売上が「０」というのは、「無」という絶対的な意味を持ちます。これにより「０」を起点とし、比率を考えることができ、売上は比率尺度となります。

３．質的データ

質的データにも大きく2種類に分かれます。１つは、名前として区別するための名義尺度（nominal scale）、そしてもう1つは文字のデータではあるものの、「不満, やや不満, 普通, やや満足, 満足」という具合に順序が定まる順序尺度（ordinal scale）です。
社内データの例でいうと、出身地は名義尺度で、満足度は順序尺度になります。なお、社員IDに「入社順」の情報が入っている場合、順序尺度と捉えることができます。満足度のように順序尺度は数値に置き換えることができるのも大きな特徴です。

今回の満足度の場合、不満と満足という具合に、相反する方向の選択肢があります。この場合、「不満, やや不満, 普通, やや満足, 満足」を「-2, -1, 0, 1, 2」と置き換える方法が考えられます。その他にも、「佳作, 優秀賞, 最優秀賞」は例えば「1, 2, 3」と置き換えることもできます。

・量的データと質的データの例