マスログ

次元の呪い➂-高次元データと主成分分析-

公開日

2022年9月18日

更新日

2022年9月18日

↓↓↓動画で見たい方はこちら↓↓↓

みなさんこんにちは。和からの数学講師の伊藤です。今回は次元の呪いシリーズ第三弾ということで、主成分分析について掘り下げていきます。主成分分析は、複数の項目があるデータの情報を要約するための統計学・機械学習の手法でした(詳しくは前回の記事を参照)。

また以前の記事で、膨大な項目数を持つデータである高次元データというものをご紹介しました。

高次元データとは?-高次元統計解析-

大量の情報を持つ高次元データとデータを要約する主成分分析は、一見するととても相性がよさそうです。しかし、実は高次元データに対して主成分分析を適用しようとすると、大きな問題が起こってしまうのです…。今回はそんな不思議な現象のお話です!

1.高次元データと主成分分析

大量の情報を持っている高次元データと主成分分析は、一見するととても相性がいいように思えます。データを要約することで高次元データを解釈しやすくしたり、データを縮約して低次元に落とし込むことで、従来の手法を使ってデータ分析が行えたりと、期待されるものは大きいです。

このように次元の呪いを回避できると期待される主成分分析ですが、実はこの主成分分析という手法自体が、次元の呪いを受けているという事実が指摘されているのです。

主成分分析では、データの共分散行列の固有値と固有ベクトルを求めることになるのですが、母集団の共分散行列の固有値と固有ベクトルは神のみぞ知る情報です。大体の統計手法では、こういったものは標本から推定していきます。

主成分分析では、標本共分散行列の固有値と固有ベクトルを使って、母集団の固有値・固有ベクトルを推定するのですが、この推定が間違っていたら無意味になってしまいます。では、高次元データを使って推定した固有値・固有ベクトルはどうなるでしょうか。この推定した量について、数学的に好ましくない性質が指摘されています。

2. 固有値・固有ベクトルの不一致性

先ほどのお話の通り、主成分分析では、標本共分散行列から固有値と固有ベクトルを推定します。しかし高次元データに基づいて作られた標本共分散行列を使おうとすると、多くの場合、推定した量が次にような性質を持ちます。

次元が高くなればなるほど、推定した固有値は本来の固有値よりも大きくなる。
次元が高くなればなるほど、本来の固有ベクトルと推定した固有ベクトルの向きは直角にズレる。

つまり、観測項目の数が多くなればなるほど、固有値はだいぶ過大評価した値になり、固有ベクトルは完全に間違った方向を向くことになります。もちろん一定の条件下では正確に推定できますが、高次元でそういった推定がうまくいくのはむしろ稀です。このズレを補正するというのが、高次元統計解析の役割になってきます。

3.高次元主成分分析

先ほどの話から、高次元データの情報を縮約するためには、推定した固有値・固有ベクトルのズレを補正する必要があります。この時、考え方の鍵になってくるのは、データに含まれているノイズの扱いです。ノイズとは要するに、余計な情報ということです。データがたくさんある状況では、それぞれの項目に誤差があるため、その誤差たちが積もり積もって巨大なノイズ(余計な情報)となっています。これは、大切な情報がノイズの山に埋もれているという状態です。

高次元主成分分析の考え自体は単純で、固有値を計算する際に、このノイズの部分を正確に推定して、標本固有値から引き算してしまえばいいというものです。これがノイズ掃き出し法と呼ばれる手法で、ノイズを含んだ情報の山から、大切な情報だけをきれいに抜き出すことができるのです。

ちなみに、ノイズ掃き出し法を使うには、データが一定の条件を満たしている必要がありますが、実はノイズ掃き出し法で対応できないデータにも、クロスデータ行列法と呼ばれる方法で対応できることもあります。これはイメージとしては、データを二分割してかけ合わせることで、ノイズの影響を打ち消すことができるといった手法なのですが、正直、なんでそんな方法を思いついたのかは私には理解できません…(笑)

ともかくこういった方法を使って、主成分分析に必要な固有値を正確に推定することができ、さらにこれを使って、推定した固有ベクトルにも、好ましい性質(一致性)を持たせることが可能になるのです。

4.まとめ

いかがでしたでしょうか。高次元データに適応した、新しい主成分分析の方法のお話でした。今回は主成分分析にフォーカスしてノイズ掃き出し法やクロスデータ行列法といった方法をご紹介しましたが、これらの手法が生きてくるのは、主成分分析の世界だけではありません。固有値の情報を正確にとらえる必要があるたくさんの場面で活かすことのできる手法です。

こういった新しい手法で、従来扱えなかったデータに対応できるようになるというのも、高次元統計解析の大きな魅力の一つです!

●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら

<文/伊藤智也>

↓↓ノイズ掃き出し法やクロスデータ行列法を開発した私の恩師の著書です!

高次元の統計学 青嶋 誠(著),矢田 和善(著) 共立出版

新着記事

同じカテゴリーの新着記事

同じカテゴリーの人気記事

CONTACTお問い合わせ

個別講義や集団講義、また法人・団体向けの研修を行うスペース紹介です。遠人に在住の方や自宅で講義を受けたい方はオンライン講座をご用意しております。よくある質問はこちら