Meun
close
050-5490-7845 ※ 月曜定休日
  • twitter
  • facebook
  • YouTube

マスログ

2022/08/05

高次元データとは?-高次元統計解析-


みなさんこんにちは。和からの数学講師の伊藤です。今回は私が大学院時代に研究していた、高次元データの分析(高次元統計解析)についてのお話です。高次元統計解析は、従来の統計学とは全く異なる発想でデータの分析を行っていくことも多く、新しい形のデータサイエンスとも言えるでしょう。

技術が進歩してきた現代だからこそ、大規模なデータを観測できるようになってきたのですが、こういったデータは、データ分析をするうえで大きな問題があったのです。今回は高次元データと呼ばれるものを解説し、今後の記事ではそういったデータに対する課題をご紹介していきたいと思います。

1.高次元データとは?

まずは高次元データってなに?というお話です。今回は例として、医学の現場で取得されているデータを見てみましょう。とある病院では、次のような健康診断のデータを蓄積しているとします。

健康診断で10項目の検査を行った結果のデータになっているわけですが、統計学の世界では、こういったデータは10次元データという呼び方をします。「次元」とは、「データの項目の数」を表していると考えると分かりやすいでしょう。

では、高次元データとは何かというと、この観測項目の数がとても多くなっているデータということになります。近年、医療などの現場では、すでに数万項目のデータが扱われるようになってきています(中には数百万という項目のデータもあるとか…)。この膨大なデータをデータ分析に活かさない手はない!ということで、さっそく分析を行っていきたいのですが、実は高次元データは、従来の統計学ではうまく扱えないことが多いのです。こういった現状を打開し、高次元データに対応できるようにした新しいデータ分析が、高次元統計解析なのです。

2.高次元データの例

高次元データと聞いて、「数万次元のデータなんて、そう簡単に手に入るの?」という疑問があるかもしれません。しかし科学技術が進歩した現代だからこそ、こういったデータが観測されることも増えてきたのです。高次元データとして使われるのは、たとえば「遺伝子発現データ」などが挙げられます。

ヒトの遺伝子を観測することで、遺伝子の発現量(遺伝子がどれくらい活発なのかを数値化したイメージ)をデータ化したものが遺伝子発現データです。細胞レベルでデータを観測しているので、1人の患者さんから数万~数十万次元のデータを得ることができます。

こういった遺伝子データの特徴を把握することで、例えば健康な方と肺がんを患っている方の肺の遺伝子データを観測することで、肺がんに関わる遺伝子の特徴をデータから見つけ出し、早期発見などに役立てる可能性もあり、医学の進歩という面でも期待されています。

3.従来の統計学との違い

一般的に、統計学は、標本数がデータの項目数(次元数)よりも圧倒的に大きいことが理論の前提になっています。中心極限定理などといった統計学の根本を作っている理論も、この前提のもとでないと実用できません。

高次元データを扱う際によく問題になるのが、従来前提としていたこの枠組みから、データが大きく外れているという点です。一般的に目にするデータは、データの項目数は多くても数十個程度で、それに対してサンプルが数百から数千個以上用意されている場合が多いように思います。

しかし高次元データでは、これとは全く逆の特徴を持つということが良く起こるのです。つまり、項目数が数万なのに対して、サンプルが数百しかない場合が多発するということです。例えば先ほどの遺伝子データを考えてみると、難病にかかっている人などはそもそも数が少ないためなかなかサンプルを得ることができず、また観測するにもコストが大きいため、データを得ること自体簡単ではありません。高次元統計解析では、次元数がサンプル数よりも圧倒的に大きいという枠組みでデータ分析を行わなければならないのです。こういった状況のもとでは、統計学、多変量解析、機械学習などでよくみられる分析手法に対して、分析の精度が保証されません。

これが高次元データを扱う際の難しい部分なのですが、ではどうすれば高次元データから情報をうまく抜き出せるのか、その手法を一から作っていくというところに、高次元統計解析の魅力が詰まっているんです!

4.まとめ

いかがでしたでしょうか。今回は高次元統計解析の特徴とデータの扱いの難しさ、魅力の部分をお話してきました。将来データ分析に役立つだけではなく、そもそも数学の対象としても、高次元データの解析はとても面白いと思っています。

また高次元データに関する記事は執筆したいと思っているので、皆様もぜひ一緒に、高次元統計解析の魅力を味わってほしいと思います!それでは、また次回のマスログでお会いしましょう。

●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら

<文/伊藤智也>

↓↓↓私が大学院時代に一番読み込んだ本です!

高次元の統計学 青嶋 誠(著),矢田 和善(著)