【和から株式会社】Pythonではじめるデータ分析本編抜粋
公開日
2024年11月22日
更新日
2024年12月26日
和から株式会社主催「Pythonではじめるデータ分析」の講義の抜粋です。 Pythonを使用したデータ集計、可視化、分析の方法を学べるセミナーです。 ◎詳細・開催日程はこちら→https://wakara.co.jp/course/6188 #和から #Python #集団セミナー
つづいて
アナコンダとジュピターノートブック
と呼ばれるですね
Pythonを使うには欠かせない
この2つのツールについてお話をしていこうと思います
アナコンダとジュピターノートブックというのは
python でデータ分析を行うための
サポートを最大限してるweb スクールですね
いわゆるですねプログラミング言語っていうのは
あくまで言葉だったので
日本語とか英語と同じようにですね
言葉があるだけだと意味がないわけです
聴く人がいて話す人がいてで
例えば
その声に出したり紙に書いたりすることによって
初めてあの価値が生まれるわけですよ
つまりそのプログラミング言語を書いたり
その書いた結果を見たりするパソコンでやりとりしたりするものが
必要なんですけどそれがプログラミング言語における
環境と呼ばれるものになります
その開発環境とも呼んだりするんですけども
開発環境の一つは
アナコンダだっていうふうに呼ばれるものになります
アナコンダというのはデータ分析をするために
必要なものがあのひと通り揃っています
その行動書いて実行結果みたりとか
拡散構造を変えた場合はそれを連携させたり
あるいはその他のアプリケーションと接続させたり
いわゆるATIって言うものですね
答案でようなものから最大限サポートが行えるような形で
というのがアナコンダって呼ばれるものです
今こうしたあの環境をを支えるものですね
統合開発環境
というふうに言います
一般にそのプログラミング言語を始めるとですね
プログラミングを各環境を整えてあげる必要があるので
それを環境構築という風に言うんですけど
それでは次にの group by 関数と呼ばれるものについても
ちょっとお話していこうと思います
フィルター機能使えばですね
例えば2007年のデータだけを抜き出す
2008年のデータだけを抜き出すというような形で
それぞれの条件ので抜き出すことができたんですが
例えばですね
じゃあ見たいことって何かっていうと
ここにあるような各年度ごとに
その平均寿命の平均値てどうやって変わってるのか
っていうところあの見ていきたい場合があります
例えば
このギャクマインダーのデータって各国のGDPのデータが入ってますんで
あの年度ごとにですね
じゃあ例えば
人住んでいる人たちの平均寿命はどのように移り変わっていったのか
1957年と2007年どう変わったのかみたいな事が確認できるんですが
これはフィルター関数を使って一つ一つを集計して
この結構骨が折れるわけですよ
大変な作業な訳ですね
それを省略するためですね group by って呼ばれる
その関数があります
でこの group by関数の使い方非常にシンプルで
このデータに対してですね
あのgapminder.groupby
これは年度ごとにそのグループ分けしますよってことを表します
平均寿命という形で平均値
最後は平均寿命の平均値計算すればそのまま書いてあげればよくて
例えば2007年の平均寿命の平均値を大陸毎に集計する場合は
まず2007年データフィルターをかけて取って
group by大陸ごとに分けて最後求めると言うはず
順番に実行していくだけです
今回お話ししたですねフィルター
group by この関数がどれも非常によく使うもので
組み合わせて必要なデータを抜き取っていくっていうような考え方です
はいそれでは相関係数を使う上でですね
非常に便利な数字ではあるんですけれども
ちょっと注意するべき点についても
お話をしていこうと思います
便利だからこそですね
あの乱用してしまうとですね
間違った結論を出してしまう場合すらあるので注意が必要です
一つですね重要なポイントが
これ相関があるって仮にわかったときに
それが因果関係であると結びつけていいかというと
これってうまくいかないんですよね
どういうことかというと
例えばこれはに
インフルエンザの患者の数とポストの数
これめちゃくちゃ強い相関出るんですよ
インフルエンザにかかる人が多い場所ことですね
郵便ポスト多いって言うことなんですけど
これなぜかって皆さんなんとなく想像つきますよね
インフルエンザの患者数が多い所ってどこかっていうのは
基本的に人が集まるところな訳ですよ
言ってしまえば
東京の新宿とかですね渋谷とかって
ものすごく人がたくさん集まるところでですね
実際に郵便ポストのですね
そういう場所って多い訳ですよ
もうその何メートル先にその郵便ポストがあったりするわけですよ
でただですよ
例えば
私の地元が広島なんですけど
地元広島でですね
インフルエンザ流行るかって言っても
流行らないんですよ
場所によるんですけどね
流行るところあるんですけど
人はそんなにいない地域とかもあったりして
その場合って
そもそもインフルエンザに流行することですね
人がいないわけですよ
そうすると
郵便ポストも同じようにですね
区に1っことかもう場合によっては
市に1個とかってね
ないわけですよ
郵便ポストのインフルエンザの患者の数も少ないんですけど
それって単純に人がいないからっていうだけなんですね
単純にこの2つって
そのインフルエンザの患者の数とポストの数が
関係があるわけではないんですよ
別にそのポストから
インフルエンザウイルスが出てきているわけではないので
決定木についてお話をしていこうと思います
どういうところに使われているかと言うとですね
皆さんアキネーターって遊んだことありますかね
これウェブサイトです
非常に簡単なウェブサイト何で使ったことないっていう方ですね
ちょっと遊んでみてください
この URLアクセスしていただくとですね
まぁどういうゲームかって言うとここプレーするって書いてありますけど
有名人とかキャラクター誰でもいいです
比較的な有名な方なら大丈夫なんで
思い浮かべてもらって
魔人がご質問していくのでそれに応えていくとですね
いつのまにかの正解を教えて
伝えてくれるっていう
そういう手品のようなんものです
アキネーターというもんなんですけど
これで実際につかっているのが
決定木ってアルゴリズムなんですよ
どういう仕組みで分類をしているかと言うとですね
例えば
あの先ほどのまあ車のディーラーショップの話ですね
収入と年収、収入と年齢でそれぞれあの買った人が赤
買わなかった人が青
こう言った形になったとしましょう
こうするときに何を条件にしてその買う買わないが決まっているかというと
たとえば年齢関係ありそうですねあの35歳以上と35歳未満のところで
結構傾向は違うのでここで分けてみましょう
そうすると次にここで分けるとですね
年齢が35歳以上でかつその年収が300万円以上であれば
ここはその買っている可能性が高いと
まあこういうふうに見ているとみることができるわけですね