【和から株式会社】かんたん機械学習講義抜粋
公開日
2024年12月15日
更新日
2025年1月19日
和から株式会社主催「かんたん機械学習」の講義抜粋です。
機械学習の代表手法を学び、WEKAという機械学習のソフトで実践します。
◎詳細・開催日程はこちら→ https://wakara.co.jp/course/4371
データの読み込みと前処理
データの読み込みが完了したら、まず最初に変数の設定を行います。目的変数は「コレント」という部分で、最小値が5万6000円、最大値が18万3千円となっています。このデータは月額の統計値を含んでいます。次に、物件に関する情報を少し整理してみましょう。物件から歩いて行ける時間や、築年数、フロアなどの詳細を見ていきます。新築かどうかを示す「新築フラグ」は、0または1の値で新築なら1、それ以外は0として設定しています。
特徴量の説明
さらに、データの特徴量についても簡単に紹介します。例えば「セレクター」や「リベート」などの変数があります。これらは物件のサイズや位置、その他の特性を示しています。さらに、物件の向きやフローリング、ペット可否なども重要な情報となります。このように、さまざまな変数が含まれており、それらをどのように扱うかが分析のカギとなります。
ロジスティック回帰による分析
次に、機械学習の手法であるロジスティック回帰を使って分析を進めていきます。選択するのは「ロジスティック回帰分析」ですね。目的変数には「購入したかどうか」を選びます。実際にモデルを作成すると、どの特徴量が最も影響を与えるのかが見えてきます。たとえば年齢が購入に大きな影響を与えることが分かります。年齢が40歳を超えると、購入する確率が高くなる傾向があります。
識別アルゴリズムとモデルの精度
識別アルゴリズムの中でも、決定木やランダムフォレストがよく使われます。決定木では、上から順に重要な特徴量を見つけ出すことができますが、ランダムフォレストは多数の決定木を使って結果を導きます。ランダムフォレストのメリットは、精度が高いことですが、どの特徴量が重要なのか分かりにくくなることもあります。
カーネルトリックとその利用
カーネルトリックを使うことで、二次元のデータを三次元に変換し、より複雑な境界を識別できるようにします。この手法を使うと、単純な線で分けられなかったデータをより精度高く分類することが可能になります。カーネルトリックを使用する際には、モデルの選定が非常に重要です。
ナイーブベイズとその応用
最後に、ナイーブベイズというアルゴリズムを使って分析を進める方法についても触れておきます。この手法は、特にデータが独立しているときに強力な結果を出すことが知られています。ナイーブベイズを用いた場合のモデル作成方法を実際にデモンストレーションすることで、理解が深まります。
次回はもっと詳しく、実際の分析結果を見ながら解説していきますので、ぜひお楽しみに!