Posts on ロジスティック回帰

代表的な機械学習アルゴリズム4つの精度を不倫データで比較する。

変なタイトル…。 またも前回の続きですが、udemyで紹介される機械学習アルゴリズムは以下の4つ。 というより、多すぎて試しきれず、以下の4つに絞ったというか。 ロジスティック回帰 k近傍法 サポートベクトルマシン ナイーブベイズ分類 これらをデフォルトのまま使って予測精度を比較してみようかなと。 まずは不倫データを整えます。前回までの記事にコードのコピペです。 import pandas as pd import numpy as np from pandas import DataFrame, Series import statsmodels.api as sm def is_affairs(affairs): return 1 if affairs > 0 else 0 X = sm.datasets.fair.load_pandas().data Y = X.affairs.…

機械学習用データから分かる、不倫への明暗を分ける5つの要因。

興味本位で始めた、機械学習用不倫データセットと、Pythonの機械学習ライブラリscikit-learnを使って、愛妻の不倫を予測した前回の続き。(疑っているわけじゃないです) 結局、どのパラメータが不倫の大きな要因なのか? 不倫を避けるにはどうすればいいのか? と疑問に感じた人が調べるのは、係数(coefficient)です。 詳しい話はUdemyの実践 Python データサイエンスの講習やWikipediaを参照するとして、ざっくり言うと、「旦那の職業」「妻本人の職業」「子供の人数」・・・などの係数のうち、どれが目的変数(妻が不倫するかしないか)を決定するのに最も影響力を持つか、と解釈しました。 係数は、前回作ったロジスティック回帰modelに格納されているので、一目でわかるように可視化します。 from sklearn.linear_model import LogisticRegression from sklearn.cross_validation import train_test_split # トレーニング用データと確認用データを分離 X_train, X_test, Y_train, Y_test = train_test_split(X, Y,…

「不倫」データセットを機械学習して妻の説明変数パラメータを与えたところ、結果は…

結果はシロでした! 不倫しないそうです。(本人に結果報告したら「わかんないよ」と言われましたが…) まずは学習データをロードします。 import pandas as pd import numpy as np from pandas import DataFrame, Series import statsmodels.api as sm X = sm.datasets.fair.load_pandas().data 学習データに対する正解を作ります。 未知のデータ(妻パラメータ)に対する不倫するか(1)しないか(0)の結果を知りたいんですよね。 def is_affairs(affairs): return 1 if affairs > 0 else 0 Y = X.affairs.apply(…