Python in Excel (09) サンプルデータセット

Pythonサンプルを試す

 Python in Excelには、すぐに試せるサンプルがあります。

 「Pythonの導入」から「Pythonサンプルを試す」を選択すると、右側のウインドウに5つのサンプルが表示されます。

 いずれも、機械学習を学ぶためのサンプルとして利用されるIrisデータセットを使用しています。

サンプル名 内容
pandas で説明する pandasのdescribe()を使って各列ごとの要約統計量を取得する
散布図を作成する matplotlibを使って散布図を作成する
相関マトリックスを作成する pandasのcorr()を使って相関係数を計算する
ペア プロットを作成する seabornを使ってペア プロットを作成する
線形会期を生成する seabornを使って線形会期図を作成する

 データセットには、以下の項目で、150件入っています。

項目名 内容
sepal_length がく片の長さ(cm)
sepal_width がく片の幅(cm)
petal_length 花弁の長さ(cm)
petal_width 花弁の幅(cm)
soecues

 種には、setosa(ヒオウギアヤメ), versicolor(ブルーフラッグ), virginica(ヴァージニカ)の3種類があります。

 このデータセットは、パターン認識でもっともよく知られているデータセットで、通称Fisher's Iris dataset(フィッシャーのあやめデータセット)と呼ばれています。Creative Commons Attribution 4.0 International (CC BY 4.0) licenseに基づき、自由に使用できます。UCI Machine Learning Repository

 ちなみに、サンプルの一番下に、「Python in Excel ドキュメントを表示します。」というリンクがあります。これをクリックすると、Python in Excelのヘルプが表示されます。

seaborn用のサンプルデータセット

 seabornは、GitHubに登録されているサンプルデータセットload_dataset() を使って呼び出すことができますが、Python in Excelは、外部に接続することができないため、利用できません。

scikit-learn (sklearn)用のサンプルデータセット

Toy dataset

 scikit-learnの load_iris() を使って、Irisのデータセットを読み込むことができます。サンプルと同様のデータセットを用意するには、以下のように記述します。

from sklearn import datasets
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = [iris.target_names[i] for i in iris.target]
df

 この他にも以下のようなサンプルを使用することができます。いずれも機械学習のサンプルとしてよく使われているデータセットです。

データセット サンプル名 分析方法
datasets.load_diabetes() 糖尿病の診療 回帰
datasets.load_digits() 手書き文字(数字)の認識 分類
datasets.load_linnerud() 生理学的特徴と運動能力の関係 回帰
datasets.load_wine() ワインの識別 分類
datasets.load_breast_cancer() 乳癌の診断結果 分類

7.1. Toy datasets — scikit-learn 1.3.0 documentation

サンプルデータセット – scikit-learn①【Python】 | BioTech ラボ・ノート

 Real world datasets

 scikit-learnには、Toy datasetの他にReal world datasetsがありますが、Connection refused となって利用できません。

GitHubなどで公開されているデータセットの利用

 Pythonの関数で呼び出すことができませんので、Power Queryで読み込んで利用します。

Python in Excel (04) データ参照 Power Queryで取得したデータ - Excelについての気になったこと