学生による学生のためのデータサイエンス勉強会

分類、回帰、クラスタリング

 前回は機械学習の大分類である「教師あり学習」、「教師なし学習」、「強化学習」の3つについてざっくり学びました。
 今回はこのうちの「教師ある学習」、「教師なし学習」によって実現される分析である「回帰」、「分類」、「クラスタリング」についてざっくり学びます。

回帰

 回帰とは、データに最も当てはまりのいい関数を見つけ出すことです。

 例えば「アイスの売上」と「気温」のデータがこのように得られたとします。

日数アイスの売上気温
1日目5個12℃
2日目7個15℃
3日目10個20℃
4日目15個25℃
5日目27個32℃

 このデータから、気温が1℃上がったとき、売上がどれくらい増えたか(減ったか)知りたいとします。
 そこで、このように2次元平面上にデータをプロットしてみます。

もちろん値は適当ですよ

 すると、このように気温と売り上げの間におよそ直線の関係があることが分かりました。
 ここから回帰分析という簡単な計算を行うと、この直線の関数が

$$y=ax+b$$

という形で分かります。

 回帰の手法では、2つ(3つ以上でも可能です)変数の間の関係を見つけ出すので、必然的に「教師あり学習」の手法を使うことになります。

分類

 分類とは、与えられたデータをいくつかのクラスに分けていくことを指します。クラスとは、データの属性です。
 例えば、犬の特徴を入力して犬種を当てたいとします。「決定木」という手法を使うと次のように分類を行うことができます。

個人の主観が入りまくりです

 このように、各特徴に対して分類を続けることで、最終的に1つのクラスに分けることができます。
 この手法は、データに対して「正解」が与えられていなければ行うことは出来ません。ですので、この手法も必然的に「教師あり学習」に分類されます。

クラスタリング

 クラスタリングとは、データの集合をいくつかのグループに分けることです。この「グループ」を「クラスタ」と呼びます。

 例えば、果物の「みずみずしさ」と「甘さ」を測定した結果、下の図のようになっていたとします。

このようなデータのまとまりを自動的に見つける手法が「クラスタリング」です。
 この例の場合、クラスタリングをしてもあまり意味を感じないかも知れません。しかし、これがもし4次元以上のデータであったり、潜在的に3000個のクラスタに分けることができるようなデータであった場合はどうでしょうか。このようにいくつかのグループに分けることができれば、データに潜む本質的な構造を見抜くことに繋がります。

 例に使った図をもう一度見てみましょう。「グレープクラスタ?」や「バナナクラスタ?」といった記述があります。このように分けられたクラスタに対して意味を与えるのは人間の仕事です。何故なら、クラスタリングの手法は「教師なし学習」を使うため、データを分けることしか出来ないからです。ですので、そのクラスタにどんな意味があるのか、それを考えるのは人間です。

まとめ

 機械学習の分析方法には大きく「回帰」・「分類」・「クラスタリング」があり、前者2つは「教師あり学習」、後者は「教師なし学習」を使います。

クイズ

Q1 ある国の二酸化硫黄排出量と雨の酸性の強さの関係を分析したい。「回帰」・「分類」・「クラスタリング」のうち、どの分析を行えば良いでしょうか。

Q2 食べ物の画像を見せると、それがどこの国の料理なのか当ててくれる機械があります。さてこの機械の内部では「回帰」・「分類」・「クラスタリング」のうち、どの分析が行われているでしょうか。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です