Wekaを用いた簡単な解析例1(線形回帰式を葉に持つモデル木の解析)

1.登録データから次のような、トマトに関するデータを取得しました。

「葉枚数」 、「草丈」、 「最大葉長」、「第2花房直下茎径」は定植後41日目のデータです。
「収量」は8段目までの総収穫量です。

データNo.
葉枚数
草丈cm
最大葉長mm
第2花房直下茎径mm
収量g
1
19.2
115
40.4
9.7
5099.7
2
18.7
107.6
40.4
10.4
5737.5
3
19.3
105.8
36.7
9.2
4807.2
4
19.5
109.2
40.5
11
5877.8
5
19
102.6
38.5
10
5166.0
6
20.8
110.8
38.8
9.1
5267.4
7
20.5
116.3
37
10.8
5473.5
8
20
114.1
35.2
9.7
5590.2
9
19.1
95.3
33.2
8
4619.8
10
17.5
99.9
33.7
9.1
4890.0
11
19.2
106.3
38.6
9.6
5080.2
12
19
99.3
32.7
8
4781.8
13
18.5
94.8
33.2
9.2
4846.6

2.表のデータをファイル名"tomatodata.csv"(カンマ区切り)で保存します。

データNo.,葉枚数,草丈cm,最大葉長mm,第2花房直下茎径mm,収量g
1,19.2,115,40.4,9.7,5099.7
2,18.7,107.6,40.4,10.4,5737.5
3,19.3,105.8,36.7,9.2,4807.2
4,19.5,109.2,40.5,11,5877.8
5,19,102.6,38.5,10,5166.0
6,20.8,110.8,38.8,9.1,5267.5
7,20.5,116.3,37,10.8,5473.5
8,20,114.1,35.2,9.7,5590.2
9,19.1,95.3,33.2,8,4619.8
10,17.5,99.9,33.7,9.1,4890.0
11,19.2,106.3,38.6,9.6,5080.2
12,19,99.3,32.7,8,4781.8
13,18.5,94.8,33.2,9.2,4846.6

3.WekaのExplorを起動します。

4.Explor画面のOpen fileボタンを押して、"tomatodata.csv"を開きます。

5.以下の手順で線形回帰式を葉に持つモデル木の解析を行います。
@classifyタブ画面を選択し、
Achooseボタンで「tree/M5P」を選択して、
Bstartボタンで実行します。

5.次のような解析結果 (classifier output) を得ることが出来ます。

=== Run information ===

Scheme: weka.classifiers.trees.M5P -M 4.0
Relation: tomatodata.csv-weka.filters.unsupervised.attribute.
Instances: 13------->総データ数
Attributes: 5-------->次の5つが変数
葉枚数
草丈cm
最大葉長mm
第2花房直下茎径mm
収量g
Test mode: 10-fold cross-validation

=== Classifier model (full training set) ===

M5 pruned model tree:
(using smoothed linear models)

草丈cm <= 107 : LM1 (7/19.462%)----------->草丈が107cm以下なら、回帰式LM1で収量を予測する。
草丈cm > 107 :
| 草丈cm <= 110 : LM2 (2/21.82%)----------->草丈が107〜110cmなら、回帰式LM2で収量を予測する。
| 草丈cm > 110 : LM3 (4/11.534%)----------->草丈が110cmより高いなら、回帰式LM3で収量を予測する。

LM num: 1------------->回帰式LM1
収量g =
295.9471 * 第2花房直下茎径mm
+ 2293.9209

LM num: 2------------->回帰式LM2
収量g =
-13.7406 * 草丈cm
+ 239.7065 * 第2花房直下茎径mm
+ 4532.9214

LM num: 3------------->回帰式LM3
収量g =
-12.2943 * 草丈cm
- 5.7846 * 最大葉長mm
+ 239.7065 * 第2花房直下茎径mm
+ 4569.9274

Number of Rules : 3

Time taken to build model: 0.12 seconds

=== Cross-validation ===
=== Summary ===

Correlation coefficient 0.7325------------->この場合の相関係数
Mean absolute error 229.5817
Root mean squared error 259.4009
Relative absolute error 65.6583 %
Root relative squared error 63.0399 %
Total Number of Instances 13

ここでは、例として、線形回帰式を葉に持つモデル木の解析を示しましたが、 単純な線形回帰ももちろんあります。
(ここでは示していませんが、単純な線形回帰の方が相関係数は高かったです。)

5.その他

・Result listの右クリックオプションでモデル木を図で表示することができます。

・Visualizeタブ画面を選択し、各変数間の散布図を一度に見ることができます。

各変数間の散布図