よくよく考えると変数のrewardそのものよりも新規学習節が多いことが大事:学習節によって探索空間が逸脱していく。
ところがそれはrewardに反映されている。
だからrewardの順に決定変数を選択する。
逆に言えば新規学習節数を正しく反映できることがよいrewarding schemeのはず
だったらいっそのこと学習節数をrewardにすればいいんじゃないか。
実際には新規ではない、関連する節総数が問題。decayを使うのはその証拠。
$$
v.reward = \frac{|\lbrace c : v \in c \rbrace|}{|\lbrace c \rbrace|}
$$
- 学習節以外のものもrewardを上げるのは一種のショートカット?
- reductionで調整すれば、大まかにはいいんじゃないか。
よくよく考えると変数のrewardそのものよりも新規学習節が多いことが大事:学習節によって探索空間が逸脱していく。
ところがそれはrewardに反映されている。
だからrewardの順に決定変数を選択する。
逆に言えば新規学習節数を正しく反映できることがよいrewarding schemeのはず
だったらいっそのこと学習節数をrewardにすればいいんじゃないか。
実際には新規ではない、関連する節総数が問題。decayを使うのはその証拠。