Skip to content

memo #325

Description

@shnarazk

よくよく考えると変数のrewardそのものよりも新規学習節が多いことが大事:学習節によって探索空間が逸脱していく。
ところがそれはrewardに反映されている。
だからrewardの順に決定変数を選択する。
逆に言えば新規学習節数を正しく反映できることがよいrewarding schemeのはず
だったらいっそのこと学習節数をrewardにすればいいんじゃないか。
実際には新規ではない、関連する節総数が問題。decayを使うのはその証拠。

$$ v.reward = \frac{|\lbrace c : v \in c \rbrace|}{|\lbrace c \rbrace|} $$

  • 学習節以外のものもrewardを上げるのは一種のショートカット?
  • reductionで調整すれば、大まかにはいいんじゃないか。

Metadata

Metadata

Assignees

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions