Modifying Dynamic Programming

Alternative transitions define a probability distribution
Weighted state values
- Value(s) = Discount * sum(p_s' * Value(Policy(s'))) + Reward(s)

This works, but...