Lecture 17: Making Complex Decisions - A Modern Approach to AI

Listen — slide 1 Captions (VTT)

Lecture 17: Making Complex Decisions¶

AIMA Chapter 17 — 1 hour¶

Listen — slide 2 Captions (VTT)

Learning Objectives¶

Define Markov Decision Processes (MDPs)
Implement value iteration and policy iteration
Handle partially observable MDPs (POMDPs)
Apply bandit problems

Listen — slide 3 Captions (VTT)

Sequential Decisions¶

MDP grid

MDP: States, actions, transition model, reward
Policy: π(s) → action
Utility: Sum of (discounted) rewards

Listen — slide 4 Captions (VTT)

Value Iteration¶

Value iteration

V(s)*: Optimal value
Bellman: V*(s) = max_a Σₛ’ P(s’|s,a)[R(s,a,s’) + γV*(s’)]
Iterate: Until convergence

Listen — slide 5 Captions (VTT)

Policy Iteration¶

Policy evaluation: Compute V^π
Policy improvement: π’(s) = argmax_a Q(s,a)
Repeat: Until policy stable

Listen — slide 6 Captions (VTT)

POMDPs¶

Belief state: Distribution over states
Belief-state MDP: Continuous state space
Value iteration: Over belief space

Listen — slide 7 Captions (VTT)

Bandit Problems¶

Arms: Each with unknown reward distribution
Exploration vs. exploitation
Gittins index: Optimal for discounted case

Listen — slide 8 Captions (VTT)

Summary¶

MDP: States, actions, rewards
Value/policy iteration
POMDP: Belief states
Bandits: Exploration-exploitation

Listen — slide 9 Captions (VTT)

References¶

AIMA Ch. 17
Russell & Norvig, AIMA 4e, Ch. 17
Chapter PDF: chapters/chapter-17.pdf
aima-python: mdp4e.ipynb

Listen — slide 10 Captions (VTT)

Questions?¶

Next lecture: Multiagent Decision Making (Chapter 18)