Markov Chain

Markov Property

未来状态的概率分布只与当前状态有关,而与过去状态无关

$P_{s’s}$是从$s’$到$s$的状态转移概率,$P$是一个状态转移矩阵

$$P=\begin{bmatrix}
&P_{11} &P_{12} &… &P_{1n} \
& … & & \
& … & & \
& … & & \
& P_{n1} &… & &P_{nn}
\end{bmatrix}$$

时间和状态都是离散的马尔科夫过程称为马尔科夫链,Markov Chain,状态转移概率不随事件发生变化

Hidden Markov Model (HMM)

假设有一个系统,他时刻的状态是可观察的,但即状态转移原理(即模型参数)是不可知的,这样的就是隐式马尔可夫模型

要做的就是通过观察状态的分布来定义模型的状态转移机制

这是一种统计模型

Markov Decision Process (MDP)

属于强化学习,给一个五元组$(S,A,P,R,\gamma)$,S是状态集合,A是动作集合,P表示状态转移概率,即在s状态下,采取a的动作,分别是多大的概率转变为哪个新状态,R是奖励函数,即转移到新状态的奖励,$\gamma$是奖励的权重比例

从一个初始状态寻求一个最优策略

Bellman提出了用动态规划来解决这类问题

Partially Observable MDP (POMDP)

只有部分的状态是可观测到的MDP,人们只能看到一个“观察值”,不能直接了解到内部状态

比前一个五元组多了一个$Z$和$O$,$O$代表在执行了一个动作a之后,在一个状态s产生一个观测z的概率


Markov Chain
https://isolator-1.github.io/2023/11/19/ai/Markov Chain/
Author
Isolator
Posted on
November 19, 2023
Licensed under