马尔可夫_在线百科全书查询

马尔可夫

安德烈马尔可夫，俄罗斯人，物理-数学博士，圣彼得堡科学院院士，彼得堡数学学派的代表人物，以数论和概率论方面的工作著称，他的主要著作有《概率演算》等。1878年，荣获金质奖章，1905年被授予功勋教授称号。他的儿子A.A.马尔可夫后来也成为著名的俄罗斯数学家。

马尔可夫

马尔可夫

安德烈马尔可夫，1856年6月14日生于梁赞，1922年7月20日卒于圣彼得堡。1874年入圣彼得堡大学，受P.L.切比雪夫思想影响很深。1878年毕业，并以《用连分数求微分方程的积分》一文获金质奖章。两年后，取得硕士学位，并任圣彼得堡大学副教授。1884年取得物理-数学博士学位，1886 年任该校教授。1896年被选为圣彼得堡科学院院士。1905年被授予功勋教授称号。

马尔可夫是彼得堡数学学派的代表人物。以数论和概率论方面的工作著称。他的主要著作有《概率演算》等。在数论方面，他研究了连分数和二次不定式理论，解决了许多难题。在概率论中，他发展了矩法，扩大了大数律和中心极限定理的应用范围。马尔可夫最重要的工作是在1906～1912年间，提出并研究了一种能用数学分析方法研究自然过程的一般图式——马尔可夫链。同时开创了对一种无后效性的随机过程——马尔可夫过程的研究。马尔可夫经多次观察试验发现，一个系统的状态转换过程中第n次转换获得的状态常决定于前一次（第（n-1）次）试验的结果。马尔可夫进行深入研究后指出：对于一个系统，由一个状态转至另一个状态的转换过程中，存在着转移概率，并且这种转移概率可以依据其紧接的前一种状态推算出来，与该系统的原始状态和此次转移前的马尔可夫过程无关。目前，马尔可夫链理论与方法已经被广泛应用于自然科学、工程技术和公用事业中。

马尔可夫方程

不定方程称为马尔可夫方程。

求解方法如下：

先凭观察找出(x1,x2,x3) = (1,1,1)这组解。

方程可视为一个x3为未知数的一元二次方程。根据韦达定理，可知(x1,x2,3x1x2 − x3)　（留意）也是一个解。

这个方程有无限个解。

事实上，用这个方法由(1,1,1)开始，可以找出这方程的所有正整数数组解。

在此不定方程的解出现的正整数称为马尔可夫数（Markov number），它们由小到大是：

1, 2, 5, 13, 29, 34, 89, 169, 194, 233, 433, 610, 985, 1325, ... （OEIS:A002559）

它们组成的解是：

(1, 1, 1), (1, 1, 2), (1, 2, 5), (1, 5, 13), (2, 5, 29), (1, 13, 34), (1, 34, 89), (2, 29, 169), (5, 13, 194), (1, 89, 233), (5, 29, 433), (89, 233, 610) ...

马尔可夫数的特性

马尔可夫方程的解

马尔可夫数可以排成一棵二叉树（如图）。

在二叉树上，和1的范围相邻的数（即2, 5, 13, 34, 89, ...），都是相隔的斐波那契数（斐波那契数的定义为F0 = 0,F1 = 1,Fn: = Fn − 1 + Fn − 2，即1, 1, 2, 3, 5, 8, 13, 21, 34 , 55, 89...）。这是说(1,F2n − 1,F2n + 1)都是此方程的解。

和2的范围邻接的数（即1, 5, 29, 169, ...）也有相似的特质：它们都是相隔的佩尔数（佩尔数的定义为P0 = 0,P1 = 1,Pn: = 2Pn − 1 + Pn − 2，即1, 2, 5, 12, 29, 70, 169... ）。

猜想

每个数只在树上出现一次（即没有正整数z使得(a,b,z),(c,d,z)都是方程的解，其中a,b,c,d是两两相异的正整数，且a > b > z,c > d > z）。

赫尔维茨方程

马尔可夫-赫尔维茨方程（Markoff-Hurwitz equation），是指形式如的不定方程，其中a,n是正整数。

赫尔维茨证明方程有(0,...,0)之外的解唯若。

马尔可夫决策过程

马尔可夫决策过程概述

马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物，故又称马尔可夫型随机动态规划，属于运筹学中数学规划的一个分支。

马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地作出决策。即根据每个时刻观察到的状态，从可用的行动集合中选用一个行动作出决策，系统下一步（未来）的状态是随机的，并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态，再作新的决策，依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形，在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制，其决策变量就是控制变量。

马尔可夫决策过程的发展概况

50年代R.贝尔曼研究动态规划时和L.S.沙普利研究随机对策时已出现马尔可夫决策过程的基本思想。R.A.霍华德(1960)和D.布莱克韦尔(1962)等人的研究工作奠定了马尔可夫决策过程的理论基础。1965年，布莱克韦尔关于一般状态空间的研究和E.B.丁金关于非时齐（非时间平稳性）的研究，推动了这一理论的发展。1960年以来，马尔可夫决策过程理论得到迅速发展，应用领域不断扩大。凡是以马尔可夫过程作为数学模型的问题，只要能引入决策和效用结构，均可应用这种理论。

马尔可夫决策过程的数学描述

周期地进行观察的马尔可夫决策过程可用如下五元组来描述：{S，(A(i)，i∈S，q，γ，V},其中S 为系统的状态空间（见状态空间法）； A(i)为状态i(i∈S)的可用行动（措施，控制）集；q为时齐的马尔可夫转移律族，族的参数是可用的行动；γ是定义在Γ(Г呏{(i，ɑ):a∈A(i)，i∈S}上的单值实函数；若观察到的状态为i，选用行动a，则下一步转移到状态 j的概率为q(j│i，ɑ)，而且获得报酬γ(j，ɑ),它们均与系统的历史无关；V是衡量策略优劣的指标（准则）。

马尔可夫决策过程的策略

策略是提供给决策者在各个时刻选取行动的规则，记作π=(π0，π1，π2，…， πn，πn+1…)，其中πn是时刻 n选取行动的规则。从理论上来说，为了在大范围寻求最优策略πn，最好根据时刻 n以前的历史，甚至是随机地选择最优策略。但为了便于应用，常采用既不依赖于历史、又不依赖于时间的策略，甚至可以采用确定性平稳策略。

马尔可夫决策过程的指标

衡量策略优劣的常用指标有折扣指标和平均指标。折扣指标是指长期折扣〔把 t时刻的单位收益折合成0时刻的单位收益的βt(β < 1)倍〕期望总报酬；平均指标是指单位时间的平均期望报酬。

采用折扣指标的马尔可夫决策过程称为折扣模型。业已证明：若一个策略是β折扣最优的，则初始时刻的决策规则所构成的平稳策略对同一β也是折扣最优的，而且它还可以分解为若干个确定性平稳策略，它们对同一β都是最优的。现在已有计算这种策略的算法。

采用平均指标的马尔可夫决策过程称为平均模型。业已证明：当状态空间S 和行动集A(i)均为有限集时，对于平均指标存在最优的确定性平稳策略；当S和（或）A(i)不是有限的情况,必须增加条件，才有最优的确定性平稳策略。计算这种策略的算法也已研制出来。