分布式系统非拜占庭错误故障错误算法paxos 算法

程序员潇然 · 发表于 2022-12-1 20:10:01

拜占庭将军问题中，提出分为两种解决问题的方向

https://www.crazybytex.com/thread-239-1-1.html

一种是非拜占庭错误，一种是拜占庭错误。

把出现故障( crash 或 fail-stop，即不响应)但不会伪造信息的情况称为“非拜占庭错误”( non-byzantine fault)或“故障错误”( Crash Fault);

Paxos就是一种非拜占庭错误解决算法。

The part-time parliament

https://dl.acm.org/doi/10.1145/279227.279229

中文版 https://www.crazybytex.com/thread-243-1-1.html

最近在Paxos岛上的考古发现表明，尽管兼职的立法者到处流动，但议会仍在运作。

尽管议员们经常突然闯入参加会议，而且他们的信使也很健忘，但议员们仍然保持着议会记录的一致副本。

Paxon议会的协议提供了一种实现分布式系统设计的状态机的新方法。

类比到分布式系统中:

议员->节点

议员游走流动/闯入参会->节点的上线/下线

信使靠谱/健忘->网络的联通/失效

议会记录一致->分布式系统达成共识

关于这段论文发表的历史比较有趣，lamport在下面的网址中有描述

http://lamport.azurewebsites.net/pubs/pubs.html#lamport-paxos

为了进一步展示形象，我以印第安纳-琼斯式考古学家的身份做了几次讲座，戴着斯泰森帽子和臀部烧瓶。

我试图在这个主题中插入一些幽默，但失败了。参加我讲座的人记得印第安纳琼斯，但不记得算法。

1990年向TOCS提交了这篇论文。三位审稿人都说这篇论文有点有趣，虽然不是很重要，但所有Paxos的东西都必须删除。我对在这个领域工作的每个人似乎都很不幽默感到非常恼火，所以我没有对论文做任何事情。

This paper won an ACM SIGOPS Hall of Fame Award in 2012.

另外lamport 在下面网址中说道:

http://lamport.azurewebsites.net/pubs/pubs.html#paxos-simple

在2001年的PODC会议上，我厌倦了每个人都说理解Paxos算法是多么困难，发表于[123]。尽管人们对伪希腊语的名字非常着迷，可他们认为论文很难理解，但算法本身非常简单。

所以，我在会议上逮到几个人，口头向他们解释了算法，没有论文。回到家后，我把解释写成了一张简短的纸条，后来我根据弗雷德·施耐德和巴特勒·兰普森的评论对其进行了修改。当前版本长达13页，其中没有比n1>n2更复杂的公式。

2015年，亚马逊的Michael Deardeuff告诉我，这篇论文中的一句话是模棱两可的，错误的解释理解会导致错误的算法。

Deardeuff发现Github上的许多Paxos实现实现了这种不正确的算法。

显然，实现者没有费心阅读[123]中算法的精确描述。我不会消除这种歧义，也不会揭示它在哪里。散文不是精确描述算法的方法。不要试图实现本文中的算法。改用[123]。

[123] 指的就是The part-time parliament

paxos-made-simple

https://www.microsoft.com/en-us/research/publication/paxos-made-simple/?from=https://research.microsoft.com/en-us/um/people/lamport/pubs/paxos-simple.pdf&type=exact

简单说大神觉得这个事情很简单，你们怎么这么笨？

于是出了一个解释性的文档，当然，他提出还是需要The part-time parliament按照来实现算法，而不是这篇simple。

这大概也就是为什么这一篇的Abstract为什么只有一句话的原因吧

paxos made simple 翻译中文版 https://www.crazybytex.com/thread-242-1-1.html

关于paxos发展历史，详见转载的一篇文章：https://www.crazybytex.com/thread-241-1-1.html

paxos made simple 是对The part-time parliament的解释说明，他们并不是两回事，相对来说simple更加容易理解一些，尽管仍旧是不太容易理解

Raft作者讲解Paxos：《Implementing Replicated Logs with Paxos》

ppt内容地址:

https://gitee.com/crazybytex/some-documents/blob/master/implementing%20replicated%20logs%20with%20paxos.pdf

在线讲解:

https://www.youtube.com/watch?v=JEpsBg0AO6o&t=41s

https://www.bilibili.com/video/av36556594/?vd_source=7741be735669cf4a8d044c6942e6c0e3

Fast Paxos

在到后面，lamport提出了改进的算法，提出了fast paxos ，之前的paxos就被称之为classic paxos

这个算法就是字面意思，改进了的，更快速的paxos

https://www.microsoft.com/en-us/research/publication/fast-paxos/

下面介绍的是经典的paxos

Paxos算法

以上是一些背景说明、文献指引记录，下面开始简单分析算法。

论文提出的算法可以认为是包含两个部分:

Basic Paxos 算法，描述的是多节点之间如何就某个值（提案 Value）达成共识；

Multi-Paxos 思想，描述的是执行多个 Basic Paxos 实例，就一系列值达成共识。

Basic Paxos 是 Multi-Paxos 思想的核心，本文先介绍Basic Paxos。

Basic Paxos

需求

Only a value that has been proposed may be chosen,
Only a single value is chosen, and
A process never learns that a value has been chosen unless it actually has been.

以上是paxos made simple中关于达成共识的要求。

为了达成这几个目标，定义了几个角色，配合来执行

角色

在 Basic Paxos 中，有提议者（Proposer）、接受者（Acceptor）、学习者（Learner）三种角色

提议者（Proposer）：提议一个值（Proposal），用于投票表决，Proposal信息包括提案编号 (Proposal ID) 和提议的值 (Value)。

接受者（Acceptor）：对每个被提议的值进行投票（accept），并保存接受的值，也就是参与决策，回应Proposers的提案。收到Proposal后可以接受提案，若Proposal获得多数Acceptors的接受，则称该Proposal被批准。

学习者（Learner）：被告知投票的结果，接受达成共识的值，存储保存，不参与投票的过程，也就是不参与决策，从Proposers/Acceptors学习最新达成一致的提案（Value）

这是一种比较严格、明确的划分，但是在实际的分布式系统中，通常每一个节点都将是提案者、接受者、学习者，因为他们都有可能接收来自外部用户客户端的请求，此时他就是提案者，然后他也需要参与接受者的过程，最终达成一致后，每个人也都是学习者，都要知悉最终的结论，并且存储这些数据。

单个接受者

核心目标是达成共识，那么最简单的无脑处理方法就是简化为只有一个接受者

这个唯一的接受者，根据他自己的处理逻辑，比如选择收到的第一个请求，作为最终一致的一个值，也是可以实现核心目标的。

但是很显然，如果只有一个接受者Acceptor ，一旦这个唯一单机，将会使系统不可用，对于分布式系统来说是灾难性的。

解决方法就必须是多接受者，Multiple acceptors

这样只要大多数接受者可以达成一致，最终一个值被选择出来（chosen），单节点的宕机就不会影响整个系统。

必须接受收到的第一个值

假设可以不接受第一个值，那么如果只有一个Proposer时，这个唯一的proposal如果可以不接受，那么后面将不再有任何Proposer进行提议，那么永远无法达成共识，为了满足这种场景下可以继续达成共识，必须接受第一个值。

都必须可以接受多个值

基于“必须接受收到的第一个值”，假设每个acceptor仅仅接受他收到的第一个值，如果有三个proposer，分别提出了三个提议，发给了三个acceptor，那么因为他们仅仅接受收到的第一个值，不接受别的值，无法达成一致，所以，每个acceptor都还可以接受多个值，就是选你也可以，选他也可以。

【编号+值】对提议进行编号

如果根据到达acceptor的先后顺序做处理：先到的被接受，后面的都丢弃，那此时acceptor只能接受一个提议；如果后到的都被接受，那么当某value被选定后，其他proposer提出新value，选定的value就会被覆盖，导致由选定进入不选定状态，甚至进入下个value的选定状态，违反了一致性。

如果根据value的大小做处理：由于acceptor要能接受多个提案，提案可能存在被覆盖的情况，因此要保证可能被选定的value在被其他提案覆盖的情况下，仍旧能够记录保留另外假设经历多轮选举，对于同一个proposor发送的多个提案，如何区分他的轮次？

因此有了提案=全局唯一编号+value的设计，通过编号的偏序关系定义acceptor处理提案的方式。

简单说一个有序的不重复的自然数序列作为编号对值进行标记，可以解决很多麻烦。

所有被选择的具有相同的值

Only a single value is chosen（只有一个值被选择），而且每个acceptor都可以接受多个值。

那么必须要保证所有的被选择的proposals 是同样的值（we must guarantee that all chosen proposals have the same value），如果大家选择的五花八门，就没有办法保证最终能够达成一致。

By induction on the proposal number, it suffices to guarantee: P2. If a proposal with value v is chosen, then every higher-numbered proposal that is chosen has value v.

通过归纳法，如果一个proposal 值v被选择，那么每一个更高序号的被选择的proposal 他的值也是v，就可以保障“所有被选择的具有相同的值”。

又因为被选择的，肯定是要被接受的，被接受的肯定是要被提出来的

所以：

P2b. If a proposal with value v is chosen, then every higher-numbered proposal issued by any proposer has value v.

也就是如果一个proposal 值v被选择，那么每一个，被任意proposer提出的，一个更高编号的proposal的值是v。

图解

上面的一个简单的推导过程图解如下，右键新标签查看大图

如何满足？

关于P2b如何满足？

也就是上图的最下面的这个要求

数学归纳法

证明

命题：假设某个提议{m, v}被选择，任何编号n>m的提议的值都是v。

①设(m,v) 是被选中的，提议的值是v ②假设编号从m到n-1的每个提议值都是v(i..j 表示从i到j的所有整数的集合)，如果可以由此推得，m=n时，提议的值是v，那么命题成立。

过程：

对于已被选择（chosen)的编号为m的提议，必定存在某集合C，由接受了这个提议的acceptor多数派组成。也就是说C中的每一个acceptor 都接受了编号为m..(n-1)中的一个提议（因为是C就是由接受了v的多数acceptor组成的），又依据假设②，被任意一个acceptor接受的编号为m..(n-1)的提议，他们的值都是v。

而且，任何一个多数派集合S，都必然包含一个元素属于C，因为任意两个多数派集合必然有交集，否则两个多数派并集就超出了原有集合了，如果能够满足下面的条件，就可以保障编号n的提议，他的值也是v

对于任何值v 和n ，如果一个 proposal具有编号n 和值v ，那么由多数派 acceptor组成的集合S满足以下其中一个条件：

S 中的 acceptor不会接受任何编号小于 n 的proposal。
所有编号小于n并被S集合中的所有acceptor接受的提议中，v是编号最大的提议的值，也就是S中 acceptor接受的最大编号的 proposal的值为 v 。

两阶段提交

两阶段提交-通过两个阶段来完成一次提交动作。

直白的说就是开始干活之前，有一个确认的过程，先问一下是否准备妥当，大家都准备好了之后，就进行下一步；否则直接失败

类比到paxos算法，协调者就是提议者proposer，参与者就是接收者acceptor

解决过程

对于任何值v 和n ，如果一个 proposal具有编号n 和值v ，那么由多数派 acceptor组成的集合S满足以下其中一个条件：

S 中的 acceptor不会接受任何编号小于 n 的proposal。
所有编号小于n并被S集合中的所有acceptor接受的提议中，v是编号最大的提议的值，也就是S中 acceptor接受的最大编号的 proposal的值为 v 。

关于这个条件，也就是论文中的P2 <sub>c</sub>

如何保证？

一个proposer想要提出一个编号为n的proposal，就必须要知道目前所有的编号小于n的最高编号的proposal，这是很容易的，但是接下来的未来是很难预测的，所以无法预测，就直接拒绝，也就是不接受任何编号小于n的proposal

所以可以提出如下推导逻辑，这个就是proposer的算法处理逻辑。

prepare

一个 proposer选择一个新的编号为n 的 proposal，并发送请求到 acceptor的集合，并要求得到以下其中一个回应：

一个不会接受编号值小于n 的 proposal的承诺。如果 acceptor已经接受过 proposal，则响应已接受的小于编号n 的最大编号的 proposal（如果有的话）。将该请求称为编号为n 的prepare请求。

accept

如果proposer接受到了大多数的acceptor响应的请求，然后他就可以提出来一个proposal，编号为n，并且选择这些响应中编号最大的proposal中的值v，作为值v，如果没有人响应值，他就可以自己选一个其他的值。然后将这一次提议发送给acceptor集合，这就是accept请求。

上面是proposer的处理逻辑，对于acceptor，acceptor可以从 proposer接收两种类型的请求：

prepare和 accept请求。

acceptor如果不响应任何请求，并不会带来安全性的问题（最开始提出来的需要解决的问题，只有一个可以被选中那三条）

所以只需要说明，需要响应的时候的场景。

对于prepare请求，他总是可以响应的。

他也可以响应accept请求，接受这个提议，如果他没有承诺不接受（他是承诺不会接受编号值小于n 的 proposal），换句话说：

acceptor没有响应过编号大于n 的 prepare请求的话，那么可以接收一个编号为n 的 proposal。

假设 acceptor收到编号为n 的 prepare请求，但是已经响应过一个编号值大于n 的 prepare请求。

因此承诺不会接受任何编号为n 的新的 proposal请求。（不接受编号更小的）

这样，acceptor就没有理由响应新的 prepare请求，因为它不会接受 proposer想要发出的编号为n 的 proposal。

因此，我们让 acceptor忽略这样的 prepare请求。

我们也可以忽略它已经接受的 proposal的 prepare请求。通过这种优化

接受者只需要记住它曾经接受的编号最高的 proposal以及它已响应的编号最高的 prepare请求的数量。

最终归结为两个阶段：

下图来自John Ousterhunt的ppt，一个更形象的描述。

https://gitee.com/crazybytex/some-documents/blob/master/implementing%20replicated%20logs%20with%20paxos.pdf

比如这样一个场景

首先是prepare阶段

初始时，P1、P2 进行广播发送（初始时是没有值的，这个值是选出来或者最后自己定的）

横向的是时间轴，靠右表示时间的推移

在每个节点第一次收到消息的时候，会接受消息，并且会返回当前没有选择的提议

A1、A2 第一次收到消息来自于P1，A3 第一次收到消息来自于P2

对于非第一次收到prepare消息，也就是A1、A2 收到P2，A3 收到P1 的时候

因为A1，A2 目前也都还没有通过任何提议，而且，编号7 大于编号3，所以她给P2 也会返回未接受任何提议的响应；

但是对于A3 收到P1的请求时，之前已经响应过A2的编号为5的prepare请求了，就不会响应这个P1的编号为3的请求了

接来来是accept阶段

此时，针对于P1，他已经收到了A1，A2（大多数）的未接受任何提议的响应了，所以他准备发送accept

针对于P2，他也收到了A1，A2，A3（大多数）的未接受任何提议的响应了，所以他准备发送accept

因为之前的节点都没有返回给P1和P2 他们有接受的提议，所以没有值，这个值就由P1，P2各自定

注意

虽然下图时间轴画的比较靠前，但是已经是对比prepare阶段往后推移过了的，可以认为开始的地方就比前面的最后晚。

因为A1、A2、A3已经承诺过不接受编号小于5的请求了，所以就不会对P1进行响应

只会对P2进行响应，所以都会对P2 响应对应的值9，所以就达成了一致性了

小结

提议编号顺序简单的就可以理解为优先级，根据优先级（编号的大小），acceptor有三个承诺：

如果prepare请求的编号，小于等于acceptor已经响应过得prepare编号，那么承诺不响应这个prepare请求。

如果accept请求的编号，小于acceptor已经响应的prepare请求的编号，那么acceptor承诺不通过这个提议。

如果acceptor之前有通过的提议，那么就会在prepare请求的响应消息里面，把通过的最大编号的提议信息发送过去。

Multi-Paxos

lamport描述了几种实现 multi-Paxos 的可行方法，但缺失了细节。

也就是不是完备的、论证的算法。

后面大多都是基于multi-paxos算法进行的完善，但是很难证明。

所以也可以说：兰伯特提到的 Multi-Paxos 是一种思想，不是算法。

而 Multi-Paxos 算法是一个统称，它是指基于 Multi-Paxos 思想，通过多个 Basic Paxos 实例实现系列值的共识的算法(比如 Chubby 的 Multi-Paxos 实现、Raft 算法等)。

Chubby的 Multi-Paxos 实现，代表了Multi-Paxos思想在生产环境中的真正落地，它将一种思想变成了代码实现，其实也是因为Chubby的出现，让Paxos开始火了起来。

不过Chubby不是开源的。

这部分可以更多的参考原始论文The Part-Time Parliament

multi-Paxos如果直接多次执行basic-Paxos的话：

如果prepare阶段，没有协商成功，比如5个节点，有三个是proposer，必然不会有大多数进行响应，最多得到两个prepare的响应，准备阶段就失败了，也就是所谓的提议冲突

本身分布式系统基于rpc进行通讯，大量消息往返会消耗资源、时间，浪费性能。

可以通过引入Leader角色，通过Leader进行唯一提议者，也就不存在冲突了

论文中没有表明如何选出Leader，chubby是通过一轮Basic Paxos进行选举的。

本身prepare阶段就是发现选出被大多数通过的提议值，但是通过Leader，就不存在选举冲突，也就不存在多个值，都是Leader说了算，prepare就不再有意义，所以可以省略掉prepare阶段。也就是所谓的，领导者处于稳定状态时，省略掉准备阶段。

大大减少了消息的交互，退化为相当于单纯的主从节点数据通信交互。

Leader的本质就是我不要你们不断地商量，我只需要指定一个即可。毕竟很多场景下，比如选主，是谁都不重要，选出来最重要。

也就是不关心具体的值，只关心尽快达成一致。

转载务必注明出处：程序员潇然，疯狂的字节X，https://crazybytex.com/thread-240-1-1.html

[分布式系统] 分布式系统非拜占庭错误故障错误算法paxos 算法

Paxos算法

Basic Paxos

需求

角色

单个接受者

必须接受收到的第一个值

都必须可以接受多个值

【编号+值】对提议进行编号

所有被选择的具有相同的值

图解

如何满足？

数学归纳法

证明

两阶段提交

解决过程

prepare

accept

小结

Multi-Paxos

文章被以下专栏收录:

[分布式系统] 分布式系统非拜占庭错误故障错误算法paxos 算法

Paxos算法

Basic Paxos

需求

角色

单个接受者

必须接受收到的第一个值

都必须可以接受多个值

【编号+值】对提议进行编号

所有被选择的具有相同的值

图解

如何满足？

数学归纳法

证明

两阶段提交

解决过程

prepare

accept

小结

Multi-Paxos

文章被以下专栏收录:

扫码关注公众号

扫码加我微信

微信、支付宝 扫码捐助

微信、支付宝扫码捐助