加入怡居
過去7年,我司每年平均捐出52%純利作慈善用途,款額動輒以百萬元計,可稱實 至名歸的社會企業。閣下光顧我司,是變相自己做善事!日後請多多光顧為感!
尖沙咀總行 : 2569 2192
太古城華山分行 : 2569 1339
沙田銀禧分行 : 2636 1380
太古城明宮分行 : 2560 3738
沙田第一城專責組 : 2647 1838
杏花邨專責組 : 2898 0007
尖沙咀總行 : 2569 2192
太古城華山分行 : 2569 1339
沙田第一城專責組 : 2647 1838
沙田銀禧分行 : 2636 1380
太古城明宮分行 : 2560 3738
杏花邨專責組 : 2898 0007
   回應 : 0
好文共賞
风险永不眠,我们如何与“错误”共存?
罗輯思維
2025年11月26日
(原文發表於2025年11月22日)
 
01

系统越复杂,失误的破坏力越大

微软和亚马逊这样的情况,在很多领域都长期存在。
比如,就在今年2月,欧洲央行的清算系统瘫痪了7个小时。这个系统每天要处理超过3万亿欧元的金融交易,它出问题,整个欧洲的银行之间都无法正常交易。那么为什么会出问题呢?是因为一条高压电线坠落。没错,一条电线的问题,就能让整个欧洲的金融系统瘫痪。
再比如,2021年10月,日本一家通信运营商更换网络核心设备,结果引发故障,持续了62个小时,4000万用户受影响。你看,就是换个设备,这么简单的操作,让4000万人失联了两天多。
以上这些事故,都有一个共同特点,就是“小故障”引发“大崩溃”。
换句话说,风险永不眠。再坚固的系统,也总有脆弱的环节存在。那么,怎么应对这些风险呢?
关于这个问题,很多人研究过。今天我们要说的,是来自耶鲁大学的社会学家,查尔斯·佩罗的研究。
为什么选他?因为佩罗是世界上最早系统性研究这个问题的人,也是灾难管理领域最有影响力的学者之一。现代航空、核电领域的很多防风险设计,都脱胎于佩罗的理论。
我们先从一个结论说起,佩罗认为,“失误”的破坏力,取决于系统的“复杂度”。系统越复杂,失误的破坏力就越大。
为什么这么说呢?佩罗总结了现代社会中的大多数重大事故,包括飞机坠毁、化工厂爆炸等等,发现这些事故有两个共同特征。
第一个特征就是系统的“复杂性”,很多因素互相关联。这就好比一个巨大的齿轮系统,一个齿轮转动会带动其他齿轮。
换句话说,你动了A,可能会影响到B、C、D,而B、C、D之间又会互相影响,最后产生的结果可能完全超出你的预期。
第二个特征是“紧致耦合”。所谓紧致耦合,就是缺少缓冲地带,错一点都不行。一个地方出问题,马上就会波及其他地方,根本没有时间和空间来补救。
佩罗认为,复杂性加上紧致耦合,几乎等于必然出错。
他举了几个例子来说明。比如,大桥就是一个不复杂、耦合也不紧的系统。哪个桥墩有问题,不至于马上波及别的桥墩,而且你有时间去修。
再比如,道路交通不复杂,但耦合比较紧,一条路上任何地方出事故,整条路都有可能堵车,但也就是堵车而已,不会出大事。
而像核电站和化工厂,既有复杂性,耦合又紧,就容易出现大事故。
02

从“人”入手

怎么降低事故的发生概率?关键在于,从“人”入手。没错,系统的错误来自人,但最有效的补救也来自人。
什么意思?我们拿航空业举例。科普作家瘦驼在《一席》演讲上说过一个数字,在航空领域,安全事故当中90%来自人为因素。
比如,1983年,加拿大航空一架波音767飞到一半,两个发动机全停了,原因是加油的员工把计量单位搞错了,把“公斤”当成了“磅”,于是只加了不到一半的油。更要命的是,所有检查环节都没发现这个错误。
所以在1万米高空,飞机完全失去了动力。后来机长凭经验找到了一个废弃机场,在完全没有动力的情况下,靠滑翔成功降落,所有人才得以获救。
再比如,2009年,美国一架客机刚起飞就撞上了鸟群,之后两台发动机全部失效。在完全失去动力的情况下,机长果断决定迫降到哈德逊河,全员才得以生还。这个事件后来还被拍成了电影《萨利机长》。
前面这些属于处理及时的,也有处理不及时的,比如,2024年,韩国济州航空也是撞鸟导致发动机故障,但机组在处置过程中出现失误,最终导致全机遇难。
上面几个案例都说明了一个问题,就是人为因素是双刃剑,犯错的是人,发挥主观能动性补救的也是人。
03

航空业的五个防风险机制,普通人也能用

复杂系统的很多“防风险设计”,都是从人入手制定的。
咱们还是以航空业为例。在过去100多年的时间里,航空业发展出了五个防风险机制,而且这些经验都是用沉痛的代价换来的。
第一个机制,叫精确沟通原则。说白了,你得确保自己发出的每一个信息,都被对方准确接收到。
比如,在航空通信中,飞行员和地面管制员经常需要报告飞机编号、航路点代码等信息,这些都包含大量字母。你想想,在嘈杂的环境中,B和D、M和N这些字母特别容易被听错,一旦搞混,可能导致严重后果。
所以,上世纪50年代,国际民航组织向全球推广了一套字母表,Alpha、Bravo、Charlie、Delta、Echo等,都是用一些容易读出来,又不是那么常用的单词来代替。换句话说,在生死攸关的时刻,任何可能的误解都要提前杜绝。
第二个机制是,检查清单机制。
1935年10月30日,波音299飞机试飞时坠毁,导致两个人死亡,而且其中一个还是功勋试飞员。当时经过调查发现,这个飞机使用了很多新技术,操作流程跟之前的老飞机很不一样。
但飞行员由于经验丰富,没有提前去了解新飞机的操作,结果在驾驶过程中忘记了一个关键流程,最终酿成了悲剧。
换句话说,再有经验的人,也会因为流程变化而犯错。
后来波音公司就痛定思痛,把整个流程做成了一个检查单,然后起飞前按照这个单子一项一项做,每项都画勾。而到了今天,即便是再老练的飞行员,仍然要按照检查单一项一项地核对。
第三个机制是,视觉提醒系统。
1996年10月2日,秘鲁航空603航班,在太平洋海域失事,导致70人死亡。后来从残骸上找到了事故原因,机身的某个传感器盖子上,被贴了一条胶布。
这个胶布是民航维修时经常用的高速胶带。由于飞机表面有很多传感器,停在机场维修时,为了防止昆虫钻进去,会贴胶带。但检修完成后,地勤人员忘了把胶带撕下来,结果在飞行过程中传感器失去了作用,飞行电脑完全混乱,飞机就出现了事故。
后来,为了防止类似的事故再次发生,航空公司引入了“视觉提醒”机制。飞机上那些临时安装的保护装置,比如发动机进气口的防护罩、起落架的安全销等,都会挂上醒目的红布条,上面写着“起飞前取下”。
这样一来,飞机推出去滑行时,所有人都能看到哪里还有红布条没摘,就知道有东西忘了处理。
第四个机制是,物理防错设计。
1994年6月6日,一架客机在空中解体。问题出在驾驶舱下面的电子舱,地勤人员在维护时,把控制副翼和控制航向舵的两个插头接反了。结果飞机起飞后,飞行员操作副翼时,动的却是航向舵,完全失去控制,最终酿成悲剧。
其实设计师已经考虑到了这个问题,两个插头用了不同的颜色来区分。但在狭窄昏暗的电子舱里,地勤人员根本看不清楚颜色,最终还是搞错了。换句话说,仅仅依靠颜色区分是不够的,人在复杂环境下还是会犯错。
那怎么办呢?后来航空业就想出了一个更可靠的办法,让每个插头的形状都不一样,错误的插头和插座在物理上就插不进去。这样一来,就算在黑暗中也不可能插错。
第五个机制是,安全文化建设。说白了,就是建立一个“重视风险”的工作氛围。
比如,在空客的图卢兹总部,有个场所叫“空客安全促进中心”。这里面专门用来展览空客过去犯过的错误。这里最大的展品,是一个巨大的发动机外罩。
这个东西很有来历。2017年9月30日,法国航空66号航班,一架空客A380飞着飞着右边第一台发动机的外面罩子突然没了。为了分析事故原因,空客花了很长时间,在格陵兰岛冰原上找到了飞掉的外罩。
在这个安全促进中心最后的地方,还有一块专门的牌子,用来纪念所有因空客飞机空难死亡的遇难者。
换句话说,所谓“安全文化建设”,首先也许要从承认过去的错误开始。
当然,前面这些都是目前为止的摸索实践。航空业也未必是绝对完美的,它也在不断地改进当中。
说到这,回到开头的问题。既然风险无法避免,我们如何与错误共处?佩罗的经验是,错误由人产生,也由人修复。因此,设计系统的关键就在于,留出足够的冗余,让人去发现错误、抓住错误、改正错误。
借用著名航空工程师墨菲说的,“任何可能出错的地方,一定会出错。因此,最重要的不是让人不犯错,而是让系统在人犯错时也能运转。”容错能力,也许是一个人、一个组织、一个系统最关键的竞争力之一。
我要回應
我的稱呼
回應 / 意見
驗証文字