失败任务重试策略

场景描述

系统需要每个小时启动多个定时任务,分别与若干个第三方系统进行交互,执行批处理任务。各个批处理定时任务具备强独立性,即第三方系统间相互独立,即A系统的失败不影响B系统的任务;同一系统各个批次的任务相互独立,即A系统0点的任务失败不影响1点的任务。批处理任务的实时性要求低,且存在一定的失败概率(原因可能来自本系统,也可能是第三方系统)。如果是因为系统bug,则此修复时间可能会相对较长。因而,容易积累大量的失败历史任务。失败的任务可以并且需要重试,同时重试不能影响当前时刻正常运行的任务。因为重试过程同样占用系统资源,因此需要限制每个小时重试的任务数。当存在大量的失败任务时,需要相应的调度策略来从中选择重试的任务。

策略一: 平均主义

基本策略

轮询的方式,每个小时重试选择updateTime距今最久远的任务(重试的时候会更新updateTime)。同时设置重试任务的createTime阈值(例如最近一个月),早于此时间创建的任务将不再自动重试,需要人工介入。保证任务调度相对公平,每个任务重试的间隔大致相同,历史任务避免饥饿问题。

遇到问题

  1. 实际运行过程中发现此方案无法很好的应对系统抖动。当本系统恰好在正常任务调度时刻进行系统更新,导致本批次所有定时任务都失败。同时存在A系统因为其系统bug,每个批次都是失败状态。由于积压了大量的A系统的历史失败任务,并且优先重试最早的任务,导致本批次的所有任务被挤压到重试队列的最后。即先把A系统的历史任务都重试,导致A系统外的所有系统被影响,甚至可能需要等上若干天。间接破坏了系统间的独立性。
  2. 极端情况下,当全局只有唯一失败任务,并且该任务理论上无法成功时,该任务仍然会被每小时重试,浪费系统资源。

策略二:指数退避

改进思路

  1. 原则上,最近失败的更新鲜的任务应该是被调度重试的优先级更高,而且被重试的频率概率更高。
  2. 对于历史失败任务,不再每个小时都尝试去重试,以减小系统压力。

具体方式

  1. 采用指数退避方式,退避间隔以2的指数增长,最大间隔32小时。例如,0点的任务,计划重试的时间依次为: 1点,3点,7点,15点,第二天7点(+16),(+32),(+32), …。 在间隔内的其他时刻,例如2点,4点,5点等,不再尝试重试。
  2. 对于每个失败任务,按照以下方式粗略计算优先级,由高到低排序选择。若当前时刻在下一次计划重试前,则计算所得的priority非正数,该任务需要被过滤掉不在当前时刻重试。
1
2
3
4
priority = (backoffToNow + 1) / (createToUpdate + 1)

priority:优先级
backoff:下一个计划重试时刻

若干简单案例

  1. 0点的任务,更新时间是1点(上次重试),当前时间是2点,下一个计划重试时间3点,计算出来 p = (2-3+1) / (1-0+1) = 0, 非正数,意味下一个计划调度时间在未来,当前时刻不尝试。
  2. 当前时间2点,两个任务,第一个是0点的任务,计划1点重试,由于1点时候存在大量重试任务(例如0点批次所有系统都失败),重试名额有限没有被选择;第二个任务是1点的,计划2点重试,计算出来 p1 = (2-1+1) / (1-0+1) = 1p2 = (2-2+1) / (2-1+1) = 0.5,任务1的优先级更高。虽然两个任务都是第一次调度,但任务1的计划时间更早,也就是滞后其计划重试时间更长。
  3. 当前时间7点,两个任务,第一个是0点的任务,更新时间是3点(第二次重试),计划7点重试;第二个任务是4点的,更新时间是5点(第一次重试),也是计划7点重试,计算出来 p1 = (7-7+1) / (3-0+1) = 0.25p2 = (7-7+1) / (5-4+1) = 0.5,任务2的优先级更高。虽然两个任务都是当前时刻计划重试,但任务2更新鲜,重试次数更少。
  • 以上仅仅是以简单的方式来选择任务,并非精确计算,有可能在更复杂的组合情况下优先级排序存在问题。**但基本上能保证在新鲜的任务在较短的时间内得到充分的尝试,历史任务得到的机会将会快速衰减。**由于所有任务采用相同的退避策略,仅仅是因为新鲜度导致退避间隔差异,可以认为仍然保留公平性。此方案更多强调应对系统的抖动,同时隐式的认为历史任务的价值随着时间的推移逐步的降低。

未来工作

考虑到存在个别系统的bug导致存在大量的失败任务,可引入公平队列,防止单个系统占据了绝大部分的系统资源。