提供雲端儲存和備份服務的Backblaze釋出了另一份關於各種型號硬碟故障統計的報告。順應全球趨勢,該公司決定找出人工智慧是否可以幫助減少故障數量。

圖片來源:MH Rhee / pixabay.com
截至 2024 年第二季度末,Backblaze 有 284,876 個硬碟在執行。該公司從樣本中排除了營運量不超過 100 個單位的模型,以及本季度內沒有累積總工作天數的模型。該報告包括284,386輛,由29個型號組成。鑒於人工智慧技術在當今不同行業中的流行程度,Backblaze想知道它們是否可以用來預測硬碟機的故障。要做到這一點,你需要在公司統計數據上訓練一個大型語言模型,並檢驗一個假設,即人工智慧是否能夠計算某個驅動器隨時間推移的故障機率——目前尚不清楚一個模型的統計數據是否能夠套用於另一個模型,因為它們的故障情況可能根本不同。

以下圖片來源:backblaze.com
最新報告顯示,第二季度平均年故障率為1.71%,低於去年同期的2.28%,但高於2024年第一季度的1.41%。最令人擔憂的是 12 TB (HUH721212ALN604) HGST 模型,其 AFR 在報告期內躍升至 7.17%,其生命周期率從 0.99% 提高到 1.57%。還值得註意的是,兩種型號 - 具有 14 TB ST14000NM000J和 16 TB ST16000NM002J的希捷 - 在本季度沒有出現任何故障。但 Backblaze 營運的這些驅動器數量相對較少。

正在開發的最古老的型號是希捷,容量為 4 TB (ST4000DM000),該公司打算在未來一兩個季度內將數據從這些驅動器傳輸到更新和更大的驅動器。使用時間最長的例項是 4 TB (HMS5C4040ALE640) HGST 驅動器,在第二季度末,該驅動器的使用壽命為 9 年零 11 個月零 23 天,現在安裝此磁盤的儲存正在遷移過程中。

Backblaze 解釋說,收集和處理這些統計數據的目的是構建每個驅動器隨時間推移的故障概況,這將有助於制定更換和遷移策略。為了說明這一點,該公司提出了三個圖表,這些圖表是根據模型故障的統計數據編制的,這些模型的副本在公司中總共執行了100萬天或更長時間。第一張圖表顯示了平均年齡為 60 個月或更短的 14 個模型的 AFR 分數,第二個圖表顯示了平均年齡超過 60 個月的模型的 AFR 分數。之所以選擇這種分離,是因為 60 個月是企業級硬碟機的典型保修期。

第一張圖中第一象限的磁盤的特點是效能良好,AFR 小於 1.5%;在第二象限 – AFR 高於 1.5% 的情況下,工作可接受;第四象限的模型相對較新,其失效特征才剛剛開始形成。第三象限中沒有儲存裝置。在第二個圖中,與以前一樣,第一個象限表示定性模型;象限II和III是 「我們應該擔心的光碟」 ;在第四象限中,只有一個模型,這不會引起關註。

為了顯示故障的動態,我們編制了第三個圖表。它顯示了 9 種超過 60 個月的型號的終生故障率——為清楚起見,它是從 24 個月開始計算的。分布主要分布在I和II象限,截至2024年第二季度,9個型號中有5個位於第一象限。線條幾乎垂直(紅色、棕色和紫色)的模型顯示出隨著時間的推移而穩定的故障率。藍線和灰線型號的故障率會隨著年齡的增長而增加,尤其是藍線(希捷ST800DM002)在正常範圍內,因為其 AFR 在前 60 個月約為 1%。已達到第三象限的三個模型具有相似的輪廓 - 隨著故障率的增加,它們的曲線越來越向右彎曲。最後,黑線是希捷4TB硬碟,它 正在「積極遷移」 並被其他硬碟取代。