【arrowhead】東証、システム障害の原因を特定「自動切り替えできない設定値になっていた」 [記憶たどり。★]

1 :記憶たどり。 ★:2020/10/06(火) 11:19:43.53 ID:mHWZLexh9.net

東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、
4日中に修正したと発表した。

障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。
メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。

https://image.itmedia.co.jp/news/articles/2010/06/l_yx_tos.jpg
東証のニュースリリースより

arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。
1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。

調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。
設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。

稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。

1日の障害では、東証の全取引が終日停止した。

5 :不要不急の名無しさん:2020/10/06(火) 11:21:31.97 ID:ZRiN9kgt0.net
マヌケだな
これは責任問題になるんじゃないの?

9 :不要不急の名無しさん:2020/10/06(火) 11:24:08.36 ID:Z4dz+iRs0.net
テスト仕様書作った奴の責任

61 :不要不急の名無しさん:2020/10/06(火) 11:35:01.22 ID:3mO21dmu0.net
むしろ毎週自動的に設定値が変化してプライマリが変わるぐらいの設計のほうが正しいってこと?

バックアップ機に切り替わったとしても1日の取引に耐えられるかの保証はないわけで

64 :不要不急の名無しさん:2020/10/06(火) 11:35:33.89 ID:KsbitBZU0.net
まあ製品のバグのような
自己申告で異常をHA系に通知とか
そんな構造に普通はせんわな

70 :不要不急の名無しさん:2020/10/06(火) 11:36:54.27 ID:WNi/bGfz0.net
納入時にパラメーター設定確認しなかった奴が悪いだろ

73 :不要不急の名無しさん:2020/10/06(火) 11:37:26.04 ID:vKpg23bp0.net
>>70
こういうのはメンテナンス時に設定値いじくったりする

99 :不要不急の名無しさん:2020/10/06(火) 11:42:00.63 ID:tKuTk28j0.net
設定値ヨシ!

103 :不要不急の名無しさん:2020/10/06(火) 11:42:49.30 ID:KsbitBZU0.net
完全故障は切り替わるけど
性能劣化では切り替わらんってことかw
システムの設計ミスだな

128 :不要不急の名無しさん:2020/10/06(火) 11:47:42.92 ID:wW+5CD1h0.net
あまりも仕事が暇だったので
凍傷システムサービスの社員が設定をいじったと言う事なのか

16 :不要不急の名無しさん:2020/10/06(火) 11:25:59.01 ID:9R8kjFVk0.net
BPSなら

143 :不要不急の名無しさん:2020/10/06(火) 11:48:59.75 ID:s2OK2s800.net
>>16
金じゃ動かないから、富士通では無理だったのだろう

14 :不要不急の名無しさん:2020/10/06(火) 11:25:34.11 ID:285UV9Lv0.net
富士通は、何も責任取らないの?
東証は被害者?

175 :不要不急の名無しさん:2020/10/06(火) 11:53:16.29 ID:t0e2ygsd0.net
>>14
試験は東証側がやるものだからな。富士通が代行してるだけで。

260 :不要不急の名無しさん:2020/10/06(火) 12:06:09.54 ID:VlzjlQpp0.net
システムエンジニアが恐れているやつ!!
設定一行で、数字1文字の間違いで
こんなことになっちゃう!!

244 :不要不急の名無しさん:2020/10/06(火) 12:04:04.60 ID:G75pIz4p0.net
新聞にはメモリーの故障テストはやらなかった書いてたぞ

261 :不要不急の名無しさん:2020/10/06(火) 12:06:25.27 ID:3XWgWFLZ0.net
>>244
○○テストはやらなかったのか?ってのは部下に責任擦り付けたい上司が使う常套手段だぞ。

226 :不要不急の名無しさん:2020/10/06(火) 12:00:49.98 ID:1d8SwBOe0.net
東証がわざと切り替え出来ない設定にするタイミングなんて無いでしょあんの?

240 :不要不急の名無しさん:2020/10/06(火) 12:03:29.07 ID:DNlPDHao0.net
>>226
切り替わらなかったらどうなるか(まさに今回の事例)の試験をやるには、切り替わらないという設定が必要。

259 :不要不急の名無しさん:2020/10/06(火) 12:05:44.88 ID:1d8SwBOe0.net
>>240
稼働前にテストしてるって書いてあるんだけど

279 :不要不急の名無しさん:2020/10/06(火) 12:09:06.62 ID:DNlPDHao0.net
>>259
稼働前に、「切り替えのテスト」と「切り替わらなかった時のテスト」でどちらを先にやったか次第。

後者→前者がこういう事故が少ないのは確かなのだけど、
前者はシステム構築の終盤、後者はシステム完成後の運用マニュアル作成時に行うから、
設定戻し忘れで、という事態が起こる可能性は十分ある。

280 :不要不急の名無しさん:2020/10/06(火) 12:09:07.69 ID:7pnTLdNR0.net
>>261
あぁうちの上司もそれ言った!
だから

「では皆さんのなかでそれを想定できていた
という人がいたら手を上げてください」

って言ったらみんなダンマリ

上司が自分の馬鹿を晒しただけで俺はおとがめなし

6 :不要不急の名無しさん:2020/10/06(火) 11:22:42.17 ID:1RNLgHuO0.net
これとトランプ入院が被ってたら危なかった

294 :不要不急の名無しさん:2020/10/06(火) 12:10:47.40 ID:XJBn1bZW0.net
>>6
取引止まってた日にトランプのニュース来てたら、色々な意味で大惨事になってたw

303 :不要不急の名無しさん:2020/10/06(火) 12:12:29.62 ID:Jl14I8jz0.net
ケアレスミスではなく

切り替えテストのテスト項目にそもそも入れてないと推測
テスト仕様書の作成者は今頃・・・

368 :不要不急の名無しさん:2020/10/06(火) 12:24:47.58 ID:/Mlfndn90.net
うっかりオンにするのを忘れた
うっかり「オフになってる」と伝えるのを忘れた
うっかりオフにした

どれか知らないが、うっかり物の俺としては
「まさか俺みたいなやつに重要な仕事させてたのか…?」ってのが一番疑問

412 :不要不急の名無しさん:2020/10/06(火) 12:30:15.50 ID:EkjaOMsM0.net
記事にある「稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。」をガン無視する奴等

413 :不要不急の名無しさん:2020/10/06(火) 12:30:23.60 ID:p75J6O+P0.net
これ損害賠償もんじゃね
テストやったのか

425 :不要不急の名無しさん:2020/10/06(火) 12:31:38.60 ID:2RyzBmyg0.net
なにも言うことはない

442 :不要不急の名無しさん:2020/10/06(火) 12:35:04.82 ID:1d8SwBOe0.net
つーか最初のメモリ云々の説明って何だったの?思い込み?

492 :不要不急の名無しさん:2020/10/06(火) 12:43:44.86 ID:gabYV4Yt0.net
エラー訂正できないレベルのメモリ故障って普通に致命的だと思うんだけど、多少故障しても通すぜみたいな閾値があるの?

512 :不要不急の名無しさん:2020/10/06(火) 12:47:31.13 ID:d76o08be0.net
こんなん冗長試験していなかったってことか?
普通ではあり得ないんだけど。

やってないのにやった事にしてドキュメント改竄して成果物として提出して検収されてたら酷すぎだろ、これ。
構築PMは飛ばされてるな。

受入れチェックも甘かったとして東証側の責任者も問題うりで飛ばされるな、こりゃ。

534 :不要不急の名無しさん:2020/10/06(火) 12:52:35.53 ID:PGzMT4mV0.net
取引停止の翌日普通に日経上げ始めて安心した

522 :不要不急の名無しさん:2020/10/06(火) 12:49:48.65 ID:1d8SwBOe0.net
前の配信みなおしたけど、フェールオーバーが何故出来ないかについては、さらに確認するって話になってるな
で、設定値が原因だったってことか

535 :不要不急の名無しさん:2020/10/06(火) 12:52:41.29 ID:yaLEAO4O0.net
>>522
設定から原因は推測できていたけど再現テストに手間取ったのだろうね

576 :不要不急の名無しさん:2020/10/06(火) 13:04:40.41 ID:1o64Vayi0.net
こういう2重のシステムって監視部分が故障したかどうかチェックする監視は要らんのか

502 :不要不急の名無しさん:2020/10/06(火) 12:45:41.61 ID:SBbuddOb0.net
メモリーが死ぬってあんまり聞かないから想定してなかったんだろな

581 :不要不急の名無しさん:2020/10/06(火) 13:05:36.94 ID:SLBXUTxX0.net
>>502
普通によくある話やろ

591 :不要不急の名無しさん:2020/10/06(火) 13:09:02.34 ID:WXo/MRi/0.net
富士通製のサーバーてソラリスで、ディスクの監視ソフトてVxVMかね?

609 :不要不急の名無しさん:2020/10/06(火) 13:16:02.17 ID:Nv+Wn21W0.net
問題:切り替えされなかった
→原因:切り替えされない設定になっていた

問題:問題が起きた
→原因:問題が起きる設定になっていた

小学生かよw