KDDIで7月2日に大規模な通信障害が発生しました。
復旧まで3日弱ほどかかった本事象ですが、どうしてこのようなことが起こってしまったのでしょうか?
今回はKDDIの通信障害がどうして起こったのかという点からネットワークの基礎部分について、現役エンジニアの僕がまとめて紹介していきます。
輻輳と呼ばれるネットワークで使われる言葉についても解説していきます。
では、行ってみましょう!
KDDI通信障害の原因
今回発生したKDDI通信障害は、コアネットワークのルーターを交換した際に音声通話が一部使えなくなったのが始まりで、急遽ルーターを元に戻して対処を図ったところ一気にネットワークアクセスが集中して輻輳状態が発生して大規模通信障害に至ったのです。
原因をまとめると、コアネットワークを交換に失敗したことでネットワークアクセスが一気に集中してしまったことということになります。
アクセスが一箇所に集中すると、通信が遅くなったり、処理しきれなくなりますので原因としては妥当であると思います。
KDDI通信障害を防ぐことはできたか?対策
今回のKDDI通信障害を防ぐことはできたか考えると、僕たち一般市民として何もできないと思います。
唯一できることとしては、通信をKDDI関連であるau、UQmobile、povoなど一箇所に集中するのではなく、デュアルSIMやポケットWi-Fiを使って緊急対応できるようにしておくなどの万が一に備える準備くらいです。
ですがわざわざデュアルSIMのスマホを買ったり、ポケットWi-Fiを購入するのは大変だと思いますので、ここではe-SIMという対策法について紹介します。
E-SIMは物理的なSIMカードというのは存在せず、サイトを通じて契約しそのまま通信が使えるようになる仕組みです。
これをうまく使えば、デュアルSIMに相当する機能として万が一通信できない場合にも対応できるのです。
おすすめとしては、LINEMOとpovo2.0を組み合わせるやり方ですかね。
povo2.0は今回発生したKDDIの障害時に繋がらなくなりましたが、そんな時はソフトバンク回線であるLINEMOが使え、逆にLINEMOが使えない時はpovoを使えば良いという形になります。
povoは基本料金が無料なので、かなりお得にデュアルSIMを実現できると思います。
一般市民ではなく、KDDIは今回の事象を防ぐことはできたのでしょうか?
もっとテストを行ったり、コアルーターを分散させておけば今回の通信障害は発生しなかったんじゃないかと思います。
今回の通信障害は確実にコアルーターの交換が原因で発生していて、音声通話ができなくなった理由もよくわかっていないようです。
事前に音声通話ができなく可能性も考慮して、考えておくべきだったと思います。
とはいえ、エンジニア目線としては流石に考慮しきれなかったのかなとも思います。
かなり多忙であることは予想できますし、ただのルーター交換ならそこまでの事象にはならないという気持ちがあったんだろうと思うのです。
ですが、KDDIは日本全国市民だけでなく会社でも使われるシステムに組み込まれていることを考えると、もっと厳重な管理体制やテスト体制で今後は実施してもらいたい限りです。
輻輳(ふくそう)とは
通信障害の原因で出てきた服装について説明していきます。
輻輳とは、さまざまなものが1箇所に集まってくることを示す言葉です。
通信業界では、音声通話やデータ通信のトラフィックが特定の箇所に集中することを表しています。
通信が1箇所に集中すると、処理しきれなかったり1箇所の処理をするがために他の部分が全く処理できないということが発生するのです。
道路で例えるなら、まさに渋滞がとんでもない距離続いているイメージになります。
もう少し詳しい話をするためにも、ネットワークのイメージが道路に限りなく近いという話とネットワークの基本構造について説明していきます。
ネットワークの基本は道路のイメージ
ネットワークは道路でよく例えられますが、まさに道路です。
車がトラフィックと呼ばれるデータで、道路が通信回線という感じでしょう。
回線が複数あるのは、目的地に行くまでに複数の高速道路などがあるイメージです。
車が目的地について戻ってくることで、僕たちはデータのやり取りやWebサイトを閲覧することができます。
車がデータを運んでくる感じです。
通信障害が発生する場合や1箇所に集中するという場合は、目的地までの道が一本しかなく大渋滞が発生していることを表しています。
サーバーがダウンしたという話を聞いたことがあるかと思いますが、そういう場合に発生しているのは、目的地までの道が混みすぎていて目的地自体が車で溢れかえってしまった状態をイメージしていただければと思います。
通信が遅いという場合は、車が混んでいる場合がイメージできるかと思います。
このように通信はまさに道路や交通に似た考え方をすると、非常にイメージしやすく理解しやすいです。
今回のKDDIの通信障害もこれまで道路が複数に分かれていた部分が、ルーターを交換したことで1箇所に道路工事が行われ、最終的に大渋滞を生んでしまったという感じです。
渋滞になってしまったら車としては、前にも後ろにも進めなくなってしまうのは当たり前ですよね。
車の行き来ができないとデータを運ぶことができないので、通信ができないというわけです。
ちなみに、スマホの通信プランでよくあるデータ通信量というのは、車がトータルどのくらいの量を運ぶことができるのかというイメージに近いです。
車の乗り手が月にどれだけデータを運べるかという労働で考えるとさらにわかりやすいと思います。
車が月100時間働くという契約なら、車一回あたり1時間としたら100回運んだら車の限界に達する感じです。
車の限界に達したらスピードがおちるのは車が疲れているからとイメージすれば、データ制限がかかるという意味がわかるかと思います。
このように、通信やネットワークで発生することは交通という考えに当てはめるとイメージがしやすくなります。
もしもわからない通信用語や理解できないネットワークの話になったら、交通をイメージしてもらえると理解できやすくなると思います。
まとめ
今回はKDDIの通信障害について紹介しつつ、原因、対策について書いてきました。
僕たちができることとしては、e-SIMなどを使ってデュアルSIMのスマホで一つの回線がダメになってももう一つの通信が維持されている状態を作るくらいです。
今回が災害時じゃなくて本当に良かったと思います。
災害時は普通でも通信が遅くなったり混み合ったりしますので、今回の教訓を活かして複数の通信を準備していくことは大事でしょう。
また、通信やネットワークは道路や交通に例えると理解しやすいです。
ネットワークがどうして遅いのか、アクセスが集中するとどうしてネットが繋がらなくなるのかもイメージしやすくなります。
皆さんの情報リテラシーが上がっていれば嬉しいです。
では、今後はこんな通信障害が発生しないことを祈って。
コメント