プロフィール

大山恵弘

  • Author:大山恵弘
  • 公式なサイトはこちら

最近の記事

最近のコメント

最近のトラックバック

月別アーカイブ

ブロとも申請フォーム

ブログ内検索

RSSフィード

リンク

FC2カウンター

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

【耐故障】 Probabilistic Accuracy Bounds for Fault-Tolerant Computations that Discard Tasks 【数値計算】

In ICS '06.
http://www.ics-conference.org/2006/program.html

ハイパフォーマンス計算にFailure-Oblivious Computingを適用しましたみたいな話。

対象は数値計算。
普通、プログラムにエラーやフォールトが発生したら、そのプログラムを終了させる。

提案手法では、計算をタスクブロックに分割。エラーやフォールトが発生したタスクブロックは、単純に見捨てて、残りのタスクブロックで計算を続行させる。

こんなことしたら計算結果がめちゃくちゃになりそうだが、サンプリング実行の結果をうまく組み合わせると、誤差の上限を与えられるような確率モデルが得られますって話。

Jadeっていうメタ言語を使ってプログラムをタスクブロックに分割。
まずは正しい結果が出るとわかってる入力を与えて、入力と出力を記録。

次に、タスクブロックをわざとフェイルさせてみて、それが与える誤差の度合いを見る。それにもとづいて、タスクブロックをクリティカルとフェイラブルに分類。

そして今度は、フェイラブルなタスクブロックをわざとフェイルさせてみて、それが出力に与える誤差を計測。

最後に、タスクのフェイル率を受け取り、計算結果に加わる誤差を見積もって返すような確率モデルを得る。

計算の一部が落ちたり異常動作することを仮定してシステムを作ろうって方向の研究は好きです。なんか定量的に結果が出てるあたりも、研究としてうまいなあと思います。

ひとつ疑問としては、90年代末のグローバルコンピューティングとかメタコンピューティングで、こういう研究ってなかったのかな。

Failure-Oblivious Computingという最近の駒と、元々の土俵である(と思われる)ハイパフォーマンス計算をうまくブレンドさせている点で、味わい深い。
スポンサーサイト

【耐故障】 Handling Cascading Failures: The Case for Topology-Aware Fault Tolerance 【分散システム】

In HotDep 2005.
http://www.stanford.edu/~candea/hotdep/

大規模分散アプリケーションは複数のコンポーネントが複雑に絡み合ってできている。これは、「連鎖的な障害」をもたらす。

本研究では、連鎖的な障害が広がるのを防ぐために、システムのトポロジについての情報を用いることを提案している。トポロジを意識して障害検出、リカバリを行うことを提案。

研究はまだ初期段階であり、この論文は問題提起が主という感じ。トポロジアウェアな耐故障技術を構築するには、どんなことを考えなければならないかを列挙してる。

あと、連鎖的な障害を5つのクラスに分けたり、コンポーネントの依存関係を3つに分けたりといった分析の話もあり。

この論文も、複数のコンポーネントからなるセキュリティシステムの障害検出・リカバリを扱っている。セキュリティシステムをサンドボックスの中で実行する。サンドボックスは、ユーザに与えられたセキュリティポリシーに従い、コンポーネント間の依存関係を意識して再起動や停止などのリカバリ処理を実行する。

| ホーム |


 BLOG TOP 


上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。