プロフィール

大山恵弘

  • Author:大山恵弘
  • 公式なサイトはこちら

最近の記事

最近のコメント

最近のトラックバック

月別アーカイブ

ブロとも申請フォーム

ブログ内検索

RSSフィード

リンク

FC2カウンター

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

【耐故障】 Probabilistic Accuracy Bounds for Fault-Tolerant Computations that Discard Tasks 【数値計算】

In ICS '06.
http://www.ics-conference.org/2006/program.html

ハイパフォーマンス計算にFailure-Oblivious Computingを適用しましたみたいな話。

対象は数値計算。
普通、プログラムにエラーやフォールトが発生したら、そのプログラムを終了させる。

提案手法では、計算をタスクブロックに分割。エラーやフォールトが発生したタスクブロックは、単純に見捨てて、残りのタスクブロックで計算を続行させる。

こんなことしたら計算結果がめちゃくちゃになりそうだが、サンプリング実行の結果をうまく組み合わせると、誤差の上限を与えられるような確率モデルが得られますって話。

Jadeっていうメタ言語を使ってプログラムをタスクブロックに分割。
まずは正しい結果が出るとわかってる入力を与えて、入力と出力を記録。

次に、タスクブロックをわざとフェイルさせてみて、それが与える誤差の度合いを見る。それにもとづいて、タスクブロックをクリティカルとフェイラブルに分類。

そして今度は、フェイラブルなタスクブロックをわざとフェイルさせてみて、それが出力に与える誤差を計測。

最後に、タスクのフェイル率を受け取り、計算結果に加わる誤差を見積もって返すような確率モデルを得る。

計算の一部が落ちたり異常動作することを仮定してシステムを作ろうって方向の研究は好きです。なんか定量的に結果が出てるあたりも、研究としてうまいなあと思います。

ひとつ疑問としては、90年代末のグローバルコンピューティングとかメタコンピューティングで、こういう研究ってなかったのかな。

Failure-Oblivious Computingという最近の駒と、元々の土俵である(と思われる)ハイパフォーマンス計算をうまくブレンドさせている点で、味わい深い。
スポンサーサイト

<< 【リモートデスクトップ】 Prospects For Speculative Remote Display 【投機実行】 | ホーム | 【セキュリティ】 Toward a Boot Odometer 【TPM】 >>


コメント

コメントの投稿


管理者にだけ表示を許可する

 BLOG TOP 


上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。