«前の日記(2007年06月29日) 最新次の日記(2007年07月01日)» 編集

Matzにっき

2007年06月30日 [長年日記]

_ [Ruby] 情報処理学会論文誌プログラミング No. SIG.10(PRO 33)

出張やらなにやらどたばたしている間に届いていた論文誌を読む。

ささだくんの論文「Ruby用仮想マシンYARVにおける並列実行スレッドの実装」が掲載されている。私と前田敦司先生、並木先生も共著者に名前が載っている。

で、前から読んでいたこの論文はおいといて、発表概要だけで論文掲載にいたらなかった「世代管理を保守的に行う世代別GCアルゴリズムの提案およびRubyへの実装と評価」というのが非常に気になる。

アブストラクトによれば、

本発表のアルゴリズムの特徴として、ライトバリアが必要ない、メジャーコレクションとマイナーコレクションが一体化している、および生きているオブジェクトの移動を必要としないことなどがあげられる。

のだそうだ。うーむ、どうやって実現しているのだろう。アブストラクト中でのヒントはこれだけ。

先頭側の領域をold領域、末尾側の領域をnew領域に分断し、 old領域に属しているオブジェクトはすべて古いオブジェクトと見なす新しい世代別GCアルゴリズムを提案する。本発表のアルゴリズムでは、old領域ではnew領域へのポインタが存在するかを検査し、 new領域ではGCを行う

のだそうだ。うーん、オブジェクトの移動を伴わないのにどうやってnew領域とold領域を分断するのかな。

そうか、アレか。木山版みたいにリンクリストで世代を管理してるのかな。で、old領域のオブジェクトにはマークビットを立てたままにしておけば、 old領域のそれぞれのオブジェクトから再帰マークするだけでold領域からnew領域のリファレンスを検出できるよな。後は普通にルートから再帰マークを行い、 new領域に属するオブジェクトだけをスイープすればよい。

メジャーコレクションしたい場合には事前にold領域のマークビットをクリアしてから GCすればよいことになる。もちろん、メジャーとマイナーの切り替え戦略とか、検討すべき点はいくつかあるだろうけど、そんなに悪くないアイディアのように思える。意味があるかどうかわからないけど、複数世代への拡張も可能だし。

では、このアイディアが論文掲載に至らなかった理由はなんだろうか。

性能改善が「全体の実行時間が最高90.8%、1回のGC時間が最高70.8%に短縮」とあるが、全体で9.2%、GC時間で29.2%の短縮ではさほど効果がないと思われた(ちょっと考えにくい)
アブストラクトでは示されていない測定したベンチマークが不自然なものだった
最高の改善はレアケースで、通常のケースでは変化なかった(あるいは悪化した)
アブストラクトには書いてない欠点があった(メモリ効率が極端に悪化したとか)
その他

まあ、GC時間が30%近く改善されたらすごいと思うけどな。もっとも、ここで示した方法では「メジャーコレクションとマイナーコレクションが一体化」は達成できていないような気がするので、また違うアルゴリズムなのかもしれない。

とか書いてると、作者からコンタクトがあるかも。神奈川工科大の五百蔵(いおろい)さ〜ん、見てますかぁ？

追記

さらに考えてみた。

あるGC時点で存在するすべてのオブジェクトの総数をm、 old領域に所属するオブジェクト数をo、 new領域に所属するオブジェクト数をnとした時、

m = o + n

であるが、ここで、old領域で「生きている」オブジェクト数をoL 「ゴミになった」オブジェクト数をoGとする。 new領域でも同様にnL、nGがある。

o = oL + oG
n = nL + nG
m = (oL + oG) + (nL + nG)

さて、ここでマークフェーズとスイープフェーズのコストを考える。従来のGC方式ではマークのコストは、生きているオブジェクト数に依存するので

oL + nL

になる。また、スイープは全部のオブジェクトをスキャンするのでコストは

m (= o + n)

である。

この「世代別」方式でのマークのコストは、 (old→new参照を検出するため)旧世代オブジェクトから全部マークした上、主にnew領域を対象に通常のマークを行うので、

o + nL

となる。スイープのコストはnew領域のオブジェクトのみになるので

n (= nL + nG)

である。

さて、これを元に旧方式と新方式のコストを比較すると、マーク時のコストは

旧方式: oL + nL
新方式: oL + oG + nL

で、oGぶんだけ新方式の方が増加している。経験則からoGは小さいことが期待されるとは言え、マークコストの増加は痛い。

一方、スイープ時のコストは

旧方式: o + n
新方式: n

で、old領域をスキャンしなくてもよい新方式の方が優れている。

スイープはnew領域だけスキャンすればよいという点で、有利だが、実はスイープは一気にやらず遅延するテクニックがあるので、それを使えば差はほとんどなくなるかもしれない。

正確に結果を知るためには、実装して測定してみるのが一番だけど、こうやって机上で考える範囲内では期待するほど有効じゃないかもな。

世の中甘くない。

_ [言語] picol, a Tcl interpreter in 550 lines of C code - antirez weblog

550行のCで実装されたTclサブセット。

Tclってのは小さな言語だが、550行ってのはすごい。先日の(圧縮された)lisp500とちがってまともなコードで550行ということである。

勉強になる、かも。Tclが変な言語であることは置いておくとして。

picolのページには「Rubyなどで書いたら200行以下で実装できるだろう」とあるが、 Haskellで書いたTclサブセット(hiccup)は 250行だそうだ。

_ [OSS] Welcome to GPLv3 − GPLv3

とうとう出た。

自分で最終的な判断をするのは、これからGPLv3がどういう意味と影響を持つのか見極めてから。それまでは、引き続きRubyのライセンスは独自とGPLv2のデュアル。

今の計画では、

独自とGPLv2のデュアル
独自とGPLv3のデュアル
独自とGPLv2とGPLv3のトリプル

のいずれかを考えている。最後のものは最終手段として、できれば避けたいものだ。

_ [言語] 新言語 Xtalを作る日記- インスタンス変数

Xtalではインスタンス変数は配列として持ち、オフセットで管理される。一方、RubyやPythonではハッシュテーブルとして持ち、名前で管理される。

これは純粋にトレードオフで、配列の方がアクセスは高速だし、インスタンス変数のタイプミスがコンパイル時にわかるというメリットもある。しかし、名前によるアクセスも動的にインスタンス変数が追加できるので、オープンクラスや特異メソッドに対応しやすいという利点がある。

で、リンク先のエントリでは、XtalとRubyとPythonでベンチマークを取っている。インスタンス変数に対して加算するという単純なものだが、結果は

Xtal : 6.805秒
Python (Python 2.5) : 8.457秒
Ruby (ruby 1.8.6 (2007-06-07 patchlevel 36) [i386-mswin32]): 16.751秒

で、配列方式を取るXtalが一番高速であることがわかる。っていうか、Ruby 1.8遅いな。

ま、配列アクセスの方がずっと高速だからね。

...と、言いたいが話には続きがある。実はこの同じベンチマークをYARV(1.9)で実行したら、

Ruby (ruby 1.9.0 (2007-06-30 patchlevel 0) [i386-cygwin]): 4.391秒

となった。つまり、どういうことかというと、 (少なくともこのベンチマークでは)インスタンス変数のアクセスコストは支配的な要因ではない、ということだ。

パフォーマンスに必要以上に注目してしまうことも、適切でないベンチマークを選んでしまうことも、私も含めて多くの技術者が陥りやすい罠だ。

ベンチマークは奥が深い。

[ツッコミを入れる]

«前の日記(2007年06月29日) 最新次の日記(2007年07月01日)» 編集