«前の日記(2004年05月17日) 最新 次の日記(2004年05月19日)» 編集

Matzにっき


2004年05月18日 [長年日記]

_ [OSS]メールオーガナイザー

〆切が終わったので、なにかまとまったことをはじめようと決心する。 ここ10年、Rubyの世話ばかりしていたので、 「なにか新しいことをはじめる力」は確実に鈍ったような気がする。 1日程度で片づく仕事に関する能力は向上しているように思うんだけどな。

新しいことをはじめるためには、何日も集中を続ける必要があるんだけど、 それだけの集中力を維持できない。歳とったかな。

で、まずはメールオーガナイザーのために下調べ。 先日来、ごみ以外のメールを削除していないので、だんだん今までのソフトウェアでは切迫してきたのだ。

いろいろ調査を行うが、自分が物を知らないのにあきれる。 そうか、検索というのはこうやって行うのか。とか、特徴的単語の抽出方法とか。

できれば車輪の再発明は避けたいので、 既存のものも調べる。

基本的には、以下のような条件を満たす全文検索エンジンがあれば良い。

  1. インクリメンタルにインデックスを追加できる。
  2. メールの削除に対応できる(できれば)
  3. TF・IDF法などで特徴的単語が抽出できる(類似メール検索のため)
  4. 日本語に対応している

候補に挙がったのはGETANamazuMairixなどだ。

機能が一番そろっているのはGETAだ。 インデックスさえ用意できれば、ほしい機能は全てある。 ただ、これはインクリメンタルなインデックス操作はできないらしい。 毎回巨大なfreqファイルを作るのは避けたいなあ。

些細だが、OSD準拠でないライセンスもできればなんとかしてほしい(単なる要望)。

4. あなたは、本ソフトウェアを原子力関連、航空管制その他の交通関連、医療、救急関連、警備関連その他人の生命、身体、財産等に重大な損害が発生する危険を有するシステムに使用してはいけません。

付則1. 本ソフトウェアを利用して、インターネット上での交換検索サービス等を実施する場合には、その入り口となるようなページなど、通常利用者の目に触れると考えられる位置に下のロゴマークを掲示し、「IPAが開発した本ソフトウェアを利用している」旨を明記しなければなりません。

類似のライセンスだったGalatea Projectも ライセンス変更したことだし。

Mairixも面白そうだが、日本語には対応していないし、 対応させるのも簡単ではなさそうだ。

となると、Namazuベースか。特徴的単語の抽出とかできたかな。 ファイル削除に対応していないのは暇な時にインデックスを作り直すことで対応できるか。

できれば自前で作るというのは(楽しそうではあるけど)やめたほうがよさそうだ。


«前の日記(2004年05月17日) 最新 次の日記(2004年05月19日)» 編集