2009-10-22

ThudnerbirdのGlobal full-text searchの実装の補足

ThunderbirdのGlobal full-text searchの実装において、補足しておく。

U+2000以下の文字についてはそのままなので、U+0100移行の文字はスペースがワードブレーカーになっている作りになっている。だから、検索で問題となるのはタイ語のみ(CJKと同じでワードブレーカーがスペースではないはずだったような。3.1までにちょっとタイ語勉強してくる)で、それ以外は網羅できてるはずです。ただ、U+0100未満の文字については、porterによる正規化ができているので、検索精度が高くなっている作りです。ここらはテストを細かくできてないというのが実情なので、問題があれば、バグをファイルしてもらえると助かります。

で、bi-gramを使っているけど、1文字で検索しても、検索結果が引っかかるようにしています。コードを見れば分かるけど、1文字の場合はワイルドカードを使うように強制変更してます。

ちなみに、データベースのスキーマを変更したら、データベース自体のバージョンをあげるようにしているため、beta 4のユーザーがnightlyやRC1にアップグレードすれば、何も作業なしに日本語の全文検索ができるようになります(データベースの再作成が行われるため)。僕の作ったtry server buildを使っている場合はデータベースを削除してもらったほうがいいです。

Mozilla Japanへ遊びに行ったら、瀧田さんに「どうにかならないの?」とか、dynamisさんに、「やってよ!」って言われたとか、とどめに、Mozilla Fluxでいろいろ書かれたからというのが、今回の実装をやり始めた理由なので、感謝は私にいうより、煽った人たちに言ってください。

OSSの開発プロセス上、開発者が興味のあるところが開発が進むことが多いので、ユーザー側が声を大にして言ってくれたほうが、本当の問題点が見つかりやすいとは思う。だから、これからも何かやって欲しいことがあれば、いろいろ言ってください。よろしく

1 件のコメント:

Saturno さんのコメント...

こんばんわ。
年始から下記のようなコメントでお許しください。

Mozilla Thunderbirdに搭載されているRSSの方はいつになったら3.0相当になりますのでしょうか。

どうか、Glodaの技術に貢献された労力をわずかばかりでもRSSフィード関連のバグの解消に費やしていただけますようお願いします。

現状では、とても使い物になりません。
フィードの登録、変更などのユーザビリティが全く欠けていること、
フィードのURLがいつのまにか消失するあり得ないバグが放置され続けていること、
各フィード毎に購読頻度をカスタマイズできないことなどあげれば枚挙にいとまがありません。

私だけのクレームでは決してありません。
Thunderbird RSSなどでGoogle検索してみてください。全く満足しているコメントなど1つもないことに驚くでしょう。


なぜ、3.1a以降のクリティカルバグにも全く挙げられていないのか理解できません。

要するに、いまだ3.0はおろか2,0にも達していませんと考えます。
RSS機能は1.5台から使いつづけてきましたが全く進歩していないように思いませんか。
これは非常に残念なことです。
情報の一元化のためにRSSの要約機能をデフォルトにしたのに、肝心のRSSが機能不全なのですから。フィルタリングや強力な重複削除機能型からの持ち腐れ状態です。

以上から、このまま様子をうかがっていてはもう我慢できない状態なのでコメントしました。
なお、
Glodaにつきましても、現状ではデータベースのサイズがもとのメールサイズに比べて大きすぎ実用性に欠けますので使用を控えております。せっかく日本語に対応したのにその期待に対する実際のできにはがっかりさせられました。

最後に、もう一度RSSにも目を向けていただけるようお願いします。他の開発者の方々にもお伝えいただけますようお願いします。