論文投稿と misima 性能改善

|

スラヴ研究雑誌に『オネーギン』に関する論文を投稿した。締切りは来年の一月。まだ時間がある。だけど,本業が忙しくなりつつあり,十二月以降はとてもやってられないだろうと思われ,先週帰宅後に集中して仕上げた。

昨年二月に書いたオリジナルの論文は LaTeX 組版で A4 二段組み 40 頁もあった。投稿規定に従って Microsoft Word B5 20 頁以内に切詰めるために,統計解析部分をばっさり削った。統計解析部分は独立した論文として LaTeX で新たに書き直し,「『エヴゲーニイ・オネーギン』における色彩要素の分布」という表題でインターネットに公開した。実は,提出論文から統計解析だけのこの論文をリファーするというズルをした。雑誌担当の先生は関連するテーマで論文の理解が深まるようなものならとくに問題はないと言ってくれたので,堂々とやったのだけど。インターネット時代の利点か?

掲載されるかどうか疑問ではある。もう二年近くになるネタなので,寝かしておくくらいなら叩かれてお蔵にしたほうがよさそうだった。不採用でも,批評をくれるとしたら,また次の機会もあろうというもの。

* * *

misima を少し手直しした。性能を少し改善したいと思ったのである。misima は,茶筌で形態素解析するだけでなく,起動するつど専用の辞書を大量に読むので,実行パフォーマンスが酷い。いわんや大昔の Pentium-III 600MHz マシーンである。

Perl のプロファイラ Devel::SmallProf で解析してみると,辞書の入力行毎に UTF-8 デコード処理を呼び出すのに時間がかかっていることが判った。ならば,辞書を読んでテーブル構築を起動のたびに行うのはやめにして,予め DBM にテーブルを固めておくのはどうか。UTF-8 テキストによるハッシュを Berkeley DB にシリアライズする方法がなかなか分らず苦労した。DB_Filter モジュールを使ってこれは解決した。試作品を作って試したら,少量のデータであれば 2 割程度改善された。しかし DMB の検索オーバヘッドがハッシュテーブルより大なので,対象テキストが増えるとこのオーバヘッドが辞書入力の所要時間を越えてしまい,逆にパフォーマンスが悪化する。まあ misima 利用状況をみると 1, 2 行が多いので,少しでも速いこの方式を採用してリリースした。

辞書を読みハッシュテーブルを構築した状態で常駐し,ユーザ要求をその時点から捌くようなデーモン構造にするのが方式的にはよいと思う。しかし一方で運用が面倒になり,メモリも嵩張る。もう少し検討に時間がかかりそうである。

Moon Calendar

Profile

ISAO YASUDA。システムエンジニア。神奈川県在住。昭和 30 年代を懐かしむオヤジ。ロシアに興味があります。
[more], [About our site]

Notice

この文書はフィクションであり,実在する個人,団体等とは一切関係ありません。

R-18 指定サイトです。そのうち「18 歳以上ですか」の認証を入れる予定です。

文書の記述内容は無保証です。不適切な表現があればコメントにてご指摘ください。

コメント,トラックバックは,現在,運用を停止しています。ご意見等ありましたら isao@yasuda.homeip.net 宛電子メールにてお願いします。

Links

About this entry

Written by isao at 2007年11月25日 02:53.

Previous: エスピオナージュ

Next: misimaserver 2.5 試作品

Recent Entries in Main Index.
All Entries in Archive Index.

February 2012

Sun Mon Tue Wed Thu Fri Sat
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      
Powered by Movable Type 4.1 blog counter