2007年9月アーカイブ

log4j.xml

|

misima SOAP Server をインストールして,リモートクライアントから実行すると,変換はうまくゆくのに,Tomcat のログに "log4j:ERROR Could not open [log4j.xml]." なるエラーが出る。misima SOAP の実行ログも出力されていない。log4j.xml は標準的な場所 webapps/axis/WEB-INF/classes に格納しているのに。

なんのことはない。Tomcat の起動スクリプトに log4j.xml へのクラスパスが通っていなかったためのようである。FreeBSD ports でインストールされた起動シェルに log4j.xml, Axis 関連 jar への CLASSPATH を設定して再起動すれば解消した。

今日,和歌山在住の英文学研究者である友人から,彼女の論文を収録した論集が二冊届いた。『ロマンティシズム---英米文学の視点から』(文学と評論社編,英潮社,2007年)と,"WOMEN'S STUDIES, Volume 36, Number 4 June 2007" (Routledge, Taylor & Francis Group) である。後者は英文。

友人の日本語論文だけを読了した。Letitia Landon レティシア・ランドン (1802-38) のロマンス論である。14 頁の短い論ではあるが,ロマンスの物語性を「交換」という概念でとらえた好篇であった。専門家でなくても,詩人ランドンの「詩とその代償としての死のイメージ」が興味深かった。作品「金いろの菫」の危険な二義性(詩人の最大の酬い---読者の真の感動---としての「純粋な贈与」と,商業的成功としての「金銭的消費」)をランドンの現代性(商用ジャーナリズムの帯びる二面性という意味において)に結び付けている点も面白かった。

文体も学術論文らしく丹念で丁寧であって,抑制が効いているがゆえに香気を感じさせるもので,感銘を受けた。気取りが微塵もない。事実を事実として,意見を意見として,見たものを見たものとして書く態度こそが文体というものを構成するのだ(ところで「文は人なり」というのは私の大嫌いな言葉である。分ったようなことを言うでない。芥川も「『人は文なり』ということか」と皮肉混じりにどこかで書いていた)。

すぐ感想をメールで書き送った。英文の論文は,気合いが高まるのを少し待って読もう。

最近,私はプログラムを書いてばかりいて,文学から遠のいてしまっている。

Microsoft Word マクロ

|

振り替え休日の今日一日,misima を Microsoft Word から操作するための方式について考えていた。Word で選択した文字列をマクロによって旧仮名・旧字に変換し,置き換える工夫である。

オライリー・ジャパンから発行されている Andrew Savikas 著『WORD HACKS』(2005年7月刊) ですでにヒントを得ていた方法を試してみた。Word マクロから Perl スクリプトを起動し,クリップボード経由で取得した文字列を変換して,再びクリップボードに書いて,Word 原稿の選択文字列を置換する技が掲載されている。これを応用して Perl スクリプトから misima SOAP サーバに処理要求を発行して,戻りテキストを貼付ければよいわけである。

久しぶりに X40 の Windows XP を起動して,Word 2003 のマクロをコーディングする。全く VBA の文法に疎いのだけれども,『WORD HACKS』の例をよく読めば理解できる範囲でマクロができた。一方,Perl プログラムは Win32::Clipboard を取込んで,クリップボードテキストを操作するテストコードを書いた。

試験してみると,Word に貼付けたプログラム出力が文字化けしてしまう。いろいろ調べた結果,Win32::Clipboard で取得したテキストは Unicode でなく SJIS のようである。なにかエンコーディングを指定する手だてがないか探したが見あたらない。

Java AWT パッケージの datatransfer API という手段を考えるか。VBA, InfoPath XML ベースの正攻法でいくか。もうしばらく思案が必要である。

Word Hacks―プロが教える文書活用テクニック
アンドリュー サビカス Andrew Savikas, 日向 あおい[訳]
オライリージャパン (2005/07)

(11.2 付記:misima Word 2003 クライアントは結局 Microsoft Office XP Web Services Toolkit 2.0 を使ってしごく簡易にできた。10.8 記事「misima Microsoft Word クライアント」を参照。)

misima-2.3f 公開

|

misima-2.3f を公開した。ここからダウンロードできる。機能的には変わらず,SOAP 関連の変更が主なものである。

SOAP クライアント misimaSoapClient.java を少し手直しした。全ての変換オプションを通すようにしたこと,接続エンドポイントが私のサイト固定であった点をパラメータ指定できるように修正したことが変更点である。

SOAP サーバのデプロイ(配備)用の設定 XML ファイルについてアンデプロイ用も添付した。またユーザで SOAP クライアントを書く際のインタフェース WSDL を添付した。

misima の機能,インストール方法,変換仕様,使い方を細大もらさずドキュメントに記述した。これまで,少しずつ書いては個別に Web ページで公開してきたテキストを整理して一本にまとめた。旧字・歴史的仮名遣いに対する私自身の考え方についても入れようかと思ったが,これはあくまでソフトウェアの解説書であるからやめにした。

misima の次の課題は VBA の WebService クライアントを提供すること。要するに Microsoft Word から misima の SOAP サーバをドライブして変換操作を行う,そのようなことのできる SOAP クライアントソフトウェアを検討中である。現在は Emacs から利用するものを公開しているが,Emacs を必要とするユーザは Linux のパワーユーザが主である。misima を活用したいと思う層は,Windows ユーザで Microsoft Office で文章を作っているひとが多数を占めるのではと考えているからである。

変体仮名,misima 開発近況

|

とあるエディトリアルデザイナの方からメールをいただいた。misima で変体仮名が扱えないのかとのご質問。

扱えません,というだけなのも面白くないので,今昔文字鏡のフォントを使って,変体仮名を出力する文書を作成してみた。今昔文字鏡 LaTeX パッケージを利用した。

今昔文字鏡には変体仮名が 213 文字収録されていて,さすがである。普通の仮名文字と並べて組むと文字のバランスが極めて悪いのだが,フォントの筋が違うのだから当然といえば当然で,変体仮名だけの文字を並べて組版する限りにおいてありがたいのは言うまでもない。といっても私には変体仮名を使う局面は想像できないのではあるが。

こっそりここに PDF を置いておきます。

misima にはもともと旧字変換を今昔文字鏡番号で出力する機能が備わっている。ただし,今昔文字鏡のライセンスの関係で辞書から削除して公開しているわけである。変体仮名だって,ローカルインストールパッケージ misima-2.3e.tar.gz を組み込んで,ユーザ辞書に今昔文字鏡番号をしかるべく定義を追加すれば利用できる。

* * *

misima の総合ドキュメントを作成中である。パッケージのインストール,コマンドの使い方から,Web サイトの構築,SOAP WebService 関連など,これまでちょこまか個別に公開してきた断片を集約した解説である。

その過程で,もともと不満のあった misima SOAP クライアントとサーバの作りがやはり気になって,少しチューニングしているところでもある。SOAP クライアントのエンドポイントがハードコーディングされていたり,SOAP サーバの WSDL がきちんととれないなどの問題も抱えている。Java と SOAP / Axis 実装についていま再び勉強している。

ドキュメントと SOAP 関連の見直しが完了したら misima-2.3f として公開予定である。

今日は,昔の中国の暦で重陽節。妻が食用菊を買ってきた。日本酒に浮かべていただく。

昨夜,サッカーのオリンピック予選を観ながら,プーシキン作品電子コンコーダンス作成ソフトを手直しした。こちらにも,ユーザコーパスによるコンコーダンス・ソフトの修正を反映しただけである。CGI パラメータの扱いと入力データの入口とが違うだけで,コンコーダンスそのものを計算するロジックは全く同じなので,手間はかからなかった。

夕方,Ozon から古書が届く。В. Б. Томашевский, "Стих и Язык", Л. 1959.

碩学トマシェフスキイの著書『詩と言語』。50 年近く昔に Гослитиздат (国立文芸出版局) から出たもの。プーシキン詩のストローフィカ (詩節構造論) など名高い論文が収録されている。1959 年刊なので,あと2年もすれば輸出禁止になる古書を手にいれて。ちょっと学生時代のノスタルジアに浸っている。

stih_i_yazyk.jpg

北大の西洋史専攻の方から,コンコーダンス・ソフトについて問い合わせがあった。データがないとのエラーになるというもの。調べた結果,お使いのコーパスに長大な行があり,一行の最大サイズを超過してしまったためであった。いろいろ私自身でも試験してみた過程でバグも見つけた。

以下の改訂を行った。

  1. 行サイズの最大値その他の拡張

    コーパステキストの行サイズの最大値を 4,096 バイトから 102,400 バイトに拡張した。

  2. DOS (Windows) / Mac テキスト形式のサポート

    これまで UNIX 行末形式 (LF) のみのサポートだったが,Windows (CR/LF),Mac (CR) の改行コードテキストも取り扱い可能とした。

  3. 同一行ヒット単語の出力の改善

    コーパステキストの同一行に同一ヒット語が複数含まれる場合の出力において,ヒットした固有の位置でハイライト表示するようにした。つまらないバグも訂正した。

  4. 大文字・小文字区別オプションのサポート

    キーワードのマッチングにおいて大文字・小文字を無視する/しないを選択できるようにした。

  5. KWIC コンテキスト長指定のサポート

    KWIC 形式でコンテキストを表示する際に,キーワードの前後のテキスト長はこれまで 40 文字固定だった。これをユーザが指定できるようにした。

  6. 語の出現位置情報出力の追加

    マッチワードの出現するテキスト行数だけでなく,当該マッチワードがコーパス先頭から何語目に位置するかの情報を追加した。

  7. UTF-8 ベースへの変更

    UTF-8 または X11-Ctext によるコーパスである場合,コンコーダンス条件に多言語指定が可能になった。コーパスや条件指定にドイツ語,フランス語がロシア語と同時に含まれていても処理できる。

ロシア語電子コンコーダンス・サービス」から利用できる。またこのサービスを構築するためのプログラムを纏めたアーカイブ usconcord-1.5.tar.gz もダウンロードできる。

今後の拡張予定としては,KWIC 表を TeX のテーブル形式でダウンロードできるようにすること。ただし,今回改訂内容をプーシキン・テクスト・コンコーダンスにも反映しなければならず,そのあとということになる。

インドネシアからの手紙

|

インドネシアの Dui さんという方からメールをもらった。芭蕉について研究しているそうで,「mondai wo sodan sitai」とのこと。なんで私にお書きになったのか疑問ではある。ローマ字の日本語文に普通の日本語文と英文とを付けて返信した。

* * *

フランス映画『インド夜想曲』の DVD を観た。1989 年,アラン・コルノー監督作品。最近のフランス映画はかつてのヌーベルバーグ,フィルム・ノワールの現代性を喪失してしまい,日本映画同様「つまらない」存在になってしまったようである。だけど--もう20年近く前の作品になってしまったとはいえ--この映画は久々のヒットかと思った。(日本映画はというと,サトウトシキのピンク映画などのほうがよっぽど現代日本人の身勝手さ,将来の閉塞感を表現していると感じるのは私だけだろうか)

モーリス・ブランショの「夜熟睡しない人間は多かれ少なかれ罪を犯している。彼らは何をするのか。夜を現存させているのだ」との題銘が映画でも引かれていた。眠りこけるインドのひとびとと分身を探し求める主人公。シューベルトの緩やかな五重奏曲。

アントニオ・タブッキの原作を読んだはずなのに,なんともストーリーを覚えておらず,ただ白昼と夜の幻想的彷徨という記憶ばかりが映画を観ながら甦って来た。「夜熟睡しない人間は多かれ少なかれ罪を犯している」---眠れない夜の徒然のたわごともその罪のひとつか。

インド夜想曲
メーカーオリジナル (2003-10-31)

Moon Calendar

Profile

ISAO YASUDA。システムエンジニア。神奈川県在住。昭和 30 年代を懐かしむオヤジ。ロシアに興味があります。
[more], [About our site]

Notice

この文書はフィクションであり,実在する個人,団体等とは一切関係ありません。

R-18 指定サイトです。そのうち「18 歳以上ですか」の認証を入れる予定です。

文書の記述内容は無保証です。不適切な表現があればコメントにてご指摘ください。

コメント,トラックバックは,現在,運用を停止しています。ご意見等ありましたら isao@yasuda.homeip.net 宛電子メールにてお願いします。

Links

About this archive

Entries at 2007年9月 in chronological order.

Previous: 2007年8月

Next: 2007年10月

Recent Entries in Main Index.
All Entries in Archive Index.

February 2012

Sun Mon Tue Wed Thu Fri Sat
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      
Powered by Movable Type 4.1 blog counter