国立国語研究所の構築した日本語話し言葉コーパス(CSJ)のXMLファイルと、 それを読み込んだTamino XMLデータベースサーバを検索するためのツールです。検索言語にはXQueryを使用しました。XMLファイルの検索ライブラリにはQizx/openを使用しました。 原始的ですが、GUIを使用してXQueryを作成することができます。配布DVDには入らないことになったので非公式ツールですが、一応、CSJプロジェクトの成果物の一つです。
作成した条件のXML形式での保存/読込ができるようになりました。
XMLの深さに応じて動的にQueryを生成するようにしたので、生成文の解析が速くなりました。
小さな検索の場合、-Xmx -Xmsを使わなくてもよくなりました。
IPUがルートのDatabaseをサポートしました。
指定したIPUを物干しで開けるようになりました。
始めのn件や、n件目からn件分というように検索を小分けして指定できるようにする。(結果の数が不明なので、ある程度の制限あり)
TaminoとFileとで検索式が異なるので、指定を変更する。
SF.JPプロジェクトに登録しました
ソース(Ankou-latest.tgz)とmanual(Ankou.pdf)と最新のjar(Ankou.jar)があります。Javaが動く環境なら動くはずです。
音声の再生に関して、IBM JREやblackdown JREなど、純正のSun JRE以外で実行した場合、音声ファイルのSearchがうまくいかない事があるようです。 その場合は、Sun JREを使用して下さい。
Q: What is purple and concord the world? A: Alexander the Grape. <rindolf> Hi all <rindolf> sussman: here? <rindolf> kfogel: here? <rindolf> fitz: here? <rindolf> Am I alone in the world? <rindolf> Have everyone abandoned me? <rindolf> Why doesn't anybody answer? * rindolf starts to cry <sussman> here * rindolf stops crying * rindolf hugs sussman * rindolf whispers to him "I'm so glad you're back" -- #svn, Freenode