最近の（でもないけれど）出来事／落書帳／仲間内のネタ／覚え書き／whatsnew

基本的に落書き帳／メモ帳／備忘録なので、わりと間違っていたり、数分後とか後日とかに見たら、いきなり消えていたり書き換わっていたりとかあります。

「dumplist to binaly converter "dmp2bin"」の「http://homepage3.nifty.com/mzakd/ AKD氏 - AKD's site - MZ-700WIN活用研究 - OCRソフトでダンプリストを取り込んでみる」に関して。
今更、追記がある事に気付きましたが。
< 試してみた限りですが、縦サム活用時、横サムのチェックサムミスマッチの検出がされないことがありました。縦サムへの対応は、まだ完全では無い様です。
うーん。手元で作ったサンプルで試した限りでは正常に処理できていましたので、駄目になる場合のサンプルが無いと、手が出ません。駄目になる場合のサンプルを送って頂ければ、あるいは修正できるかもしれません。

Tue,06 Apr,2010に続く。

最近の一体型？パソコン。
カタログスペックを何とはなしに眺めた結果。
価格も性能もバランス良さそうなのが下記。
HP 4515s/CT が４万数千円で Sempron（Caspain 2009年9月モデル？）2.0GHzクラス、 eMachine eMD525-CN11 が５万円弱＋量販店ポイント1％で Celeron 900 2.2GHz SingleCore クラス、 Gateway EC3800-31K が５万円丁度で Core2Solo 1.4GHz、 ASUS EeePC1201T-W7 が５万数千円＋量販店ポイント10％で AthlonNeo MV-40 1.6GHzクラス、 HP dv6a が５万数千円で Sempron 2.1GHzクラス、 eMachine eME525-11 が６万円弱＋量販店ポイント10％で Celeron T3100 1.9GHz DualCore クラス、 Acer Aspire AS5542-M23 が６万円弱＋量販店ポイント21％で Athlon II M300 2.0GHz DualCore クラス。総合的なスペックで微妙な見劣り感があるけれども、パソコンに５万円以上を拠出するのは不釣り合いだと思うので、そうなると価格面からの制約でこれ以上のスペックは望めないから。これよりも安いクラスとなるとネットブックになってしまって、値段の割に性能が悪いと言う大幅な見劣り感が有るし。ただ、どれも 2.5kg級なので「ノートパソコン」と言うよりは「移動可能な一体型パソコン」と言った方が良い感じ。「ノートパソコン」じゃない点が残念な感じ。
どれも AMD なのは、私が Intelなマシンを使おうとするとトラブルに遭遇するジンクス？があるから。シングルコアなのは、個人ユースでデュアルコアの性能を発揮できる様な使い方など、無いと思うから。有ったとしてもせいぜい動画のエンコードぐらいで、私の場合はそういう使い方はしないし……。

Tue,06 Apr,2010

自転車。
後輪のタイヤが、いいかげん、溝も浅くなって、一部、ワイヤーが見えてしまっている状態になっているので、交換した。
安売りしていた「Deming LongLife」とか言う奴。チューブとセットで￥1,580- だった。

uim-xim-anthy の「かおりんLinux 氏 - たわごと - 2009年10月 4日 (日) - uimで英語交じりの文章を入力するために。」の、バグらしきものに遭遇。

uim-xim 1.5.6 :
「ty-」とタイプすると、

Error: in string-append: string required but got: (#1="t" #1# #1#)
libuim: [fatal] an unhandled error raised from Scheme interpreter
libuim: All functionality has been disabled to save user application data.
libuim: [fatal] an unhandled error raised from Scheme interpreter
libuim: [fatal] All functionality has been disabled to save user application data.

と出て、uim-xim が無反応になる。

Sat,01 May,2010 追記：
いかん、再確認しようと思ったまま忘れてた。

「dumplist to binaly converter "dmp2bin"」の「http://homepage3.nifty.com/mzakd/ AKD氏 - AKD's site - MZ-700WIN活用研究 - OCRソフトでダンプリストを取り込んでみる」に関して。 Sun,04 Apr,2010の続き。
< 最後の行ではLine is too long が出る事が多い様です。
すみません、これはバグ（行末に改行コードが無い場合を想定していなかった）でした。なお、これによる実害は有りません。修正しておきました。
< 試してみた限りですが、縦サム活用時、横サムのチェックサムミスマッチの検出がされないことがありました。縦サムへの対応は、まだ完全では無い様です。
これは、DOS窓のクセか何かで、バックログが消えてしまうせいの模様。 dmp2bin の出力をファイルにリダイレクトして、そのファイルを閲覧すれば、チェックサムミスマッチの一覧を漏れなく閲覧できる模様。

Fri,09 Apr,2010

Anthy 拙作パッチ。
「かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ」

ブランチ派生から６ヶ月、最終更新から２週間、バグも出尽くした様なので、 anthy-9100h.patch13Bptn23.iconv を「安定版」から「旧安定版」へ、 anthy-9100h.patch13B-23-iconv-ucdict を「実験版」から「安定版」へ、それぞれ遷移。
特に要望が無ければ、 anthy-9100h.patch13Bptn23.iconv 系列の積極的な開発作業は終了します、と言うよりも anthy-9100h.patch13B-23-iconv-ucdict に分派した時点で終了していました。

あと個人的な感想としては、辞書は標準添付の辞書よりも alt-depgraph & alt-cannadic の方が変換結果が適切になると思うので、辞書を alt-depgraph & alt-cannadic に差し替えた方の版をオススメします。安定志向の面々にとっても、初出から１年３ヶ月の間ずっと試用されていますので、もう大丈夫でしょう。多分。
まぁ、OpenBSD クラスの安定志向だと、そもそも anthy 自体が（OpenBSD の基準で見ると）セキュアではないので駄目ですけれど。
ちなみに、内海氏の Modified Anthy は、私の個人的な好みに合いませんでした……、学習よりも辞書での指定が強く効く設定になっている辺りと、 webベースで順位が決まっている辺りが、クセが強いと感じてしまって……。あくまで私個人の好みですので、人によっては UT Modified Anthy の方が好みに合うかもしれませんので、その辺は各自で考えて下さい。

また、今まで Anthy 拙作パッチの開発に使用していた、サーバ用計算機やクライアント計算機の、アカウント存続期限切れ及びリース期限切れが迫っている（公式には 2010年３月末日で切れていて、ロスタイムがどれくらい取れるだろうか、最長でもロスタイム11ヶ月、と言う状態）為、今後のメンテナンスに支障を来す可能性が有る事を予めご承知願います。

↑ と言いつつも、自分でも拙作パッチを常用しているので、バグは見つかり次第治さないと使っていられないので、やっぱり、嫌でもメンテナンスは、する事になるわけですが。

↑*2 どこかに良さそうな移転先がありませんかね？最悪、ここ www.fenix.ne.jp に移転する手が有るには有るのですが。 fenix.ne.jp には、あまり負荷をかけたくないので……。

Butterfly、木村カエラ、2009.6.1。
夢を信じて、徳永英明、1990.1.16。

今日も珍しく文化放送。相変わらず、文化放送は混信とフェージングが酷い。混信とフェージングがあまりにも酷いから聞かなくなったのだけれども。 CM で「ズバーム」とか言うのは、土曜日夜～日曜日未明の文化放送だったと思うから、以前は聞いていたのだよなぁ。それとも金曜日夜～土曜日未明か土曜日夜～日曜日未明の TBS だっけ？新鬼武者プロジェクトプレゼンツ赤鬼のパンツ!青鬼のパンツ! が TBS 土曜深夜だったので、ズバームも TBS かも。あれ、これ、2005年４月２日～2006年４月１日？ 2001年だったと思っていた。混乱している。

Mon,19 Apr,2010

久しぶりにギザ10円玉と遭遇。 10年ぶりだろうか、20年ぶりだろうか。

Fri,23 Apr,2010

「vagus氏 - 丘の道を登り - 2010年04月19日 - scim(-anthy) の謎 - 文節区切り表示」
　当てずっぽうで言ってみると。
　フォントサイズの違いで、
文字間に 1pixel 以上の隙間ができた場合は文節区切りが見えて、
文字間が密着した場合は文節区切りが見えない。
とか言ってみる。
　「_」や「＿」や「￣」などを複数続けて書いた場合
「___」「＿＿＿」「￣￣￣」に、
隙間ができたりできなかったり謎だったのですが、
結論はフォントサイズの違いで
文字間に隙間が入ったり入らなかったりが原因でした。
もしかしたら、それと同じ原因かも……。

Thu,29 Apr,2010 追記：
違うらしい。
Firefox も Thunderbird も、同じ GTK+/Pango なのに、謎ですね。
ちなみに、
<A HREF="">あ</A><A HREF="">い</A>
とか試してみたところ、リンクの下線間に隙間は無く密着しました。

Fri,30 Apr,2010

Anthy の話、いろいろ。

＃「う゛」は、 JIS X 0213 で１文字で記述する文字コードも有ったりします。頭痛いですね。

9100a～9100h の、どこか途中から、変換時に「ヴ」を「う゛」に変換してから辞書検索する様に変更になったので、読み仮名「ヴ」の辞書登録は不要の模様です。
→ src-worddic/word_dic.c : anthy_get_seq_ent_from_xstr()

辞書のエントリを全部、いわゆる全角、かつ「う゛」、かつ平仮名、に固定して、重複削除してみましたが。
451776エントリ → 451301エントリで、0.1％しか減りませんでした。
リソースの無駄とか処理速度とか、気にする程には影響は無さそうです。
＃エントリを減らしてかな漢字変換時に毎回全角平仮名に変換するのと、現状のままと、どちらが処理速度が速いかまでは調べていません。

> 「直後に数字がきたら」
「とーすたー３だい」が、ともすれば「|トースタ|－３台|」になってしまう問題が……。
私自身は、 ${HOME}/.uim の ja-rk-rule にて、「-」とタイプすると「ー」（長音）、「@-」とタイプすると「－」（マイナス）、と、区別してタイプする設定にしておき、明示的に区別してタイプしているので、下手に気をつかって変わったり「しない」方が好みだったりします。英数記号も同様。
＃下手に気をつかって間違えられるよりは、キータイプが１回多い方がマシ。

原作版 Anthy。

「－」（マイナス）JIS で 215D（01区61点）が U+FF0D (Fullwidth Hyphen-Minus)、になっている問題を発見。 JIS 定義通りなら U+2212 (Minus Sign) になるべき。
＃じゃぁ「＋」215C（01区60点）が U+FF0B (Fullwidth Plus Sign) になっているのと対称がとれないと言われても、 Plus Sign 文字が無いのでどうしようもない。
＃＃それに原作版 Anthy でも「”」2149 が U+201D、「’」2147 が U+2019、になっている。

Sat,01 May,2010

GUNDAM Ending Selection :			定価￥2,200-
*	1. Human Touch				機動新世紀ガンダムX
	2. WINNERS FOREVER-勝利者よ-		機動戦士Vガンダム
*	3. 銀色Horizon				機動新世紀ガンダムX
	4. It’s Just Love!			新機動戦記ガンダムW
*	5. ヒューマンタッチ			機動新世紀ガンダムX
	6. 君の中の永遠				機動武闘伝Gガンダム
	7. 海よりも深く				機動武闘伝Gガンダム
**	8. Human Touch				機動新世紀ガンダムX/インスト

GUNDAM エンディングテーマ コレクション :	定価￥1,553？
	1. ウィナーズ・フォーエヴァー~勝利者よ	機動戦士Vガンダム
*	2. もう一度テンダネス			機動戦士Vガンダム
	3. 海よりも深く				機動武闘伝Gガンダム
	4. 君の中の永遠				機動武闘伝Gガンダム
	5. イッツ・ジャスト・ラヴ!		新機動戦記ガンダムW

「*」付きが相違。
Human Touch インスト版は GUNDAM X のサントラ未収録。

Anthy は「UTF-8化しないと、丸数字やハートマーク等の文字が使えない」と言う解説記事をあちこちで見かけますが、これは誤りです。
EUC-JP のままでも JIS X 0213化すれば、それら文字も使う事ができます。
但し、一部（と言うかたぶん大部分）のソフトで EUC-JISX0213 に非対応だったり、環境設定を変えないと EUC-JISX0213 に対応しなかったり、する場合があります。

と言うわけで、 archlinux - Input Japanese using UIM - Anthy - Extra dictionary の説明は上げ足取りな部分で間違っております。
読み仮名に t が付いている件の説明も怪しい……。

DVD-RAM。
DVD-RAM 書き込み可能、USB 外付け、だと￥5,980- らしい。 BD 書き込み可能だと１万円とか２万円とからしい。

Tue,04 May,2010

要望が有ったので、WEB I/F の掲示板を立ててみました。
WEB I/F 掲示板ユーザ名は「BBS」、パスワードは「BBS」、です。
WEB I/F 掲示板の RSS
telnet I/F の BBS や１行伝言板は、既にあるのですけれどね。「telnet fenix.ne.jp」にて接続して、CUI で操作します。
Sat,08 May,2010 追記：
所用により、RSS の URL が変更になりました。

pax -rwvYZ -pe from_dir to_dir。
更新があった分だけ、ディレクトリ構造丸ごとコピー。

Wed,05 May,2010

HP 858？￥49,800-
ネットブック、中古でも￥25,000- は、するらしい。
中堅ノートＰＣでも中古￥30,000～35,000- は、ほとんど出ないかすぐに売れる？らしい。

∀ サントラ。
OP と ED である CENTURY COLOR と AURA（ノーマル）が入っていない……。劇中歌の月下美人も無いらしい。

最終回の ED でかかっていた曲は MOON で、これは英語版？とインスト版？がサントラ１に入っていた。
Yasuaki氏 - ∀ガンダム　ＭＯＯＮの各バージョンについて
サントラ３の「月の繭」が、最終回 ED版らしい。

∀ のサントラ１が￥875- だったので買ってきた。
聞いたら、最盛期の古き良き日々を思い出して陰鬱な気分になった。泣けてくる。
で。サントラ２が売っていなかったので続きが気になる。

Firefox 3.6.x。
Thu,24 Dec,2009、 Mon,08 Feb,2010、の続き。
AthlonXP 1.2GHz でビルドしたら、２時間半経過した所で ld が死亡。
WITH_DEBUG=true, WITH_LOGGING=true していたので、何かがあふれたらしい。ディスクも 2.5GB くらい消費していた。
……、
WITHOUT_DEBUG=true, WITHOUT_LOGGING=true でやりなおしてもこけた……。

Fri,02 Jul,2010に続く。

Fri,07 May,2010

Anthy 拙作パッチ。
「かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ」

2010507版にて zipdic-201004 に対応。
今までの原作版 Anthy（これまでの拙作パッチ含む）では、郵便番号辞書の１行の長さが最長1000文字決め打ちのハードコーディング（数ヶ所に別れて 1000 が書いてある……）だったが、 ~~zipdic-201004 にて書式が変わり、~~ １行が 1400以上の行が現れて、うしろが切れていた。
面倒なので 10240 に変更して終わり。

↑ 「zipdic-201004 にて書式が変わ」ったのではなく、 alt-cannadic の途中の版から書式が変わり、それが「zipdic-201004 にて書式が戻った」、が正しい所でした。訂正して謝罪致します。
原作版 Anthy-9100h でも、 0294205, 7713202, 7793405 の３つで、バッファ溢れで壊れていました。

Sat,08 May,2010

WEB I/F の掲示板。
WEB I/F 掲示板
WEB I/F 掲示板の RSS
所用により、RSS の URL が変更になりました。ご利用の方は、御手数ですが変更をお願い致します。
＃同一ディレクトリ内に、パスワード制限付きのコンテンツ（掲示板本体）と、パスワード制限無しのコンテンツ（RSS）を、共存できることを見落としていた為、わざわざ別のディレクトリに分けて置いていたのです。ようやく、同一ディレクトリで共存できる事に気付いたので、同一ディレクトリに移動しました。

Sun,09 May,2010

DVI-D Single Link ケーブル￥315-。
DVI-I - D-SUB３段変換コネクタ￥105-。
銀河帝国興亡記１巻￥105-。

TOM★CAT、ふられ気分でRock'n' Roll、1984.11.14。

森口博子、水の星へ愛をこめて、1985.08.07。

Mon,10 May,2010

文節区切り位置の自動検出について：
特許出願平６－２０４７９４、１９９４年８月３０日
特許公開平８－６９４６０、１９９６年３月１２日
「仮名漢字変換方式」
最終処分(特許／登録)
要約：打鍵間隔や打鍵圧の違いを用いて文節区切り位置の検出

いつぞやに、vagus氏のコメント欄に書いた話……。


英文交じりの文で、自動的に英単語を判別する方法：
特許出願平９－１０８４２０、１９９７年４月２５日
特許公開平１０－２３２８６３、１９９８年９月２日
「かな漢字変換装置および方法、並びに記録媒体」
最終処分(特許／登録)
> 【課題】 日本語と英語が混在する文章を、正確かつ迅速に、作成できるようにする。

先日、vagus氏のブログに出てきた話に類似……。



「前方ｎ文節最長一致」について：
特許出願平４－２３０９２０、１９８２年１１月２６日 の特許で、
「従来の最長一致探索法等を用いて」と言う記述があるので、
「前方ｎ文節最長一致」の特許があったとしてもそれより古い。
ので出願後20年経過で期限切れ。


複合語機能について：
特許出願平09-334622、１９９７年１２月４日、
特許公開平11-184848、１９９９年７月９日
「Ｎ単語連鎖を用いたかな漢字変換システム，方法および記録媒体」
最終処分(特許／登録)
特許3926906 (平19.3.9)
http://patent.astamuse.com/ja/granted/JP/No/3926906/詳細
> かな漢字変換の対象とするかな文字列を入力して、単語毎に区切った文字列を得る。
> この文字列に対応して、単語の連鎖によるＮ連語が存在するかどうかを
> Ｎ連語ファイルを用いて判断し、Ｎ連語が見つかった場合は、
> そのＮ連語の表記をかな漢字変換の変換候補とする。

これは、原作版 Anthy の「複合語」機能と同じに見える。特許侵害になるか否かは不明。
拙作パッチでも同様。

請求項１：
> （前略）
> 前記得られたＮ連語のかな漢字変換結果が、
> かな漢字変換の候補として確定された場合には、
> 前記得られたＮ連語のかな漢字変換結果により
> 前記変換辞書を更新する辞書更新手段とを備えたことを特徴とする
> （後略）
Anthy には、変換辞書を更新する機能が無い為、該当しない。

請求項６：
> （前略）
> 前記得られたＮ連語のかな漢字変換結果がかな漢字変換の候補として確定された場合には、
> 前記得られたＮ連語のかな漢字変換結果により前記変換辞書を更新する
> 辞書更新ステップとを備えたことを特徴とする
> （後略）
Anthy には、変換辞書を更新する機能が無い為、該当しない。

請求項10：
> （前略）
> Ｎ個（Ｎ≧１）の単語が連鎖したＮ連語毎に、
> 少なくとも該Ｎ連語を単語毎に区切った見出しと、
> 該見出しをかな漢字変換したかな漢字混じり文字列を単語毎に区切った表記と、
> 該Ｎ連語の出現頻度を示す連語コストとを対応づけたＮ連語領域を備えた
> データ構造を有するデータを記録したコンピュータ読みとり可能な記録媒体。
> （後略）
Anthy では、複合語辞書（Ｎ連語辞書）にて
「該Ｎ連語の出現頻度を示す連語コスト」を保持していない為、該当しない。



複合語機能／文節分離の接尾辞機能について：
特許出願平３－３４５１１１、１９９１年１２月２６日
特許公開平５－１７４００６、１９９３年７月１３日
「仮名漢字変換処理装置」
最終処分(特許／登録)
> 【効果】 固有名詞辞書に登録する単語に分類コードを付加することによって、
> 仮名漢字変換辞書の変換効率を高めることができる。
> 【０００６】この発明は以上の事情を考慮してなされたもので、
> 例えば、ここで、固有名詞「くろいそ＝黒磯」と分類コード（駅，市）を
> 固有名詞辞書（固有名詞変換辞書）に登録し、
> 駅＝場所、市＝場所の属性情報（共起情報）を付加する。
> 「（場所）＋に＋行った」，「（人）＋に＋言った」を
> 共起辞書（複合用例辞書）に登録しておけば、
> 「くろいそえきにいった」の文字列が入力された場合、
> 「黒い／添え／気に入った」，「黒い／粗益に／言った」，「黒磯／益に／行った」，
> 「黒磯駅に／言った」，「黒磯駅に／行った」……
> と数多くの変換候補の中から所望の「黒磯駅に行った」を変換される可能性は
> 非常に高くなりその結果変換率の向上が図れる。

文節分離の試験版で検討はしていたが実装はしていなかった。



原作版 Anthy の用例辞書機能について：
特許出願平６－１１０３２７、１９９４年４月２５日
特許公開平７－２９５９７５、１９９５年１１月１０日
「仮名漢字変換装置および仮名漢字変換方法」
最終処分(特許／登録)
> 【構成】 文節分かち書き処理を行なう際、後方の文節の語に着目し、
> この語が係り受けの情報を有するかを判断し（ステップＳ３００）、
> 係り受けの情報を有する語（受け語）である場合には、前方に遡って、
> 係り語を検索する（ステップＳ３１０，３２０）。
> 係り語が見い出された場合には、付属語の許容解析を行なった後、
> 許容されている場合には、係り受けは成立としてこれを文節候補とすると共に、
> その受け語から係り語までの範囲を、
> 次回以降の係り受けの検索範囲から除外する（ステップＳ３５０，３６０）。
> この結果、係り受けの情報を用いて文節分かち書き自体が制限され、
> 所望の文節分かち書きを得る可能性を高めることができる。

これは、原作版 Anthy の「用例辞書」機能と同じに見える、が、
「次回以降の係り受けの検索範囲から除外する（ステップＳ３５０，３６０）」が無い為、
該当しない。
拙作パッチには該当しない
（「前方に遡って、係り語を検索する（ステップＳ３１０，３２０）」を行わない為）。



用例辞書機能について：
特願平６－３２３５５５、平成６年（１９９４）１１月３０日
特開平８－１６１３２４、平成８年（１９９６）６月２１日、
「仮名漢字変換装置および仮名漢字変換方法」
http://www.patentjp.com/09/T/T100310/DA10005.html
> 【０００４】更に、最近では、単語同士の特定の関係
> （例えば、「熱いお茶」の「熱い」と「お茶」、
> あるいは「暑い夏」の「暑い」と「夏」）に着目し、
> この関係を記憶した辞書を用意することで、
> 一方の単語（例えば「お茶」）が特定されたとき、
> この単語に関係のある言葉（例えば「あつい」の候補のうちの「熱い」）を
> 第１候補として選択するものも提案されている
> （例えば特開平３－１０５６６４号の「かな漢字変換装置」や
> 特開平４－２７７８６１号公報の「かな漢字変換装置」など）。
> こうした単語間の特定の関係は、「係り受け」あるいは「共起」と呼ばれる。

この係り受け（共起）の内容は原作版Anthy および拙作パッチ の用例辞書機能に該当するが、
件の特許（特開平３－１０５６６４号、特開平４－２７７８６１号）は
出願後20年以上経過で期限切れ。


用例辞書機能について：
特許出願平６－３２３５５５、１９９４年１１月３０日
特許公開平８－１６１３２４、１９９６年６月２１日
「仮名漢字変換装置および仮名漢字変換方法」
最終処分(特許／登録)
> 【構成】 文節分かち書き処理を行なう際、
> まず、係り受けの検定範囲を、左右の括弧または句点の位置までとして特定し、
> この範囲内において、係り受け辞書を検索し（ステップＳ４２０）、
> 後方の文節から、係り語を優先として、距離の小さい文節間から、
> 係り受けの成立について検定する（ステップＳ４６０ないしＳ５５０）。
> 係り語と受け語の間で付属語の許容解析を行ない（ステップＳ４８０）、
> 係り受けが一旦成立すると係り受けの範囲を管理すると共に（ステップＳ５００）、
> 一旦成立した係り受けを満たす係り受けのみ、許容する（ステップＳ５４０，５５０）。

括弧／句点での区切り処理を行っていないから該当しない。


連文節学習について：
特許出願平６－３２３５５６、１９９４年１１月３０日
特許公開平８－１６１３２５、１９９６年６月２１日
「仮名漢字変換装置および仮名漢字変換方法」
最終処分(特許／登録)
> 【構成】 係り受け学習のフラグがオンになっている場合には（ステップＳ６００）、
> 係り語文節で受け語が存在し（ステップＳ６１０，６２０）、
> 係り語文節または受け語文節で次候補が選択された場合には（ステップＳ６３０，６４０）
> 係り受け情報を作成し辞書に登録する（ステップＳ６５０，６６０）。
> この時、次候補の品詞が係り受けが成立すると判断された候補の品詞と同一の場合のみ
> 登録する。この結果、係り受け辞書９８を徒に大きくすることなく、
> 係り受けの判断を広く行なうことができる。

判断する事無く係り受け学習しているので該当しない。


間に他の文節を含む用例辞書機能について：
特許出願平５－２８８３１８、１９９３年１１月１７日
特許公開平７－１４１３４８、１９９５年６月２日
「文字処理装置」
最終処分(取下)
> 【構成】 「なつはとてもあつい」という文が入力された場合、
> 文節「なつは」と「とても」は用例が存在しないので、
> 用例辞書を用いずにかな漢字変換される。
> 文節「あつい」をかな漢字変換する時には同音語バッファを参照し、
> 文節「夏は」と「とても」についての情報を得る。
> 「夏－暑い」という用例が存在する場合、
> 間に存在する「とても」は指定された品詞なので、
> これを飛び越して、隣接していない文節間に用例を適用することができる。

これももろに直撃（しかも例文の内容まで同じ……）だが、特許不成立なので問題無し。
他にも同様の申請（最終処分(取下)）有り。


拙作パッチ版の連文節学習について：
特願平３－１５９０１６、平成３年（１９９１）６月２８日
特開平５－１２２５０、平成５年（１９９３）１月２２日、
「文書作成装置」
> 【０００６】この方式であれば、ユーザが必要とする共起関係情報を登録できるが、
> 隣接する２単語を単純に共起関係情報として登録すると、
> その後の仮名漢字変換処理において不適切な変換結果が出力されることがある。
> 具体的には、例えば「私の消火に対する貢献度は…」という文書が作成された場合に、
> 「私の消火」という共起関係情報が登録されることがある。
> しかし、この「私の消火」という共起関係情報は不適切であり、
> このような共起関係情報が登録されると、
> むしろ仮名漢字変換処理の効率の低下を招くことになる。
> 【０００７】
> 【発明が解決しようとする課題】

ここで言う「仮名漢字変換処理の効率の低下を招く」手法が、
拙作パッチで採用しているアルゴリズム（原作版 Anthy にはこの機能は無い）。
1991年出願の特許で既に既知アルゴリズムであることから、
出願後20年以上経過で期限切れになっていると考えられる。


単語の自動学習について：
特許出願平７－３４４１３８、１９９５年１２月２８日
特許公開平９－１８５６１２、１９９７年７月１５日
「文字処理方法」
最終処分(特許／登録)
> 【課題】 自動登録単語を用いた変換処理の不具合を解消する。
> 【解決手段】 自動登録単語に頻度情報を持たせ、
> 頻度の低い自動登録単語の単語学習を禁止し、
> 頻度情報が一定の頻度に達した自動登録単語について、
> 通常のかな漢字変換辞書の単語と同じように単語学習を行なう。

これは実装しようかと考えていたけれどもやっぱりやめた機能。
危なかったですな。


単漢字の学習について：
特許出願平８－３１０７７８、１９９６年１１月２１日
特許公開平１０－１５４１４３、１９９８年６月９日
「かな漢字変換装置」
最終処分(未審査請求によるみなし取下)
> 【課題】 基本辞書と単漢字辞書とを独立した形で持つかな漢字変換装置において、
> 基本辞書にない漢字をよく場合に、いちいち単漢字辞書を呼び出さなければならず、
> 操作が煩雑であった。また、そうかといって、使用する漢字すべてを学習すると、
> それほど使用しない漢字も学習されてしまい、
> かえって頻繁に使用する漢字表記を表示させるまでの候補が増え、
> 使い勝手が悪くなってしまう。
> 【解決手段】 単漢字辞書の各漢字に対応した頻度情報カウンタを設けておき、
> そのカウンタの値が規定値以上になった場合に特別の格納領域を設けて、
> そこにその規定値以上の値を持つ漢字を格納する。
> そしてその領域に格納されている漢字は、単漢字辞書を逐次呼び出さなくても、
> 基本辞書の一候補として扱えるようにする。

vagus氏？ が以前おっしゃっていた、単漢字変換の使い勝手がらみの改善に使えそう。


学習時の付属語の取り扱いについて：
付属語違いを学習する件とか直撃していたけれども、
全て「拒絶」もしくは「取り下げ」だったため問題無し。


自立語・付属語・単文節学習について：
特許出願平８－１２４１９６、１９８５年９月６日
特許公開平８－２７２７９８、１９９６年１０月１８日
「仮名漢字変換装置」
最終処分(特許／登録)
> 【解決手段】 入力した仮名文字に対して漢字への変換を行うと、
> 複数の漢字候補が出力される。
> そのうちの１つを選択した場合に、その選択された候補について、
> その自立語の読みと漢字表記と付属語の有無との情報を
> 単語使用情報記憶部に格納しておき、
> 以降の仮名文字が単語使用情報記憶部に格納された自立語に
> 付属語が付いた形態の場合、その自立語＋付属語の候補の優先度を高く表示する。

拙作パッチ版のみの機能。直撃だが出願後20年以上経過で期限切れ。


自立語・単文節学習について：
特許出願平８－３５０２３５、１９９６年１２月２７日
特許公開平１０－１８７７０４、１９９８年７月２１日
「文書処理方法及びその装置」
最終処分(特許／登録)
> 【解決手段】 入力された仮名文字列より第１候補となる基本文節を決定し、
> 基本文節の基となる自立語の読みにより学習データをサーチし
> 自立語の読みに対する学習データが見つかった場合に、
> 基本文節の基となる自立語を学習データに従って変更し、
> 基本文節の基となる自立語を他の同音語へ変更した場合に、
> 変更前の自立語の読みデータと変更後の自立語の単語識別情報とを
> 学習データとして記憶する。
> あるいは、決定した自立語がどのような状況で使用されたかを判断して、
> 使用した自立語の情報とその自立語の使用状況の情報とを学習データとして記憶する。

原作版 Anthy の INDEP_PAIR学習が直撃するのではないかと思われる。
拙作パッチでは INDEP_PAIR学習を削除して INDEP_HISTORY学習に変更したので該当しない。



共起学習（連文節学習）について：
直撃がいくつかあったけれども、全て「拒絶」もしくは「取り下げ」だったため問題無し。

頻度学習について：
直撃がいくつかあったけれども、全て「拒絶」もしくは「取り下げ」だったため問題無し。

学習の削除学習について：
直撃がいくつかあったけれども、全て「拒絶」もしくは「取り下げ」だったため問題無し。

履歴学習について：
直撃がいくつかあったけれども、全て「拒絶」もしくは「取り下げ」だったため問題無し。

UNKNOWN_WORD学習について：
特許出願平７－１３１５１５、１９９５年５月３０日
特許公開平８－３２９０６９、１９９６年１２月１３日
最終処分(未審査請求によるみなし取下)
> 無変換候補の見出しや同音語の語幹の長さ、品詞などから辞書未登録語を生成し、
> 辞書登録語と同様に変換できるようにする。

直撃だが「取り下げ」だったため問題無し。


予測変換機能について：
特許出願平７－２４９３３９、１９９５年９月２７日
特許公開平９－９１２７８、１９９７年４月４日
査定種別(拒絶査定)
> 読みデータ格納部１０５はかな漢字変換が行なわれた読み文字列を
> その使用頻度とともに格納しており、入力部１０１から読み文字列を入力し、
> 読み検索キー１０２からの検索指示により入力データ検索部１０３は
> 入力された読み文字列と先頭文字列が一致する読み文字列を検索し
> その使用頻度の大きい順に出力し、入力データ学習部１０４により
> かな漢字変換部１０８によりかな漢字変換された読み文字列が
> 読みデータ格納部１０５に既登録のときにはその使用頻度を更新し
> 未登録のときには新たに登録する。

直撃だが「拒絶」だったため問題無し。


予測変換機能について：
特願平９－１９８３８８、平成９年（１９９７）７月２４日
特開平１１－３９３００、平成１１年（１９９９）２月１２日
「文字列予測装置、文字列予測方法及び文字列予測プログラムを記録した記録媒体」
> 読み文字列の入力毎に自動的に予測処理を行う（Ａ１１～Ａ１４）。
> その際、前回の予測候補が表示されている場合には、
> その予測候補を消去し（Ａ１５，Ａ１６）、
> 当該入力文字列に応じた予測候補を新たに表示する（Ａ１７，Ａ１８）。
> これにより、通常の入力操作を行いながら、
> 予測候補を使用して文書を作成できるようになる。

直撃だが「取下」だったため問題無し。


予測変換機能について：
特許出願２００３－１１０８３７、２００３年４月１５日
特許公開２００４－３１８４４１、２００４年１１月１１日
「かな漢字変換装置及びかな漢字変換方法、並びにかな漢字変換プログラム」
最終処分(特許／登録)
> 【課題】特別に予測変換辞書を持つ必要がなくなり、
> 辞書記憶領域を節約することができるかな漢字変換装置を提供する。

原作版 Anthy とは、
【請求項２】、【請求項３】、【請求項９】、【請求項１０】、
【請求項１８】、などが異なる。
【請求項１８】 が決定的に異なるが、
逆に、予測変換機能を高機能にするために前入力確定内容を利用しようとすると、
この【請求項１８】や特開平９－２７４６１３号に該当してしまい
特許侵害になってしまうらしい。


予測変換機能について：
特許出願平８－１７６２１５、１９９６年７月５日
特許公開平１０－２１２６２、１９９８年１月２３日
「情報検索装置」
最終処分(特許／登録)
> 検索したい文字列の先頭や末尾の文字に限らずに、
> うろ覚えの情報をキー入力として、目的の文字列を曖昧検索できる情報検索装置の提供。
> （詳細省略）

予測変換機能を高機能にしようとすると、特許侵害になってしまうらしい。



文末属性について：
特許出願平３－２７１２６７、１９９１年１０月１８日
特許公開平５－１０８６２７、１９９３年４月３０日
「かな漢字変換装置」
査定種別(拒絶査定)
> 【構成】 かな読み文字列は入力装置から入力され、
> かな漢字変換プログラムは基本辞書と、
> 単語の接続関係の可否を記憶する接続テーブルとに基づいて、
> かな漢字変換を行う。規則検索プログラムは規則辞書中から、
> 規則を変換結果の文末に適用することを表す文末項目に基づいて
> 変換結果記憶領域の内容と一致する規則を検索する。
> 規則書き換えプログラムは、一致した規則に従って、
> 該当の変換結果記憶領域の内容を書き換える。
> そして、変換結果記憶領域の内容をかな漢字文字列として表示する。

あやうく直撃する所だった模様。特許不成立なので問題無し。


KEEP_ALIVE機能について：
特願平４－１７５５８１、平成４年（１９９２）７月２日
特開平６－１９８８０、平成６年（１９９４）１月２８日
「かな漢字変換装置」
最終処分(未審査請求によるみなし取下)
> 【目的】 文節の途中や、共起関係のある語と語の間で変換が確定された場合でも
> 文章の流れに合い、共起関係にかなったかな漢字変換ができるかな漢字変換装置を得る。
> 【構成】入力手段１よりかな文字列が入力されると、
> 第２の文字列記憶手段７に記憶されているかな文字列を読み出して、
> 読み出されたかな文字列の後に、新たに入力されたかな文字列を連結し、
> 連結された一連のかな文字列を変換文字列格納手段１１に格納して変換の対象とする。
> この文字列を文字列区切手段１３が文節に区切り、
> 変換手段１５がかな漢字交じり文字列に変換する。
> その際、第１の文字列記憶手段５に記憶されている
> 確定済みのかな漢字文字列の最後の文節や、
> 共起情報格納手段９中の共起情報を参照する。
> 変換後、表示手段１９が変換結果から第１の文字列記憶手段５に記憶されている
> かな漢字文字列を除外したものを表示する。

あやうく直撃する所だった模様。特許不成立なので問題無し。


アノテーション機能：
特許出願平５－２０７９０７、１９９３年８月２３日
特許公開平７－９８７０１、１９９５年４月１１日
「文書処理装置」
最終処分(特許／登録)
> 【構成】本発明の文書処理装置は、用例を次単語検索指示キー(1d)で指定すると、
> この指示された用例を形成する単語で且つこの用例を表示する契機となった
> 単語以外の単語を検出し、この検出された単語の用例を表示する。
> 本発明の文書処理装置は、かな漢字変換対象の複数の同音異義語のうち、
> 関連する熟語が存在する同音異義語に対しては★印を付加して、
> 関連熟語の存在をユーザに知らせる。

アノテーション機能：
特許出願平５－２７３４５６、１９９３年１１月１日
特許公開平７－１２９５６６、１９９５年５月１９日
「かな漢字変換処理装置」
(みなし取下)
> 【構成】 ユーザによって入力部１２より読みが入力され、
> かな漢字変換キーが押下されるとかな漢字辞書４より
> 読みに対する表記を検索してかな漢字変換を行い、
> 表記バッファ１０内に表記を一時記憶しておく。
> ユーザによって用例表示の指示がされたら、
> 表記バッファ１０内の表記に対する用例を用例辞書７内から検索して、
> 検索された用例を表示する。

かな漢字変換と同時に用例を表示するアノテーション機能は、
実装の仕方によっては特許侵害になる模様。



入力文字列の正規化について：
特許出願２００６－１５３５８１、２００６年６月１日
特許公開２００７－３２３４１４、２００７年１２月１３日
「情報検索装置、情報検索システム、情報検索装置の制御方法、及び制御プログラムを提供する媒体」
最終処分(未審査請求によるみなし取下)
> 【解決手段】 情報を複数保持する情報保持手段中から
> 所定の情報を検索する情報検索装置において、
> 複数の入力デバイスにより入力された情報を取得する情報取得手段と、
> 誤入力しやすい文字と置き換えられる代表文字を対応付けた正規化テーブルを用いて
> 代表文字に置き換える正規化手段と、
> 各入力デバイスごとに最適化された前記正規化テーブルを切り替える
> 正規化テーブル切換手段と、
> 前記情報保持手段中から類似した文字列を含む情報を検索する検索手段と、
> 前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする情報検索装置。

vagus氏 の「全角/半角の違いを誰が吸収すべきか問題【追記】4/27,5/4」の話。
入力文字列の正規化に関しては、特許は取得されてはいないらしい。


文節分離版について：
特許出願平７－２４０７６２、１９９５年８月２５日
特許公開平９－６２６６７、１９９７年３月７日
特許3873305
「仮名漢字変換装置および仮名漢字変換方法」
最終処分(特許／登録)
> 【解決手段】 文節分かち書き処理を行なう際には、
> 補助用言、接辞、指示連体詞、形式名詞などの見掛け自立語は、付属語として扱い、
> 自立語と結合して文節を構成するものとして処理する。
> したがって、「はしるときえだが」は「走るとき」＋「枝が」と文節分かち書きされ、
> 「走る」＋「時枝が」と分かち書きされることはない。
> その上で、この分かち書きした各文節を表示する際には、
> 見掛け自立語については、独立した文節を構成するよう文節区切りを追加する。
> したがって、表示上の文節は、「走る」＋「とき」＋「枝が」となり、
> 「とき」についての次候補「時」などは、文節長の変更などを行なうことなく、
> 表示させることができる。

拙作パッチの文節分離試験版(patch13bis)にて直撃。



なんか、８割は「拒絶」か「取り下げ」なんですが……。

該当しそうな特許は1995年以前に出願されているので、
2015年以降に旧仕様のかな漢字変換を作れば、特許侵害の心配無し :P

Wed,12 May,2010

Anthy 拙作パッチ。
「かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ」

Anthy 拙作パッチの実験版 anthy-9100h.patch13B-23-iconv-ucdict-combinedphrases系列にて、特許侵害の疑いの有る機能が発見されました。
該当する特許は、上記の、特許3873305 「仮名漢字変換装置および仮名漢字変換方法」の特許です。
実験版 anthy-9100h.patch13B-23-iconv-ucdict-combinedphrases系列の、初版から 2010507版までが該当します。 2010512版にて該当機能を機能停止しました。
実験版以外の系列では、特許侵害の疑いは見つかっておりません。

GUNDAM SingleHistory1 ￥500- ……。１月頃に￥1,000-で買ったのに……。

Sat,15 May,2010

GUNDAM SingleHistory1 ￥500- ……。前述とは別の店舗……。

Sun,16 May,2010

GUNDAM SingleHistory1 ￥500- ……。前述とはさらに別の店舗……。

Wed,19 May,2010

２×２×４ルービックタワーなる物が４月下旬から発売になっていたらしい。定価1,890- らしい。

１×３×３スクランブルキューブ（旧：スーパーフロッピーキューブ）が、５月下旬から発売予定らしい。定価1,260- らしい。

Fri,21 May,2010

∀ 3 ￥1,000-。

Sat,22 May,2010

GUNDAM SingleHistory1 ￥500- ……。前述とはさらにさらに別の店舗……。

GUNDAM SingleHistory2 ￥950-。

PCI microSDリーダー USBコネクタのサイズのやつストラップ付き￥597-。

Tue,25 May,2010

メールの Subject を書き換えるのを忘れていた orz

Wed,26 May,2010

スクランブルキューブは、まだ売っていなかった。

Sun,30 May,2010

先週、GUNDAM SingleHistory2 を５月セール￥950- で買ったばかりなのに、今週は月末セール￥625- だった。

オネアミスの翼＜イメージスケッチ＞￥475-（月末セール）。

VARIABLE FIGHTER MASTER FILE VF-19 EXCALIBUR。延々延期され続けてきた発売予定日が、４月下旬情報で最終的に６月２日になったらしい。ところが、すくなくとも５月29日には既に発売開始されていたらしい。

浅い眠り、中島みゆき、1992.7.29。

Tue,01 Jun,2010

「SVN::Web を日本語対応にするパッチ」修正。
diff 表示で日本語処理がこける問題を修正。
Jcode の文字コード判定を使っているので、たまに間違える事があるかも。

Wed,02 Jun,2010

sofmap の非プレミアム会員のポイントの有効期限が、１年に変更になってる……。今まで２年だったのに……。

Sun,06 Jun,2010

HP 4515 が￥39,800- くらいで売られていた。

最近は中古より新品アウトレットの方が安くて高性能なのね……。

zipdic-201005。

gendic_zip.rb をいじる時にやたら文字化けすると思ったら。エディタを UTF-8 モードに変えるのを忘れていた。 EUC-JP モードで UTF-8 なファイルを扱うと、一見正常な様で、たまに文字化け起こすんだよね……。

郵便番号辞書、事業所でこける行：

14134,"ｱｽｶｾｲﾔｸ ｶﾌﾞｼｷｶﾞｲｼﾔ ｶﾜｻｷｼﾞｷﾞﾖｳｼﾖ","あすか製薬　株式会社　川〓事業所","神奈川県","川崎市高津区","下作延","１６０４","2138522","213  ","高津",0,0,0
                                                                 ^^崎 の上の大が立になっている。
15103,"ｵｵﾂｶｾｲﾔｸ ｶﾌﾞｼｷｶﾞｲｼﾔ ﾆｲｶﾞﾀｼﾕﾂｼﾖｳｼﾞﾖ","大〓製薬　株式会社　新潟出張所","新潟県","新潟市中央区","上近江","２丁目１９－１４","9508732","950  ","新潟",0,0,0
                                              ^^塚に点付き
15108,"ｶﾌﾞｼｷｶﾞｲｼﾔ ﾀｶｷﾞ","株式会社　〓儀","新潟県","新潟市西蒲区","大原","３７４－１","9590595","95905","西川",0,0,0
                                   ^^はしご高
15204,"ｶﾌﾞｼｷｶﾞｲｼﾔ ﾀｶｷﾞ","株式会社　〓儀","新潟県","三条市","塚野目","２３４１－１（三条支店私書箱第５９号）","9558655","955  ","三条",1,0,0
                                   ^^はしご高
24201,"ｲﾘﾖｳﾎｳｼﾞﾝ ｼﾖｳｼﾞﾕﾝｶｲ ｻｶｷﾊﾞﾗｵﾝｾﾝﾋﾞﾖｳｲﾝ","医療法人　〓純会　榊原温泉病院","三重県","津市","榊原町","１０３３番地の４","5141293","51412","七栗",0,0,0
                                                        ^^日へんに章

崎の上の大が立	：CP932:FA B1, ShiftJIS:無, UCS4:0000FA11, UTF-8:EF A8 91, EUC-JP:無, EUC-JISX0213: CF F2, EUC-JP-MS: 8F F4 BD, CP51932: F9 F5
塚に点付き	：CP932:FA 9C, ShiftJIS:無, UCS4:0000FA10, UTF-8:EF A8 90, EUC-JP:無, EUC-JISX0213: AF D7, EUC-JP-MS: 8F F4 B8, CP51932: F9 E0
はしご高	：CP932:FB FC, ShiftJIS:無, UCS4:00009AD9, UTF-8:E9 AB 99, EUC-JP:無, EUC-JISX0213: 無, EUC-JP-MS: 8F F4 FB, CP51932: FC E2
日へんに章	：CP932:FA DC, ShiftJIS:無, UCS4:000066B2, UTF-8:E6 9A B2, EUC-JP:8F C2 DB, EUC-JISX0213: F5 C5, EUC-JP-MS: 8F C2 DB, CP51932: FA C2

あすか製薬：web の会社案内の事業所一覧では、「川崎」（大）になっていた。
大塚製薬：web の会社案内の事業所は全て「大塚製薬」（点無し）になっていた。
たかぎ：web の会社案内でも「はしご高」になっていた。
しょうじゅんかい：web の会社案内でも「日へんに章」になっていた。

備考：
「はしご高」は、第３水準、第４水準の、どちらにも含まれていません。
JISでは未定義の文字らしい。

蛇足：
Unicode にある「はしご高」は、台湾語の区分に入っている字らしい。
なので、JIS には存在しないのに Unicode には存在する、
と言う状態になったらしい。

Mon,07 Jun,2010

Anthy 拙作パッチ。
「かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ」

辞書を vagus氏の、 alt-depgraph-100603, alt-cannadic-100603, zipdic-201005 に更新している途中。

相変わらず make update_params0 ; make update_params ; make update_params2 ; make update_params2 が完了するまでに８０分くらいかかるし……。
現状では、過去版、安定版、試験版、の３系列を持っているから、この更新だけで４時間以上は消費してしまう……。

zipdic-201005 の gendic_zip.rb。

ruby 1.9 用に書かれていた。試しに ruby 1.8 で動かしてみると、
open("KEN_ALL.CSV", "r:CP932")
と
.gsub('"','')\
# 「???」はeucに変換できないので「─」に置換
.gsub('???','─')\
（間にコメントが挟まっている）
ken_all_src = f.read.encode("UTF-8")\
と
f.puts "#{x[0]} #CNS #{x[1].encode('EUC-JP')}"
がエラー。
あと、 tr での文字置換が、マルチバイト文字の途中でヒットしおった。
そして OpenBSD の ruby に 1.9系は無かった。
終了……。

Tue,08 Jun,2010

Anthy 拙作パッチ。
「かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ」

辞書を vagus氏の、 alt-depgraph-100603.alt-cannadic-100603.zipdic-201005-patch100608 に更新完了。

何はともあれ、 alt-depgraph/alt-cannadic/zipdic の更新、お疲れさまです。

Thu,10 Jun,2010

alt-depgraph-100603d:
seq は、存在しない OS があります。ざっと調べた感じでは、
`yes '' | cat -n | head -10`
にて、
`seq 1 10`
と等価の模様。スマートさを目指すなら
i=1; while [ $i -le 10 ]; do echo $i; i=`expr $i + 1`; done
とか。

seq は、 GNU の「The Free Software Foundation's core utilities」の梱包物の１つらしいです。
なので、GNU/Linux には普通に入っているけれども、 GNU ではない OS には無かったりする、と。

Sun,13 Jun,2010

谷山浩子、おはようございますの帽子屋さん、1974?。

Mon,14 Jun,2010

誤解していた事。
uint32_t は C99 では任意実装で、 uint_least32_t と uint_fast32_t が実装必須、らしい。
さらに、Anthy 拙作パッチでは uint*_t と uint_least*_t と uint_fase*_t を誤解した実装がありまして……、実害は無いから治しませんが、 uint32_t が非実装のシステムだとビルドが通りません（汗。

Tue,15 Jun,2010

かな漢字変換。

「ひじっそう」→「|非|実装|」（|ひ|じっそう|）
と言う変換内容がある。
Anthy だと「|肘っ|そう|」（|ひじっ|そう|）とか提示してくる事が有るけれども、今回はその話はパス。
取り敢えず文節区切り位置は正しく提示してきたと仮定して。各文節での提示では、
「|被|実装|」（|ひ|じっそう|）(|#T35|#T30NeSe付属語無|)だけでなく、
「|日|実装|」（|ひ|じっそう|）(|#T35|#T30NeSe付属語無|)とか、
「|火|実装|」（|ひ|じっそう|）(|#T35|#T30NeSe付属語無|)とか、
日本語の読み書きが出来る人ならば「明らかに違う」と判る変換結果を提示してくる。
さて、どうする？

複合語辞書に「非_実装」で登録する。
用例辞書に「非_|実装*」で登録する。
コーパスに追加……しても、どれも |#T35|#T30NeSe付属語無| の型になってしまうから、効果が無い様な気がする。
＃注意：実際の anthy のコーパスには、例文の内容を用例辞書として利用する機能が有る為、全く効果が無いとは限らない。
「なんとか接頭辞」と「なんとか自立語」という品詞を増やしてしまう。

……あー、だいぶ前に書いた内容にループして戻ってるわ……。

Wed,16 Jun,2010

今月のロボコンマガジン。
ガンローラー定価￥18,900- のところを新品￥3,000- らしい。
いいなぁ、こういうの。
3ch ラジコンなので、エアガンとか砲塔旋回とかは積んでいないらしい。でも、砲塔旋回や砲塔上下は可能で駆動装置を積んでいない（積むスペースが無い？）と言う話だけらしい。スタンディングモードも無理か……。

Sat,19 Jun,2010

自転車が壊れた。
交差点で車道から歩道の段差に上がる所でちょっとよろけて、左ペダル端が車道と歩道の間にある分離棒？にこすり、その反動で自転車ごと右に傾き、道路標識に激突。
ペダル側のギア？が、ひしゃげて、漕げなく、かつチェーンが引っかからなくなった。

結局、３時間、自転車を引っ張って帰った。さすがにこれは疲れた。

Sun,20 Jun,2010

自転車を治した。２時間ばかしかかったけれども、結局、ひしゃげたのと反対方向から、てこで叩いて治した。

道原かつみ版銀河英雄伝説。
原作版１冊分に、道原かつみ版の通常版の６冊６年かかっているけれども、大丈夫なのだろうか。
原作が１０冊だから６０冊６０年……。
完結できるのかなぁ……。

Wed,23 Jun,2010

alt-depgraph-100603
「文節のみな」（ぶんせつのみな）、が、１文節にできない。
「文節な」（ぶんせつな）、は、１文節に出来る。

Mon,28 Jun,2010 追記：
解説が来ていました。有り難うございます。
個人的には形容詞化か比喩か何かと思ってみたり。
< お起きなもんだいと
「どんなもんだいと」の変則ですかね？

Sat,26 Jun,2010

Shilpheed のプラモデルが売っていた。
驚いた。
値段が￥4,880- だった。また驚いた。
でもまぁ、ビックバイパーのプラモデルも売られるくらいだからなぁ……。

V cube 7 が売っていた。
全体は３×３×３のルービックキューブより２～３回りくらい大きいのに、１つのマスがとても小さかった。なんか壊しそう。
値段が￥4,030- もしていた。

Sun,27 Jun,2010

alt-cannadic-20100628？
伝聞の伝聞によれば飯田氏による辞書への追加を、 alt-cannadic？にマージする準備が出来たそうで。
見てみたら。
なんと約24,000件……、お疲れさまです……。

Wed,30 Jun,2010

Anthy 拙作パッチ。
「かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ」

辞書を vagus氏の、 alt-depgraph-100603d.alt-cannadic-100603-patch100628.zipdic-201005-patch100614 に更新。
用例辞書検索時および PRINT_CONTEXT時に、ひらがな語／カタカナ語に対して品詞判定を間違え、 SIGSEGV を出す可能性があるバグを修正。
＃ ↑ただ、これ、未だに発動条件が判っていなかったりする。

anthy-9100h.patch13B-23-iconv-ucdict-combinedphrases版のみ：
複合品詞を連結した文節の生成漏れを修正（特許3873305 の件の封鎖漏れとも言う）。 #D2KY とか #D2T35 とかが機能しなくなっていた。
＃ patch13bis実験版だけ、update_params で余計な警告が出ていたのは、このバグが原因だったのね……。

備考：
実験版 anthy-9100h.patch13B-23-iconv-ucdict-combinedphrases版の、パッチを１つ、安定版 anthy-9100h.patch13B-23-iconv-ucdict版に、バックポートかけるか否か迷っている所。

最近の（でもないけれど）出来事／落書帳／仲間内のネタ／覚え書き／whatsnew

2010年の３に続く。