Inside IME 2010

2009-12-03

Inside IME 2010

概要

Microsoft IME 2010 は、安定性および基本性能を向上させました。向上させた基本性能は、変換精度、学習機能、実行速度です。IME 2010 は、辞書の自動アップデートで、語彙の充実を広範囲のユーザに提供できるようにしました。また、辞書を拡張する機能として、企業向けのSharePoint 辞書に加え、一般ユーザー向けにXMLファイル形式のオープン拡張辞書をサポートしました。また学年別辞書、サーチ機能をサポートしました。

ユーザーの皆様からのフィードバック

Microsoft IMEは、ユーザーから誤変換や登録単語をレポートしていただく機能を備えています。Microsoft IMEのユーザーは推定で　6,000万人いらっしゃいます。これまでに、誤変換レポートは累積で5千万件寄せていただきました。現在、一日当たり、単語登録レポートがおよそ　2,000件、誤変換レポートは　10　万件、学習データのレポートは　120　件、お送りいただいています。

単語登録データは、辞書のアップデート・サービス（ご案内はここ [1]）に利用しています。誤変換データは、変換をチューニングするために利用しています。学習データは、今後の研究のために利用しています。研究の一例をIME Blog [2] に紹介しています。

安定性

IME 2010 開発プロジェクトは、品質を第一の優先事項として実行し、安定性と基本性能に注力しました。ストレス・テストは、従来より種類も数も大幅に増強し、早期に出荷レベルの安定性を確保しました。また、2007に対して行った修正点のすべてに関して、根本原因にさかのぼって分析し、テスト・ケースやテスト・システムを強化する等の対策を行いました。

基本性能

変換精度

標準的に組み込まれた辞書に、これまで辞書アップデートで提供してきた語彙30,650語を追加しています。フィードバックをもとにしているため、多くのユーザが登録した単語が追加されています。それらには、入力に手間のかかる専門的な単語、実世界・日常における重要な単語、社会の変化にともなう新しい固有名詞などが含まれます。

Microsoft IMEは、IME 2007 以降、変換精度向上の限界を打破するため、基本方式を変えました。従来は品詞接続ベースの文法でしたが、現在は統計的言語モデルを採用しています。統計的言語モデルとは、具体的には、単語のつながりやすさを示すTrigramやBigramなどです。詳しくはIME Blog[3] を参照ください。それらに加え、実際は、品詞のつながりやすさ、特殊な複合単語連鎖の知識、共起しやすい自立語のペアの知識、など様々な言語知識を併用しています。ところで、統計的言語モデル方式は、そのモデルを構築するために、大量のサンプル・テキストを使います。IME 2010 では、そのもとになるサンプルテキストの質向上によって、言語モデルの質を向上させました。サンプル・テキストにはごみやエラーが混じらないように丁寧にデバッグしてあることが必要です。また、サンプルのバランスが重要です。IME 2010 では、誤変換フィードバックに頻出する同音語の使用サンプルを重点的に収集し、モデルを生成しました。それによって、ユーザーが実際に多く遭遇しやすかった誤変換を解決しています。

学習機能

Microsoft IMEは、統計的言語モデルの採用に伴い、新しい学習原理を導入しました。それは、単語の使用情報と選択情報の利用です。詳しくは、IME Blog[4] をご覧ください。フィードバックによって、IME 2007 SP2で、学習の効果がすぐに発揮されるようにチューニングしました。IME 2010では、その性能を強化するとともに、副作用が出にくいようにさらにチューニングしました。

変換・学習の評価

変換や学習の質は、約70個の評価基準によってチェックしています。評価基準とはたとえば、変換結果が正解とどれだけ一致したかを示す文字正解率、正解が候補一覧の何番目にあったかを示す正解候補分布、一度正解を機械的に学習させた後の文字正解率、文節単位で変換した場合の文字正解率、などです。IME 2010は、評価基準の強化から実施し、開発の途中はラボの5，60台のマシンを毎日稼働させ毎日ビルドを評価し、品質チェックをしてきました。

チューニングの結果、たとえば弊社のテストで、IME 2010の文字正解率は 97.8 %です。また、一度正解を機械的に学習させた後の文字正解率率は　99.6%で、IME 2007 SP2 と比べてエラーを17％削減しています。

実行速度

IME 2007 SP2は、アプリケーションを起動した直後のタイピングの実行速度をチューニングしました。IME 2010 では、さらにチューニングしました。読み文字列からそれとマッチする変換文字列を探索する処理の高速化、言語モデルファイルのサイズの圧縮、モデルデータの最適配置、学習データ構造の最適化、スレッドのスケジューリングの調整、初期処理の調整、など様々な改善を施してあります。

その結果、アプリケーション起動直後の処理は、IME 2007 SP2 と比較して、約３倍高速化しています。また、通常入力時の処理も約 2 倍速くなっています。

辞書の自動アップデート

IME 2003とIME 2007では、辞書のアップデートを、ダウンロードセンターから提供してきました。しかしながら、アップデートサービスについてご存じの一部のユーザーの方にのみ利用が限定され、手間もかかるものでした。IME 2010では、自動更新をサポートしました。そのことで、従来ご存じなかった方を含め広範囲のユーザーの方に、豊富な語彙のサポートを提供することができるようになります。

辞書拡張機能

IME 2007 は、SharePointを導入された企業ユーザーのために、SharePoint のリストデータを IME の辞書として利用できる機能を提供しました。この機能によって、会社や職場のよくつかわれる語彙を、職場のユーザーが共有して利用できます。同様に、IME 2010 は、一般ユーザー向けに、データを簡単に共有できる仕組みとして、XML形式の辞書であるオープン拡張辞書をサポートしました。この形式のファイルを、WEB　上におけば、クリックひとつでクライアントの　PC　で利用可能になり、インターネットごしでユーザがデータを共有することが容易になります。また、これらの辞書では、Microsoft IME の候補一覧の補助情報を表示できる機能を利用できます。たとえば、部署コードなど覚えておくのが面倒な情報を入力するシナリオに利用できます。また、URLを表示する機能を使いPortalへ誘導することがなどができます。

学年別辞書

IME 2010　は、小学生向けに学年別辞書をサポートしました。それは、小学校でよく使われる単語を中心に約　91,000　語を収録し、学年別に既習漢字に応じた候補を提示します。なお、2009 年　4　月より新しい学習指導要領の学年別漢字配当表が、一部先行実施されています。学年別辞書は、それに準拠した混ぜ書きの単語を変換候補として出します。