[ トップページ ]
社会のネットワーク化にともなって膨大に流通する自然言語テキストを処理・蓄積・検索する技術は,将来の情報環境を我々人間にとって真に有効で使いやすいものとする鍵となる技術である. このようなテキスト処理の技術は,従来,自然言語処理・理解の研究,および,情報検索の研究という2つの分離した技術分野から研究されてきた. 本研究プロジェクトでは,詳細で厳密な記号論的な方法論をとってきた前者の研究と,数値的・統計的な方法論を主体とした後者の研究とを統合し,将来における自然言語テキストの処理・蓄積・検索技術の基本的な枠組を開発することを目的とする.
具体的には,次の3つの柱を中心に研究を進めた.
部分的構造解析,キーワード・スポッティングなど,アドホックな手法で取り組まれていた言語構造の解析を,言語学的に健全な枠組に統合し,高速・高効率,かつ,高耐性の解析手法を確立した. スタンフォード大学,ザールブリュッケン大学と共同研究を行い,世界最速のシステムを開発した. また,素性構造に基づく言語LiLFesを開発し,公開した.
日本語形態素解析(JUMAN),日本語構文解析(KNP)を開発し,これを公開した. この2つのシステムは,すでに標準的なソフトウェアとして,国内・国外の多くのグループによって使用されている. また,米国・ペンシルベニア大学と共同し,かれらのXTAG文法をもとに網羅的な英語文法XHPSGを開発した.
高度な言語処理技術には,分野依存の知識が不可欠である. 特に,科学的文献の処理には分野オントロジーの基本となる専門用語とその意味関係の把握が不可欠である. この研究では,プロジェクトで開発した解析手法,文法の有効性を示すため,生化学分野の分野オントロジーをテキストから自動作成するシステムを開発した. また,オントロジー獲得を支援するためのシステム(TIMS)を開発し,公開した.
情報検索をより知的にするために言語の構造解析の結果を検索語選択に反映させる研究を行った. この研究システムは,米国で行われた情報検索システムの競技TRECに参加し,商用システムに伍して,優れた成績をあげた.
公開している素性構造処理用の言語LiLFes,および,それに基づく文法記述と構造解析プログラムをデモします. また,テキストからの知識獲得を支援するシステムTIMS,テキストからの情報抽出システムGENIA,計算機システム・ユーザとの対話システムなど,一般公開するプログラムの性能を示すデモを行います.