shizen gengo shori ni okeru bunmyaku no riyo ni kansuru kenkyu

(1)

Kodak

Gray

Sca一ｅ

Ａ１２３４５６

’S・ ll﹂!1 Q Kodak｡2007 TM:Kodak 一’、一８９１ｏ１１１２１３１４１５Ｂ１７１８１９一一 -- ｀ W

(2)

自然言語処理における

文脈の利用に関する研究

1998年２月

那須

Tetsuya

ＩＩＪ

哲

哉

ＮＡＳＵＫＡＷＡ

(3)

１序論 1.1 序言

1.2 白然言語処理における曖昧性解消‥・・・・・・・・・・・・・・・・・・・・・ 1UQ︵XD 1.2.1 自然言語における曖昧性‥・・・・・・・・・・・・・・・・・・・・・. 8 1.2.2 語義の曖昧性の解消 ‥・・・・・・・・・・・・・・・・・・・・・・・. 9 1.2.3 係り受けの曖昧性の解消‥・・・・・・・・・・・・・・・・・・・・・. 11 1.2.4 まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 14 1.3 自然言語処理における文脈処理 ‥・・・・・・・・・・・・・・・・・・・・・. 15 1.3.1 従来の文脈処理技術・・・・・・・・・・・・・・・・・・・・・・・・・. 15 1.3.2 まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 16 1.4 本論文の構成 ‥・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 17 ２基礎的考察一自然言語文の文脈依存性- 19 2.1 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 20 2.2 自然言語の文脈依存性 ‥・・・・・・・・・・・・・・・・・・・・・・・・・・. 20 2.3 文脈制約‥・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 21 2.3.1 語基の同じ語の出現頻度‥・・・・・・・・・・・・・・・・・・・・・. 22 2.3.2 英文計算機マニュアルにおける語義の調査・・・・・・・・・・・・・. 23 2.4 文脈選好・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 30 2.5 まとめ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 32 ３文脈制約と文脈選好を用いた自然言語処理 3.1 はじめに 35 36 3.2 文脈を単位とする自然言語処理の枠組・・・・・・・・・・・・・・・・・・・. 36 1

(4)

3.2.1 文脈モデル・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 36 32.2 処理の流れ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 39 3.3 選好度による曖昧性解消‥・・・・・・・・・・・・・・・・・・・・・・・・・. 41 3.4 文脈情報を利用した処理手法・・・・・・・・・・・・・・・・・・・・・・・・. 41 3.4.1 文法的不適格文の構文解析・・・・・・・・・・・・・・・・・・・・・・. 42 3.4.2 曖昧な構文構造の決定・・・・・・・・・・・・・・・・・・・・・・・・. 50 3.4.3 語義決定‥・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 5.5 3.4.4 係り受けの決定・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 56 3.4.5 代名詞照応先の決定 ‥・・・・・・・・・・・・・・・・・・・・・・・. 60 3.5 まとめ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 65 ４文脈を単位とする自然言語処理の応用 67 4.1 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 68 4.2 文脈処理を取り入れた機械翻訳・・・・・・・・・・・・・・・・・・・・・・・. 68 4.2.1 英日機械翻訳システムShalt2における文脈処理システムDIANA .69 4.2.2 also､only等の副詞の修飾範囲の決定‥・・・・・・・・・・・・・・. 70 4.2.3 代名詞の照応先決定 ‥・・・・・・・・・・・・・・・・・・・・・・・. ･73 4.2.4 文脈内での一貫性保持による曖昧性解消・・・・・・・・・・・・・・. 74 4.2.5 省略の補完・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. ･79 4.2.6 叙法の判別・・・・・・・・・・・.･・・・・・・・・・・・・・・・・・・. 79 4.2.7 まとめ一一文脈処理による翻訳精度向上への寄与・・・・・・・・・・. 79 4.3 キーワードのカテゴリ決定‥・・・・・・・・・・・・・・・・・・・・・・・・. 80 4.3.1 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 80 4.3.2 キーワード語義決定と文脈情報・・・・・・・・・・・・・・・・・・・. 81 4.3.3 実験‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥82 4.3.4 まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 86 4.4 表層情報による文脈処理の眼界・・・・・・・・・・・・・・・・・・・・・・・. 87 4.5 まとめ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 88 ５結論 91 5.1 「序論」の総括・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 92 2 5.2 _{「基礎的考察」の総括} 5.3 「文脈制約と文脈選好を用いた自然言語処理」の総括・・・・・・・・・・・・ 5.4 「文脈を単位とする白然言語処理の応用」の総括・・・・・・・・・・・・・・ 5.5 おわりに参考文献３ 93 94 97 99 105

(5)

４

第１章

(6)

1.1 序

-一一一一計算機の能力，特に価格性能比が向上し，計算機が広く社会に普及した結果，世の中の膨大な文書が電子化されて蓄積されるようになった．さらにネットワーク技術の向上と普及により，世界中に存在する電子化された膨大な文書に容易にアクセスできるようになっている．このような状況で，膨大な文書から必要な情報を効率的に得られるように，また，オフィスのみならず家庭にまで広く普及した計算機をより容易に操作できるように，自然言語処理の必要性はますます高まっている．例えば，自然言語を計算機で翻訳させようという機械翻訳の試みは，電子計算機が出現した直後の１９５０年頃から始まっている．この機械翻訳の研究は，１９６０年代に入って本格化したが，１９６６年にアメリカのNationa1 Academy of Sciences のDivisionof Behaviora1 Sciences に設置されたAutomatic Lan卯age Processing Advisory Committee が出した報告書，いわゆるALPAC report による，機械翻訳への投資は時期尚早であるという報告により致命的な打撃を受け，１９６０年代の後半から１９７０年代にかけては停滞していた．しかし，計算機能力の向上と社会の国際化による翻訳需要の増加により，１９８０年代に入って再び本格化し，日本でも数多くの商用機械翻訳システムが開発された．大型汎用計算機やワークステーションをプラットホームとした１９８０年代の機械翻訳システムは，商業的には大きな成功を収めたとは言いがたいが，その後，１９９０年代半ばから急速に普及したインターネット上のＷＷＷを介して得られる世界中の文書を母国語で読みたいという要求や，パーソナルコンピュータの能力の向上により，パーソナルコンピュータ上で動く安価な機械翻訳ソフトが大きな市場を形成するようになった．また，ユーザーインターフェイスという観点からは，１９９０年代後半に入って，声でパーソナルコンピュータを動かしたり文書作成をするための音声認識ソフトウェアが市販され，普及し始めている．このように自然言語処理技術を応用したソフトウェアが広く利用されるようになってきたが，機械翻訳や音声認識の精度は，決して充分なレペルに達しておらず，一定の条件の下で限定的に使用されているのが現状である．したがって，このようなソフトウェアの品質を向上させるためにも，自然言語処理技術の向上が強く望まれている，自然言語処理で最も大きな問題は曖昧性の解消である．自然言語では同じ単語の並びによって異なる内容を表現できるため，自然言語文を解析する際には，解釈可能な複数の候補から正しい内容を選択する必要がある．この処理が曖昧性の解消であるが，曖昧性解６消に失敗し,文の解釈を誤ると，処理結果が全く使いものにならなくなってしまうほど影響が大きい．既存の技術ではこの曖昧性解消処理を単文単位で行なっており，文の解釈は，その前後の文の内容とは関係なく，予め与えられた曖昧性解消のための知識と，同じ文の中の情報のみを参照して決定される．ところが，文の切れ目は元来曖昧であり，複数の文を結合して一つの長い文にすることや，複数の述語を含む長い一つの文を複数の短い文に書き換えることも可能であることから，単文単位で処理する必要性の根拠は薄い．また，ある一つの文を与えられた際に，人間であっても，前後の文を見ない限りその文を正しく解釈するのは困難な場合がある．したがって言葉は前後の文の内容を含む文脈に即して解釈されるべきものであるが，・文脈をモデル化する技術が確立されていない・文脈単位で処理を行なうと急激に複雑性が増し計算コストが増大すると予想されるという理由から，実用的なシステムには文脈処理は採用されていないのが現状である．文脈処理に開する従来の研究では,文脈に依存する様々な言語現象の検討や,そのモデル化がなされてきたものの，未だに文脈の表現方法は確立されておらず,その前提となる文脈の定義さえも曖昧である．また文脈処理の研究自体も，文脈処理独特の現象に特殊化した,実用性をあまり考慮しないものが多い．しかしながら，計算機の能力が飛躍的に向上し，文脈を構成する複数の文を同時に保持するのに充分な記憶領域を利用できる現在，文脈処理は必ずしも計算コストの高い処理になるとは限らない．また，文脈自体は曖昧模糊とした存在であっても，同じ文脈に属する文の間には，通常，何らかの強い開運性（一貫性）が存在する．しかもその関連性は深い意味レベルにとどまらず,各文の表層構造にも影響を与えている．本研究では，文脈を，「複数の文から成る一まとまりの文章において,その要素の文に共通して存在する何らかのバイアス」と捉え,同じ文脈中の言葉の用いられ方に見い出される様々な性質を利用することで，特に複雑な推論を行なわなくとも，計算量的にも，前提とする知識という観点からも実用的なレベルで様々な曖昧性を解消する手法を開発した．例えば，同じ文脈に含まれる文の中では,同じ語が繰り返し出現する確率が高く，しかも繰り返し出現している語どうしが同じ関係を介して接続するという性質が見られる．この性質を利用し，同じ文脈中の語の振る舞い（すなわち，ある語がどのような語義を取る７

(7)

か,またどの語と係り受けを結ぶかなど)が，文脈内で整合性を保つように曖昧性を解消することで，曖昧性解消の精度が高まるという結果が得られた．本論文では，文脈中の言葉の用いられ方に見い出される様々な性質を示した上で，従来の単文単位の自然言語処理の枠組を文脈単位に拡張することにより処理の精度を向上させる新しい自然言語処理の枠組を提案する．本章では，第２節で，自然言語処理の難しさ，特に自然言語における曖昧性の問題と，曖昧性解消に関する従来の研究を考察し，自然言語処理における文脈情報の重要性を示した上で，第３節で，文脈処理に関する従来の研究を考察し，自然言語処理における研究の傾向とこれまでの文脈処理手法の問題点をまとめる．そして，本研究の目的を明確にした上で，第４節で本論文の構成を示す．

1.2 自然言語処理における曖昧性解消

本節では，本研究で扱う自然言語の曖昧性解消に関する従来の研究について簡単なサーペイを行ない，自然言語技術の現状を示した上で,本研究の主題である文脈情報の利用の必要性を示す．１．２．１自然言語における曖昧性自然言語では,同じ文（本論文では，一つ以上の単語の並びを『文』として扱う）で異なる複数の内容を表現することが可能である．この性質は，自然言語の効率性を高めている反面，与えられた文を機械で解析する際には，一つの表現から複数の解釈が可能になる曖昧性を生じることになる．例えば,「赤い車のハンドル」という文においては,「車」がr車輪』を意味するのか『自動車などの乗物』を意味するのかという語義の曖昧性（意味的曖昧性，多義性）と「赤い」が「車」に係るのか「ハンドル」に係るのかという係り先（修飾先）の曖昧性（構造的曖昧性）が存在する．このような曖昧性は，日本語といった特定言語に眼らず，自然言語全般に存在し，文法的な知識では解消できないため，各単語の用いられ方や，対象世界に関する何らかの知識（例えば,「語Ａは，語Ｂと係り受けを結び易く，語Ｂと係り受けを結ぶ際にはａという意味で用いられる場合が多い」という情報）が必要となる. ・広範な文を扱うためには，その曖昧性解消のための知識の構築が大きな問題となる．１８９８０年代までの自然言語処理では，このような知識は，もっぱら人手により構築されてきた．しかし，人手による知識の構築は，・コストが高い・個人の主観が入る余地が大きく，複数人で構築した知識の内容に個人差によるバラツキが生じ，品質が安定しないという問題があった．そのため，１９８０年代後半以降，特に１９９０年代に入ってからは，自然言語処理における曖昧性解消の知識源として，電子化された辞書の語義文を矛1』用したり，用例のデータを用いる手法の研究[1o,2o,56,6o]が活発になった．以下では．そのような，電子化された大規模なテキストデータ(コーパス)を利用して曖昧性解消のための知識を自動的に抽出し，解析精度を向上させる研究をサーベイする． 1.2.2 語義の曖昧性の解消まず，文中の語句により表現される概念の曖昧性を解消する知識を抽出する研究についてサーベイする．ここで，語義の曖昧性の解消とは，ある単語によって表現可能な複数の概念候補から，実際に文中で示している概念を選択する処理である．例えば，bank という語は,「銀行」や「土手」「傾斜」などの様々な概念を表現できるが，掛け言葉的な特殊用法でない限り，通常は文脈によって，その表現する概念が一つに限定される．ただし，概念の種類（どの様な概念を異なったものと見なすか）についての一般的な合意が存在しないため，多義性を扱う際には何らかの基準を設定する必要がある．例えば，英語ではwearという語が「身に付ける」という一つの概念を表現すると考えられるのに対し，日本語では,「身に付ける」体の部位によって,「履く」「着る」「かぶる」などと区別しているように，概念を区別するための基準が文化や主観などにより異なる場合がある．従って語義の曖昧性の解消においては，どのような知識をどのように利用することで最適な語義を選択するかという問題と共に，語義をどのように分類するかという問題が存在し，概念を区別するための基準は，研究毎にその目的や用いるデータにより異なる. Brownらの研究圓では，語義の選択を他言語への翻訳における訳語の選択過程として捉えており，翻訳結果で常に同じ訳語が与えられる場合は処理対象から除いている．この手法では，多義語に対して，文中でその訳し分けに最も大きな影響を与える要素［直前の語・直後の語・前（左側）の動詞・後（右側）の動詞など］を，コーパスの統計的分析９

(8)

によって決定し，その要素の情報を参照することで訳語を決定する.C4nadian Hansard dataの約百万対の仏英の短文中から約千二百万語の語レペルの対応を取ったデータから知識を抽出しており，その効果としては，評信用百文(各文十語以内)の翻訳において，成

功した文(acceptal)Leな翻訳文)の数が３７から４５に向上(エラー率が１３％減少)したという結果を報告している.

Guthrieらの研究[端では，Longman's Dictionary of ContemPorary Enμish(LDOCE) における語義番号の決定を語義決定の基準としている．ＬＤＯＣＥには，語義毎にEC(Eco-nomics)やBU(Business)などの分野を示すサブジェクトコードが振られており，語義文は2187語の制限語彙で記述されているという特徴がある．この研究ではこの特徴を利用して，ＬＤＯＣＥの語義文のコーパスから特定のドメイン(サブジェクトコードのサブジェクトに相当)で共起し易い語のリスト(subject-dependent neighborhoods)を抽出し，そのリストと処理対象となる多義語の周囲の文脈(文からパラグラフ程度まで)との共通項を比較することで，語義を決定する．人間向けの辞書という，計算機用ではないが人工的に構築された知識源の特徴をうまく利用して計算機用の知識を抽出したところに特色がある.

Yarowskyの研究[62]では，Roget's lnternationa1Thesaurus 第４版(ChaPman, 1977) の中で規定されているカテゴリけ042種)への分類を語義決定の基準とし，多義語の語義はそれを取り巻く文脈に依存するという性質を利用して語義決定を行なう．まず，Roget のカテゴリの区別を表現するような文脈情報として，各々のカテゴリの文脈において高頻度で出現する語(salient word)をコーパスから抽出する．これを利用して，処理対象の多義語を取り巻く文脈(前後各５０語)におけるsanent word の出現頻度から，その文脈に対応する多義語のカテゴリを決定する．一千万語からなるGrolier's EncydoPediaけ９９１年６月電子化版)を用いて知識を抽出し，starやinterest，dutyなどの多義語１２語の語義を９２％の精度で決定できたという実験結果を報告している. DaganとSchwa11の研究囲では，機械翻訳の訳語選択において，対象言語のコーパスにおける共起情報を用いている．例えば，ヘブライ語のmagdila(英語ではincrease， enlarge，あるいはmagnifyに相当)を英訳する際に，原言語文におけるmagdUaの目的語が英語のchanceに相当する場合パncrease，enlarge，magnifyの中から，英文コーパスにおいて最も高い頻度でchanceを目的語にしている語を訳語として選択する．ヘブライ語から英語への実験では，新聞の国際記事欄から抽出した１０パラグラフの翻訳(内，訳 10 語の曖昧な語１０５語バこおいて，適用率(有効な差異をもって訳語を選択できた語の割合)が７０％(＝７３／１０５)，正解率は９２％(＝６７／７３)であり，ドイツ語から英語への実験では，新聞記事から抽出した１２パラグラフの翻訳(内，訳語の曖昧な語５４語)において，適用率が５９％(＝３２／５４)，正解率は７５％(＝２４／３２)という結果が報告されている．訳語選択を多義性の解消と捉える点でIBr()wn et at･,91]と共通しているが，用いるデータがアライメントのとれた二言語コーパスではなく，あくまで対象言語の単言語コーパスであり，データのコストを低く抑えられるところに特徴がある．コーパスとしては，約４千万語のThe Washington Post articles，約２千４百万語のAssociated Press newswire stories(AP News)，約８千５百万語のCanadian Hansard dataが用いられており，そのうち２５語以下からなる文をMCCordのＥＳＧパーザ[29jで構文解析し，依存関係を抽出している．また，ESGパーザではそのうち３５％程度が解析できなかったため，実際のコーパスのサイズはさらに小さくなっている． 1.2.3 係り受けの曖昧性の解消次に，構文構造における曖昧性を解消するための知識を抽出する研究についてサーベイする．構造的曖昧性の原因は，係り受けの曖昧性，多品詞語の存在，並列句のスコープなど多様であるが，英文の場合，最も大きく取り上げられている問題は前置詞句の係り受けにおける曖昧性である．例えば，

He saw a girlwith a telescope.

という文において，with a telescopeの係り先としては，sawとa girlのニつの候補が存在する．この場合，どちらに係るかで｢(彼が)望遠鏡を使って(少女を見る)｣｢〔彼が〕望遠鏡を持っている(少女を見る)｣という異なる解釈が生じるため，正しい解釈を行なう過程の一環として，係り先を決定する処理が必要となる，上記の文は，文法的にも意味的にも両者の解釈が可能であるため，文脈の参照が必要となる例として知られているが，通常は，

He saw a comet with a telescope.

のように，文法的な制約では曖昧性が解消できなくても，意味的にa comet with a telescope （望遠鏡を持つ彗星）という解釈よりもsee∼with a telescope（望遠鏡を使って∼を見る）

(9)

の解釈のほうが妥当であるとして，結果的に一通りの解釈を得られる場合が多い．このように，『acomet with 八elescopeよりも，see∼with a telescope の解釈の方が優先される』，言い換えると『with a telescope はa comet よりもseeに係り易い』というような知識をコーパスから柚出し，それを用いて係り受けの曖昧性解消を行なう手法に関する研究をここで考察する. HindleとRoothの研究［暉では，コーパスにおける動詞や名詞と前置詞との共起関係から，特定の動詞や名詞に係り易い前置詞のデータを柚出している．すなわち，コーパスから前置詞を含む文を抜き出し，各文において，・動詞の直後に出現していて動詞に確定的に係っているパタン・名詞句内で，名詞句に確定的に係っているパタン・動詞一名詞句一前置詞句の組合せで係り受けの曖昧性を含んでいるパタンの情報から，各前置詞と動詞や名詞との接続頻度を求め，そのデータを用いて前置詞と動詞や名詞との接続選好度を計算し，曖昧な前置詞句の係り先を決定する．データ抽出過程では構文解析の結果をそのまま用い，人手を介さない．その際，構文解析器(パーザ)の解析エラーや，最も近い述語を飛び越した係り受けが存在するため，必ずしも完全なデータは得られないが，そのような誤データはノイズとして扱い無視する．具体的には１３００万語からなるAP News からのデータ抽出を報告している．この手法では，前置詞句全体でなく前置詞しか考慮していないため，処理が軽くなる反面，

Britainreopend its embassy in December.

英国は大使館を１２月に再開した(in December はreopendに係副 Britainreopend its embassy in Teheran.

英国はテヘランの大使館を再開した(in Teheran はits embassy に係る)

のように，前置詞句のヘッドとなる名詞によって係り先が異なるパタンには対応できない．従ってさらに精度を向上させるためには，動詞や名詞句と前置詞のみの関係ではなく，前置詞句のヘッドとなる名詞句まで参照すべきであるが，語彙に含まれる仝ての語についての前置詞と係り先とのパタンは膨大な数にのぼるため，そのような処理は必要なコーパスの量からも計算量的観点からも困難である．そこで個別の語ではなく，何らかの分類に 12 基づいたクラス単位でデータを集めることにより，データの適用率を向上させようという研究が存在する． Resnikの研究[46]では，WordNetの分類(taxonomyﾄ清報を利用して，処理対象とする語の概念クラスを規定する．その概念クラスに関してコーパスから統計的な情報を抽出

し，意味的類似性(semantic similarity)や接続性(selectional association)を算出，これらの情報を利用して，並立句及び複合名詞句の構造推定や前置詞句の係り先の決定を行なっ

ている．個々の単語でなく概念クラスのレベルで統計情報を取るところに特徴があり，これによって適用度が向上すると共に，データが一般化されるのでコーパス中の特定のコ

ンテクストによるデータの歪みが軽減されるというメリットが得られる.Penn Treebank のxya11 Street JournalやBrown Corpus， AP News を利用した実験結果を報告している．具体的には，名詞1 and名詞２名詞３のパタンの並列構造を決定(すなわち，corn and peanut butter が｢peanut butter とcorn｣なのか，あるいは｢cornとpeanutの butter｣なのか判断)する問題では，名詞１と名詞２を並列と判断するデフォルトの正解率６６．０％に対し．８１．１％の正解率という結果が，また，前置詞句の係り先決定問題ではテスト対象により異なるが，７２．８∼８２．２％という結果が得られている．以上二つの研究においては，曖昧性を保持した形態の構文解析出力を前提としており，係り受けの曖昧性の解消は構文解析の後処理として行なわれる．これに対し，文法的な知識と語彙や意味的な知識の適用を分離せず，統合的に処理しようという研究も存在する． ChangとSuの研究圖では，構文解析における曖昧性を解消するために，語彙的・構造的・意味的選好度を統一の枠組で評価する表現形式を定義し，各選好度を評価関数により算出して比較することで，最適の構造を選択している．構文解析と曖昧性解消が一体化しているところに特徴があり，評価関数のパラメータを学習するという形態でコーパスから知識が抽出される．計算機マニュアルの１２冊から任意抽出した千文において実験が行なわれてま3り，構造的曖昧性の解消において，構造的評価のみによる処理に加えて意味的評価値を利用することで，１０％∼１４％の精度向上が得られている．ただし，最終的に得られた精度は，クローズテストでは９７％だが，オープンテストでは５７％程度にとどまっている. 13

(10)

1.2.4 まとめ以上のように，自然言証文の各単語の語義や係り受けの曖昧性を解消するという問題は,自然言語処理における最も重要なテーマの一つであり，この問題を解決するために電子化された辞書の語義文を利用したり，用例のデータを用いるといった様々な手法が研究，開発されている．従来,人手の介入を必要とした知識に依存してきたため，実用的に充分な範囲の文を扱うための知識を構築することが困難であるという問題(知識獲得ボトルネック)が存在したのに対し，近年では，電子化された大量のテキストデータ(コーパス)の利用環境の整備に伴い，向上した計算機能力を活かして，曖昧性解消のための知識をコーパスから自動的に抽出し，解析精度を向上させる研究が盛んになった．ところが，そのような手法を用いても，現状では,汎用性を備えたシステムを構築するために充分な規模の知識を構築する見通しは立っておらず,曖昧性解消処理に失敗する原因の50％近くを知識の不足が占めている･[伺また，コーパスから抽出した知識は，コーパスとして集められたテキストデータが属する分野への依存性が高く，上記のChangとSuの研究[5]の実験結果にも見られるように，異なる分野の文へ適用した場合の効果は比較的低い．さらに，このような曖昧性解消の知識は，一般的な妥当性の高い(統計的に頻度の高い)解釈を優先するための知識であり，この知識を用いて

Hesaw aがrl with a telescoPe.

のような文脈に依存する曖昧性を解消することは困難である．その上，自然言語文においては，固有名詞などで，システムの辞書に記述されていない語が出現する場合が多く，その場合には未知語として処理される．人間の場合には，前後の文脈から未知語の意味（少なくとも人か物か程度のカテゴリ）を推定した上で文中における他の語との関係を捉えることができるが，既存の自然言語処理では，語に関する知識の存在しない未知語の処理は困難であり，文脈を考慮しない処理の枠組には眼界がある. 14

1.3 自然言語処理における文脈処理

本節では，文脈処理に関する従来の研究を考察し，自然言語処理における研究の傾向とこれまでの文脈処理手法の問題点をまとめた上で，本研究における文脈処理の方向を示す．１．３．１従来の文脈処理技術自然言語処理における文脈処理1の重要性は長いこと認識されているが,従来の文脈処理研究(例えば[34,18Dには内容理解を指向した複雑な処理に依存するものが多く，汎用的なシステムでの実用化には結び付いていない．例えば，代名詞の照応先決定は，照応先が同文内に存在するとは限らず，文脈の参照が必要となるため，文脈処理の典型的な問題である．この問題に関しては，charniakが【61 で示したように，照応先が文脈内に陽に記述されていない場合があり，その際には，対象世界に関する深い知識と共に，その対象世界のモデルと文内容を対応付けた上で，文内容が対象世界モデルに対してどのような変化をもたらすかを推論し，照応先の概念を推定する能力が必要になる．そのような複雑な問題を解決するためには，例えば，Schankらが [491で示したように，対象登界モデルにおける様々な状況と，状況間の因果関係や状況の変化の流れを記述するスクリプトのような知識を構築し処理する必要があると考えられる．このような知識の構造は，前節で示した語義や係り受けの曖昧性解消に用いる知識に比べてはるかに複雑であり，多様な入力文に対する汎用的な知識を構築するのは，現在の研究レベルでは不可能に近いと考えられる．また，知識構築だけでなく，実際に処理する際の計算コストという観点からも，実用性は低い．従って，研究レベルでは文脈情報を用いた深い解析能力を実現するシステムも構築されている【18,53】が，対象世界を限定した上で成り立っており，実用性・汎用性は低い．また，処理対象を係り受けや並立句のスコープの決定に限定し，文脈情報も文中に出現する体言のリストと述語との格関係情報などに限定して実用性を高くしている試みも[3o] 存在するが，対象世界に対する概念知識を必要とする点で汎用性に欠けている．文脈処理を実現するためには,何らかの形で参照すべき文脈モデルを構築する必要があるため，文脈処理に関する従来の研究では,文脈に依存する様々な言語現象の検討や,そ 1ここでは､単文内だけの情報では解決不可能な処理を文脈処理と呼ぶ． 15

(11)

のモデル化がなされてきたところが｢文脈｣という言葉で表現される内容は多種多様であり，何の処理を行なうかにより，参照すべき内容は異なる．自然言語処理において従来提唱されてきた文脈モデルには,文脈情報の要素として，・文脈の構成要素となる実体・イベント・時間,及びそれらの関係・文脈の区分(segment)一焦点となる内容(語句のリスト，及びそれらの関係といった内容が含まれることが多い(例えぱに3))，しかし,これらの要素を自動的に，しかも正確に抽出することは困難であり，実用システムでの利用には問題点が多い． 1.3.2 まとめ前節で示した通り，自然言語を単文単位で処理する枠組には限界があり，処理対象の文脈を考慮して適切な知識を用いたり，既存の知識源に情報が存在せず未知語として扱われる造語については文脈中での用いられかたから，語の意味や他の語との関連性を推測したり，文脈に応じた語の解釈を可能にするような技術が必要である．ところが，本節で述べた通り，実用システムでの利用に適した文脈の表現方法は未だに確立されておらず,その前提となる文脈の定義さえも曖昧である．しかしながら，文脈自体は曖昧模糊とした存在であっても，同じ文脈に属する文の間には何らかの強い関連性が明らかに存在する．しかもその関連性は深い意味レベルにとどまらず,各文の表層構造にも影響を与えている．このことから文脈を「複数の文から成る一まとまりの文章において,その要素の文に共通して存在する何らかのバイアス」と提えると，同じ文脈に存在する文の中では,同じ語が出現する確率が高く，しかも繰り返し出現している語どうしが同じ関係を介して接続するという性質が見られる上,同じ語は同じ意味で用いられることが多い111,4ol.また，例えば，計算機マニュアルや特許文のような技術文，ビジネス文では，代名詞の照応先は，ほぼ100％に近い割合で,文脈内に陽に記述されており，Hobbs の研究116］では，通常の文章では，構文解析結果の木構造を利用する程度の表層的な処理でも，80％を越す精度で代名詞の照応先が決定できることが示されている．従って，実用性を考慮した場合，照応先が文脈内に陽に記述されていない場合を想定した複雑な処理は必要無いと考えられる．本研究では，深い理解にはこだわらず，上に述べたような文脈の性質を利用し,比較的表層構造に近いレベルで文脈内の整合性を保つような制約を適用することで,係り受けの 16 曖昧性解消を含めた構文解析､多義語の語義決定､代名詞の照応先決定などの精度を向上させつつ､文脈に応じた文の解釈を行なう手法の開発に取り組む．

1.4 本論文の構成

本論文では，まず，第２章で,『司じ文脈中の言葉の用いられ方に見い出される，曖昧性解消に有効な性質について考察する．次に，第３章で,この性質を利用した曖昧性解消を実現するため，同―文脈に属する複数の文をまとめて処理し，全体的な処理の精度を向上させる枠組を提案する．さらに，本手法により実際の文書を処理した結果を通してその有効性を示す．そして，第４章で,本手法を，機械翻訳や，キーワードのカテゴリ決定に応用した例を示し，その実験結果を通して，本手法の実用システム上での有効性を示す．最後に，第５章で本論文の結論を述べる． 17

(12)

18

,4φf･弼２

(13)

2.1 はじめに

文脈処理に関する従来の研究では,文脈に依存する様々な言語現象の検討や,そのモデル化がなされてきた．しかし未だに文脈の表現方法は確立されておらず,その前提となる文脈の定義さえも曖昧である．ところが,文脈自体は曖昧模糊とした存在であっても，同じ文脈に属する文の間には何らかの強い関連性が明らかに存在する．しかもその関連性は深い意味レベルにとどまらず,各文の表層構造にも影響を与えている．本章では表層構造に発現した同文脈内の白然言語文の性質に焦点を当て,頑健で実用的な処理による曖昧性解消の精度向上に利用可能な文脈の性質を考察する．まず，第２節で自然言語の文脈依存性について示した後，第３節，第４節で，本論文で提案する手法の基盤となる，文脈制約，文脈選好という性質を示す．

2.2 自然言語の文脈依存性

自然言語処理においては､曖昧性解消のための様々な知識が必要であり、問題解決に有効な知識をいかに効率良く構築するかが精度向上の鍵となっている．人手による知識構築はコストが大きいため､第１章で示した通り、近年では電子化された大量の文書を自動的に処理して曖昧性解消に有効な知識を抽出する試みが盛んである．ところが､このように統計的手法を用いて抽出された知識は､あくまで一般的な知識としてしか適用できず､文脈に応じた文の解釈を行なうためには､既存の統計的手法を用いて抽出された知識は不適当である．例えば､英語の1ineという単語は英文書中で百万語あたり二百回から三百回程度出現するという調査結果[17]が存在する1.しかし実際にはjineという語は数子語の間隔をおいて一様に分布しているわけでなく、特定の文章では数十語以内に数回出現するというように､文脈次第では頻出したり、全く出現しない場合がある．またjineは様々な意味で用いられるが､その語義の多様性もランダムに分布しているわけではなく、ある文章では常に｢線｣という意味で用いられたり、別のある文章では｢糸｣という意味で用いられたりというように多義語であっても同じ文脈内では同じ意味で用いられることが多い[11､4o]･このような語の用いられ方､あるいは語の振舞いの文脈依存性は､Ｎグラムモデルのよう喧し1ineのみで､1inesのように表層の変化した形は含まない 20 に,多種多様な文書を混合して処理する統計的モデルでは扱えない性質であり，なおかつ，文章を処理する際には無視できない重要な性質であるに例えば，第１章で示したChangとS11の研究［51の実験結果にも見られるように，学習した知識は，その情報源である学習コーパス内でのクローズトテストでは非常に高い効果を示していても，異なる文脈に対して適用したオープンテストでは,あまり良い効果が得られない．これも語の振舞いの文脈依存性に起因すると考えられる. sekine【51】は，コーパスからの文法の学習という処理において，学習した文法を異なる分野のコーパスに適用した場合は処理の精度が落ち，コーパスから学習した文法には分野依存性が存在することを報告している．遂に，このような白然言語の分野依存性を利用して，文書を分野別に分類する試み（例えば川241）も存在する．また，商用の機械翻訳システムの大半が分野辞書を利用する仕組みを備えており，翻訳精度を向上させるために適切な分野辞書を適用することを．−ザーに推奨しているという事実も，自然言語の分野依存性を裏付けていると考えられる．このような分野は，文書のテーマや対象世界を限定するという観点から，広義の文脈として捉えることができ，さまざまな研究で報告されている自然言語の分野依存性は，自然言語の文脈依存性を示唆すると考えることができる．次節では，文脈を，「複数の文から成る一まとまりの文章において,その要素の文に共通して存在する何らかのバイアス」と捉え,文脈内の語の振る舞い（どのような語義を取るか，どの様な語と係り受けを結ぷかなど）に具体的にどのような性質が見られるかを分析する．

2.3 文脈制約

第１章で述べたように，自然言語処理における曖昧性を解消するためには,何らかの知識の参照が必要となる．そのため,入力文の語彙を制限しない汎用性を備えた実用レペルの自然言語処理システムを構築するためには,膨大な数の語に対応するための大規模な知識の構築が必要であり，この作業には大変な労力が要求される．この問題を解決するために,知識源として,既存の電子化された辞書や対訳コーパスを用いる試みが存在するが，そのような手法を用いても，現状では,ある程度の汎用性を備えたシステムを構築するために充分な規模の知識を構築する見通しは立っておらず,曖昧性解消処理に失敗する原因 21

(14)

の5岨近くを知識の不足が占めている寸痢そこで､曖昧性解消の知識源として.予め構築した知識以外に､処理対象としている文章そのものに着目し､曖昧性解消のための情報を文章内から抽出するという観点で､機械翻訳の処理対象としての需要の高い英文計算機マニュアルの文章の分析を行なった㈱ﾄ曖昧性の解消は､基本的には､ある語の振舞い（どのような語義で用いられ､どのような語と係り受けを結ぶか）を決定することと提えることができる．例えば、

Printing docunlents in batch.

という句2では､構文的にはin batch の係り先としてprintingとdocumentsの２通りの可能性が存在するため､曖昧性が生じている．この場合、「in batch は副詞句として述語概念を修飾する」といった知識が存在するならば､その知識を参照し、in batch の係り先を printingにすることでこの曖昧性を解消できる．しかし、そのような知識が存在しない場

合､同文章中の他の文でin batch 或はbatchがどの様な振舞いをとっているか（printing あるいはdocurnentsに確定的に係っていないかどうか、述語に係り易いか名詞に係り易いかなど）の情報を曖昧性解消に利用することができる．つまり、ある語の曖昧性を解消するためには､同じ語（その語と同じ語基を持つ語）の振舞いに関する知識を参照することになり、同文章中で､同じ語が複数回出現していれば､他の位置における同じ語の振舞いを曖昧性解消の知識として利用することが可能になる．その際､曖昧性解消の情報を抽出するという観点から、一つのまとまった文章における、同じ語の出現頻度が問題となる．２．３．１語基の同じ語の出現頻度上記の観点から英文計算機マニュアル12冊を調査したところ，平均して，同じマニュアルに出現している白立語の91.6％が複数回出現しており，自立語の78.0％においては，５回以上出現しているという結果が得られた3べ表2.1) さらに.複数回出現する語が，どの程度の距離を置いて繰り返されているかを,名詞に関して調べた結果を図2.1に示す．横軸は，表層的に同じ名詞が再び出現するまでの距離 (文の数)であり，その距離をおいて再び出現するパタンの頻度を縦軸で表している．この２これは実際の計算機マニュアルから抽出した章のタイトルである．３この結果はZipfの法則にほぼ一致している 22 表2.1:英文計算機マニュアルにおける語基の同じ語の出現頻度

品詞

同じマニュアル内で複数回出現する語の割合自立語全体に対する比率２回以上(％)

５回以上(％)

出現総数(語)

比率(％)

名詞

90.7 76.2 99047 59.8

動詞

94.9 83.6 35622 21.5

形容詞

88.9 71.0 16941 10.2

副詞

85.9 68.8 4993 3.0

代名詞

98.0 94.8 8911 5.4

総計

91.6 78.0 165514 一図から分かるように，短い範囲で同じ名詞が繰り返されるケースが多く，複数回出現する名詞の90％以上は,36文以内で出現しJO文以内で繰り返し出現するパタンが72％にも及んだ．以上の結果より，ある単語の振舞いに関する情報を,一つのまとまった文章内から高い確率で抽出できることが確認できた．但し,同じ文章中の同じ語の振舞いに関する情報を曖昧性解消に適用するためには『同じ文章内で同じ語が同じように振舞う』という性質の成立が前提となる．従って,次に,まとまった一つの文章内で,同じ語が実際に同じ語義で用いられているかを調査した， 2.3.2 英文計算機マニュアルにおける語義の調査この調査は,特定の分野について深い知識を持っているプログラマやシステム・エンジニアを対象とした専門的なマニュアル[641と,初心者を対象として計算機の基本知識を説明するマニュアル[63]の２冊を対象として行なった．どちらのマニュアルも，原文は英語であるが，日本人ユーザ向けに翻訳された日本語版が存在する．そこでまず，英語版の文と日本語版の文を対応付けし，英語版の文の解釈に曖昧性が存在する場合には，日本語版の翻訳文の解釈を正解とすることにした．次に，２冊のマニュアルに記述された全文をPEGパーザ[21]で構文解析し，その結果を人手で確認修正した上で蓄積した構文情報付きテキストデータペースを作成した．このデータペース中のデータの一部を図2.2に示す．図2.2に見られるように，２冊の英文マニュアル中の全ての英文に対し，対応する日本語訳と，文中に含まれる全ての語の品詞． 23

(15)

ＡＤＵｅｎＤｅＪｊ１０００工００１０工０ _５０ _１００ _]．５０ _２００ _２５０Ｄｉｓｔａｎｃｅ（ＮｕｍｂｅｒｏｆＳｅｎ仁ｅｎｃｅｓ）図2.1:語基の同じ名詞が繰り返し出現するまでの文間距離 24 ３００ IIChap七er6.11 ¨第６章¨ ((NP (N{}UN* (LABEL (PUNC I’chapterj’（¨chapter‘I SG））（NOUN* ¨6¨（II6¨PL））） I’.II））0）

IIStoring Massages in Journa1 Fi1白s.'I IIジャーナル・ファイルヘのメッセージの記録¨ ((PRPR゛rCL(VERB＊I'storingII(¨store¨PG)) (NP ？（NCON＊¨Messagesl’（¨message¨PL）） (PP (PP (NP （ＰＲＥＰ＊ ¨ｉｎ¨））（ＮＣＵＮ* ¨Ｊｏｕｒｎａ１¨（¨ｊｏｕｒｎａ１¨ＳＧ））） (NDUN*一一Files"(I'filajl PL)))) (PUNC II.I'))500.6458125) 図2.2:構文情報付きテキストデータペース内容の一部語形変化する語の原形〔語基･〕，性や数の属性，品詞，句構造，句のヘッド（同じレベルの句の中で係り先となる，図2.2では句のラベルに*を付けて表示），係り先の曖昧な語句に対する係り先の候補が記述されている．係り先候補の記述例として，図2.2では/‘in Journa1 Files”が,文法的にぱStoring”にも“Messages”にも係り得る．そこで，位置

的により近い“Messages”を暫定的な係り先としてパin Journal Files”の前置詞句（PP）が名詞（ＮＯＵＮ*）の“Messages”と同じレベルに記述されているが，可能な係り先の動詞（VERB*）の“Storing”と同じレベルに９を記述して係り先の別候補を示している．この構文情報付きテキストデータペースを利用して，各マニュアルにおいて,複数回出現する多義性4を持った自立語で，原形が同じ文字列である語が,同じ章内,及び同じマニュアル内において,全て同じ語義で用いられてるかどうか，語義の一貫性の度合を調査した．ここでは，語義の一貫性（同じ文脈内では同じ語が同じ意味で使われるという性質5）の度合を以下の式で算出する． (文脈中で複数回出現している多義語のうち常に同じ語義で用いられている語の数) (文脈中で複数回出現している多義語の数) 4多義性の判断はLDOCE[67いこ従い，LDOCE中で複数の語義が定義されている語を多義語とした. 5同じ語とは，辞書中で同じ見出しで登録される語を意味し，語形変化していて表層的には異なる文字列であっても同じ語とみなす． 25

(16)

まず，専門家向けのマニュアルに関する調査結果を表2.2に示す6.専門家向けマニュアルの同じ章の中では,名詞で97.8％,動詞で96.3％の語が同じ語義で用いられているという結果が得られた．この語義の一貫性の強さが,文脈の範囲によってどう変化するかを見るため，専門家向けのマニュアルにおいて，一冊のマニュアル全体を一つの文脈とした場合の語義の一貧l生の強さを算出した．その結果，表2.3に示す通り，動詞で92.6％となり，文脈の範囲を広げると，語義の一貫性の強さは弱まるという結果が得られた．また，初心者向けのマニュアルでの調査では，語義の一貫性の強さは，名詞で91.8％，動詞で94.7％となり，専門家向けのマニュアルよりも，語義の一貫性が弱いという結果が得られた(表2.4).これは，初心者向けに記述された文章では専門的な用語を避け，より一般的な用語を用いる結果として，同じ用語による表現内容が多様化しているためと考えられる．図2.3に，同じ章の中で，多義語numberが,異なる語義で用いられる例を示す．これは，専門家向けのマニュアルの第４章においてnumberを含む全ての文であり，この中で，numberという語は， 1.位置(第88文) 2.値(第143文､第144文､第147文) 3｡数字(第209文) という，三通りの意味で用いられている．同じマニュアル全体を見ると，numberという語の意味は，この三通りのうちのどれかになっているが，第２章では，７回出現する全てのケースにおいて「値」という意味で用いられている．また，第５章でも７回出現するが，その全てのケースにおいて「位置」という意味で用いられている．一方，第４章においても，「値」という意味で用いられる文（第143文,第144文,第147文）は比較的狭い範囲にかたまっており，「位置」や「数字」という意味で用いられる文（第88文及び第209 文）から離れていることを考えれば，文脈の範囲を狭めれば，語義の一貫性は成立していると考えることもできる． 6表中、「動詞」の「複数の語義で用いられる多義語数」の榴で０に囲まれている数字は､同じ章のなかで異なる語義で用いられているが表層的に判断が容易な慣用句的表現の中でのみ異なる語義を取っている語の数を示している． 26 表2.2:専門家向けマニュアルにおける語義の一貫性

章

文書量

名詞

総

文

数

総

語

数

総

語

数

繰り返し出現する語

複数の語義

で用いられ

る多義語数

語義の

一貫性

の強さ

異なり語数

(多義語数)

全体に占

める割合

Notices ０１〃〃 692 273 48(22) 68.5％ _０ _100％ AboutThisBook 196 1693 645 ₈₃₍₄₅₎ _77.2％２ _95.6％ ChaPter 1 123 1315 552 _H(27) 74,8％１ 96.3％ Chapter 2 256 3499 1336 _173(83) _84.1％０ 100％

Chapter 3

438 2287 1124 _110(42) 83.2％２ 95.2％ ChaPter 4 277 2676 1075 _106(43) 90.2％１ _97.7％ ChaPter 5 41 502 185 ₄₀₍₂₁₎ 76.8％０ 100％ Chapter 6 93 964 353 ₄₇₍₂₂₎ _80.5％０ 100％ Chapter 7 439 1998 937

_89(川

87.2％１ 96.8％

Chapter 8

296 1829 774

_105(州

69.3％１ 97.6％ ChaPter 9 373 2908 1211 _154(78) 86.5％３ 96.2％

章

動詞

総

語

数

繰り返し出現する語

複数の語義

で用いられ

る多義語数

語義の

一貫性

の強さ

異なり語数

(多義語数)

全体に占

める割合

Notices 65 ₁₅₍₁₄₎ _64.6％１ _92.9％

About This Book 135 24(22) 74.1％

_３圃

86.4％ Chapter 1 116 ₂₆₍₂₃₎ _69.8％ _０ 100％ Chapter 2 359 54(46) 86.6％４ 91.3％ Chapter 3 153 30(25) 85.0％０ 100％ Chapter 4 274 40(34) 89.4％ 1(2) 97.1％ ChaPter 5 44

_財7）

63.6％０ 100％ Chapter 6 90 18(15) 65.6％１ 93.3％ ChaPter 7 138 22(19) 82.6％０ 100％ Chapter 8 161 28(27) 65.2％

_Ｏ圃

100％ ChaPter 9 302 ₅₅₍₄₆₎ 82.1％１ 97.8％７ − ９ム

(17)

ｎｕｍｂｅｒｎｕｍｂｅｒｎｕｍｂｅｒｎｕｍｂｅｒｎｕｍｂｅｒｎｌｌｍｂｅｒ (第４章，第８８文) 'ｌｎｎｌｌｎｉｓｔｈｅｔａｓｋｎｕｍｂｅｒｆｏｒＤＢ２。'‘ ｢ｎｎｎｎＤＢ２のタスク番号。｣ｎｕｍｂｅｒ (第４章，第143文)

lltallyl is the number of lmagePlus workstations successfully initialized ｡'l

rtally1 正しく初期設定されたｪmagePlusワークステーションの数｣ number

(第４章，第１４４文)

"tally2 is the number of hagePlus workstations that were not initialized ｡'1

｢tally2 初期設定されなかったlmagePlusワークステーションの数｣ number

(第４章，第１４7文)

'IThe value that apPears in Place of tally2 indicates the number of工magePlus workstations that were not initialized and cannot be involved in image oPerations at this time ｡¨

｢tally2に示される値は，初期設定されていないため現在のイメージ操作で使用できないｪmagePlusワークステーションの数を示します。｣

number

(第４章，第209文)

¨You mus七convert this number to the negative decima1 DB2 code .II 「この数字は，負の１０進ＤＢ２コードに変換しなければなりません。｣図2.3:専門家向けのマニュアル中の同じ章において多義語ｎｕｍｂｅＴが異なる語義で用むられている例 28 表2.3:文脈範囲を(専門家向け)マニュアル全体とした場合の語義の一貫性

総語数

繰り返し出現する語異なる語義で用いられる多義語の数語義の一貫性の強さ異なり語数(多義語数) 全体に占める割合 1837 182(149) 94.9％１１ 92.6％表2.4:初心者向けのマニュアルにおける語義の一貫性

品詞

繰り返し出現する語の割合語義の一貫性の強さ

名詞

77.0％ 91.8％

動詞

69.5％ 94.7％

形容詞

73.3％ 100％

副罰

46.0％ 100％このような語義の一貫性に関しては，Galeらの研究［11μ存在し，そこでは，英語とフランス語で記述されたカナダの国会議事録における６種類の多義性を持つ名詞（dlltJy， drugjand,language,position,sentenee）が,同じ文脈中では,98％の割合で，同じ意味で用いられているという調査結果を報告している．ある多義語がどの語義で用いられているかという語義決定の正解率を考えた場合,人間の判断にも個人差があるため,完全な正解を与えることは困難である．例えば,５人の被験者に多義語の語義判定をしてもらったところ,全員が同じ語義を正解と見なすのは全体の96.8％にすぎなかったという調査結果が存在する[LO].すなわち，人によっては異なる解釈が存在する可能性がある以上,語義を100％正しく判断するということは不可能であり，その観点から，上記の調査結果で得られた90％台後半という高い割合の語義の一貫性というのは非常に強い制約と捉えることができる．このように,語義の一貫性に関しては,非常に強い傾向が存在するので,以下では,これを制約（文脈制約）として扱い,曖昧性解消においては，この制約を充たすように処理を行なうことで，処理精度を高める手法を試みる. 29

(18)

2.4 文脈選好

前節で示したよ引こ，一つの文脈内では，同じ語が同じ意味で用いられる傾向にあることから，係り受けに関しても，文脈内では同じ語が同じような語句と係り受けを結ぷと仮定する．この仮定が成り立てば，係り先の曖昧な語に関して，文脈内の他の文で同じ語がどのような語と係り受け関係にあるかを調べ，それと同じような係り受けを優先することで，曖昧性が解消できる．以下は実際に一冊の計算機マニュアルから抽出した文である．

(M1)The system disp ys message EKC0246A on the MTOconsole. (N12)The messagesare nornlallydisPlayed on the MTO console.

(N/13)The mess賜esare nornlallydisplayed by CICS on the MTO console

(M1)ではon the MTOconsoleの係り先が曖昧であり，message EKC0246A とdisplays の二つの候補が存在する．この曖昧性を解消する際には，(M2)でon the MTO console がdisPlayedに確定的に係っているという惰報を参照し，文脈内の他の文と同じ係り受けを優先することで，係り先をdisPlaysに決定することができる．また，(M1)と(M3)は

各々が係り受けの曖昧性を含んでいるが，両方の文でon the MTO console が同じ係り受け(動詞displayとの係り受け)を結ぶように，すなわち，文脈内での同じ語の係り受け関係に一貫性が生じるように処理することで，両方の曖昧性が解消される．そこで,英文計算機マニュアル文の解析における係り受けの曖昧性の解消において，文脈から情報を得られる割合が文脈の大きさ(文の数)によりどう変化するかを調べた．文脈の大きさを10文から791文に変化させた時に，文中で係り先の曖昧な句7に関して，文脈から情報を得られる割合が変化する様子を図2.4に示す．回申，横組で示されるのは文脈の大きさで，単位は文数である． (Ａ)は，係り先の曖昧な句あるいは係り先候補の句のヘッドとなる語と同じ語が文脈内の他の文に存在する割合，すなわち文脈中で同じ語が繰り返される割合を示す．例えば， verb1 Nounl pl｀elにv〇一回2というパタンの曖昧性解消において文脈を参照する際に，文脈の範囲を80文程度にすれば，その範囲内の他の文でverb1．Ｎｏｕ･ｎ1またはNou≒が見 7前置詞句のみでなく，to不定詞句，分詞句，関係笥も含む. 30 Coverage(％) 1Cxj､00 80,00 60､00 40､oo 20.00 0 . 0 0 J-−−−

ご

ぺ

／

I , - ････ ' ゛ 4 ･･･ ' ' ' ｀゛ ' ' ' ' ｀ ‘ 心･ - ････ ● ･ ‘ ｀゛･゛ . ● ゛･゛ ' ｀･ j ｀゛゛ - ゛ ' ● ● ● - ･･ ' ' ゛ ' ｀ ' ' ゛〃゛゜ ' ｀゛ ' ｀゜･ ' ● - ● ／．．,．･･･'･゛'″ ／ｉ。．ダ ./゛゜j /4゛゛／０ 2 0 0 4 0 0 600 −（A）Wordrepealed （B）Prefefenceglven −Ry4nJ1111;;iir”’ 8 0 0 Size ofdiscourse (Numberofsentences) 図2.4:文脈の大きさと文脈情報のカバー率の関係出される確率が80％を越え，200文程度にすれば85％を越えるという結果が得られたことを示している. (B)は，曖昧性解消の際に，文脈内の他の文から何らかの情報が得られる割合を示す．すなわち，係る側の句と係り先候補のうちのいずれかの句との係り受けパタンが他の文にも存在する割合を示しているs.文脈範囲が300文を越えれば，70％程度の確率で同じ係り受けパタンが文脈内で繰り返されているという結果が得られた．しかし，同じ係り受けパタンが文脈内に存在しても，全く同じ曖昧性を持つ係り受けのパタンが繰り返されているのでは，曖昧性解消に貢献しない．例えば(M3)と全く同じ文が存在しても， 0n the MTO console の係り先候補のdisplayとCICSの両方の候補間の優位性に差が生じない．そこで，同じ係り受けのパタンが文脈内で繰り返され，かつ，それが(M1)に対する (M2)や(M3)のように，曖昧性解消に貢献している割合を示したのが(Ｃ)である. (C)で示されるように，文脈の範囲を200文程度に設定すれば,その中に含まれる係り先の曖昧な句の約40％を文脈内の情報で処理できるという結果が得られたバM1)(M2)(M3) の例のように，計算機マニュアルのような技術文書では，同じような事柄の説明が何度も繰り返され，しかも，同じ事柄を再び記述する際には表現が多少変化する傾向にあるため，この変化による差分を利用することで曖昧性が解消できる． s同じ語のみでなく，シソーラス辞書166]で定義されている同義語に置き換えられる場合も含めた. 31

(19)

このように『同じ文章内では同じ語は同じような語と係り受けを結ぷ』という性質は，同文脈内の語の振る舞いに見られるバイアスとして，上記の調査結果や，後述する様々な実験結果から，その存在が裏付けられるものの，これは，言わば同じ内容をくり返し記述する冗長性から生じる現象であり，「同じような語」という概念の客観的な定義付け及び．検証が困難である上に，文脈制約ほど強い性質ではない．したがって，本論文では，この性質を文脈選好と呼び，文脈内に存在する傾向として扱う．

2.5 まとめ

自然言語処理において自然言語の文脈依存性は無視できない重要な性質であり，この文脈依存性を考慮しない処理の精度が低くなる反面，この性質を自然言語処理の精度向上に利用することが可能である．ある語がどのような語義を取り，どのような語と係り受けを結ぶかという語の振舞いの文脈依存性に関して,英文計算機マニュアルを中心とした技術文書を調査した結果,同じ文脈中に出現する語においては,以下の性質が高い確率で成り立つことが認められた．性質１語彙が比較的限定され,同じ語9が繰り返し出現するづ語彙の限定性) 性質２同じ語は同じ語義を取るづ語義の一貫性) 性質３同じ語は,同じような語1oと係り受けを結び易い．(係り受けの一貫性) 性質１に関してはス2冊の英文計算機マニュアルを調査した結果ス冊のマニュアルに出現する自立語のうち､91.6％が複数回出現しており、自立語の78.0％は５回以上出現しているという結果が得られた.性質２に関しては､専門家向けの英文計算機マニュアル中で複数回出現している多義語11の調査では､同じ章の同じ語が同じ語義を取る確率が96％以上になるという結果が得られた．ある多義語がどの語義で用いられているかという語義決定の正解率を考えた場合､人間の判断にも個人差があるため､完全な正解を与えることは困難である．例えば､５人の被験者に多義語の語義判定をしてもらったところ､全員が同じ語義を正解と見なすのは全体の96.8％にすぎなかったという調査結果が存在する[1o].すなわち、人によっては異なる解釈が取られる可能性がある以上､語義を100％正しく判断す 9辞書中の見出しが同じ語 1o辞書中の見出しが同じ語、あるいはその同義語､類義語

11Longman's Dictionary of Contemporary English で複数の語義を持つ語

32 るということは不可能であり，その観点から96％程度の語義の一貫性というのは非常に強い制約と捉えることができる性質３に関しても，英文計算機マニュアル中で同じ語どうしの係り受けパタンが頻繁に繰り返されるという結果が得られた．このように上記の性質を裏付ける様々な調査結果が得られているうえ,逆に,表層的に同じ語が,連続した文の中で繰り返し出現しながら連う意味で用いられると，読み手を混乱させる可能性が高く，読み難い文章となると考えられる．従って,上記の性質は,読み易い文章を作成しようとする過程で必然的に生じるものであり，絶対的に成立することが保証される性質ではないが,ある程度こなれた文章であれば比較的高い確率で成立するものと期待できる．また，本章では示さなかったが，第３章で示す実験結果からは，性質４隣接する文の構造は､句読点などで明示しない限り、比較的同じ形式を取ることが多い．（隣接文の構造的一貫性）性質５繰り返し出現する語は話題の中心（焦点）になる可能性が高く、代名詞などの照応の対象になり易い.（話題性の高い語の頻出性）という性質の成立を裏付ける結果が得られている．同じ文脈中の語に，これらの性質が成立していると仮定すれば,次章で示す枠組で文脈情報を参照し利用することにより自然言語処理の精度を向上させることが可能となる． 33

(20)

34 みφ●一男３

文脈制約と文脈選好を用いた自然

羽一一一一

理

処

(21)

3.1 はじめに

本章では，第2章で示した，同文脈中の語の振る舞いに見られる諸性質を利用し，自然言語処理の精度を向上させる手法を提案する．まず第２節で文脈制約と文脈選好を利用するための文脈処理の枠組を示し，第３節で具体的な問題に対する曖昧性解消手法及びその効果を示す．

3.2 文脈を単位とする自然言語処理の枠組

3.2.1 文脈モデル文脈処理を実現するためには,何らかの形で参照すべき文脈モデルを構築する必要がある．ところが「文脈」という言葉で表現される内容は多種多様であり，何の処理を行なうかにより，参照すべき内容は異なる．自然言語処理において従来提唱されてきた文脈モデルには,文脈情報の要素として，・文脈の構成要素となる実体・イベント一時間､及びそれらの関係・文脈の区分(segment)一焦点となる内容(語句)のリスト、及びそれらの関係といった内容が含まれることが多い(例えば[13D.しかし、これらの要素を自動的に、しかも正確に抽出することは困難であり、実用システムでの利用には問題点が多い．電子化された文書を処理するにあたって､確実に利用できる情報は文書中の文字列のみである、文の単位は､句点やピリオド、疑問符などから比較的容易に認識できるが､文の内部は単なる文字コードの羅列である．これだけの情報で処理できる内容には限度があるため､本手法では既存の技術で比較的安定的に取り出せる情報として､文書中の各文を構文解析した結果を用いる．構文解析を行なった結果として､以下の情報を得ることができる. ・単語の情報一単語の位置(文脈中での文の位置､及び文中での語の位置) 一語基(活用変化した語に対する辞書の見出し語) 一各種の文法的属性(品詞や数､性､時制など) 36 Context＝/SgjlZgylEgj，Ss㎡glc12，...，Sljlrgflcg yl/ SZ･sEgj＝βya㎡j-j，Wa㎡j-2，…，Wa㎡り7

John likes apples，

(:≪E)

言届Ξ)

Tom also likes apPles. ぶご｀）

で裕二≪Ｅ）

also

く号≪ΞＤ

He also likes oranges，昌⊇こ）

）:≪已）

also で……j……jJ≪ΞΞ） S●ntencel Wordl･1[Johnl POS:N BASE:John ... Wordl･2[Ilkas] POS:V BASE:like ... Wofdl･3【･ppl●s】 POS:N BASE:卸ple ･一一 S●｢lience2 word2･iETom｣ POS:N BASE:To圖Ｗｏｒｄ２･２１ａｌｓｏ］ＰＯＳ：ＡＤＶＢＡＳＥ：ａｌｓｏ．．． Word2-3[likes] POS:V BASE:like ... word24【apples】 POS:N BASE:apple ... Senlence3 Word3-UH●】 POS : PN BASE : he ... Word3-2[also]

POS : ADV BASE : also ... Word3-3[￨lk●s]

POS : V BASE : like ... Word3-4[aranges]

POS:N BASE:oranle ･一一

図3.1:文脈モデルの基本情報

shizen gengo shori ni okeru bunmyaku no riyo ni kansuru kenkyu

Kodak

Gray

Sca一ｅ

Ａ １ ２ ３ ４ ５ ６

自然言語処理における

文脈の利用に関する研究

1998年２月

那須

Tetsuya

哲

哉

ＮＡＳＵＫＡＷＡ

目次

第１章

1.1 序

1.2 自然言語処理における曖昧性解消

1.3 自然言語処理における文脈処理

1.4 本論文の構成

2.1 はじめに

2.2 自然言語の文脈依存性

2.3 文脈制約

品詞

５回以上(％)

出現総数(語)

比率(％)

名詞

動詞

形容詞

副詞

代名詞

総計

章

文書量

名詞

総

文

数

総

語

数

総

語

数

繰り返し出現する語

複数の語義

で用いられ

る多義語数

語義の

一貫性

の強さ

異なり語数

(多義語数)

全体に占

める割合

Chapter 3

89(川

Chapter 8

105(州

章

動詞

総

語

数

繰り返し出現する語

複数の語義

で用いられ

る多義語数

語義の

一貫性

の強さ

異なり語数

(多義語数)

全体に占

める割合

３圃

財7）

Ｏ圃

総語数

品詞

Ａ１２３４５６

_89(川

_105(州

_３圃

_財7）

_Ｏ圃