• Tidak ada hasil yang ditemukan

shizen gengo shori ni okeru bunmyaku no riyo ni kansuru kenkyu

N/A
N/A
Protected

Academic year: 2021

Membagikan "shizen gengo shori ni okeru bunmyaku no riyo ni kansuru kenkyu"

Copied!
60
0
0

Teks penuh

(1)

Kodak

Gray

Sca一e

A 1 2 3 4 5 6

’S・ ll﹂!1 Q Kodak。2007 TM:Kodak 一’、一 8 9 1o 11 12 13 14 15 B 17 18 19 一 一 -- ` W

(2)

自然言語処理における

文脈の利用に関する研究

1998年2月

 那須

Tetsuya

I I J

NASUKAWA

(3)

1 序論   1.1 序言

目次

1.2 白然言語処理における曖昧性解消‥・・・・・・・・・・・・・・・・・・・・・ 1UQ︵XD   1.2.1 自然言語における曖昧性‥・・・・・・・・・・・・・・・・・・・・・. 8   1.2.2 語義の曖昧性の解消 ‥・・・・・・・・・・・・・・・・・・・・・・・. 9   1.2.3 係り受けの曖昧性の解消‥・・・・・・・・・・・・・・・・・・・・・. 11   1.2.4 まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 14 1.3 自然言語処理における文脈処理 ‥・・・・・・・・・・・・・・・・・・・・・. 15   1.3.1 従来の文脈処理技術 ・・・・・・・・・・・・・・・・・・・・・・・・・. 15   1.3.2 まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 16 1.4 本論文の構成 ‥・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 17 2 基礎的考察一自然言語文の文脈依存性-      19   2.1 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 20   2.2 自然言語の文脈依存性 ‥・・・・・・・・・・・・・・・・・・・・・・・・・・. 20   2.3 文脈制約‥・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 21     2.3.1 語基の同じ語の出現頻度‥・・・・・・・・・・・・・・・・・・・・・. 22     2.3.2 英文計算機マニュアルにおける語義の調査・・・・・・・・・・・・・. 23   2.4 文脈選好・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 30   2.5 まとめ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 32 3 文脈制約と文脈選好を用いた自然言語処理 3.1 はじめに 35 36 3.2 文脈を単位とする自然言語処理の枠組 ・・・・・・・・・・・・・・・・・・・. 36        1

(4)

  3.2.1 文脈モデル ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 36   32.2 処理の流れ ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 39 3.3 選好度による曖昧性解消‥・・・・・・・・・・・・・・・・・・・・・・・・・. 41 3.4 文脈情報を利用した処理手法 ・・・・・・・・・・・・・・・・・・・・・・・・. 41   3.4.1 文法的不適格文の構文解析・・・・・・・・・・・・・・・・・・・・・・. 42   3.4.2 曖昧な構文構造の決定・・・・・・・・・・・・・・・・・・・・・・・・. 50   3.4.3 語義決定‥・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 5.5   3.4.4 係り受けの決定・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 56   3.4.5 代名詞照応先の決定 ‥・・・・・・・・・・・・・・・・・・・・・・・. 60 3.5 まとめ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 65 4 文脈を単位とする自然言語処理の応用      67   4.1 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 68   4.2 文脈処理を取り入れた機械翻訳 ・・・・・・・・・・・・・・・・・・・・・・・. 68     4.2.1 英日機械翻訳システムShalt2における文脈処理システムDIANA .69     4.2.2 also、only等の副詞の修飾範囲の決定‥・・・・・・・・・・・・・・. 70     4.2.3 代名詞の照応先決定 ‥・・・・・・・・・・・・・・・・・・・・・・・. ・73     4.2.4 文脈内での一貫性保持による曖昧性解消 ・・・・・・・・・・・・・・. 74     4.2.5 省略の補完 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. ・79     4.2.6 叙法の判別 ・・・・・・・・・・・.・・・・・・・・・・・・・・・・・・・. 79     4.2.7 まとめ一一文脈処理による翻訳精度向上への寄与 ・・・・・・・・・・. 79   4.3 キーワードのカテゴリ決定‥・・・・・・・・・・・・・・・・・・・・・・・・. 80     4.3.1 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 80     4.3.2 キーワード語義決定と文脈情報・・・・・・・・・・・・・・・・・・・. 81     4.3.3 実験‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥82     4.3.4 まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 86   4.4 表層情報による文脈処理の眼界 ・・・・・・・・・・・・・・・・・・・・・・・. 87   4.5 まとめ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 88 5 結論       91   5.1 「序論」の総括・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・. 92       2 5.2 「基礎的考察」の総括 5.3  「文脈制約と文脈選好を用いた自然言語処理」の総括・・・・・・・・・・・・ 5.4 「文脈を単位とする白然言語処理の応用」の総括 ・・・・・・・・・・・・・・ 5.5 おわりに 参考文献 3 93 94 97 99 105

(5)

第1章

(6)

1.1 序

-一 一 一 一  計算機の能力,特に価格性能比が向上し,計算機が広く社会に普及した結果,世の中 の膨大な文書が電子化されて蓄積されるようになった.さらにネットワーク技術の向上 と普及により,世界中に存在する電子化された膨大な文書に容易にアクセスできるように なっている.このような状況で,膨大な文書から必要な情報を効率的に得られるように, また,オフィスのみならず家庭にまで広く普及した計算機をより容易に操作できるよう に,自然言語処理の必要性はますます高まっている.  例えば,自然言語を計算機で翻訳させようという機械翻訳の試みは,電子計算機が出現 した直後の1950年頃から始まっている.この機械翻訳の研究は,1960年代に入っ て本格化したが,1966年にアメリカのNationa1 Academy of Sciences のDivisionof Behaviora1 Sciences に設置されたAutomatic Lan卯age Processing Advisory Committee が出した報告書,いわゆるALPAC report による,機械翻訳への投資は時期尚早である という報告により致命的な打撃を受け,1960年代の後半から1970年代にかけては 停滞していた.しかし,計算機能力の向上と社会の国際化による翻訳需要の増加により, 1980年代に入って再び本格化し,日本でも数多くの商用機械翻訳システムが開発され た.大型汎用計算機やワークステーションをプラットホームとした1980年代の機械翻 訳システムは,商業的には大きな成功を収めたとは言いがたいが,その後,1990年代 半ばから急速に普及したインターネット上のWWWを介して得られる世界中の文書を母国 語で読みたいという要求や,パーソナルコンピュータの能力の向上により,パーソナルコ ンピュータ上で動く安価な機械翻訳ソフトが大きな市場を形成するようになった.また, ユーザーインターフェイスという観点からは,1990年代後半に入って,声でパーソナ ルコンピュータを動かしたり文書作成をするための音声認識ソフトウェアが市販され,普 及し始めている.このように自然言語処理技術を応用したソフトウェアが広く利用される ようになってきたが,機械翻訳や音声認識の精度は,決して充分なレペルに達しておらず, 一定の条件の下で限定的に使用されているのが現状である.したがって,このようなソフ トウェアの品質を向上させるためにも,自然言語処理技術の向上が強く望まれている,  自然言語処理で最も大きな問題は曖昧性の解消である.自然言語では同じ単語の並び によって異なる内容を表現できるため,自然言語文を解析する際には,解釈可能な複数の 候補から正しい内容を選択する必要がある.この処理が曖昧性の解消であるが,曖昧性解        6 消に失敗し,文の解釈を誤ると,処理結果が全く使いものにならなくなってしまうほど影 響が大きい.  既存の技術ではこの曖昧性解消処理を単文単位で行なっており,文の解釈は,その前 後の文の内容とは関係なく,予め与えられた曖昧性解消のための知識と,同じ文の中の情 報のみを参照して決定される.ところが,文の切れ目は元来曖昧であり,複数の文を結合 して一つの長い文にすることや,複数の述語を含む長い一つの文を複数の短い文に書き換 えることも可能であることから,単文単位で処理する必要性の根拠は薄い.また,ある一 つの文を与えられた際に,人間であっても,前後の文を見ない限りその文を正しく解釈す るのは困難な場合がある.したがって言葉は前後の文の内容を含む文脈に即して解釈され るべきものであるが,  ・文脈をモデル化する技術が確立されていない  ・文脈単位で処理を行なうと急激に複雑性が増し計算コストが増大すると予想される という理由から,実用的なシステムには文脈処理は採用されていないのが現状である.  文脈処理に開する従来の研究では,文脈に依存する様々な言語現象の検討や,そのモデ ル化がなされてきたものの,未だに文脈の表現方法は確立されておらず,その前提となる 文脈の定義さえも曖昧である.また文脈処理の研究自体も,文脈処理独特の現象に特殊化 した,実用性をあまり考慮しないものが多い.しかしながら,計算機の能力が飛躍的に向 上し,文脈を構成する複数の文を同時に保持するのに充分な記憶領域を利用できる現在, 文脈処理は必ずしも計算コストの高い処理になるとは限らない.また,文脈自体は曖昧模 糊とした存在であっても,同じ文脈に属する文の間には,通常,何らかの強い開運性(一 貫性)が存在する.しかもその関連性は深い意味レベルにとどまらず,各文の表層構造に も影響を与えている.  本研究では,文脈を,「複数の文から成る一まとまりの文章において,その要素の文に 共通して存在する何らかのバイアス」と捉え,同じ文脈中の言葉の用いられ方に見い出さ れる様々な性質を利用することで,特に複雑な推論を行なわなくとも,計算量的にも,前 提とする知識という観点からも実用的なレベルで様々な曖昧性を解消する手法を開発した.  例えば,同じ文脈に含まれる文の中では,同じ語が繰り返し出現する確率が高く,しか も繰り返し出現している語どうしが同じ関係を介して接続するという性質が見られる.こ の性質を利用し,同じ文脈中の語の振る舞い(すなわち,ある語がどのような語義を取る       7

(7)

か,またどの語と係り受けを結ぶかなど)が,文脈内で整合性を保つように曖昧性を解消 することで,曖昧性解消の精度が高まるという結果が得られた.  本論文では,文脈中の言葉の用いられ方に見い出される様々な性質を示した上で,従 来の単文単位の自然言語処理の枠組を文脈単位に拡張することにより処理の精度を向上 させる新しい自然言語処理の枠組を提案する.  本章では,第2節で,自然言語処理の難しさ,特に自然言語における曖昧性の問題と, 曖昧性解消に関する従来の研究を考察し,自然言語処理における文脈情報の重要性を示し た上で,第3節で,文脈処理に関する従来の研究を考察し,自然言語処理における研究の 傾向とこれまでの文脈処理手法の問題点をまとめる.そして,本研究の目的を明確にした 上で,第4節で本論文の構成を示す.

1.2 自然言語処理における曖昧性解消

 本節では,本研究で扱う自然言語の曖昧性解消に関する従来の研究について簡単なサー ペイを行ない,自然言語技術の現状を示した上で,本研究の主題である文脈情報の利用の 必要性を示す. 1.2.1 自然言語における曖昧性   自然言語では,同じ文(本論文では,一つ以上の単語の並びを『文』として扱う)で異 なる複数の内容を表現することが可能である.この性質は,自然言語の効率性を高めてい る反面,与えられた文を機械で解析する際には,一つの表現から複数の解釈が可能になる 曖昧性を生じることになる.  例えば,「赤い車のハンドル」という文においては,「車」がr車輪』を意味するのか『自 動車などの乗物』を意味するのかという語義の曖昧性(意味的曖昧性,多義性)と「赤 い」が「車」に係るのか「ハンドル」に係るのかという係り先(修飾先)の曖昧性(構造 的曖昧性)が存在する.このような曖昧性は,日本語といった特定言語に眼らず,自然言 語全般に存在し,文法的な知識では解消できないため,各単語の用いられ方や,対象世界 に関する何らかの知識(例えば,「語Aは,語Bと係り受けを結び易く,語Bと係り受け を結ぶ際にはaという意味で用いられる場合が多い」という情報)が必要となる.  ・広範な文を扱うためには,その曖昧性解消のための知識の構築が大きな問題となる.1       8 980年代までの自然言語処理では,このような知識は,もっぱら人手により構築されて きた.しかし,人手による知識の構築は,  ・コストが高い  ・個人の主観が入る余地が大きく,複数人で構築した知識の内容に個人差によるバラ   ツキが生じ,品質が安定しない という問題があった.そのため,1980年代後半以降,特に1990年代に入ってから は,自然言語処理における曖昧性解消の知識源として,電子化された辞書の語義文を矛1』用 したり,用例のデータを用いる手法の研究[1o,2o,56,6o]が活発になった.  以下では.そのような,電子化された大規模なテキストデータ(コーパス)を利用して 曖昧性解消のための知識を自動的に抽出し,解析精度を向上させる研究をサーベイする. 1.2.2 語義の曖昧性の解消  まず,文中の語句により表現される概念の曖昧性を解消する知識を抽出する研究につ いてサーベイする.ここで,語義の曖昧性の解消とは,ある単語によって表現可能な複 数の概念候補から,実際に文中で示している概念を選択する処理である.例えば,bank という語は,「銀行」や「土手」「傾斜」などの様々な概念を表現できるが,掛け言葉的な 特殊用法でない限り,通常は文脈によって,その表現する概念が一つに限定される.ただ し,概念の種類(どの様な概念を異なったものと見なすか)についての一般的な合意が存 在しないため,多義性を扱う際には何らかの基準を設定する必要がある.例えば,英語で はwearという語が「身に付ける」という一つの概念を表現すると考えられるのに対し, 日本語では,「身に付ける」体の部位によって,「履く」「着る」「かぶる」などと区別して いるように,概念を区別するための基準が文化や主観などにより異なる場合がある.従っ て語義の曖昧性の解消においては,どのような知識をどのように利用することで最適な 語義を選択するかという問題と共に,語義をどのように分類するかという問題が存在し, 概念を区別するための基準は,研究毎にその目的や用いるデータにより異なる.    Brownらの研究圓では,語義の選択を他言語への翻訳における訳語の選択過程と して捉えており,翻訳結果で常に同じ訳語が与えられる場合は処理対象から除いている. この手法では,多義語に対して,文中でその訳し分けに最も大きな影響を与える要素[直 前の語・直後の語・前(左側)の動詞・後(右側)の動詞など]を,コーパスの統計的分析       9

(8)

によって決定し,その要素の情報を参照することで訳語を決定する.C4nadian Hansard dataの約百万対の仏英の短文中から約千二百万語の語レペルの対応を取ったデータから 知識を抽出しており,その効果としては,評信用百文(各文十語以内)の翻訳において,成

功した文(acceptal)Leな翻訳文)の数が37から45に向上(エラー率が13%減少)し たという結果を報告している.

 Guthrieらの研究[端では,Longman's Dictionary of ContemPorary Enμish(LDOCE) における語義番号の決定を語義決定の基準としている.LDOCEには,語義毎にEC(Eco-nomics)やBU(Business)などの分野を示すサブジェクトコードが振られており,語義文 は2187語の制限語彙で記述されているという特徴がある.この研究ではこの特徴を利用 して,LDOCEの語義文のコーパスから特定のドメイン(サブジェクトコードのサブジェ クトに相当)で共起し易い語のリスト(subject-dependent neighborhoods)を抽出し,そ のリストと処理対象となる多義語の周囲の文脈(文からパラグラフ程度まで)との共通項 を比較することで,語義を決定する.人間向けの辞書という,計算機用ではないが人工的 に構築された知識源の特徴をうまく利用して計算機用の知識を抽出したところに特色が ある.

 Yarowskyの研究[62]では,Roget's lnternationa1Thesaurus 第4版(ChaPman, 1977) の中で規定されているカテゴリけ042種)への分類を語義決定の基準とし,多義語の語義 はそれを取り巻く文脈に依存するという性質を利用して語義決定を行なう.まず,Roget のカテゴリの区別を表現するような文脈情報として,各々のカテゴリの文脈において高頻 度で出現する語(salient word)をコーパスから抽出する.これを利用して,処理対象の多 義語を取り巻く文脈(前後各50語)におけるsanent word の出現頻度から,その文脈に 対応する多義語のカテゴリを決定する.一千万語からなるGrolier's EncydoPediaけ9 91年6月電子化版)を用いて知識を抽出し,starやinterest,dutyなどの多義語12語 の語義を92%の精度で決定できたという実験結果を報告している.  DaganとSchwa11の研究囲では,機械翻訳の訳語選択において,対象言語のコーパ スにおける共起情報を用いている.例えば,ヘブライ語のmagdila(英語ではincrease, enlarge,あるいはmagnifyに相当)を英訳する際に,原言語文におけるmagdUaの目的 語が英語のchanceに相当する場合パncrease,enlarge,magnifyの中から,英文コーパス において最も高い頻度でchanceを目的語にしている語を訳語として選択する.ヘブライ 語から英語への実験では,新聞の国際記事欄から抽出した10パラグラフの翻訳(内,訳       10 語の曖昧な語105語バこおいて,適用率(有効な差異をもって訳語を選択できた語の割 合)が70%(=73/105),正解率は92%(=67/73)であり,ドイツ語か ら英語への実験では,新聞記事から抽出した12パラグラフの翻訳(内,訳語の曖昧な語 54語)において,適用率が59%(=32/54),正解率は75%(=24/32)と いう結果が報告されている.訳語選択を多義性の解消と捉える点でIBr()wn et at・,91]と 共通しているが,用いるデータがアライメントのとれた二言語コーパスではなく,あくま で対象言語の単言語コーパスであり,データのコストを低く抑えられるところに特徴が ある.コーパスとしては,約4千万語のThe Washington Post articles,約2千4百万語 のAssociated Press newswire stories(AP News),約8千5百万語のCanadian Hansard dataが用いられており,そのうち25語以下からなる文をMCCordのESGパーザ[29jで 構文解析し,依存関係を抽出している.また,ESGパーザではそのうち35%程度が解 析できなかったため,実際のコーパスのサイズはさらに小さくなっている. 1.2.3 係り受けの曖昧性の解消  次に,構文構造における曖昧性を解消するための知識を抽出する研究についてサーベ イする.構造的曖昧性の原因は,係り受けの曖昧性,多品詞語の存在,並列句のスコープ など多様であるが,英文の場合,最も大きく取り上げられている問題は前置詞句の係り受 けにおける曖昧性である.例えば,

      He saw a girlwith a telescope.

という文において,with a telescopeの係り先としては,sawとa girlのニつの候補が存 在する.この場合,どちらに係るかで「(彼が)望遠鏡を使って(少女を見る)」「〔彼が〕望 遠鏡を持っている(少女を見る)」という異なる解釈が生じるため,正しい解釈を行なう 過程の一環として,係り先を決定する処理が必要となる,上記の文は,文法的にも意味的 にも両者の解釈が可能であるため,文脈の参照が必要となる例として知られているが,通 常は,

      He saw a comet with a telescope.

のように,文法的な制約では曖昧性が解消できなくても,意味的にa comet with a telescope (望遠鏡を持つ彗星)という解釈よりもsee∼with a telescope(望遠鏡を使って∼を見る)

(9)

の解釈のほうが妥当であるとして,結果的に一通りの解釈を得られる場合が多い.このよ うに,『acomet with 八elescopeよりも,see∼with a telescope の解釈の方が優先され る』,言い換えると『with a telescope はa comet よりもseeに係り易い』というような 知識をコーパスから柚出し,それを用いて係り受けの曖昧性解消を行なう手法に関する研 究をここで考察する.  HindleとRoothの研究[暉では,コーパスにおける動詞や名詞と前置詞との共起関 係から,特定の動詞や名詞に係り易い前置詞のデータを柚出している.すなわち,コーパ スから前置詞を含む文を抜き出し,各文において,  ・動詞の直後に出現していて動詞に確定的に係っているパタン  ・名詞句内で,名詞句に確定的に係っているパタン  ・動詞一名詞句一前置詞句の組合せで係り受けの曖昧性を含んでいるパタン の情報から,各前置詞と動詞や名詞との接続頻度を求め,そのデータを用いて前置詞と動 詞や名詞との接続選好度を計算し,曖昧な前置詞句の係り先を決定する.データ抽出過程 では構文解析の結果をそのまま用い,人手を介さない.その際,構文解析器(パーザ)の 解析エラーや,最も近い述語を飛び越した係り受けが存在するため,必ずしも完全なデー タは得られないが,そのような誤データはノイズとして扱い無視する.具体的には1 30 0万語からなるAP News からのデータ抽出を報告している. この手法では,前置詞句 全体でなく前置詞しか考慮していないため,処理が軽くなる反面,

Britainreopend its embassy in December.

英国は大使館を12月に再開した(in December はreopendに係副 Britainreopend its embassy in Teheran.

英国はテヘランの大使館を再開した(in Teheran はits embassy に係る)

のように,前置詞句のヘッドとなる名詞によって係り先が異なるパタンには対応できない. 従ってさらに精度を向上させるためには,動詞や名詞句と前置詞のみの関係ではなく,前 置詞句のヘッドとなる名詞句まで参照すべきであるが,語彙に含まれる仝ての語について の前置詞と係り先とのパタンは膨大な数にのぼるため,そのような処理は必要なコーパス の量からも計算量的観点からも困難である. そこで個別の語ではなく,何らかの分類に       12 基づいたクラス単位でデータを集めることにより,データの適用率を向上させようという 研究が存在する.  Resnikの研究[46]では,WordNetの分類(taxonomyト清報を利用して,処理対象とす る語の概念クラスを規定する.その概念クラスに関してコーパスから統計的な情報を抽出

し,意味的類似性(semantic similarity)や接続性(selectional association)を算出,これら の情報を利用して,並立句及び複合名詞句の構造推定や前置詞句の係り先の決定を行なっ

ている.個々の単語でなく概念クラスのレベルで統計情報を取るところに特徴があり,こ れによって適用度が向上すると共に,データが一般化されるのでコーパス中の特定のコ

ンテクストによるデータの歪みが軽減されるというメリットが得られる.Penn Treebank のxya11 Street JournalやBrown Corpus, AP News を利用した実験結果を報告してい る.具体的には,名詞1 and名詞2名詞3のパタンの並列構造を決定(すなわち,corn and peanut butter が「peanut butter とcorn」なのか,あるいは「cornとpeanutの butter」なのか判断)する問題では,名詞1と名詞2を並列と判断するデフォルトの正解 率66.0%に対し.81.1%の正解率という結果が,また,前置詞句の係り先決定問 題ではテスト対象により異なるが,72.8∼8 2.2%という結果が得られている.  以上二つの研究においては,曖昧性を保持した形態の構文解析出力を前提としており, 係り受けの曖昧性の解消は構文解析の後処理として行なわれる.これに対し,文法的な知 識と語彙や意味的な知識の適用を分離せず,統合的に処理しようという研究も存在する.  ChangとSuの研究圖では,構文解析における曖昧性を解消するために,語彙的・構 造的・意味的選好度を統一の枠組で評価する表現形式を定義し,各選好度を評価関数によ り算出して比較することで,最適の構造を選択している.構文解析と曖昧性解消が一体化 しているところに特徴があり,評価関数のパラメータを学習するという形態でコーパスか ら知識が抽出される.計算機マニュアルの12冊から任意抽出した千文において実験が行 なわれてま3り,構造的曖昧性の解消において,構造的評価のみによる処理に加えて意味的 評価値を利用することで,10%∼14%の精度向上が得られている.ただし,最終的に 得られた精度は,クローズテストでは97%だが,オープンテストでは57%程度にとど まっている.       13

(10)

1.2.4 まとめ  以上のように,自然言証文の各単語の語義や係り受けの曖昧性を解消するという問題 は,自然言語処理における最も重要なテーマの一つであり,この問題を解決するために電 子化された辞書の語義文を利用したり,用例のデータを用いるといった様々な手法が研究, 開発されている.  従来,人手の介入を必要とした知識に依存してきたため,実用的に充分な範囲の文を扱 うための知識を構築することが困難であるという問題(知識獲得ボトルネック)が存在し たのに対し,近年では,電子化された大量のテキストデータ(コーパス)の利用環境の整 備に伴い,向上した計算機能力を活かして,曖昧性解消のための知識をコーパスから自動 的に抽出し,解析精度を向上させる研究が盛んになった.ところが,そのような手法を用 いても,現状では,汎用性を備えたシステムを構築するために充分な規模の知識を構築す る見通しは立っておらず,曖昧性解消処理に失敗する原因の50%近くを知識の不足が占め ている・[伺  また,コーパスから抽出した知識は,コーパスとして集められたテキストデータが属 する分野への依存性が高く,上記のChangとSuの研究[5]の実験結果にも見られるよう に,異なる分野の文へ適用した場合の効果は比較的低い.さらに,このような曖昧性解消 の知識は,一般的な妥当性の高い(統計的に頻度の高い)解釈を優先するための知識であ り,この知識を用いて

Hesaw aがrl with a telescoPe.

のような文脈に依存する曖昧性を解消することは困難である.  その上,自然言語文においては,固有名詞などで,システムの辞書に記述されていない 語が出現する場合が多く,その場合には未知語として処理される.人間の場合には,前後 の文脈から未知語の意味(少なくとも人か物か程度のカテゴリ)を推定した上で文中にお ける他の語との関係を捉えることができるが,既存の自然言語処理では,語に関する知識 の存在しない未知語の処理は困難であり,文脈を考慮しない処理の枠組には眼界がある.       14

1.3 自然言語処理における文脈処理

 本節では,文脈処理に関する従来の研究を考察し,自然言語処理における研究の傾向 とこれまでの文脈処理手法の問題点をまとめた上で,本研究における文脈処理の方向を 示す. 1.3.1 従来の文脈処理技術  自然言語処理における文脈処理1の重要性は長いこと認識されているが,従来の文脈処 理研究(例えば[34,18Dには内容理解を指向した複雑な処理に依存するものが多く,汎用 的なシステムでの実用化には結び付いていない.  例えば,代名詞の照応先決定は,照応先が同文内に存在するとは限らず,文脈の参照が 必要となるため,文脈処理の典型的な問題である.この問題に関しては,charniakが【61 で示したように,照応先が文脈内に陽に記述されていない場合があり,その際には,対象 世界に関する深い知識と共に,その対象世界のモデルと文内容を対応付けた上で,文内容 が対象世界モデルに対してどのような変化をもたらすかを推論し,照応先の概念を推定す る能力が必要になる.そのような複雑な問題を解決するためには,例えば,Schankらが [491で示したように,対象登界モデルにおける様々な状況と,状況間の因果関係や状況の 変化の流れを記述するスクリプトのような知識を構築し処理する必要があると考えられ る.このような知識の構造は,前節で示した語義や係り受けの曖昧性解消に用いる知識に 比べてはるかに複雑であり,多様な入力文に対する汎用的な知識を構築するのは,現在の 研究レベルでは不可能に近いと考えられる.また,知識構築だけでなく,実際に処理する 際の計算コストという観点からも,実用性は低い.  従って,研究レベルでは文脈情報を用いた深い解析能力を実現するシステムも構築さ れている【18,53】が,対象世界を限定した上で成り立っており,実用性・汎用性は低い. また,処理対象を係り受けや並立句のスコープの決定に限定し,文脈情報も文中に出現 する体言のリストと述語との格関係情報などに限定して実用性を高くしている試みも[3o] 存在するが,対象世界に対する概念知識を必要とする点で汎用性に欠けている.  文脈処理を実現するためには,何らかの形で参照すべき文脈モデルを構築する必要があ るため,文脈処理に関する従来の研究では,文脈に依存する様々な言語現象の検討や,そ 1ここでは、単文内だけの情報では解決不可能な処理を文脈処理と呼ぶ. 15

(11)

のモデル化がなされてきた ところが「文脈」という言葉で表現される内容は多種多様で あり,何の処理を行なうかにより,参照すべき内容は異なる.自然言語処理において従来 提唱されてきた文脈モデルには,文脈情報の要素として,  ・文脈の構成要素となる実体・イベント・時間,及びそれらの関係  ・文脈の区分(segment)一焦点となる内容(語句のリスト,及びそれらの関係 といった内容が含まれることが多い(例えぱに3)),しかし,これらの要素を自動的に,しか も正確に抽出することは困難であり,実用システムでの利用には問題点が多い. 1.3.2 まとめ  前節で示した通り,自然言語を単文単位で処理する枠組には限界があり,処理対象の 文脈を考慮して適切な知識を用いたり,既存の知識源に情報が存在せず未知語として扱わ れる造語については文脈中での用いられかたから,語の意味や他の語との関連性を推測し たり,文脈に応じた語の解釈を可能にするような技術が必要である.  ところが,本節で述べた通り,実用システムでの利用に適した文脈の表現方法は未だ に確立されておらず,その前提となる文脈の定義さえも曖昧である.しかしながら,文脈 自体は曖昧模糊とした存在であっても,同じ文脈に属する文の間には何らかの強い関連性 が明らかに存在する.しかもその関連性は深い意味レベルにとどまらず,各文の表層構造 にも影響を与えている.このことから文脈を「複数の文から成る一まとまりの文章におい て,その要素の文に共通して存在する何らかのバイアス」と提えると,同じ文脈に存在す る文の中では,同じ語が出現する確率が高く,しかも繰り返し出現している語どうしが同 じ関係を介して接続するという性質が見られる上,同じ語は同じ意味で用いられることが 多い111,4ol.また,例えば,計算機マニュアルや特許文のような技術文,ビジネス文で は,代名詞の照応先は,ほぼ100%に近い割合で,文脈内に陽に記述されており,Hobbs の研究116]では,通常の文章では,構文解析結果の木構造を利用する程度の表層的な処 理でも,80%を越す精度で代名詞の照応先が決定できることが示されている.従って,実 用性を考慮した場合,照応先が文脈内に陽に記述されていない場合を想定した複雑な処理 は必要無いと考えられる.  本研究では,深い理解にはこだわらず,上に述べたような文脈の性質を利用し,比較的 表層構造に近いレベルで文脈内の整合性を保つような制約を適用することで,係り受けの        16 曖昧性解消を含めた構文解析、多義語の語義決定、代名詞の照応先決定などの精度を向上 させつつ、文脈に応じた文の解釈を行なう手法の開発に取り組む.

1.4 本論文の構成

 本論文では,まず,第2章で,『司じ文脈中の言葉の用いられ方に見い出される,曖昧 性解消に有効な性質について考察する.次に,第3章で,この性質を利用した曖昧性解消 を実現するため,同―文脈に属する複数の文をまとめて処理し,全体的な処理の精度を向 上させる枠組を提案する.さらに,本手法により実際の文書を処理した結果を通してその 有効性を示す.そして,第4章で,本手法を,機械翻訳や,キーワードのカテゴリ決定に 応用した例を示し,その実験結果を通して,本手法の実用システム上での有効性を示す. 最後に,第5章で本論文の結論を述べる. 17

(12)

18

,4φf・ 弼 2

(13)

2.1 はじめに

 文脈処理に関する従来の研究では,文脈に依存する様々な言語現象の検討や,そのモデ ル化がなされてきた.しかし未だに文脈の表現方法は確立されておらず,その前提となる 文脈の定義さえも曖昧である.ところが,文脈自体は曖昧模糊とした存在であっても,同 じ文脈に属する文の間には何らかの強い関連性が明らかに存在する.しかもその関連性は 深い意味レベルにとどまらず,各文の表層構造にも影響を与えている.  本章では表層構造に発現した同文脈内の白然言語文の性質に焦点を当て,頑健で実用的 な処理による曖昧性解消の精度向上に利用可能な文脈の性質を考察する.まず,第2節で 自然言語の文脈依存性について示した後,第3節,第4節で,本論文で提案する手法の基 盤となる,文脈制約,文脈選好という性質を示す.

2.2 自然言語の文脈依存性

 自然言語処理においては、曖昧性解消のための様々な知識が必要であり、問題解決に有 効な知識をいかに効率良く構築するかが精度向上の鍵となっている.人手による知識構築 はコストが大きいため、第1章で示した通り、近年では電子化された大量の文書を自動的 に処理して曖昧性解消に有効な知識を抽出する試みが盛んである.ところが、このように 統計的手法を用いて抽出された知識は、あくまで一般的な知識としてしか適用できず、文 脈に応じた文の解釈を行なうためには、既存の統計的手法を用いて抽出された知識は不適 当である.  例えば、英語の1ineという単語は英文書中で百万語あたり二百回から三百回程度出現す るという調査結果[17]が存在する1.しかし実際にはjineという語は数子語の間隔をおい て一様に分布しているわけでなく、特定の文章では数十語以内に数回出現するというよう に、文脈次第では頻出したり、全く出現しない場合がある.またjineは様々な意味で用い られるが、その語義の多様性もランダムに分布しているわけではなく、ある文章では常に 「線」という意味で用いられたり、別のある文章では「糸」という意味で用いられたりと いうように多義語であっても同じ文脈内では同じ意味で用いられることが多い[11、4o]・ このような語の用いられ方、あるいは語の振舞いの文脈依存性は、Nグラムモデルのよう 喧し1ineのみで、1inesのように表層の変化した形は含まない 20 に,多種多様な文書を混合して処理する統計的モデルでは扱えない性質であり,なおかつ, 文章を処理する際には無視できない重要な性質であるに  例えば,第1章で示したChangとS11の研究[51の実験結果にも見られるように,学 習した知識は,その情報源である学習コーパス内でのクローズトテストでは非常に高い効 果を示していても,異なる文脈に対して適用したオープンテストでは,あまり良い効果が 得られない.これも語の振舞いの文脈依存性に起因すると考えられる.  sekine【51】は,コーパスからの文法の学習という処理において,学習した文法を異なる 分野のコーパスに適用した場合は処理の精度が落ち,コーパスから学習した文法には分野 依存性が存在することを報告している.遂に,このような白然言語の分野依存性を利用し て,文書を分野別に分類する試み(例えば川241)も存在する.  また,商用の機械翻訳システムの大半が分野辞書を利用する仕組みを備えており,翻 訳精度を向上させるために適切な分野辞書を適用することを.−ザーに推奨していると いう事実も,自然言語の分野依存性を裏付けていると考えられる.  このような分野は,文書のテーマや対象世界を限定するという観点から,広義の文脈 として捉えることができ,さまざまな研究で報告されている自然言語の分野依存性は,自 然言語の文脈依存性を示唆すると考えることができる.  次節では,文脈を,「複数の文から成る一まとまりの文章において,その要素の文に共 通して存在する何らかのバイアス」と捉え,文脈内の語の振る舞い(どのような語義を取 るか,どの様な語と係り受けを結ぷかなど)に具体的にどのような性質が見られるかを分 析する.

2.3 文脈制約

 第1章で述べたように,自然言語処理における曖昧性を解消するためには,何らかの 知識の参照が必要となる.そのため,入力文の語彙を制限しない汎用性を備えた実用レペ ルの自然言語処理システムを構築するためには,膨大な数の語に対応するための大規模な 知識の構築が必要であり,この作業には大変な労力が要求される.この問題を解決するた めに,知識源として,既存の電子化された辞書や対訳コーパスを用いる試みが存在するが, そのような手法を用いても,現状では,ある程度の汎用性を備えたシステムを構築するた めに充分な規模の知識を構築する見通しは立っておらず,曖昧性解消処理に失敗する原因        21

(14)

の5岨近くを知識の不足が占めている寸痢  そこで、曖昧性解消の知識源として.予め構築した知識以外に、処理対象としている文 章そのものに着目し、曖昧性解消のための情報を文章内から抽出するという観点で、機械 翻訳の処理対象としての需要の高い英文計算機マニュアルの文章の分析を行なった㈱ト  曖昧性の解消は、基本的には、ある語の振舞い(どのような語義で用いられ、どのような 語と係り受けを結ぶか)を決定することと提えることができる.例えば、

    Printing docunlents in batch.

という句2では、構文的にはin batch の係り先としてprintingとdocumentsの2通りの可 能性が存在するため、曖昧性が生じている.この場合、「in batch は副詞句として述語概 念を修飾する」といった知識が存在するならば、その知識を参照し、in batch の係り先を printingにすることでこの曖昧性を解消できる.しかし、そのような知識が存在しない場

合、同文章中の他の文でin batch 或はbatchがどの様な振舞いをとっているか(printing あるいはdocurnentsに確定的に係っていないかどうか、述語に係り易いか名詞に係り易 いかなど)の情報を曖昧性解消に利用することができる.  つまり、ある語の曖昧性を解消するためには、同じ語(その語と同じ語基を持つ語)の振 舞いに関する知識を参照することになり、同文章中で、同じ語が複数回出現していれば、他 の位置における同じ語の振舞いを曖昧性解消の知識として利用することが可能になる.  その際、曖昧性解消の情報を抽出するという観点から、一つのまとまった文章における、 同じ語の出現頻度が問題となる. 2.3.1 語基の同じ語の出現頻度  上記の観点から英文計算機マニュアル12冊を調査したところ,平均して,同じマニュ アルに出現している白立語の91.6%が複数回出現しており,自立語の78.0%においては, 5回以上出現しているという結果が得られた3べ表2.1)  さらに.複数回出現する語が,どの程度の距離を置いて繰り返されているかを,名詞に 関して調べた結果を図2.1に示す.横軸は,表層的に同じ名詞が再び出現するまでの距離 (文の数)であり,その距離をおいて再び出現するパタンの頻度を縦軸で表している.この 2これは実際の計算機マニュアルから抽出した章のタイトルである. 3この結果はZipfの法則にほぼ一致している 22 表2.1:英文計算機マニュアルにおける語基の同じ語の出現頻度

品詞

同じマニュアル内で複数回出現する語の割合 自立語全体に対する比率 2回以上(%)

5回以上(%)

出現総数(語)

比率(%)

名詞

90.7 76.2 99047 59.8

動詞

94.9 83.6 35622 21.5

形容詞

88.9 71.0 16941 10.2

副詞

85.9 68.8 4993 3.0

代名詞

98.0 94.8 8911 5.4

総計

91.6 78.0 165514 一 図から分かるように,短い範囲で同じ名詞が繰り返されるケースが多く,複数回出現する 名詞の90%以上は,36文以内で出現しJO文以内で繰り返し出現するパタンが72%にも 及んだ.  以上の結果より,ある単語の振舞いに関する情報を,一つのまとまった文章内から高い 確率で抽出できることが確認できた.  但し,同じ文章中の同じ語の振舞いに関する情報を曖昧性解消に適用するためには『同 じ文章内で同じ語が同じように振舞う』という性質の成立が前提となる.従って,次に,ま とまった一つの文章内で,同じ語が実際に同じ語義で用いられているかを調査した, 2.3.2 英文計算機マニュアルにおける語義の調査  この調査は,特定の分野について深い知識を持っているプログラマやシステム・エンジ ニアを対象とした専門的なマニュアル[641と,初心者を対象として計算機の基本知識を説 明するマニュアル[63]の2冊を対象として行なった.  どちらのマニュアルも,原文は英語であるが,日本人ユーザ向けに翻訳された日本語 版が存在する.そこでまず,英語版の文と日本語版の文を対応付けし,英語版の文の解 釈に曖昧性が存在する場合には,日本語版の翻訳文の解釈を正解とすることにした.次 に,2冊のマニュアルに記述された全文をPEGパーザ[21]で構文解析し,その結果を 人手で確認修正した上で蓄積した構文情報付きテキストデータペースを作成した.この データペース中のデータの一部を図2.2に示す.図2.2に見られるように,2冊の英文マ ニュアル中の全ての英文に対し,対応する日本語訳と,文中に含まれる全ての語の品詞.        23

(15)

ADUenDeJj 1000 工00 10 工 0 50 100 ].50 200 250 Distance(Numberof Sen仁ences) 図2.1:語基の同じ名詞が繰り返し出現するまでの文間距離 24 300 IIChap七er6.11 ¨第6章¨ ((NP (N{}UN*      (LABEL      (PUNC I’chapterj’(¨chapter‘I SG)) (NOUN* ¨6¨(II6¨PL))) I’.II))0)

IIStoring Massages in Journa1 Fi1白s.'I IIジャーナル・ファイルヘのメッセージの記録¨ ((PRPR゛rCL(VERB*I'storingII(¨store¨PG)) (NP ? (NCON*¨Messagesl’(¨message¨PL)) (PP (PP (NP (PREP* ¨in¨)) (NCUN* ¨Journa1¨(¨journa1¨SG)))       (NDUN*一一Files"(I'filajl PL)))) (PUNC II.I'))500.6458125) 図2.2:構文情報付きテキストデータペース内容の一部 語形変化する語の原形〔語基・〕,性や数の属性,品詞,句構造,句のヘッド(同じレベル の句の中で係り先となる,図2.2では句のラベルに*を付けて表示),係り先の曖昧な語 句に対する係り先の候補が記述されている.係り先候補の記述例として,図2.2では/‘in Journa1 Files”が,文法的にぱStoring”にも“Messages”にも係り得る.そこで,位置

的により近い“Messages”を暫定的な係り先としてパin Journal Files”の前置詞句(PP) が名詞(NOUN*)の“Messages”と同じレベルに記述されているが,可能な係り先の動詞 (VERB*)の“Storing”と同じレベルに9を記述して係り先の別候補を示している.   この構文情報付きテキストデータペースを利用して,各マニュアルにおいて,複数回 出現する多義性4を持った自立語で,原形が同じ文字列である語が,同じ章内,及び同じマ ニュアル内において,全て同じ語義で用いられてるかどうか,語義の一貫性の度合を調査 した.   ここでは,語義の一貫性(同じ文脈内では同じ語が同じ意味で使われるという性質5)の 度合を以下の式で算出する. (文脈中で複数回出現している多義語のうち常に同じ語義で用いられている語の数)          (文脈中で複数回出現している多義語の数)  4多義性の判断はLDOCE[67いこ従い,LDOCE中で複数の語義が定義されている語を多義語とした.  5同じ語とは,辞書中で同じ見出しで登録される語を意味し,語形変化していて表層的には異なる文字列 であっても同じ語とみなす. 25

(16)

 まず,専門家向けのマニュアルに関する調査結果を表2.2に示す6.専門家向けマニュ アルの同じ章の中では,名詞で97.8%,動詞で96.3%の語が同じ語義で用いられていると いう結果が得られた.  この語義の一貫性の強さが,文脈の範囲によってどう変化するかを見るため,専門家向 けのマニュアルにおいて,一冊のマニュアル全体を一つの文脈とした場合の語義の一貧l生 の強さを算出した.その結果,表2.3に示す通り,動詞で92.6%となり,文脈の範囲を広 げると,語義の一貫性の強さは弱まるという結果が得られた.  また,初心者向けのマニュアルでの調査では,語義の一貫性の強さは,名詞で91.8%, 動詞で94.7%となり,専門家向けのマニュアルよりも,語義の一貫性が弱いという結果が 得られた(表2.4).これは,初心者向けに記述された文章では専門的な用語を避け,より 一般的な用語を用いる結果として,同じ用語による表現内容が多様化しているためと考え られる.  図2.3に,同じ章の中で,多義語numberが,異なる語義で用いられる例を示す.  これは,専門家向けのマニュアルの第4章においてnumberを含む全ての文であり,こ の中で,numberという語は, 1.位置(第88文) 2.値(第143文、第144文、第147文) 3。数字(第209文) という,三通りの意味で用いられている.同じマニュアル全体を見ると,numberという 語の意味は,この三通りのうちのどれかになっているが,第2章では,7回出現する全て のケースにおいて「値」という意味で用いられている.また,第5章でも7回出現する が,その全てのケースにおいて「位置」という意味で用いられている.一方,第4章にお いても,「値」という意味で用いられる文(第143文,第144文,第147文)は比較的狭い範 囲にかたまっており,「位置」や「数字」という意味で用いられる文(第88文及び第209 文)から離れていることを考えれば,文脈の範囲を狭めれば,語義の一貫性は成立してい ると考えることもできる.  6表中、「動詞」の「複数の語義で用いられる多義語数」の榴で0に囲まれている数字は、同じ章のなか で異なる語義で用いられているが表層的に判断が容易な慣用句的表現の中でのみ異なる語義を取っている 語の数を示している. 26 表2.2:専門家向けマニュアルにおける語義の一貫性

文書量

名詞

繰り返し出現する語

複数の語義

で用いられ

る多義語数

語義の

一貫性

の強さ

異なり語数

(多義語数)

全体に占

める割合

Notices 01〃〃 692 273 48(22) 68.5% 100% AboutThisBook 196 1693 645 83(45) 77.2%95.6% ChaPter 1 123 1315 552 H(27) 74,8% 1 96.3% Chapter 2 256 3499 1336 173(83) 84.1% 0 100%

Chapter 3

438 2287 1124 110(42) 83.2% 2 95.2% ChaPter 4 277 2676 1075 106(43) 90.2% 1 97.7% ChaPter 5 41 502 185 40(21) 76.8% 0 100% Chapter 6 93 964 353 47(22) 80.5% 0 100% Chapter 7 439 1998 937

89(川

87.2% 1 96.8%

Chapter 8

296 1829 774

105(州

69.3% 1 97.6% ChaPter 9 373 2908 1211 154(78) 86.5% 3 96.2%

動詞

繰り返し出現する語

複数の語義

で用いられ

る多義語数

語義の

一貫性

の強さ

異なり語数

(多義語数)

全体に占

める割合

Notices 65 15(14) 64.6%92.9%

About This Book 135 24(22) 74.1%

3圃

86.4% Chapter 1 116 26(23) 69.8% 100% Chapter 2 359 54(46) 86.6% 4 91.3% Chapter 3 153 30(25) 85.0% 0 100% Chapter 4 274 40(34) 89.4% 1(2) 97.1% ChaPter 5 44

財7)

63.6% 0 100% Chapter 6 90 18(15) 65.6% 1 93.3% ChaPter 7 138 22(19) 82.6% 0 100% Chapter 8 161 28(27) 65.2%

O圃

100% ChaPter 9 302 55(46) 82.1% 1 97.8% 7 − 9 ム

(17)

number number number number number nllmber (第4章,第88文) 'lnnllnisthetasknumberforDB2。'‘  「nnnn DB2のタスク番号。」 number (第4章,第143文)

lltallyl is the number of lmagePlus workstations successfully  initialized 。'l

 rtally1 正しく初期設定されたェmagePlusワークステーションの数」 number

(第4章,第144文)

"tally2 is the number of hagePlus workstations that were not  initialized 。'1

 「tally2 初期設定されなかったlmagePlusワークステーションの数」 number

(第4章,第147文)

'IThe value that apPears in Place of tally2 indicates the number  of工magePlus workstations that were not initialized and cannot  be involved in image oPerations at this time 。¨

 「tally2に示される値は,初期設定されていないため現在のイメージ操作で  使用できないェmagePlusワークステーションの数を示します。」

number

(第4章,第209文)

¨You mus七convert this number to the negative decima1 DB2 code .II  「この数字は,負の10進DB2コードに変換しなければなりません。」 図2.3:専門家向けのマニュアル中の同じ章において多義語numbeTが異なる語義で用む られている例 28 表2.3:文脈範囲を(専門家向け)マニュアル全体とした場合の語義の一貫性

総語数

繰り返し出現する語 異なる語義で用いら  れる多義語の数 語義の一貫 性の強さ 異なり語数(多義語数) 全体に占める割合 1837 182(149) 94.9% 11 92.6% 表2.4:初心者向けのマニュアルにおける語義の一貫性

品詞

繰り返し出現する語の割合 語義の一貫性の強さ

名詞

77.0% 91.8%

動詞

69.5% 94.7%

形容詞

73.3% 100%

副罰

46.0% 100%   このような語義の一貫性に関しては,Galeらの研究[11μ存在し,そこでは,英語と フランス語で記述されたカナダの国会議事録における6種類の多義性を持つ名詞(dlltJy, drugjand,language,position,sentenee)が,同じ文脈中では,98%の割合で,同じ意味で 用いられているという調査結果を報告している.   ある多義語がどの語義で用いられているかという語義決定の正解率を考えた場合,人 間の判断にも個人差があるため,完全な正解を与えることは困難である.例えば,5人の被 験者に多義語の語義判定をしてもらったところ,全員が同じ語義を正解と見なすのは全体 の96.8%にすぎなかったという調査結果が存在する[LO].すなわち,人によっては異なる 解釈が存在する可能性がある以上,語義を100%正しく判断するということは不可能であ り,その観点から,上記の調査結果で得られた90%台後半という高い割合の語義の一貫性 というのは非常に強い制約と捉えることができる.  このように,語義の一貫性に関しては,非常に強い傾向が存在するので,以下では,これ を制約(文脈制約)として扱い,曖昧性解消においては,この制約を充たすように処理を行 なうことで,処理精度を高める手法を試みる.       29

(18)

2.4 文脈選好

 前節で示したよ引こ,一つの文脈内では,同じ語が同じ意味で用いられる傾向にある ことから,係り受けに関しても,文脈内では同じ語が同じような語句と係り受けを結ぷと 仮定する.この仮定が成り立てば,係り先の曖昧な語に関して,文脈内の他の文で同じ語 がどのような語と係り受け関係にあるかを調べ,それと同じような係り受けを優先するこ とで,曖昧性が解消できる.  以下は実際に一冊の計算機マニュアルから抽出した文である.

(M1)The system disp ys message EKC0246A on the MTOconsole. (N12)The messagesare nornlallydisPlayed on the MTO console.

(N/13)The mess賜esare nornlallydisplayed by CICS on the MTO console

(M1)ではon the MTOconsoleの係り先が曖昧であり,message EKC0246A とdisplays の二つの候補が存在する.この曖昧性を解消する際には,(M2)でon the MTO console がdisPlayedに確定的に係っているという惰報を参照し,文脈内の他の文と同じ係り受け を優先することで,係り先をdisPlaysに決定することができる.また,(M1)と(M3)は

各々が係り受けの曖昧性を含んでいるが,両方の文でon the MTO console が同じ係り受 け(動詞displayとの係り受け)を結ぶように,すなわち,文脈内での同じ語の係り受け 関係に一貫性が生じるように処理することで,両方の曖昧性が解消される.  そこで,英文計算機マニュアル文の解析における係り受けの曖昧性の解消において,文 脈から情報を得られる割合が文脈の大きさ(文の数)によりどう変化するかを調べた.文 脈の大きさを10文から791文に変化させた時に,文中で係り先の曖昧な句7に関して,文 脈から情報を得られる割合が変化する様子を図2.4に示す.回申,横組で示されるのは文 脈の大きさで,単位は文数である.  (A)は,係り先の曖昧な句あるいは係り先候補の句のヘッドとなる語と同じ語が文脈内 の他の文に存在する割合,すなわち文脈中で同じ語が繰り返される割合を示す.例えば, verb1 Nounl pl`elにv〇一回2というパタンの曖昧性解消において文脈を参照する際に,文 脈の範囲を80文程度にすれば,その範囲内の他の文でverb1.Nou・n1またはNou≒が見 7前置詞句のみでなく,to不定詞句,分詞句,関係笥も含む.       30 Coverage(%) 1Cxj、00 80,00 60、00 40、oo 20.00 0 . 0 0 J-−−−

     I , - ・ ・ ・ ・ ' ゛ 4 ・ ・ ・ ' ' ' ` ゛ ' ' ' ' ` ‘ 心 ・ - ・ ・ ・ ・ ● ・ ‘ ` ゛ ・ ゛ . ● ゛ ・ ゛ ' ` ・ j ` ゛ ゛ - ゛ ' ● ● ● - ・ ・ ' ' ゛ ' ` ' ' ゛ 〃 ゛ ゜ ' ` ゛ ' ` ゜ ・ ' ● - ● /..,.・・・'・゛'″  /   i    。.  ダ  ./゛ ゜j /4゛゛ / 0 2 0 0 4 0 0 600 −(A)Wordrepealed  (B)Prefefenceglven −Ry4nJ1111;;iir”’ 8 0 0   Size ofdiscourse (Numberofsentences)          図2.4:文脈の大きさと文脈情報のカバー率の関係 出される確率が80%を越え,200文程度にすれば85%を越えるという結果が得られたこ とを示している.  (B)は,曖昧性解消の際に,文脈内の他の文から何らかの情報が得られる割合を示す. すなわち,係る側の句と係り先候補のうちのいずれかの句との係り受けパタンが他の文 にも存在する割合を示しているs.文脈範囲が300文を越えれば,70%程度の確率で同じ 係り受けパタンが文脈内で繰り返されているという結果が得られた.しかし,同じ係り受 けパタンが文脈内に存在しても,全く同じ曖昧性を持つ係り受けのパタンが繰り返され ているのでは,曖昧性解消に貢献しない.例えば(M3)と全く同じ文が存在しても, 0n the MTO console の係り先候補のdisplayとCICSの両方の候補間の優位性に差が生じな い.そこで,同じ係り受けのパタンが文脈内で繰り返され,かつ,それが(M1)に対する (M2)や(M3)のように,曖昧性解消に貢献している割合を示したのが(C)である.  (C)で示されるように,文脈の範囲を200文程度に設定すれば,その中に含まれる係り先 の曖昧な句の約40%を文脈内の情報で処理できるという結果が得られたバM1)(M2)(M3) の例のように,計算機マニュアルのような技術文書では,同じような事柄の説明が何度も 繰り返され,しかも,同じ事柄を再び記述する際には表現が多少変化する傾向にあるた め,この変化による差分を利用することで曖昧性が解消できる. s同じ語のみでなく,シソーラス辞書166]で定義されている同義語に置き換えられる場合も含めた.       31

(19)

 このように『同じ文章内では同じ語は同じような語と係り受けを結ぷ』という性質は, 同文脈内の語の振る舞いに見られるバイアスとして,上記の調査結果や,後述する様々な 実験結果から,その存在が裏付けられるものの,これは,言わば同じ内容をくり返し記述 する冗長性から生じる現象であり,「同じような語」という概念の客観的な定義付け及び. 検証が困難である上に,文脈制約ほど強い性質ではない.したがって,本論文では,この 性質を文脈選好と呼び,文脈内に存在する傾向として扱う.

2.5 まとめ

 自然言語処理において自然言語の文脈依存性は無視できない重要な性質であり,この 文脈依存性を考慮しない処理の精度が低くなる反面,この性質を自然言語処理の精度向上 に利用することが可能である.  ある語がどのような語義を取り,どのような語と係り受けを結ぶかという語の振舞い の文脈依存性に関して,英文計算機マニュアルを中心とした技術文書を調査した結果,同 じ文脈中に出現する語においては,以下の性質が高い確率で成り立つことが認められた. 性質1語彙が比較的限定され,同じ語9が繰り返し出現するづ語彙の限定性) 性質2同じ語は同じ語義を取るづ語義の一貫性) 性質3同じ語は,同じような語1oと係り受けを結び易い.(係り受けの一貫性) 性質1に関してはス2冊の英文計算機マニュアルを調査した結果ス冊のマニュアルに出 現する自立語のうち、91.6%が複数回出現しており、自立語の78.0%は5回以上出現してい るという結果が得られた.性質2に関しては、専門家向けの英文計算機マニュアル中で複 数回出現している多義語11の調査では、同じ章の同じ語が同じ語義を取る確率が96%以上 になるという結果が得られた.ある多義語がどの語義で用いられているかという語義決定 の正解率を考えた場合、人間の判断にも個人差があるため、完全な正解を与えることは困 難である.例えば、5人の被験者に多義語の語義判定をしてもらったところ、全員が同じ語 義を正解と見なすのは全体の96.8%にすぎなかったという調査結果が存在する[1o].すな わち、人によっては異なる解釈が取られる可能性がある以上、語義を100%正しく判断す 9辞書中の見出しが同じ語 1o辞書中の見出しが同じ語、あるいはその同義語、類義語

11Longman's Dictionary of Contemporary English で複数の語義を持つ語

32 るということは不可能であり,その観点から96%程度の語義の一貫性というのは非常に強 い制約と捉えることができる 性質3に関しても,英文計算機マニュアル中で同じ語どう しの係り受けパタンが頻繁に繰り返されるという結果が得られた.  このように上記の性質を裏付ける様々な調査結果が得られているうえ,逆に,表層的に 同じ語が,連続した文の中で繰り返し出現しながら連う意味で用いられると,読み手を混 乱させる可能性が高く,読み難い文章となると考えられる.従って,上記の性質は,読み易 い文章を作成しようとする過程で必然的に生じるものであり,絶対的に成立することが保 証される性質ではないが,ある程度こなれた文章であれば比較的高い確率で成立するもの と期待できる.  また,本章では示さなかったが,第3章で示す実験結果からは, 性質4隣接する文の構造は、句読点などで明示しない限り、比較的同じ形式を取   ることが多い.(隣接文の構造的一貫性) 性質5繰り返し出現する語は話題の中心(焦点)になる可能性が高く、代名詞な   どの照応の対象になり易い.(話題性の高い語の頻出性) という性質の成立を裏付ける結果が得られている.  同じ文脈中の語に,これらの性質が成立していると仮定すれば,次章で示す枠組で文脈 情報を参照し利用することにより自然言語処理の精度を向上させることが可能となる. 33

(20)

34 みφ●一 男 3

文脈制約と文脈選好を用いた自然

羽 一 一 一 一

(21)

3.1 はじめに

 本章では,第2章で示した,同文脈中の語の振る舞いに見られる諸性質を利用し,自然 言語処理の精度を向上させる手法を提案する.まず第2節で文脈制約と文脈選好を利用す るための文脈処理の枠組を示し,第3節で具体的な問題に対する曖昧性解消手法及びその 効果を示す.

3.2 文脈を単位とする自然言語処理の枠組

3.2.1 文脈モデル  文脈処理を実現するためには,何らかの形で参照すべき文脈モデルを構築する必要があ る.ところが「文脈」という言葉で表現される内容は多種多様であり,何の処理を行なう かにより,参照すべき内容は異なる.自然言語処理において従来提唱されてきた文脈モデ ルには,文脈情報の要素として,  ・文脈の構成要素となる実体・イベント一時間、及びそれらの関係  ・文脈の区分(segment)一焦点となる内容(語句)のリスト、及びそれらの関係 といった内容が含まれることが多い(例えば[13D.しかし、これらの要素を自動的に、しか も正確に抽出することは困難であり、実用システムでの利用には問題点が多い.  電子化された文書を処理するにあたって、確実に利用できる情報は文書中の文字列のみ である、文の単位は、句点やピリオド、疑問符などから比較的容易に認識できるが、文の内 部は単なる文字コードの羅列である.これだけの情報で処理できる内容には限度があるた め、本手法では既存の技術で比較的安定的に取り出せる情報として、文書中の各文を構文 解析した結果を用いる.構文解析を行なった結果として、以下の情報を得ることができる.  ・単語の情報 一単語の位置(文脈中での文の位置、及び文中での語の位置) 一語基(活用変化した語に対する辞書の見出し語) 一各種の文法的属性(品詞や数、性、時制など)       36 Context=/SgjlZgylEgj,Ss㎡glc12,...,Sljlrgflcg yl/ SZ・sEgj=βya㎡j-j,Wa㎡j-2,…,Wa㎡り7

John likes apples,

(:≪E)

言届Ξ)

Tom also likes apPles.  ぶご`)

で裕二≪E)

also

く号≪ΞD

He also likes oranges,  昌⊇こ)

):≪已)

also で……j……jJ≪ΞΞ) S●ntencel   Wordl・1[Johnl     POS:N BASE:John ...   Wordl・2[Ilkas]     POS:V BASE:like ...   Wofdl・3【・ppl●s】     POS:N BASE:卸ple ・一一 S●「lience2   word2・iETom」    POS:N BASE:To圖 Word2・21also]  POS:ADV BASE:also ... Word2-3[likes]  POS:V BASE:like ... word24【apples】  POS:N BASE:apple ... Senlence3   Word3-UH●】    POS : PN BASE : he ... Word3-2[also]

 POS : ADV BASE : also ... Word3-3[│lk●s]

 POS : V BASE : like ... Word3-4[aranges]

 POS:N BASE:oranle ・一一

図3.1:文脈モデルの基本情報

Referensi

Dokumen terkait

Di saat euforia perayaan hari pangan sedunia yang diperingati pada tanggal 16 Oktober setiap tahunnya, lebih dari 8 ribu keluarga.. petani terancam diusir

Pilihan yang sesuai untuk anak kalimat di atas adalah berbentuk pasif, bisa dengan Verb-3 saja atau menggunakan perfect participle yang berbentuk pasif. KUNCI

Selain itu hasil juga menunjukkan jenis-jenis klausa relative yang diusulkan oleh Quirk (1985) yang terdapat pada novel ini adalah klausa relatif restrictive dan klausa

Skripsi yang berjudul “Pera Perempuan Pengrajin Bambu Dalam Meningkatkan Ekonomi Keluarga Dengan Memanfaatkan Potensi Sumber daya Alam Lokal” (Studi di Desa Timbang Lawan,

Secara umum, dalam memohon bantuan kepada Negara Lain maka langkah- langkah yang harus dilakukan adalah Pemerintah RI melalui Menteri Hukum dan HAM RI selaku Pihak

tersebut sudah menjadi tanah negara bebas.Oleh karena itu diperlukan pembuktian tertulis yang diketahui oleh Lurah atau Kepala Desa, dan Camat setempat, sehingga dapat

Langkah strategis utama kebijakan moneter pada periode ini adalah pengkonsentrasian pada satu tujuan yaitu mencapai dan menjaga kestabilan nilai Rupiah, baik kestabilan terhadap

tidak ada korelasi antara tingkat kecerdasan (IQ), minat terhadap Fisika, dan motivasi jadi Guru Fisika dengan salah konsepsi Fisika pada pokok uji listrik di kalangan