• Tidak ada hasil yang ditemukan

辞書定義文の圧縮による定義表現パターンの発見

N/A
N/A
Protected

Academic year: 2025

Membagikan "辞書定義文の圧縮による定義表現パターンの発見"

Copied!
11
0
0

Teks penuh

(1)

¨§ ¥

論 文 ¦

Technical Papers

¯¯

辞書定義文の圧縮による定義表現パターンの発見

Discovery of Defintion Patterns by Compressing Dictionary Sentences

土屋 雅稔

Masatoshi Tsuchiya

京都大学大学院情報学研究科

Graduate School of Informatics, Kyoto University

[email protected]

黒橋 禎夫

Sadao Kurohashi

東京大学大学院情報理工学系研究科

Graduate School of Information Science and Technology, Tokyo University

[email protected]

佐藤 理史

Satoshi Sato

京都大学大学院情報学研究科

Graduate School of Informatics, Kyoto University

[email protected]

keywords: MDL thesaurus dictionary Summary

This paper proposes a method to discover definitoon patterns automatically from an ordinary dictio- nary. A definition pattern, which is frequently used to describe words and concepts in a ordinary dictionary, determines a set of similar words and can be used as a template to clarify distinctions among them. To dis- cover these definition patterns, we convert definition sentences into tree structures, and compress them using the MDL principle. The experiment on a Japanese children dictionary is reported, showing the effectiveness of our method.

1. は じ め に

自然言語を処理するためには,言語に関する知識以外 に,我々人間が持っている各種の意味的・常識的知識が 必要である.このような知識として,現在広く利用可能 なものに,意味的に類似する単語(類義語)を階層的にグ ループ化したシソーラスがある.シソーラスは,単語の 類似度の計算や動詞の格要素の選択制限の条件の記述な どに利用され,単語の意味を近似的に表現する方法とし て一定の成功をおさめている.

現在のシソーラスは,単に,類義語をグループ化した ものであり,グループ(類義語集合)内の単語の差異につ いては何も記述されていない.このため,ある類義語集 合に含まれる2つの類義語を意味的に区別する手段が存 在しない.例えば,日本語語彙大系[池原97]では,「粥」

と「チャーハン」は『飯』という同一のグループに分類 されている.この2つの単語は確かに『飯』であるが,

その間には意味的な相違も見られる.そのような相違は,

たとえば,「粥を炊く」とは言うが「チャーハンを炊く」

とは言わないという現象として現れる.このような場合,

既存のシソーラスによって提供される情報だけでは,「炊 く」という動詞のヲ格要素の選択制限の条件を簡潔に記 述することができない.

この問題を解決する一つの方法として,ある単語がど

のような類義語集合に属するかという情報だけではなく,

類義語間の差異に関する情報を持つように,シソーラス を拡張するという方法が考えられる.類義語間の差異に 関する情報とは,たとえば上記の例では,「粥とチャーハ ンでは,調理法が異なる」というものである.

本研究では,このような類義語間の差異の情報を含ん だシソーラスを自動作成する方法への第1歩として,自 然言語で記述された人間用の辞書から,類義語とその間 の差異を自動的に抽出する方法を提案する.辞書の定義 文は,見出し語を説明するために注意深く記述された文 であり,定型的な表現が頻出する.このような定型表現 を,あるデータ集合に頻出するパターンと見なし,この データ集合を圧縮することによって,これらの定型表現 を発見する.具体的には,辞書定義文を構文解析して辞 書をグラフ集合に変換し,MDL原理に基づいたグラフ 圧縮を行うことによって,定型表現を自動的に発見する.

この定型表現は,類義語集合を規定すると同時に,類義 語間の差異を示すためのテンプレートとなる.

これまでに,コーパスからシソーラスを自動生成する 研究はいくつか報告されている.鶴丸ら[鶴丸91]は,国 語辞典の辞書定義文の情報に基づいて自動的にシソーラ スを生成する方法を提案している.また,ゼロからシソー ラスを自動構築する代わりに,既存の中規模のシソーラ スに対して,コーパスや辞書などから得られる種々の統

(2)

計的な情報を利用して,語彙の拡充や情報の追加を行う 研究も多く行われている[中山97,浦本96,松本96].こ れらの研究が類議語集合を発見するだけにとどまってい るのに対して,本研究では,類義語間の差異を同時に発 見できる点に大きな違いがある.

本論文の構成は次の通りである.まず,第2章で,辞 書定義文中に見られる定型表現について考察する.第3 章では,定義表現パターンを考慮して辞書を表現する方 法について検討し,第4章で,その記述長を定義する.そ の後,第5章で,実際に辞書を圧縮する方法を述べ,第 6章では,小学生用の辞書を対象とした実験結果を報告 し,その結果について考察する.最後に第7章で結論を 述べる.

2. 定義表現パターン

2・1 辞書定義文と定義表現パターン

辞書の定義文は,見出し語を説明するために注意深く 記述された文であり,定型的な表現が頻出する傾向があ る.例えば,三省堂例解小学国語辞典[田近97]には「花 がさく」という表現が68回出現する.そのうちの3つ を以下に示す.

アブラナ 春,黄色い花がさく.

くちなし 夏,かおりのよい白い花がさく.

ねむの木 夏,赤い花が房のようにさく.

定義文に現れる「花がさく」という表現から,我々は,

それらが,『花がさく』という特徴を持ったものであると いうことを知ることができる.さらに,これらの定義文 には,花の咲く季節や花の色についての情報が含まれて いる.そこで,季節や色を表す単語を代入できる変数を 導入すると,これらの定義文に見られる定型表現は以下 のように整理できる.

<季節><>花がさく.」

ここで,<季節>は季節を表す単語が代入できる変数を 表し,<>は色を表す単語を代入できる変数を表す.

本論文では,このように整理された表現を定義表現パター ンと呼び,その定数部を共通特徴,その変数部を共通変 数と呼ぶ.

上記の定義表現パターンは,「ある季節にある色の花が 咲く」という事実を表している.この表現パターンを用 いて定義されている3つの見出し語「アブラナ」「くちな し」「ねむの木」においては,いずれもこの事実が成り立 つため,その意味において,この3つの見出し語は類似 していると見なすことができる.つまり,同一の定義表 現パターンを用いて説明される見出し語は類義語集合を 構成する.一方,共通変数に代入される値は,見出し語 によって異なり,たとえば,変数<季節>には,それぞ れ,「春」「夏」「夏」という値が入る.これらの値は,見

出し語間の差異を表わす.

以上から分かるように,定義表現パターンを見つける ことができれば,類義語集合と類義語間の差異を知るこ とができる.本研究では,このような定義表現パターン を辞書中から自動的に見つけ出す方法を考える.

2・2 定義表現パターンの自動発見

前節で述べた定義表現パターンは,辞書の定義文中に みられる定型表現を一般化したものであり,その一般化 の度合いによって,規定される類義語集合の大きさが変 化する.たとえば,前節では,定義表現パターンとして,

<季節><>花がさく」というパターンを考えた が,この他に,「<>花がさく」,「花がさく」といった パターンを定義表現パターンとして考えることもできる.

また,共通変数を含む定義表現パターンにおいては,そ の変数に代入できる単語集合の大きさについても自由度 がある.一般的な定義表現パターンを採用すれば,大き な(要素数が多い)類義語集合が定義され,特殊な定義表 現パターンを採用すれば,小さな類義語集合が定義され ることなる.

定義表現パターンにはこのような自由度があるため,

可能なあらゆるパターンの中から適当なパターンを自 動発見するためには,該当するパターンを選択する基準 が必要となる.適当な定義表現パターンは,類義語間の 差異の情報を含んだシソーラスを作成するという目的に 役立つことが期待されるが,そのようなパターンを発見 するための基準はまだ知られていない.そこで本研究で は,MDL(Minimum Description Length)原理[Rissa-

nen 89]に基づいて定義表現パターンを発見する方法を

試み,この方法によって有用な定義表現パターンがどの 程度発見できるかを実験的に明らかにする.

MDL原理は,各種のデータに内在する構造(パター ン)を発見するために盛んに用いられている原理である [Cook 94, Li 98].この原理では,あるデータを記述する モデルの優劣を比較する基準として,モデル自体の記述 長と,そのモデルに基づいてそのデータを記述したとき の記述長の和を用いる.そして,この和を最小とするモ デルを,そのデータを記述するための最良のモデルと考 える.本研究の場合は,パターン集合を用いて辞書を記 述する記述長を定義し,これを最小化するようなパター ン集合を取り出すことを通じて,有効な定義表現パター ンを発見するということになる.

3. 辞書を記述するためのデータ構造

この章では,定義表現パターンの集合をモデルとして,

辞書を記述する方法を検討する.

(3)

( )

( )

( )

( )

( )

( )

!

"$# "$#

1 辞書定義文の木構造表現

3・1 定義文の木構造表現

自然言語で記述された文の意味について考える時,文 を単なる単語の配列と見なすことは適当ではなく,それ らの単語間の関係も考慮する必要がある.そのような単 語間の関係の表現として,日本語文では,文節を節点と し,文節間の係り受け関係を枝とする文節依存構造木が 一般に用いられている.

本研究では,定義表現パターンを表現する時に自立語 部分と付属語部分を個別に扱う必要があるため,文節依 存構造木を機械的に変換して,個々の文節に含まれる自 立語部分によってラベル付けされた節点と,付属語部分 によって分類された辺からなる木構造を用いて,定義文 を表現する.ただし,自立語が活用語の場合は,その基 本形を節点のラベルとし,活用形を辺の種類とする.ま た,文中に含まれる句読点は削除する.このようにして 得られた木を,本研究では構造木と呼び,辺の種類を辺 タイプと呼ぶ.例えば,「アブラナ」「瓢箪」についての 定義文は,図1のような構造木に変換される.

3・2 定義表現パターンの木構造表現

定義表現パターンは,辞書定義文の一部を一般化した ものと考えることができるので,辞書定義文と同じく木 構造によって表現できる.例えば,アブラナの定義文と 瓢箪の定義文に共通して見られる「花がさく」という定 義表現パターンは,図2の2節点の部分木Aを用いて表 現できる.

次に,「<>花がさく」のように共通変数を含む定義 表現パターンの木構造表現について検討する.共通変数 に対応する部分を節点として表現するため,共通変数に 対応する節点のラベルを要素とする集合を定義し,この 集合を特に意味クラスと呼ぶ.例として,次式のような 意味クラス<>を定義する.

<>={黄色い, 白い, . . .} (1) この意味クラスをラベルとする節点を考えると,定義表 現パターン「<>花がさく」は,図2の3節点の部分 木Bを用いて表現できる.なお,本研究では,構造木の 節点のラベルは文節の自立語を表しているので,意味ク ラスは自立語集合として定義される.

さらに,付属語部分の一般化を可能とするために,辺 タイプを要素とする集合を考える.本論文では,この集 合を特に辺クラスと呼ぶ.例として,次式のような辺ク ラスCe1を定義する.

Ce1=(無格),に(ニ格)} (2)

この辺クラスを辺タイプとする辺を考えると,アブラナの 定義文に含まれている定義表現パターン「<季節><>

花がさく」と,瓢箪の定義文に含まれている「<季節>

<>花がさく」の2つのパターンを,部分木C(図 2)のような1つの部分木に一般化することができる.

3・3 定義表現パターンを用いた定義文の表現

ある定義文にある定義表現パターンが含まれている,

という事実を表現する方法について考える.本研究では,

定義表現パターンに相当する部分木を1つの節点と見な すことにする.例えば,アブラナの定義文は,図1では,

4節点からなる構造木として表現されているが,「花がさ く」という2節点からなる定義表現パターン(部分木A) を1つの節点と見なすと,図3のように3節点からなる 構造木として表現され,アブラナの定義文に「花がさく」

というパターンが含まれていることが明示される.

ただし,定義表現パターンを1つの節点と見なすため には,その節点に係っている辺の実際の係り先に関する 情報と,共通変数に代入される値の2つの付加情報が必 要である.以下,それらの付加情報について,順に説明 する.

定義表現パターンを1つの節点と見なすと,定義表現 パターンに係る辺の実際の係り先に関する情報が必要に なる.例えば,アブラナの定義文を,4節点からなる構 造木を用いて表現すると,文頭の節点「春」が,文末の 節点「さく」に係っていることは明らかである.それに 対して,定義表現パターン「花がさく」を単一の節点と 見なし,アブラナの定義文を3節点の構造木(図3)を用 いて表現した場合には,節点「春」の係り先に曖昧さが 生じるので,定義表現パターン(部分木A)内部の2節点 のうち,節点「さく」に係っていることを別に記述して おく必要がある.

共通変数を含む定義表現パターンを1つの節点と見な す場合には,パターン中の共通変数に代入される値につ

(4)

A B

( )

( )

C

( )

( )

( )

Ce1

2 定義表現パターンの木構造表現

B

C

:

(!" )

#%$'&

:(*)

+ : ,

B

-

(." ) (!" )

/021

A

#%$3&

:(4)

#%$3&

:5

-

6

A 7 8 C 9:7

:; (<>= ) Ce1

3 部分木を利用した辞書定義文「あぶらな」の木構造表現

いての情報が必要になる.例として,定義表現パターン

<>花がさく」を1つの節点と見なし,アブラナの 定義文を,2節点の構造木(図3)を用いて表現する場合 を考える.この時,2節点の構造木表現から,元々のア ブラナの定義文を得るためには,部分木Bに含まれてい る意味クラス<>に代入される具体的な値「黄色い」

を別に記述しておく必要がある.また,部分木Cを1つ の節点と見なす場合には,辺クラスCe1に代入される具 体的な値「φ(無格)」についての情報も必要になる.

4. 辞書記述長の定義

この章では,定義表現パターンに相当する部分木の集 合をモデルとして辞書を記述した場合の辞書記述長の定 義について述べる.最初に,部分木集合を利用せずに表 現された辞書(図4–a)の記述長を定義する.次に,その 結果を用いて,部分木集合を利用した表現された辞書(図 4–b)の記述長を定義する.

4・1 部分木集合を利用しない場合の記述長

辞書は,有限の語彙を用いて記述された定義文の集合 と考えることができる.個々の定義文を3章で説明した 構造木によって表現するとき,辞書Dは次のように表現 できる.

D= (T,Σ0,Γ0) (3)

ここで,T は辞書中の定義文を変換した構造木の集合,

Σ0は集合T に含まれる構造木の節点のあらゆるラベル からなる集合,Γ0は集合Tに含まれる構造木の辺のあら ゆる辺タイプからなる集合を表す.例えば,図4–aの2 つの定義文からなる辞書Daは,次のように表現される.

Da = (Ta,Σa,Γa)

Ta ={tアブラナ, t瓢箪}

Σa ={,さく,,,白い,黄色い}

Γa =(連格), φ(無格),が(ガ格),に(ニ格)}

集合Σ0,Γ0がそれぞれ独立であると仮定すると,式 (3)より,辞書Dの記述長L(D)は次のように定義で きる.

L(D) =L(T,Σ0,Γ0)

=X

t∈T

L(t,Σ0,Γ0) +L0) +L0) (4) 以下では,この式を計算するため必要な,構造木tの記 述長L(t,Σ0,Γ0)を定義する.

§1 構造木の形式的表現

構造木の記述長を定義する準備として,構造木の形式 的表現を導入する.構造木tは,節点集合Vt,辺集合Et, 各節点にラベルを対応させる写像f,各辺に辺タイプを 対応させる写像g,構造木の構造を表す接続写像hの5 項組によって形式的に表現できる.

t= (Vt, Et, f, g, h) (5)

3・1節で述べたように,節点集合Vtに属する全ての節 点には,文節の自立語部分(または活用語の基本形)を表 現する1つのラベルが対応付けられている.写像f は,

このような節点とラベルの対応関係を表す,節点集合Vt

からラベル集合Σ0への多対1写像である.

f :Vt7→Σ0 (6)

本論文では,写像fを特に節点ラベル写像と呼び,節点 vのラベルをf(v)と書くことにする.

同様に,辺集合Etに属する全ての辺には,文節の付 属語部分(または活用形)を表現する1つの辺タイプが対

(5)

(a)

B

( )

( )

"!$#

, % # , ...&

(')

*

(+, )

-

( )

( )

!$#

/.103254

( )

(6 )

% #

( )

7

8:9 8:9

8:9

;')

*

(+, )

-

<$=>

B

?.@0324

(6 )

ACBED

:FHG ACBID :FG

JLKNM

:O KQP JRKSM :T P

<$=>

B

7

(b)

4 辞書の木構造表現

応付けられている.写像gは,辺集合Etから辺タイプ 集合Γ0への多対1写像であり,辺と辺タイプの対応関 係を表す.

g:Et7→Γ0 (7)

本論文では,写像gを特に辺タイプ写像と呼び,辺eの 辺タイプをg(e)と書くことにする.

構造木の構造を表す接続写像hは,辺集合Etから節 点集合Vtの要素の順序対への写像である.

h:Et7→ {(vi, vj)|(vi, vj)∈Vt×Vt} (8)

つまり,h(e) = (vi, vj)という写像によって,ある辺eが,

ある節点viからある節点vjに係っていることが表現さ れる.

節点集合と節点ラベル写像を分けて考えているので,

ある節点集合に属する個々の節点は,ラベルによっては 区別されず,その集合内のi番目の節点であるという意味 しか持たない.したがって,2つの相異なる節点集合は,

それらの要素数のみによって区別される.言い換えると,

節点集合の要素数が与えられていれば,その節点集合の 記述として十分である.辺集合についても同様の議論が 成り立ち,木構造としての性質から常に|Vt|=|Et|+ 1 であるから,式(5)の構造木の形式的表現は,次のよう な4項組に簡略化できる.

t= (n, f, g, h) (9)

ここで,nは節点集合Vtの要素数を表す.以後は,構造 木の形式的表現として,この4項組を用いる.

§2 構造木の記述長

次に,式(9)の構造木の形式的表現に基づいて,構造 木の記述長を定義する.

集合Σ00のもとで構造木tが生起する確率1P(t|Σ0,Γ0) とすると,適当な最適符号を適用することにより,次式 が得られる.

L(t,Σ0,Γ0) =logP(t|Σ0,Γ0) (10) ここで,構造木tの要素数n,節点ラベル写像f,辺タ イプ写像g,接続写像hがそれぞれ独立であると仮定す ると,式(10)の右辺は次のように変形される.

P(t|Σ0,Γ0)

=P(n, f, g, h|Σ0,Γ0)

=P(n)P(f|Vt,Σ0)P(g|Et,Γ0)P(h|Vt, Et) (11) 以下では,この式の右辺の4つの項を順に定義する.

第1項P(n)は,構造木tの節点集合Vtの要素数nの 確率分布である.節点集合Vtの要素数nについては,正 整数であるという条件しか与えられていない.したがっ て,この確率分布は,あらゆる正整数nにたいして0よ り大きい値を返し,P

n=1P(n)1を満たさなければな らない.本研究では,正整数を単進符号化する確率分布 を利用して,次のように定義する.

P(n) = 2−n (12)

第2項P(f|Vt,Σ0)は,節点集合Vtとラベル集合Σ0

が与えられた時,節点ラベル写像f:Vt7→Σ0が一意に

1 この確率を定義するには,あらゆる可能な構造木の集合が加 算無限集合のクラスに属さなければならない.この前提は,集 Σ00の有限性より示すことができる.

(6)

ある状態に定まる確率を表している.個々の節点とラベル の対応関係が独立であると仮定すると,次式が成り立つ.

P(f|Vt,Σ0) = Y

σ∈f(Vt)

P(σ|Σ0) (13)

ここで,各ラベルの生起確率P(σ|Σ0)を,全てのラベル の生起確率が一様分布であると仮定し,次のように定義 する.

P(σ|Σ0) = 1

|Σ0| (14)

式(13)と式(14)をまとめると,次式が得られる.

P(f|Vt,Σ0) =|Σ0|−n (15)

第3項P(g|Et,Γ0)は,辺集合Etと辺タイプ集合Γ0

が与えられた時,辺タイプ写像g:Et7→Γ0が一意にあ る状態に定まる確率を表している.第2項と同様の仮定 をおくと,P(g|Et,Γ0)は,次のように定義できる.

P(g|Et,Γ0) = Y

γ∈g(Et)

P(γ|Γ0) = Y

γ∈g(Et)

1

|Γ0|

=|Γ0|(n−1) (16)

第4項P(h|Vt, Et)は,接続写像hの確率分布を表す.

日本語文では,文末以外の全ての文節は,その文節より も後方の1つの文節に対して係り受けを持つので,非交 差条件などを無視すると可能な構造木の数は(|Vt| −1)!

通りである.したがって,一様分布を仮定すると,次式 が成り立つ.

P(h|Vt, Et) = 1

(|Vt| −1)!= 1

(n−1)! (17) 以上をまとめると,構造木tの記述長L(t,Σ0,Γ0)は 次のように定式化される.

L(t,Σ0,Γ0) =n+log|Σ0|+ (n−1)·log|Γ0| +

n−1X

i=1

logi (18)

4・2 部分木集合を利用した場合の記述長

次に,部分木を利用した構造木の表現について考察し,

その場合の辞書の記述長について考える.部分木を利用 して構造木を表現した場合の辞書Dは,形式的に次のよ うに書くことができる.

D= (T,Σ + Ω,Γ) (19)

ここで,Ωは部分木の集合である.Σは,ラベル集合Σ0

に,部分木を表現するために必要な意味クラスを追加し た集合であり,次のように定義される.

Σ = Σ0[

s∈

f(Vs) (20)

同様に,Γは,辺タイプ集合Γ0に対して部分木を表現 するために必要な辺クラスを追加した集合であり,次式 によって定義される.

Γ = Γ0 [

s∈

g(Es) (21)

式(4)を導く時に用いた仮定と同様の仮定をおくと,部 分木を利用した場合の辞書の記述長は次式で表すことが できる.

L(T,Σ + Ω,Γ)

=X

t∈T

L(t,Σ + Ω,Γ) +X

s∈

L(s,Σ,Γ)

+L(Σ) +L(Γ) (22)

この式は,部分木集合Ωの記述長が追加されている点が,

式(4)と異なっている.

以下,個々の部分木の記述長L(s,Σ,Γ)と,部分木を 利用した構造木の記述長L(t,Σ + Ω,Γ)を定義する.

§1 部分木の記述長

最初に,部分木の記述長L(s,Σ,Γ)を定義する.

構造木と部分木の異なる点は,ラベルが意味クラスに なる場合があることと,辺タイプが辺クラスになる場合 があること,の2点である.したがって,部分木sは,式 (9)と同様の形式的表現を用いて表現することができる.

s= (n, f, g, h) (23)

形式的表現の一致より,部分木sの記述長L(s,Σ,Γ)は,

構造木の記述長(式(18))と同様に,以下のように定義す ることができる.

L(s,Σ,Γ) =n+log|Σ|+ (n−1)·log|Γ|

+

n−1X

i=1

logi (24)

§2 部分木を利用した構造木の記述長

3・3節で述べたように,辞書定義文を,部分木をラベ ルとする節点を含む構造木によって表現する場合には,

その節点に係っている辺の実際の係り先に関する情報と,

共通変数に代入される値の2つの付加情報が必要である.

本節では,接続写像hと節点ラベル写像fを拡張するこ とによって付加情報を表現し,その表現に基づいた記述 長の定義について説明する.

部分木をラベルとする節点を含む構造木tは,式(9) と同様に,形式的に次のように表現できる.

t= (n, f0, g, h0) (25) ここで,写像f0 は,部分木をラベルとする節点を表現 できるように拡張された節点ラベル写像であり,写像h0 は,部分木をラベルとする節点に対して係っている辺の 実際の係り先を表現できるように拡張された接続写像で ある.

(7)

拡張された節点ラベル写像f0は,節点とラベルの対応 関係を表すと同時に,そのラベルが部分木である場合に は,その部分木に含まれる意味クラス・辺クラスに代入 される具体的な値を表現する.その形式的な定義は次式 の通り.

f0(v) =

( (s, Xs, Ys) if ∃s∈, f(v) =s

f(v) otherwise (26)

ここで,集合Xsは,部分木sに含まれる意味クラスと,

その意味クラスに代入される具体的なラベルσ∈Σ0の 順序対の集合である.

Xs={(v, σ)|v∈Vs, σ∈f(v)} (27) つまり,集合Xsが与えられると,部分木s中の意味クラ スに対する代入が表現されたことになる.また,集合Ys

は,部分木sに含まれる辺クラスに対する代入を表現す る集合であり,集合Xsと同様に次のように定義される.

Ys={(e, γ)|e∈Es, γ∈g(e)} (28) 次に,接続写像h0について考える.まず,ある節点v のラベルf(v)が部分木であるような場合には,その部 分木sの節点集合Vsを返し,それ以外の場合は,節点v のみを要素とする集合を返す関数V(v)を定義しておく.

V(v) =

( Vs if∃s∈, f(v) =s

{v} otherwise (29)

この関数V(v)を用いると,拡張された接続写像h0は次 のように定義できる.

h0(e) = (vi, v0i, vj, vj0) (30)

∈Vt×V(vi)×Vt×V(vj)

この写像によって,ある2つの節点vi, vjの間に辺があ り,かつ,その端点が部分木である場合に,その辺が実 際に連結している部分木内部の節点はvi0v0jであるこ とが表現される.

以上の形式的表現の拡張に基づいて,部分木を利用し た構造木の記述長を定義する.部分木をラベルする節点 を含まない構造木の形式的表現(式(9))と,部分木をラ ベルとする節点を含む構造木の形式的表現(式(25))が 良く似ているので,記述長も同様に定義することができ る.以下では,2つの形式的表現の異なる部分について 検討する.

写像f0の生起確率P(f0|Vt,Σ + Ω)について考える.

前節で定義した単純な構造木の記述長と同様の仮定を置 くと,この確率P(f0|Vt,Σ + Ω)は,あらゆる可能な写 像f0の場合の数を用いて,次のように定義できる.

P(f0|Vt,Σ + Ω) = Y

v∈Vt

1

|Σ 1

m(v) (31)

ここで,関数m(v)は,ある節点vが部分木sである時,

その部分木sに含まれている意味クラス・辺クラスに対し

て具体的な値を代入する方法の場合の数を求める関数で ある.引数xが意味クラスまたは辺クラスである場合は,

その意味クラスまたは辺クラスの要素数を返し,それ以 外の場合は1を返す関数をc(x)とすると,関数m(v)は 次のように定義される.

m(v) =











 Y

v0∈Vs

c(f(v0))· Y

e0∈Es

c(g(e0)) if∃s∈, f(v) =s 1

otherwise

(32)

一方,拡張された接続写像h0の生起確率P(h0|Vt, Et) は,あらゆる可能な接続写像h0が等しい確率で生起する と仮定すると,次のように定義できる.

P(h0|Vt, Et) =P(h|Vt, Et)· 1 Y

v∈Vt

|V(v)||E(v)|(33) ただし,E(v)は節点vに係る辺の集合を返す関数である.

以上をまとめると,構造木tの記述長L(t,Σ + Ω,Γ)と して次式が得られる.

L(t,Σ + Ω,Γ)

=n+log|Σ + Ω|+X

v∈Vt

logm(v)

+(n−1)·log|Γ|+

n−1X

i=1

logi

+X

v∈Vt

|E(v)|log|V(v)| (34)

4・3 目 的 関 数

MDL原理の立場では,式(22)によって定義された辞 書記述長を最小化するような集合Σ, Γと部分木集合Ω が,辞書構造木集合を記述するための最も良いモデルで ある.ここで,任意のΣおよびΓの記述長は等しいと仮 定すると,式(22)の第3項および第4項は無視するこ とができ,目的関数として次式が得られる.

L0(D) =X

t∈T

L(t,Σ + Ω,Γ) +X

s∈

L(s,Σ,Γ)(35)

5. 探索アルゴリズム

MDL原理に基づく最良のモデルの探索は,式(35)の 値を最小化する節点ラベル集合Σ,辺タイプ集合Γおよ び部分木集合Ωを求めることと等しい.しかし,これら の集合の場合の数は非常に大きいため,全解探索は計算 量的に不可能である.また,それぞれの集合の変化が相 互に影響を与えるので,分割統治法や動的計画法などの 効率的な探索手段を用いることもできない.

以上の理由から,本研究では記述長を最小とするよう な最適解を求めることを諦め,以下の手順によって近似 的な解を求めることにした.

(8)

(1) 既存のシソーラスに基づいて,節点ラベル集合Σ を設定する.

(2) KNPの構文規則に基づいて,辺タイプ集合Γを

設定する.

(3) 逐次改善法を用いて,部分木集合Ωを探索する.

5・1 節点ラベル集合の設定

先に述べたように,目的関数L0(D)を最小化するよう な部分木集合Ωを記述するための最適な節点ラベル集合 Σを計算機によって探索することは,計算量的に極めて 困難である.そのため,本研究では節点ラベル集合の探 索を放棄し,シソーラスに基づいて近似的な節点ラベル 集合を準備する.

< > < >

>

<

5 シソーラスの構造

一般に,シソーラスは木構造によって表現され,葉節 点は実際の単語を,それ以外の中間節点は意味分類を表 す.このような構造がある時,葉節点を持つ中間節点は,

その葉節点に対応する単語からなる類義語集合と見なす ことができる.さらに,複数の中間節点をまとめている 上位の中間節点は,下位の中間節点に対応する類義語集 合の和集合を表していると考える.このように見方を変 えると,シソーラスは,互いに階層関係を持つ類義語集 合の集合と見なすことが可能である.例えば,図5のよ うなシソーラスが与えられた場合,このシソーラスによっ て定義される類義語集合を全て展開し,個々の類義語集 合を意味クラスと見なすと,次のような節点ラベル集合 Σ1が得られる.

<>={ツバメ,カラス,ワシ,}

<昆虫>={,ミツバチ,昆虫}

<動物>=<>∪<昆虫>

Σ1 =





ツバメ,カラス,ワシ,鳥 虫,ミツバチ,昆虫

<動物>, <>, <昆虫>





本研究では,節点ラベル集合Σを生成するためのシ ソーラスとして,分類語彙表[国立93]を利用した.これ は5〜6階層の木構造によって表現されるシソーラスで,

1つの単語は平均すると約1.2個の意味分類が付与され ている.実験を簡単にするため,複数の意味分類に属す る場合は,登録されている複数の意味分類から1つを任 意に選択し,それ以外は単に無視した.また,要素数が

極端に大きい意味クラスが存在すると,後述する出現数 に基づくヒューリスティックスによる探索の障害となる ため,シソーラスの根から3階層以内の意味分類によっ て導かれる意味クラスは削除した.これによって,1276 個の意味クラスが設定された.

5・2 辺タイプ集合の設定

最適な辺タイプ集合を求めることは計算量的に困難な ので,最適な辺タイプ集合を探索することを放棄し,人 手で作成した辺タイプ集合を用いる.ここでは,実際に 実験で利用した辺タイプ集合の作成手順について述べる.

まず,KNPの構文規則を参考にして,<ガ格>など の22個の辺クラスを設定した.

<ガ格>={,, . . .}

さらに,これらの辺クラスを,表1に示す5つのグループ に分類し,この5つのグループを辺クラスとして辺タイプ 集合Γに追加した.例えば,辺クラス<体言用言>

は,<ガ格><ヲ格>などの辺クラスを包含する辺ク ラスである.

<体言用言>=<ガ格>∪<ヲ格>∪ · · ·

={,, . . . ,, . . .}

用言用言 連用,同格連用 用言体言 連格,連体

体言用言 ガ格,ヲ格,ニ格,ヘ格,ト格,ヨ リ格, カラ格, マデ格, デ格, 未 格,提題,無格,同格未格,ノ格 体言体言 ノ格,同格連体,隣接

その他 文末

1 辺クラスの階層構造

5・3 部分木集合の探索

最適な部分木集合Ωを求めることは計算量的に不可能 であるから,逐次改善法を用いて,近似的に最良の部分 木集合Ωを探索する.すなわち,辞書構造木集合Tから 目的関数の値を最小化する1つの部分木を取り出し,そ の部分木を部分木集合Ωに追加する.目的関数の値が改 善される限り,部分木の追加を繰り返し,終了した時点 の部分木集合を解とする.

ここで,部分木集合Ωに追加する候補となる部分木は,

その時点の構造木集合Tに含まれる任意の部分木であり,

莫大な数の候補が存在する.そのため,全ての部分木に ついて目的関数の値を計算し,目的関数の値を最小化す る部分木を選択することは事実上不可能である.そこで,

部分木の大きさに関するビーム探索と,出現頻度に基づ くヒューリスティックスを組合わせた手順によって,近 似的に最良の部分木を求める.最初に目的関数を大きく

(9)

(1) sbestに空の部分木を,Lbestに現時点の目的関数の値L0(D)を代入しておく.

(2) 構文木集合T を探索し,2節点の部分木のリストを作る.

(3) リストに含まれている全ての部分木について,部分木の節点ラベルおよび辺タイプを,それらを包含する意味クラスまた は辺クラスに置き換えた部分木をリストに追加する.

(4) リストを出現頻度の降順に整列して,上位n個の部分木について,その部分木を用いて構造木集合T を記述した場合の 目的関数の値を計算する.

(5) リストを目的関数の値の昇順に整列し,最小値(最良値)を与える部分木を取り出す.その値がLbestよりも大きい場合は,

sbestを出力として終了する.

(6) 目的関数を最小化する部分木sbestと,その値Lbestを更新する.

(7) リストの上位m個の部分木について,その部分木を部分として含む1節点だけ大きな部分木のリストを作る.新しく作 成されたリストを対象として,ステップ3に戻る.

6 部分木探索の手続き

減少させる2節点の部分木(m個)を探し出し,それら を拡張し3節点,4節点の部分木を順に調べ,目的関数 の減少幅が最大の部分木を採用する.その詳細な手順を 図6に示す.

全体の探索手続きは以下の通りである.

(1) 図6の手続きにしたがって構文木集合Tを探索し,

目的関数の値を最小化する部分木sbestを得る.

(2) sbestが空の場合は,この時点のΩを解として終 了する.

(3) 部分木sbestを集合Ωに加え,集合Tに含まれる 構造木中に現れた全てのsbestを単一の節点に置換 して,最初に戻る.

6. 実 験 と 検 討

6・1 実 験

5章で説明した圧縮アルゴリズムを用いて,定義表現 パターンを抽出する実験を行った.

実験には,三省堂例解小学国語辞典を用いた.この辞 書は,読者として小学生を想定しており,言葉の意味を 出来るだけ分かりやすく平易に説明した辞書である.そ のため,通常の大人用の辞書に比べて,限られた語彙を 用いて丁寧に記述されており,定義文の構造に注目する 本研究に適していると考えられる.

実験の準備として,まず,簡単なフィルタを用いて辞 書から定義文のみを抜き出し,JUMAN[黒橋98b]によ る形態素解析とKNP[黒橋98a]による構文解析を行い,

個々の定義文を構文木に変換した.辞書の諸元を表2に 示す.1つの定義文は平均して約3.4個の節点からなって いる.

計算機の記憶容量の制限から,辞書のすべての定義文 を対象とした実験を行なうことはできなかったので,これ らの定義文から,シソーラスに存在しない単語を含む定 義文と3個以下の文節からなる定義文を取り除き,残った 定義文を対象として実験を行なった.なお,図6の手続き で使用される枝刈りのパラメータの値として,n= 80000 およびm= 10を用いた.この結果,探索が停止するま

でに,2710個の部分木が発見され,辞書全体の記述長 は2302173.5bitから1946397.8bitに低下した.これは

15.5%の圧縮に相当する.この過程で得られた定義文の

定義表現パターンの例を図8に示す.

全体 実験対象 見出し語数 28935 14677

定義文数 53608 17131

節点数 181879 96393

2 辞書の諸元

1.9e+06 1.95e+06 2e+06 2.05e+06 2.1e+06 2.15e+06 2.2e+06 2.25e+06 2.3e+06 2.35e+06

0 500 1000 1500 2000 2500 3000

7 目的関数L0(D)の変化

6・2 検 討

最初に,実験によって発見されたパターン集合に,定義 表現パターンが含まれている割合を検討する.定義表現 パターンは,類義語間の意味の差異の情報を含むシソー ラスの作成に役立つパターンである.言い換えれば,あ る見出し語が定義表現パターンを用いて説明されている という事実に基づいて,その見出し語を適当に分類でき る必要がある.そこで,既存のシソーラス(分類語彙表) を互いに階層関係を持つ類義語集合の集合と見なし,こ れらの類義語集合と発見されたパターンによって定義さ

(10)

スカンク アメリカ大陸にすむ, イタチ

<動物一般(1.56)>

に似た 動物

かささぎ 九州の北部にすむ, カラス

<動物一般(1.56)>

に似た 尾の長い鳥.

桔梗 野山

<地形・山野>

にはえ,庭にも植える 草花

<植物一般(1.55)>

ひいらぎ 山地

<地形・山野>

にはえ,庭にも植える 常緑樹

<植物一般(1.55)>

秋,白い 小さな

<厚い・太い・大きい>

花をつける.

泰山木 公園や庭に 植えてある 高木

<植物一般(1.55)>

初夏に白色の 大きな

<厚い・太い・大きい>

花をつける.

梨 春

<季節>

に 白い

<>

花がさき,秋にあまい大きな実がなる.

くちなし 夏,かおりのよい 白い

<>

花が さく.

いんげん豆

若いさやは 煮て

<調理する>

食べ,豆はあんこなどにする.

スパゲッティ ゆでて

<調理する>

,いろいろなソースであえたりして

食べる.

オランダ ヨーロッパの北部, 北海

<海・島>

に面する 国

<国・都市(1.25)>

鳥取県 中国地方の北東部, 日本海

<海・島>

に面する 県

<国・都市(1.25)>

横浜市 東京湾

<海・島>

に面した 港町

<国・都市(1.25)>

として知られる.

図中の 二重下線部 は共通特徴,下線部 は共通変数,下線部 の下の<括弧で囲まれた部分>は共通変数の意味クラス名である.

8 発見された定義表現パターンの例

れる類義語集合を次のような手順で比較した.

たとえば,「<動物一般(1.56)>に似た」という2節 点の定義表現パターンは,「スカンク」「かささぎ」など の見出し語(47語)の定義文に共通して現れる.これら の見出し語を分類語彙表で調べると,<獣(1.561)><

鳥(1.562)><はちゅう類(1.563)><魚(1.564)>と いった4番目の階層に属する各分類に含まれていること が分かる.つまり,このパターンによって定義された類 義語集合は,<獣(1.561)><鳥(1.562)>を包含す

る分類(1.56)に対応する類義語集合の部分集合である.

この時,このパターンは,シソーラスの根から数えて3 番目の階層に対応しているとする.

実験によって得られたパターンのうち,分類語彙表の

「体の類」に属する見出し語を含む2641個のパターンに ついて,対応する階層を調べた2.その結果を表3に示 す.第1の階層は「体の類」そのものであり,この階層に 対応付けられたパターンに基づいて見出し語をさらに分 類することはできない.それに対して,第2階層よりも 深い階層に対応付けらた870個(32.9%)のパターンは,

何らかの分類の根拠となりうるという意味において有効 なパターン(定義表現パターン)である.すなわち,実験 によって発見されたパターン集合に定義表現パターンが 含まれている割合は,約1/3である.

次に,「体の類」に含まれる見出し語(11339語)を対象 として,定義表現パターンによって分類できる見出し語 の割合(カバー率)を検討する.そのため,それらの見出 し語の定義文について,定義表現パターンが含まれてい る割合を調べた.その結果,3643語(32.1%)は,定義表

2 分類語彙表は,「体の類」「用の類」「形の類」「その他」に大 きく4分割されている.前3者は概ね,名詞,動詞,形容詞 に対応する.

階層 パターン数 1 1772 (67.1%) 2 359 (13.6%)

3 151 (5.7%)

4 21 (0.8%)

5 339 (12.8%) 計 2641

3 パターンと階層の関係

現パターンを含む定義文によって説明されていることが 分かった.つまり,定義表現パターンによって約1/3の 見出し語を分類することが可能である.

定義表現パターンによって,既存のシソーラスの類義 語集合の要素間から,どのような意味の差異が取り出さ れる可能性があるかという点を検討する.そのため,分 類語彙表の<植物名>に属する見出し語(233語)の定 義文を対象として,定義表現パターンの具体的な使われ 方を調査した.233語のうち,定義表現パターンによっ て定義されている見出し語は164語(70%)であり,定義 文には63種類の定義表現パターンが含まれていた.た とえば,「梨」の定義文には「<季節><>花がさ く」という定義表現パターンが含まれ,「花がさく」とい う共通特徴と,花の季節と色という共通変数が明らかに なっていた.この他,「庭に植える」「実をつける」「実は 食べる」「胞子でふえる」などの共通特徴と,<季節>

<><厚い・太い・大きい><地形・山野>など の共通変数が取り出された.このように,定義表現パター ンは,既存の類義語集合の要素間の意味の差異を取り出 すために利用できる.ただし,「花をつける」という共通 特徴も発見されたが,この共通特徴と「花がさく」とい

(11)

う共通特徴が同じ意味であるということを自動的に判定 することはできない.そのため,「<>花がさく」とい う定義表現パターンと,「<>花をつける」という定義 表現パターンはまったく別のものとして扱われ,定義表 現パターンの種類が増える原因となっている.

この他,「いんげん豆」「スパゲッティ」などからは「<

調理して>食べる」という定義表現パターンが取り出さ れた.この定義表現パターンによって説明されている見 出し語は,いずれも食材であり,はっきりとした共通項 を持つ類義語集合となっている.さらに,食材の調理方 法に関する共通変数が適切な意味クラス<調理する>に よって取り出され,「いんげん豆は煮て食べる」のに対し て,「スパゲッティはゆでて食べる」という差異が明らか になった.

7. 結 論

本稿では,類義語間の差異の情報を含んだシソーラス を自動作成する方法への第1歩として,自然言語で記述 された辞書から,類義語とその間の差異を自動的に抽出 する方法を提案した.本方法は,辞書の定義文に見られ る定型表現(定義表現パターン)を,あるデータ集合に頻 出するパターンと捉え,MDL原理を用いたデータ圧縮 法によって頻出するパターンを発見する.この定義表現 パターンは,類義語集合を規定すると同時に,類義語間 の差異を示すためのテンプレートとなる.三省堂明解小 学国語辞典を対象とした実験を行ない,得られたパター ンのうち,約1/3が定義表現パターンとして利用できる ことを示した.

今後,探索アルゴリズムの改善などによって精度とカ バー率の向上を図ると同時に,提案手法が対象となる辞 書にどの程度依存しているか検討する予定である.また,

類義語間の差異を記述したシソーラスの構築を実際に行 うことも予定している.

参 考 文 献

[Cook 94] Cook, D. J. and Holder, L. B.: Substructure Discovery Using Minimum Description Length and Back- ground Knowledge, Journal of Artificial Intelligence Re- search, Vol. 1, pp. 231–255 (1994).

[Li 98] Li, H.: Generalizing Case Frames Using a Thesaurus and the MDL Principle,Computational Linguistics, Vol. 24, No. 2, pp. 217–244 (1998).

[Rissanen 89] Rissanen, J.: Stochastic Complexity in Stochastic Inquiry, World Scientific Publishing Company (1989).

[浦本96] 浦本直彦:コーパスに基づくシソーラス:統計情報を 用いた既存のシソーラスへの未知語の配置,情報処理学会論文 誌, Vol. 37, No. 12, pp. 2182–2189 (1996).

[国立93] 国立国語研究所:分類語彙表,秀英出版(1993).

[黒橋98a] 黒橋禎夫:日本語構文解析システムKNP version 2.0 b6使用説明書,京都大学大学院情報学研究科(1998).

[黒橋98b] 黒橋,長尾:日本語形態素解析システムJUMAN ver- sion 3.6使用説明書,京都大学大学院 情報学研究科(1998).

[松本96] 松本,須藤,中山,平尾:複数の言語資源からのシソー ラスの構築,情報処理学会研究報告,96-FI-42巻, pp. 23–28 (1996).

[池原97] 池原,宮崎,白井,横尾,中岩,大山,林:日本語語彙大 系,岩波書店(1997).

[中山97] 中山,松本:シソーラスへの未登録語の自動登録,情報 処理学会研究会報告,97-NL-69巻, pp. 103–108 (1997).

[鶴丸91] 鶴丸,竹下,伊丹,柳川,吉田:国語辞典情報を用いたシ ソーラスの作成について,情報処理学会研究報告,91-NL-83 巻, pp. 121–128 (1991).

[田近97] 田近洵一(編):例解小学国語辞典,三省堂(1997).

〔担当委員:外山勝彦〕

2001年11月6日 受理

著 者 紹 介

土屋 雅稔

1998年京都大学工学部電気工学科第二学科卒業.2000 年京都大学大学院情報学研究科知能情報学専攻博士前期課 程修了.現在,同大学院博士後期課程に在学中.自然言語 処理に関する研究に従事.

黒橋 禎夫(正会員)

1989年京都大学工学部電気工学第二学科卒業.1994 同大学院博士課程修了.京都大学工学部助手,京都大学情 報学研究科講師を経て,2001年東京大学大学院情報理工 学系研究科助教授,現在に至る.自然言語処理,知識情報 処理の研究に従事.

佐藤 理史(正会員)

1983年京都大学工学部電気工学科第二学科卒業.1988 年同大学院博士課程研究指導認定退学.京都大学工学部助 手,北陸先端科学技術大学院大学情報科学研究科助教授を 経て,2000年より京都大学大学院情報学研究科助教授.

京都大学博士(工学).自然言語処理,機械学習,情報の自 動編集などの研究に従事.情報処理学会,言語処理学会,

日本認知科学会,AAAIACL各会員.著書:『自然言語 処理』(共著,岩波書店,1996)『アナロジーによる機械 翻訳』(共立出版,1997)『言語情報処理』(共著,岩波書店,1998)等.

Referensi

Dokumen terkait

作と研究が直接的な関係をもち、博士論文を作品と論文のかたちとする場合の美術大学な らではのあり方として評価できる。 ●本論文は、自作の手法の理論的根拠を明らかにすることに端を発しているが、自作の手 法における形式の流動性の発見により、映像の領域の独自性が、形式そのものの流動性に あることの結論に至り、映像全体に展開される定義を新たに加えたことには意義がある。

【平成 20 年度日本保険学会大会】 報告要旨:金 星泰 翻訳:権澈(成均館大学法学部専任講師) の通知権・受領権)などに関して詳しい規定を新設した。 4)告知義務などと因果関係のない保険事故:保険者の解約権の認定(案 655 条):告知義務 違反などと保険事故の間に因果関係が認められなくても、保険者が保険金は現行のように支

工学院大学建築学部卒業論文梗概集 田村研究室 2016 年度 生物資源の再利用を目指した象糞由来の繊維モルタルの物性評価 DB11054 片岡 功光 1.はじめに 現在、循環生物の廃棄物から建材に応用されていたり、本 来廃棄されてしまう用途のない竹などの植物をフィブリル化 微細化し、再構築することで建材に応用する研究が進んで

付け文書により、指定科目の確認がされた下記1の課程について、下記2のとおり 募集停止しますので届出いたします。 この届に記載の事項については、最新かつ正確なものです。 公益財団法人 建築技術教育普及センター 理事長 殿 ○ × ○ × 学 校 学 長 山 田 一 郎 1.募集停止する課程 学校教育法等による学校の区分 1.大学 学校課程コード

まえがき 北方森林学会大会の総会および研究発表会は、本年も11月12日に札幌コンベンション センターにおいて開催された。総会では、来賓として一般社団法人日本森林学会会長の 井出雄二氏と一般社団法人日本森林技術協会理事長の加藤鐵夫氏のお二人を迎えて祝辞 を賜った。 そののち、議事として会則改訂及び各種規定の制定、平成26年度事業計画ならびに予

「ロルの定理」を利用した授業による生徒の数学観の変容に関する実践例 〜「数学基礎」を見据えた数学史を活用した授業〜 筑波大学大学院修士課程教育研究科 小澤 真尚 1. はじめに 2. 目的と方法 (1)目的 (2)方法 3. 授業概要 (1)教材開発 (2)授業環境 (3)授業展開 4. 結果と考察 5. おわりに 1.はじめに