日本語の意味 ( 役割 ) タグ体系を定義する試み FrameNet の視点から ∗
黒田 航 井佐原 均 独立行政法人 通信総合研究所
†{kuroda,isahara}@crl.go.jp 2004 年 4 月 12 日
概要
本論文はBerkeley FrameNet [6, 7]に(緩やかに)準拠 して日本語のための意味(役割)タグ体系を定義する可 能性について考察する.そのような目的のためにFNが 適している理由の一つとして,それが(シソーラスの基 盤となる概念階層とは別の観点から)「意味要素の自然で 一貫した分類基準」を提供することを示し,意味(役割) タグ体系の定義する際にFNが有効であることを示す.
1 背景
過去十数年間,自然言語処理は目覚ましい進歩を遂げ た.その要因の一つは言語資源の充実によって可能と なった機械学習アプローチの普及と定着である.品詞・
統語情報などの付加情報(アノテーション)つきのコー パスを訓練データに用いた機械学習に基づいて,以前は 不可能だった様々な成果が達成された.
このような手法によって達成された解析技術の高度化 には目を見張るものがあり,同様の効果が意味処理にも 期待しうるが,一つ大きな障壁がある.現時点では意味 処理に適切な言語資源が存在しない.
このような空隙を埋めるのは急務であると考え,通信 総研の自然言語グループでは,次のような企画を開始し た: (i) Berkeley FrameNet (以後,BFN)[6, 7]に準拠した 日本語のための意味タグ体系Sの開発; (ii) S (の部分タ グ)のついた日本語コーパスの構築と公開(ただし,現時 点で公開するコーパスの規模は決まっていない).
以下では,特に(i)に関してFNが意味タグ体系の定 義に有効だと考えられる理由を論じる.
∗この論文は第10回言語処理学会でのポスター発表(03/16/04, 東京工業大学)の内容を反映するように,大会予稿集に収録の 論文[14]を改訂したものである.この論文の改訂にあたって,
岡本雅史(東京大学),竹内和弘(通信総合研究所),竹内孔一(岡
山大学),中本敬子(京都大学)との有益な議論が参考になった.
この場を借りて,感謝の意を表したい.
†2004/04/01より名称が情報通信研究機構(NICT)と変更される.
2 FrameNet が意味 ( 役割 ) タグ体系の定義に 有効である理由
2.1 有意味な意味タグ体系の条件
議論の始めに,[19]の意見を参考にしつつ,意味タグ 体系が満足すべき一般的性質を幾つか上げておく.有効 な意味タグ体系とは,
(1) 十分な体系性と一貫性が備わっていて,機械学習 可能である
(2) 品詞情報や統語情報の体系から分離されていると 同時に,それらと統合されている(か統合可能で ある)
(3) 特定の知識領域や目標課題(e.g.,機械翻訳)に限 定されない一般性と網羅性を有し,多くの分野の 研究者が有用な情報を引きだせる
(4) 必要に応じて拡張可能である
これらは条件としては網羅的ではないが,要点は尽く していると思われる.
FNは特に(3, 4)の問題に関して有効なアプローチで
ある.以下では,この点に関して,詳しく説明する.こ の論文では扱わないが(1)の問題は[9]で検討されてい る.
2.2 課題としての意味(役割)タグづけ
品詞タグづけPOS taggingは,形態素解析の出力であ る形態素列に最適な品詞タグ列を割り当てる手順であ る.意味タグづけsemantic tagging/markingも,本質的 には同様な手順として表現することが可能であるが,そ れには品詞タグづけにはない問題がある.例えば,
(5) 仮に意味タグ体系が閉じているとして,その空間 (おそらく数百から数千のオーダー)は品詞タグの 空間(数十から数百のオーダー)より広大である
Word[j]
Frame[1]
FE[1]: ...
FE[2]: ...
...
FE[n]: ...
Definition: ...
Frame[2]
FE[1]: ...
FE[2]: ...
...
FE[n]: ...
Definition: ...
Frame[n]
FE[1]: ...
FE[2]: ...
...
FE[n]: ...
Definition: ...
活性化
活性化
活性化 Word[i]
活性化
側抑制 側抑制
側抑制 側抑制
側抑制
Word[j]
Frame[1]
FE[1]: ...
FE[2]: ...
...
FE[n]: ...
Definition: ...
Frame[2]
FE[1]: ...
FE[2]: ...
...
FE[n]: ...
Definition: ...
Frame[n]
FE[1]: ...
FE[2]: ...
...
FE[n]: ...
Definition: ...
活性化
活性化
活性化 Word[i]
活性化
側抑制 側抑制
側抑制
側抑制 側抑制 Word[1]
Word[n]
Word[1]
Word[n]
図1 競合からFrame[2]が選ばれる様子
(6) 品詞タグづけの単位が比較的明瞭(e.g.,形態素, 語)であるのに対し,意味タグづけの単位は(長年 の言語学の研究にも係わらず)今もって十分に明 瞭だとは言いがたい
(7) (5, 6)の当然の結果として,意味タグづけの場合,
最適なタグ列を決定する過程で生じる相互依存性 がケタ違いに大きい
(8) 品詞タグ体系を定義するのに使用される分類特 徴(±countable,±inflectional, ...)ほど自明な分類 特徴が,意味タグ体系の定義の場合には得られな い.つまり「意味要素の自然な分類特徴」の発見 は自明ではない
(7)は計算的な側面を含み,FNが直接解答を与える問 題ではないが,(6, 8)の問題に関して,FNは非常に有効 な答えを提供しうる.以下では特に(8)の分類基準発見 の問題に関して,その理由を述べる.
なお,ここで正確を期すならば,ここで意味タグづけ と呼ばれている課題は,意味役割タグづけsemantic role tagging/markingのことである.単なる意味タグ(づけ) と意味役割タグ(づけ)の概念的相違は,以下の議論から 自然に明らかになるはずである.
3 FS/FN の基本概念
(B)FNはFillmoreのフレーム意味論Frame Semantics (FS)の応用であり[5],その意味で,日本語自然言語処
理でなじみの深い格文法Case Grammar [4]の発展形で もある.しかし,以下に示すように,格文法とFS/FNへ の移行には幾つかの重要な概念的変更も含まれる:
• FS/FNは「理解には基本単位が存在する」とい
う仮定を立て*1,その単位を(意味)フレーム(se- mantic) frameと呼ぶ
• フレームが特定し表現しているのは「何が何のた めに何をどうした」という理解の単位である.
• この意味でのフレームは非言語的な単位で,ヒト が理解できる状況を定義する構造体である.
•「何が」「何のために」「何を」のような項の性質 はフレームが決定し,項の意味タイプによっては 完全に定まらない.つまり,フレームが項の状況 における役割を定める.
• このようにして定まる状況相対的な意味役割を FNではフレーム要素Frame Element (FE)と呼 ぶ.
• フレームが特定された時,(あるレベルの)理解が 達成される.この際,フレームの特定性の程度の 差によって「浅い理解」と「深い理解」の差が生 じる.
*1ただし,BFNはこの認知科学的的に極めて重要な存在論的前提 に関して,明示的ではない.
3.1 フレームの選択と語義の特定=曖昧性の解消 語のタイプに係わらず,語は様々なフレームを喚起す るが,その喚起の強度は語のタイプによって異なる.動 詞は特にフレームの特定に大きく貢献するが,それでも 完全に一つのフレームを特定はしない.言い換えれば,
動詞と名詞(群)との同一文内の組み合わせによってし かフレームは定まらない.例えば動詞「襲い手が犠牲者 を襲う」には,[15]が記述するように,次の(i)-(iv)の ようなフレームとその上位/下位フレームが幾つか存在 する: (i)h(主に捕食を目的とした)動物による襲撃iの フレーム,(ii)h(主に資源の強奪を目的とした)人間によ る攻撃iのフレーム,(iii)h自然災害発生iのフレーム,
(iii)h活動への打撃発生iのフレーム.これらのフレー
ムが存在することで,(9)-(12)のそれぞれの表現で曖昧 な指示“それ”の意味タイプが(決定可能でなくても)推 定可能となる:
(9) 人食い鮫がそれを襲った[“それ”の型={人,魚,
ケガをしたイルカ, ...}]
(10) 強盗がそれが襲った[“それ”の型={銀行,現金 輸送車,コンビニ, ...}]
(11) それが東京を襲った[“それ”の型={地震,台風,
インフルエンザ, ...}]
(12) それが市場を襲った[“それ”の型={株価の暴落,
恐慌, ...}]
また,道具の使用が含意されるのは,(ii)のフレームの みである.
このことを一般化して言うと,どんな語も単独ではフ レームを特定する力はない.これが語の多義性の原因と なる.別の言い方をすれば,語の多義性,曖昧性の解消 sense disambiguationとは,(ほかの語との共起によって) 意味フレームが特定され,フレーム内でのその語の意味 役割が定まることである.
文中の異なる語が互いに異なるフレームを喚起するこ とがある.この場合,そのようにして喚起されたフレー ム間には競合的関係が発生し,(おそらく側抑制によっ て)そのうち一つのフレームが選ばれる.このことは簡 単に図1に示した.
3.2 FNに関する幾つかの注意
FS/FNの考える意味役割は,一方でフレーム相対的,
状況相対的である.それが状況相対的である理由は,そ れがモノの物理的,客観的特性には還元しえないからで ある.他方で,FS/FNの考える意味役割は,多分に文化 相対的である.FS/FNはもはや,格文法の頃のような
「普遍的な意味役割の目録」に基づく意味記述は目指し ていない.
これらの点から明らかなように,FS/FNは理解の記述 を指向しており,真理条件の記述を指向する意味論とは 一線を画するものである.
FNがFSと異なっている点は,FNでは多数のフレー ムが継承関係などによって(オブジェクト指向デザイ ン風に)組織化された構造である点に注目している点に ある.
FS/FNに基づく意味タグ体系には限界もある.例え
ば,修飾部に現われる形容(動)詞の扱いは自明ではな い*2.これらの意味の基盤を何に求めるかは,現時点で は見通しが立っていない.
3.3 意味フレームの実在性
第一著者を含む共同研究[18]で,二つの心理実験 (カード分類課題,意味素性評定課題)の多変量解析(ク ラスター分析,因子分析,多次元尺度法)の結果から,
意味フレームが実在性を強く示唆する結果が得られてい る.これは意味タグの基礎となる意味フレームが単なる 理論仮構物(あるいは言語学者の妄想)ではないことを 意味する.
この実験は,言語学者によるコーパスの分析を通じて なされた「襲う」の12個の下位フレームの特定[15]の 記述的有効性を検証するためのものであった.図3に,
同定されたフレームのネットワークを示す.
この結果はFN/FSの枠組み全体にとっては好意的な ものであるが,現時点でのBFNの幾つかの問題点を明 るみに出すものでもある.
• 第一に,BFNでフレームの実在性は自明と見做さ れ,まったく疑問視されていないが,それは認知 科学的な観点からすると,実証性を犠牲にした,
危険な方向性である
• 第二に,BFNの設定しているフレームの粒度に 関して,[18]の結果は,それを問題なしとはしな い.現時点で,BFNデータベースの記述の細か さ(あるいは粒度)の最適性は所与のものとなっ ているが,これは根拠に欠ける*3
• 意味フレームのデータベースの記述の粒度が利用
*2BFNでは形容詞や名詞にもフレームが存在することになってい るが,第一筆者はこの扱いには疑問を感じている.意味フレー ムの記述力が本当に経験的に有意味な範囲(例えば計算可能な 範囲)に制限してあることは,工学的,認知科学的的見地から は,極めて重要である.この点で,BFNのフレーム認定の基準 は些か奔放すぎると感じられる.
*3第一著者はBFNのスタッフと直接接触をもったことがないの で断言はできないが,公開されているBFNデータベースの単 位がどのような経緯で選定されたのか,それを知ることのでき る資料は存在しないか,あるいは,その問題は初めから考慮さ れていないように思われる.
!"#$% &$'($")* +,-($./0 12$%34565)7
+,-($.89 12$%34565)7
+,-($.:;<
=>
12$%34565)7
+,-($.?@ABCD
=>EF<GH 12$%34565)7
+,-($.IJ1K
$%34565)L2'MN$,
"M,4$**7
+,-($.OP1K
$%34565)L2'MN$,
"M,K4$**7
+,-($.QR 125(345$#7
S TUV +W.=>XY +W.=>XY +W.WZ[\W].
^V_
` a bc]\W] bc]\W]
d < e!f\W]
g :; h[ZW]f[] +W.=>CD
i jk e!f\W]
l fmeeS +W.89n +W.=>EF +W.=>EF
o fmee` +W./0n +WpqrIJn +W.IJn +W.OPn
s tuvwxy +W.z{ +W.89qr +W.IJ|{ +W.OP|{
} ~ bc]\W]
S• /0 h[ZW]f[]
SS €• W‚ƒWf„W]
S` qr W‚ƒWf„W] +W.WZ[\W].I
Jqr
+W.WZ[\W].O Pqr
Sd < e!f\W] e!f\W] e!f\W]
Sg … +W.†‡ +W.89
ˆ.WZ[\W]
+W.WZ[\W].I
J‰Š +W.OP†‡
Si ‹ bc]\W]
Sl Œ•Ž +W.89XY +W.WZ[\W].
••_
So a bc]\W]
Ss ‘’ h[ZW]f[] “Wc„ “Wc„
S} ”•– W‚ƒWf„W] W‚ƒWf„W]S W‚ƒWf„W]S
`• —˜ W‚ƒWf„W]` W‚ƒWf„W]`
`S ‹ bc]\W]
`` ™š›œ h[ZW]f[]
`d fmeed W‚ƒWf„W]
`g •
図2 タグづけ案: FEが意味タグに相当する
目的ごとに最適化されているか,あるいは変更可 能でない限り,最終的にリリースされる言語資源 の有用性は限定されたものになる
(ターゲットとなる課題ごとに)フレームの最適な粒度 を設定するというのは,意味タグつきのコーパスを有意 義な言語資源とするために必須な条件であり,現時点で のBFNはこの点に関し,明らかに見識を欠いているよ うに思われる.
3.4 BFNの問題点
BFNでは意味フレームのデータベースの構築を意味 タグつきコーパスの開発に優先させている.これはデー タベースを早期にリリースするための一つの方針だが,
これには明らかな弊害もある.この手法では,例えば数 百文程度のサブコーパス全体に十分に細かく意味役割タ グづけしようとした場合,(i)どれぐらいの数のフレー ムが,(ii)どれぐらいの詳細度まで必要か,という実際 的な見地には繋がりにくい.実際,このような実際の応 用を射程に入れた研究は,BFNではまだ行われておら ず,第一筆者は,BFNの今の方針では,最終的には意味 フレームの概観を得る程度のことしか達成しないのでは ないかと恐れる.
なお,通信総合研究所の開発するFNデータベース は,これらの二点を補う形でBFNを拡張する見通しで ある.以下に,その具体例を示す.
4 意味役割ベースの意味タグづけの実例
以上の議論から解るように,意味タグとしてフレー ム要素(FE)を採用するのは有効である.これが正しい アプローチならば,FN/FSはすでに(8)の問題に対して (間接的には(6)に対しても)有望な答えを出している.
以下では,S:「西寧市での暴動は,イスラム教徒を侮辱 する内容の本が四川省で刊行されたことがきっかけ」(日 英対訳コーパス[20]の実例)という文に対する暫定的タ グづけ案を基に,この主張の妥当性を見当する.
4.1 フレーム=ネームスペース(名称空間)
“F.X ”というドット演算子を用いた表記は,フレーム
要素XがフレームFのネームスペース内にある局所的 な要素であることを示す.従って,任意のフレーム要素 の対(F1.X , F2.Y )について,仮にX=Yであっても,常 にX,Y が同一というわけではない.もちろん,F1, F2 が同一の上位フレームF0の実現である場合,X , Yには 共通性が存在する.
ROOT
生体の抗争
人の襲撃
動物の襲撃
自然災害発生
異変の発生
活動への打撃 異常気象
疫病の流行 捕食
強盗
強姦 抗争/紛争
非捕食
発病 災厄の発生
高波が海水浴客を襲った
ペストがその町を襲った
大型の不況がその国を襲った
肺ガンが働き盛りの彼を襲った
ストーカーがその女性を襲った 二人組の強盗がその銀行を襲った 二人の組員が敵対する組長を襲った
スズメバチの群れがその人を襲った
言いよう のない不安が彼を襲った
虐待 通り魔がその小学生を襲った
侵略 その国は石油の豊富な隣国を襲った
資源強奪
暴行
小規模 大規模 オオカミが小羊を襲った
地震が東京を襲った
図3 [15]が同定した「襲う」のフレームのネットワーク
4.2 複層コーディング
フレーム要素を意味タグとして採用した場合,Sに対 し,どのような構造が与えられるかを示すタグづけ例を 図2に示す(フレームごとに色分けしてある).*4
ここで便宜的に特徴[+explicit]を割り当てたフレー ム(h侮辱i,h出版i,h刊行i)は表層に明示的な支配 項governor (e.g., “侮辱(する)”, “本”, “刊行(する)”)を もつもの,特徴[−explicit]を割り当てたフレーム(e.g., h執筆i,h表現i)はそれをもたないものである.
明示的な支配項がないフレーム場合,そのタグづけは FN内部の含意関係に基づいて自動的な推論として示さ
*4このタグづけ案にあるNULL1, NULL2の存在位置(Index 6, 7) に関して言うと,それは「主要部の形成する節の先頭」という 日本語の言語学の観点ではすれば十分に動機づけられられた位 置であるとは言えるものの,かといって,それは完全に恣意性 を免れるものでもない.また,NULL3は動詞要素(「だ」や
「である」が現れる位置であり,その省略をコードするが,その 役割が補助的な要素である(ここではEXTENDERとしてエン コードされている)点から見ても,NULL1, NULL2とは性質が 異なっていて,必須性は低いと言える.)
れるので,明示的にコーディングされる必要はない.*5 どんな要素にどれぐらいのフレーム喚起力があるか は,まだまだ明らかでない面が多く,今後の調査が必要 である.実際,動詞ばかりでなく,名詞(e.g.,本)や前置 詞・後置詞も特定のフレームを喚起することがあるのは 明らかである.
図2にある意味タグづけはBFNが定める枠組みに第 一著者が独自に拡張した版に準拠している.拡張の基本 は,一つに文に幾つものフレームが同時に現れるとい う「フレームの複層的実現」の問題に対応させることで ある.この種の拡張なしに任意の言語の任意のコーパス に,多くの分野の研究者にとって利用価値のある現実的 なコーディングをなしうるとは考えられない.*6
*5FN自体はオブジェクト指向デザインの関係データベースであ り,内部的にはフレーム同士はネットワーク構造をなしている.
*6BFNは現時点では,暗黙に「一文につき一フレーム」のような 作業仮説を置いて作業を進めているように見受けられるが,こ のようなアドホックな制約によっては自然言語の複雑性は押さ えこめないと思われる.
4.3 「深層構造」の概念への関連
図2にあるような多層的なコーディングを採用す ると,フレームは実質的に,いわゆる深層構造 deep
structureと同じ役割を果たしているのが判る.これは
興味深い点である.この点が正しいならば,言語学の従 来の記述的貢献をタグづけの目的のために,再利用する ことが可能となる.*7
多層的実現の下での深層構造と表層構造の対応関係は 多重継承multiple inheritanceで,同時的,並列的であり,
深層構造としてのフレームはいわゆる派生derivationで 順序づけられた履歴を伴って表層形に結びつけられてい るわけではない.
4.4 意味役割と文法役割の自然な橋渡し
図2にあるような多層的な記述は,意味役割と文法 役割の自然な橋渡しを可能としている.これが可能で ある理由は,文法関係,文法役割が語に相対的に定義さ れているからある.このように,文法関係の記述に多重 継承の考えを(HPSGなどとは違った形で)応用する際 に基礎となる理論的枠組みは,すでにPattern Matching
Analysis (PMA)という名称で,第一著者によって開発
済みである[11, 12, 13].*8
5 日本語のための FN/FS の将来の展望
手短に,工学におけるFN/FSの位置を比較する.
5.1 FN/FSの意味タグ体系設計のための有効性
以上のことから強く示唆されるのは,FS/FNは意味 タグ体系を定義するのに有用であろう,ということで ある.
だが,FS/FNが記述するのは可能な意味タグ体系の全
体ではないし,それには自ずから,限界もある.実際,
シソーラスが扱っている側面とFN/FSが扱っている側 面は,おそらく直交的である.これは属性ベースの意味 記述と役割ベースの意味記述とのあいだに「インター フェイス」が必要だということを示唆している.
有用な意味タグ体系は客観的特徴の集大成としてのシ ソーラスがあれば十分だというわけではない.理解を問 題にするのであれば,その単位として意味フレームの詳
*7認知言語学系の言い方をすると,これは表層系(の意味構造) は,幾つものフレームのブレンドblendに相当するとも言える であろう[2].
*8PMAは元来,主語,(間接)目的等の文法機能grammatical func- tionに基づいて統語構造を記述する枠組みとして開発された が,その後,BFNの現時点での問題点(e.g.,「一文につき一フ レーム」の原則の存在)を補うという応用的価値をもつことが 判明した.
細な記述に基づくべきである.
実際,EDR [?]であれ, WordNet[3]であれ,規模の大 きいシソーラスには雑多な情報が統一感なく入り交じっ ていて,利用の際の便も,理論的見通しも悪い.この問 題は,属性ベースの意味記述と役割ベースの意味記述と いう「直交的な性質」を分離し,それらの記述をシソー ラス・プロバーとフレームネットの分業に割り振ること よって,自然に解消できると考えられる.
例えば,この分業の見通しを得るために,「本」という 名詞がフレームごとにどんな意味役割をもつかを示した ものが,次の図4である.この図にある構造をフレーム 要素の格子(FE Grid)と称する.
この図4では,本の属性が(その“アフォーダンス”に 基づいて)フレームごとに別の使用目的をもっているこ と,つまり別々の現れをしていることを明示している.
問題は,この二つ種類の情報が従来のシソーラスには 混在しているという点である.これは古典的な「フレー ム問題」,つまり記述量の爆発に繋がる,避けるに越し たことのない問題であるが,FSに準拠する記述の枠組 みを採用することで,この問題を回避が可能となると考 えられる.
5.2 類似の枠組みとの比較
動機や目標は異なるが,意味タグ体系,あるいはそれ に類するものを定義する試みは,幾つも存在する.その 代表的なものは 橋田浩一らが提唱しているGlobal Doc- ument Annotation (GDA),WordNet [3],Resource De- scription Framework (RDF) [16]とその利用形態として のSemantic Web [1],Ontologies [17]などである.
また,機械翻訳などの特定の言語処理に役立つ辞書構 築の企画の一つとFNを見なすならば,それは格フレー ム辞書構築[10]と明白な関連をもつ.
このような試みとFNとのあいだには興味深い類似 点,相違点が存在するが,FNは次の点で際立っている.
(13) 知識構造の直接表現でなく,それを資源として達 成される理解のモデル化を目指す
(14) (13)の結果として,型ベースではなく役割ベース
のコーディング体系を採用する
(15) 言語学者の意味に関する優れた直観と工学者の優 れた技術力を統合する
第一の点に関しては,すでに述べた.ほかに二点に関 しては,分量の制限もあり,この論文で詳しく論じるの を避ける.
f1
f4 f3
f1: 着用フレーム
f4: 出版 (<< 制作, 売る) f3: 執筆(<< 情報伝達)
a1 b1: 本 b3: 洗剤
a1 b1 b3
f2 f2: 洗濯
f5 f5: 消費
b2: 衣類 b2
a4 a4
f6 f6: 読書
a2 a2
提供者
a5 a5
a6 a6
f7 f7: 教育
a3 a3
“Agent” Classes “Thing” Classes
洗剤
出版物 内容 執筆者
汚れ物
消費者 商品
読者 内容
作者
読者
購買者
衣服
出版者
洗濯者 着用者
商品 商品
生徒 教科書
作者 教師
消費者
読者
図4 FE-Grid
6 結論に代えて : 言語科学者が FrameNet に 期待しているもの
以上,FNの有効性に関して,主に工学的な観点から 論じてきた.だが,第一筆者の背景は言語学/認知科学で あり,関心の中心は必ずしも工学的なものではない.以 下,彼がFNに強い期待をもっている理由を説明する.
意味タグはコーパス利用者の関心を反映したものでな ければならないことは,最初に述べた.だが,有用な意 味タグつきの日本語コーパスが従来のコーパス構築法の 延長線状に起こるとは考えにくい.京大コーパスであれ 何であれ,言語学者が積極的に構築に関わってこなかっ たという理由もあって,それらの言語学的,認知科学的 有用性は限られている.
今でも積極的にコーパスを利用して研究している言 語学者は少ない.言語学関係の学会に出向くと,憶測と も妄想ともつかない珍説,奇説が跳梁跋扈し.それらの
「論証」には実証性のカケラもない.それらを「正しい」
かのように見せかけているのは,往々にして空っぽの権 威である.これは言語学が科学だとすればとうてい信じ られないことだが,あいにく事実である.
このこと一つからしても,言語学者がこれまで日本語
コーパスの利用に関して,今までは「工学者の作った便 利なものを使わせてもらう」という受身な発想をするこ とが多かったのは当然のなりゆきだったと言える.だ が,そのような言語学にとって非常に不幸な時代はもう そろそろ終わりだと思う.データ中心に研究を進めるべ きだという反省が徐々に広がっていると,第一著者は信 じる.そのような背景の下で,これからは「本当に自分 の必要にあったコーパスを自分でデザインし,それを工 学者に注文する(あるいは共同開発する)」という能動的 な姿勢を取るべきであり,そのような形で工学者と積極 的に係わってゆくべきだと第一著者は考える.
このような共同作業を通じて言語学が受ける恩恵は絶 大なものである.現時点での言語学は,実験生物学成立 以前の生物学のような状態にある.言語学者の一部には 一部の先導者の意見に躍らされて,言語学を物理学にな ぞらえる人々がいるが[8],これは明らかに言語学自体 にとって好ましい結果を生んでいない.いわゆる「チョ ムスキー革命」以来,言語学者は体系的にデータを収集 し,それを理論的バイアスを回避しながら記述するとい う自然科学的に基本的な研究態度を取るのを止めてし まった.その結果,言語学者はすっかり怠惰になり,言 語データを真剣に見なくなり,自分の理論に都合のいい
例を作例し,気に入った現象を恣意的に「説明」してい る.現在,データ収集の方法は行き当たりばったりで,
ご都合主義的であり,完全に非科学的である.そのよう な劣悪な記述に基づいて(例えばUGに関する)「深遠」
な説明を提案するのに言語学者は忙しい.これが現在の
「科学的」言語学の実態である.
だからと言って,第一著者は「伝統的」言語学にあり がちな,見通しのない,瑣末主義的な現象の記述に回帰 すれば良いと主張しているわけではない.言語の記述が 言語資源と呼べるためには,まず,それが効果的に(i) 再利用可能であり,(ii)共同利用可能であることが必要 である.効果的に再利用可能であるためには,(iii)記述 のフォーマットが定まっていて,利用者に解釈のために 最低限の前提知識しか要求しないことが必要である.更 に言えば,(iv)記述が電子化され,(v)データベース化さ れていて,(vi)オンラインで利用可能であることが望ま しい.
言語記述という問題において,言語学がこれまで分野 を越える共有資源の構築になした貢献は実質的に無に等 しい.特に意味記述の分野でこの傾向は顕著であり,そ れが認知科学的には意味の実証的理論の立ち後れ,工学 的には意味処理の立ち後れに結果していると思われる.
FNは,このような事情に歯止めをかける枠組みとして 有望である.それは,言語学が過去数十年間の怠惰から 失った関連研究分野との実りある連携関係を取り戻す きっかけを与えるかも知れない.
参考文献
[1] Berners-Lee, Tim, James Hendler, and Ora Lassila.
2001. The semantic web. Scientific American. May 2001.
[2] Fauconnier, Gilles. 1997. Mappings in Thought and Language. Cambridge University Press.
[3] Fellbaum, Christiane, Ed. 1987. WordNet: An Elec- tronic Lexical Database. Cambridge, MA: MIT Press.
[4] Fillmore, Charles J. 1968. The case for case. In Uni- versals in Linguistic Theory, pp. 1-88. Ed. W. Bach and R. T. Harms. New York, Holt, Rinehart & Win- ston.
[5] Fillmore, Charles J. 1982. Frame semantics. In Lin- guistics in the Morning Calm, pp. 111–137. Ed. Lin- guistic Society of Korea. Seoul, Hanshin Publishing.
[6] Fillmore, Charles J., C. Wooters, and C. F. Baker.
2001. Building a large lexical databank which pro- vides deep semantics. In Proceedings of the 15th Pa-
cific Asia Conference on Language Information and Computation.
[7] Fontenelle, Thierry, Ed. 2003. International Jour- nal of Lexicography, 2003 September, Special Issue:
FrameNet and Frame Semantics.
[8] 福井直樹. 2001.自然科学としての言語学: 生成文
法とは何か.東京:大修館.
[9] Gildea, Daniel, and Jurafsky, Daniel. 2002. Au- tomatic labelling of semantic roles. Computational Linguistics 28 (3): 245–288.
[10] 河原大輔・黒橋禎夫. 2002.用言と直前の格要素の 組を単位とする格フレームの自動獲得.自然言語処 理. 9 (1).
[11] Kuroda, Kow. 1999. Outlining Pattern Matching Analysis: A theoretical framework proposed for a re- alistic description of natural language syntax.言語科 学論集, No. 5: 1-31.京都大学基礎科学科,京都. [12] Kuroda, Kow. 2000. Foundations of Pattern Match-
ing Analysis, A New Method Proposed for the Cognitively Realistic Description of Natural Lan- guage Syntax. 未 刊 行 博 士 論 文. 人 間・環 境 学 研 究 科. 京 都 大 学. [http://clsl.hi.h.kyoto- u.ac.jp/˜kkuroda/papers/kuroda2000/*.pdfから章ご とにダウンロード可能]
[13] Kuroda, Kow. 2001. Presenting the Pattern Matching Analysis, A Framework Proposed for the Realistic Description of Natural Language Syntax. Journal of English Linguistic Society, 17: 71-80. English Lin- guistic Society of Japan.
[14] 黒田 航・井佐原均. 2004.日本語の意味タグ体系 を定義する試み: FrameNetの視点から.言語処理学 会第10回年次大会発表論文集: 148–152.言語処理 学会.
[15] 黒 田 航・野 沢 元. 2004. 比 喩 理 解 に お け る フ レ ー ム 的 知 識 の 重 要 性: FrameNet と の 接 点. [http://clsl.hi.h.kyoto- u.ac.jp/˜kkuroda/papers/metaphor-and-frames.pdf].
[16] Lassila, Ora, et al.. 1999. Resource De- scription Framework (RDF) Model and Syn- tax Specification. W3C Recommendation hhttp://www.w3.org/TR/REC-rdf-syntaxi
[17] 溝口理一朗. 1999.オントロジー研究の基礎と応用. 人工知能学会誌14 (6). 45–56 [977-988]
[18] 中 本 敬 子・野 澤 元・黒 田 航. 2004.動 詞「 襲 う 」の 多 義 性:カ ー ド 分 類 課 題 と 意 味 素 性 評 定 課 題 に よ る 検 討. 認 知 心 理 学 会 第 二 回 大 会 口 頭 発 表. 同 志 社 大 学. [http://clsl.hi.h.kyoto-
u.ac.jp/˜kkuroda/papers/Nakamoto-et-al- CogPsy2004-Original.pdfから入手可能]
[19] Wilson, Andew and Thomas, Jenny. 1997. Semantic annotation. In Corpus Annotation: Linguistic Infor- mation from Computer Text Corpora. Ed. R. Garside, G. Leeach, and A. McEnery. London: Longman.
[20] Utiyama, Masao, and Hitoshi Isahara. 2003. Reliable Measures for Aligning Japanese-English News Arti- cles and Sentences. ACL-2003: 72–79.