• Tidak ada hasil yang ditemukan

PDF 表層語形から品詞はどれぐらい正確に予測できるか?

N/A
N/A
Protected

Academic year: 2023

Membagikan "PDF 表層語形から品詞はどれぐらい正確に予測できるか?"

Copied!
18
0
0

Teks penuh

(1)

表層語形から品詞はどれぐらい正確に予測できるか?

英語形態論とチェコ語形態論の比較から

概要

単語の語末文字n-gram (n=2, 3, 4)の品詞予測力を,英語 とチェコ語に付いて比較し,検討した.目的は二つだっ た.第一に,どの言語でも表層語形から品詞が予測でき るが,その予測精度は言語によって相当に変わりうると いう予測を,部分的に実証する.第二に,他の条件が同 じであれば,単語の表層語形から品詞が予測できる程度 が語彙獲得効率に正の方向に貢献するという想定(未検 証の仮説)の下で,英語が単語の獲得が難しい言語であ る事を示す.Formal Concept Analysis (FCA) (Ganter and

Wille 1999)を使った解析の結果から,英語の語形f の

語末n-gram (nは2以上で4以下)から,f の主要品詞 Verb, Noun, Adjective, Adverbが(少なくともチェコ語に 比べて)高精度に予測できないことが確かめられた.他 の条件が同じであるとして,表層語形から品詞が高精度 で予測できるほど語彙獲得は容易であると想定するなら ば,この結果は英語が(複数語を塊として処理できない 限り)語彙獲得の難しい言語である事を実証的に示する 結果である.

1 はじめに

英語の習得で苦労しなかった日本人は滅多にいない.英 語の修得は様々な理由から日本人にとって魅力的な目標 であるが,多くの人にとって「果たせぬ夢」である.理由 の一つとして,実施されている英語教育の非効率性を指 摘することは間違いではない.だが,この指摘が仮に正 しいとしても,効率を上げるために何をすべきなのか?

母語話者偏重の教育法や会話中心の教育法の効能が大衆 メディアを中心に無責任に吹聴されているが,それらに 期待されている効果があるかは,大いに怪しい1)

欠けているのは明らかに日本人にとって英語の習得が 難しいという事実の認知科学的に妥当な説明である.そ れがない状態で効率化を目指すのは,「溺れる者は藁を も掴む」の状態で,効果のない教育法に飛びついている だけである危険が高い.実際,過去にも色々な学習法の

1)効果がないという証拠も上がっていないが,だからと言って効果 があるとも言えない.

流行と陳腐化があった.遠目には,それが単に繰り返さ れているだけのようにも見える.この悪循環を脱するに は,日本語を母語にする個体にとって英語習得が難しい 理由を,認知科学的に記述し,それを基にして対策を講 じる必要がある.

1.1 言語距離で十分か?

英語は明らかに日本語を母語とする話者にとって習得の 易しい言語ではない.この難しさに直感的な説明がつか ないわけではない.

一般に母語との類似性の高い言語は,習得が容易であ ると言われる(Ce˜noz 2001; Isphording and Otten 2011). 日本人にとって習得が容易な言語として知られているの は,韓国語である.

だが,一般的な形で言語間の類似性を定義するのは厄介 な作業である.その類似性指標の一つとして知られてい るのが言語(間)距離(language distance)である(Chiswick and Miller 2005; Wichmann, Holman, Bakker, and Brown

2010).言語距離という名称は,言語間の非類似性を言

語の間の距離に喩えている所に端を発する.日本語から 見れば韓国語は言語距離が近い.これに対し,日本から 英語への言語距離は非常に遠い.多くの印欧語は,日本 語からの言語距離が遠いが,これは言語の系統が異なる ためである.

言語距離は単なる喩えであって,言語間の距離を構成 する指標が十分に一般的な形で定量化された事はない.

それは次のような理由があるからである.第一に,言語 距離は言語の系統で決まるものではない.系統が異なる 言語でも,相対的に習得が容易である,あるいは容易だ と感じられる言語がある.日本人にとって習得が容易だ と感じられる言語は,韓国語の他にも,イタリア語,ス

(2)

ペイン語,ハンガリー語などがある2)

系統に帰着できない要素を考慮に入れると,言語距離 を構成する次元には少なくとも(1)に挙げる三つがある:

(1) a. 語彙的類似性:語彙素の共有度合いで定義 b. 音韻的類似性:音素集合や音素配列パターンや

超分節要素の共有度合いで定義

c. 統語的類似性:語彙要素の配列パターンの共有 度合いで定義

言語学の知見から判断して,言語の系統が強く影響する のは(1a)のみである.これを基に判断するなら,日本語 から測った英語の(気の遠くなる程の)距離は,次の三要 素に分解される:

(2) a. 言語の系統が違うため,語彙要素が共有され ていない.

b. 英語には日本語にない音素が多い.

c. 英語の基本語順は SVOであり,基本語順が SOVである日本語との類似性は低い(VO か OVかが本質的な違いを生む).

なお,これに,英語自体が混成言語であり (Denning, Kessler, and Leben 2007),語彙要素の使用に一貫性がな い事を加えても良いだろう.

1.2 言語習得の認知負荷 S

以上の論点は英語の習得し難さを論じる時に良く持ち出 されるが,問題がないわけではない.具体的に言えば,

何らかの絶対的基準で英語が他の言語に比べて習得の難 しい言語かどうかは,知られていない.

これは,言語距離が二言語間に定義される相対的基準 だという点に理由がある.例えば言語距離では(3)の問 いに有意味な答えを出せない:

(3) 母語を未獲得な知的エージェントAにとって,英 語の習得はどれぐらいの負荷のかかるものなのか?

2)この主張は筆者の実体験が基になっているため,実証性は低い.

この種の問題に仮にでも答えを出すには,問題を一 般化する必要がある.具体的には,(4)で定義される量 S.L/を基にして,言語の習得の難度の順序づけが可能 でなければならない.

(4) 母語を未獲得な知的エージェントAにとって,言 語Lの習得はどれぐらいの負荷S.L/がかかるも のなのか?

指標S.L/は言語Lの習得の難度の絶対基準になる.こ れがあれば,(3)の問題に答えられる.だが,指標S.L/

として何を想定すれば良いのだろうか?

1.3 本研究の想定と説明範囲

言語Lの習得の負荷S.L/が複数の要因˚ =f!1,!2, . . . ,!ngで複合的に決まるのは明らかである.

本研究は二つの仮定を置く.第一に,本研究は言語L を母語として獲得する場合の負荷S.L/のみを考える.

その上で,同一のエージェントAが仮想的に(例えばn 個の並行世界で)異なる言語L1,L2, . . . ,Lnを習得した 時,それに伴った負荷S.L1/,S.L2/, . . . ,S.Ln/が比較 可能だと考え,その大小関係に基づいて,習得難度を順 序づけする.言い換えると,非母語獲得の問題を明示的 には扱わない.この除外は意図されたものである.

注意しておきたいが,非母語獲得の問題を明示的に扱 わないのは,(4)の定義の帰結である.言語Li を母語 として習得し,その後に言語Lj .i < j /を習得する場 合,S.Lj/に対して既有のLiの知識からの影響(母語干 渉!言語転移(language transfer) (Ringbom 1987; Odlin

1989))があり,これが˚を構成する要素に見えるが,実

際には母語干渉は(4)の定義が適用する範囲にない3). 第二に,本研究は(5)を想定する.

(5) 言語 L の表層の語形から品詞 (part-of-speech = POS)4) を予測できる程度 P が,第一言語として

3)母語からの影響の代表例は,i)Liの語彙要素のLjへの影響,ii) Liの音韻構造のLjへの影響)iii)Liの統語規則のLjへの影響で ある.これらはそれぞれ(1)の三次元に対応する.(ii, iii)Ljの習 得で不利に働く事が多いので「干渉」と呼ばれるが,(i)は有利に働く 事が多いので「干渉」と呼ばれない(ただし,有利か不利かは影響の 有無と本来は関係がない).

4)専門的にはpart-of-speech (POS)word classと言うが,本研究の 範囲では二つの区別は必要ない.

(3)

のLの習得の負荷S.L/を決める複数の要因˚ の 一つであり,かつ説明力のある要因である.

詳しく言うと,任意の2言語L; M (例えば英語とチェ コ語)の語彙獲得の負荷S.L/; S.M /がS.L/ > S.M / である事が,(6)の論理に基づいて一意に決められると 想定する.

(6) a. 言語Lの表層語形fLと品詞C の対応率(=f によるlの予測精度P .L/)が,別言語Mの表 層語形fM と品詞C の対応率(=f によるlの 予測精度P .M /)より低いならば,LはM よ り語彙獲得負荷が高い(C はL; Mに共通). b. 他の条件(音韻獲得効率や統語獲得効率)が同 じであれば,LはM より,エージェントAに とって(語彙獲得効率という絶対指標が低い事 によって)獲得の難しい言語であると言える.

(6b)は本研究の範囲では無条件に成立する想定であ る.もちろん「他の条件(音韻条件や統語条件)が同じで あれば」という付則づけは妥当でなく,その意味で問題 を単純化をしているのは明らかだが,単純化の是非をこ こで論じても埒が明かないと判断する.実際,語形によ る品詞の予測精度によって語彙獲得効率を代表させる事 の妥当性は,語彙獲得効率の全体像が解明されない限り は論じようがないし,語彙獲得効率の全体像の解明は本 研究の射程の外にある.

それ以前に,本研究の想定の根本的な難点として,語 彙獲得効率と音韻獲得効率と統語獲得効率の間の相互独 立性は,ほぼ確実に満足されていない前提になっている.

実際の所は,これらの間に緊密なトレードオフ関係が成 立しているのは確実なのであるが,独立性を想定した調 査に意味がない訳ではない.語彙獲得効率と音韻獲得効 率と統語獲得効率が独立であると不合理な仮定を立てる 事によってのみ明らかにできる側面もあるからである.

実際,本研究の本当の意義は,三つの次元の相互作用を 明らかにするための第一次近似として,語彙獲得効率を 定量化する手法を提案し,有効性を示す事にあると理解 して頂きたい.

本研究は,英語とチェコ語の言語対について,(6a)の 論理に基づいて,英語が少なくともチェコ語に較べて語 形による品詞予測精度の低い言語である事を示す.

次の事は先に断って置く必要があるだろう.本研究か らは,英語の語形による品詞予測精度の低さが,全言語 の中でどれぐらい低さなのかは判らない.従って,本研 究の結果は,"1の最後で指摘した「日本語を母語にする 個体にとって英語の習得が難しい理由を,認知科学的に 記述し,それを基にして対策を講じる必要がある」とい う(切実な)要求に直接に応えるものではない.少なく とも日本語と英語の直接比較をしていない.それをしな いのは,第一に,日本語では単語分割が自明でないとい う根本問題があるからであり("4.2で後述),第二に,そ れが目的ではないからである.繰り返しになるが,本研 究の本当の意義は,語彙獲得効率と音韻獲得効率と統語 獲得効率が独立であると意図的に不合理な仮定を立てた 上で,これら三次元の相互作用を明らかにするための第 一次近似として,語彙獲得効率を定量化する一手法を提 案し,有効性を示す事にある.

だが,本研究の結果が言語教育に対して示唆を与えな い訳ではない.少なくとも,すでに行われている指導法 の,ある種のものに教育効果が期待し難い事は,はっき りと予測できる."3.4.1で考察するように,英語の品詞 推定は単語ごとに(つまり単語1-gram単位に)でなく,

単語3-"7-gram単位に起こっている事が追加的に確か められる.実際,教育の見地で有益と思われる知見の一 つは,英語の指導法に,単語列に(構文的意味と)品詞 列を対応させる課題を取り入れる事が語彙習得効率を上 げ,結果的に英語の習得効率を上げる可能性である5)

とは言え,このような応用はそれぞれ,本研究と別に 実証されるべきであるのは,言うまでもない.

5)本研究の結果が強く示唆する事の一つは,単語に(意味と)品詞を 対応させる課題(例えば日本語への逐語訳)は,ほとんど効果をもたら さないという事である.だが,多くの英語教育の現場で,そのような 逐語訳を積み重ねる事が英語の習得だと学習者に錯覚させている面が ある.これは相当に不幸な事だと言わねばならない.

(4)

2 理論と方法

英語を含めて幾つかの言語6)の習得を試みて来た者の実 感として言えるのは,英語では語形から品詞を高精度で 予測することが困難である事である7)

語彙獲得指導で品詞は重要視されないが,それは正し くないだろう.と言うのは,品詞の識別は述語・項構造 の把握と深く関わるからである8).英語の語形から品詞 が高精度に推定できないのが真であれば,それは語彙獲 得の際の障害の一つとなり,学習指導で考慮すべき要素 となる.

直観的には,品詞ごとに典型的な語形(典型的な接頭 辞や接尾辞)があることは,語彙習得を促進すると考え られる9).本研究では,この直観を単純化し,次の作業 仮説として定式化する:10)

(7) 言語Lの表層語形f から,f の品詞が高精度で予 測できるほど(語彙素の共有度などの他条件が同じ であれば)Lの語彙獲得は容易である.

なお,(7)の仮説の下では,

(8) 言語Lの表層語形f から,f の品詞がどれぐらい の精度で予測できるか?を調査することで語彙習得 の難易を近似することが可能になる11)

具体的には,次の調査を実施することで,言語Lの 習得負荷を近似できると想定する:

6)達成度を度外視すると,筆者はこれまでに(自覚している限りで) フランス語,スペイン語,ラテン語,古典ギリシャ語,ドイツ語,ウェー ルズ語,ロシア語,チェコ語,ポーランド語語,アラビア語,ヘブラ イ語,トルコ語,フィン(ランド)語,ハンガリー語,バスク語,タガ ログ語,スワヒリ語の習得を試みた.

7)査読者の一人から,これは英語に限った事ではなく,より一般的

に孤立語(isolating languages)と呼ばれる言語では同じ状況が成立して

いると指摘を受けた.有益な指摘に感謝する.ただ,筆者は不幸にし て英語の他に孤立語を学ぶ機会がなかったので,示唆を受けた形で一 般化を述べる事は控える.

8)少なくとも,語形に品詞の手がかりがない場合に,文法役割の付 与が困難になる.

9)これは名詞や動詞のような開クラスの語を獲得するために,特に 重要な条件となると考えられる.この仮説はSt. Clair, et al. (2009) 検証されているものと同じである.

10)品詞は文法機能の良い近似となるとは言え,語形の豊富さは記憶 負荷とトレードオフの関係にあると考えられるので,語形が多い事が 効果的な語彙習得にとって無条件に好ましいわけではない.特に語の

多型はlemmaの認識に阻害的に働くのは明白であるが,本研究では議

論の単純化のために本点を無視する.

11)調査対象はlemmaではなく個々の活用形=実用形=表層形である.

(9) Lの表層語形f の部分文字n-gramから,f の品詞 がどれぐらいの精度で予測できるか?

本研究の提案は,語形f の語頭か語末(=語尾)の文 字n-gramでf の品詞(PoS)をどれぐらい正確に予測で きるかを評価12)し,それが低いことを˚の一つと考え たら,何がわかるか確かめようという事である.

この想定に関して,幾つかの注意が必要だろう.まず,

実際には,どの自然言語でもf の部分1-gramではf の品詞を十分な精度で予測できないが,nが大きくなる につれて精度が上がる(がしかし,どこかで頭打ちが起 きるでろう)事は明らかなので,nの比較的 小さい部分

n-gramで品詞が十分に予測できるかを評価する事にな

る.本研究では,主に語末の2-gramと3-gramと4-gram で語形からその品詞を予測できるかを考える.

次に,文字の共起は音素の共起を反映し,強い制約を 受けているので,文字の全組み合わせが実用されること はない.計算量の評価としては,Lの表記で実際に使わ れる語形ff1; f2; : : : ; fNgの語頭か語末のn-gramのす べての異なり数Bを基準にすればよい.経験的評価と して,英語やチェコ語では2-gramの異なり数が100の

桁,3-gramの異なり数が1000桁となる.このため,取

りこぼしを覚悟し,使用頻度の少ない語末n-gramは,分 析に用いるFormal Concept Analysis (FCA)に与える属 性から外している(FCAの詳細は"2.3で述べる).

2.1 理論と方法のまとめ

本研究の目的は,英語の語彙獲得の難度が,少なくとも 日本語より高い事を,何らかの絶対指標S を用いて示 す事である.この課題を,本研究は次の部分問題に分解 し,対処した.

語彙獲得の難度は,語形(観察可能な対象)と品詞(観 察不可能な対象)との対応精度で近似できると想定して いる.これは本研究に独自の想定である.

個々の表層語形を対象に,語形の部分文字n-gramと 品詞ラベルを属性に使ったFCAが表わす情報が,語形

12)一次近似としては,語尾のみで十分で,語頭と語尾を組み合わせ て使う必要はないようである.語頭がより有効か語末がより有効かは,

言語ごとに決まっていると考えられる.St. Clair, et al. (2009)は語末 の普遍性を実証している.

(5)

と品詞との対応精度の絶対指標に使えるという想定は,

本研究に独自で新規な想定だが,FCAの自然な応用で あり,妥当性に難があるものではない.

日本語の単語分割が自明でないという現状があり,日 本語と英語を直接比較はできない.ただ,比較形態論の 観点から日本語に相当する言語,すなわちチェコ語と英 語を比較する事で,それを代替できると想定する.チェ コ語は日本語と同じくも,語形から品詞が高精度に推測 できるという特徴をもつ(ただ,日本語の語の定義が不 明確である以上,これは問題がない想定ではない).

英語とチェコ語のいずれでも,語末文字n-gramによ る品詞予測精度だけでなく,語頭文字n-gramによる品 詞予測精度も試しているが,語頭文字n-gramによる予 測では,英語だけでなくチェコ語でも精度下がるという 結果を得ている.このため,本研究では(紙面の都合もあ

り)語末文字n-gramの品詞予測精度の比較のみを示す.

2.2 データと分析法

2.2.1 データ

以上の理論化の下で,データを次のような手順で作成し,

後述の調査を行った.

(10) a. 基本データの収集: Karel ˇCapekのR.U.R.の 原典(チェコ語)と英語への翻訳で使われてい る語形を網羅的に集め,Fen(3000弱個)とFcz (5000弱個)を得た.これらに次のb, c 2種類 の属性を付与する:

b. 品 詞 属 性 の 付 与: Fx の 語 形 に 手 作 業 で Adj(ective), Adv(erb), Conj(unctive), Noun, Verb, Prep(osition)の品詞を付与した(品詞の 排他性は前提としない).

c. 語形属性の付与: 語末n-gramの全体集合を 取得し,一定頻度以上のものを語形の属性と して付与した.これはExcelの関数を使って 自動付与した.

語形に付与するのは割当可能な全品詞である.例えば parkにConj = 0, Prep = 0, Det = 0, Noun = 1, Verb = 1,

Adj = 0, Adv = 0を,parkingにConj = 0, Prep = 0, Det

= 0, Noun = 1, Verb = 0, Adj = 1, Adv = 0を,parkedに Conj = 0, Prep = 0, Det = 0, Noun = 0, Verb = 1, Adj = 1,

Adv = 0を付与する.意図的に多重分類をしているのは,

それが英語の効率良い語彙獲得の障害の一つとなってい ると想定するからである.図1と図2にエンコード作業 の見本を示す.品詞タグは手入力,語形属性はExcelの 関数を使って自動判定している.

図1:FCAに与える英語の語尾3-gramのcontext

図2:FCAに与えるチェコ語の語尾3-gramのcontext

(10b)の作業が完了しなかったので,FCAによる分析

の対象は,それぞれから無作為抽出した800語形を含 む2000語弱個の語形に限った.R.U.R.のチェコ語原典 中の語形の異なり数は4,424,語形当りの品詞の平均は 1.04個であった.R.U.R.の英語訳中の語形の異なり数 は2,645,語形当りの品詞の平均は1.39個であった13). この指標からも,英語がチェコ語より,語形の品詞予測 力が低いことが判る.

(6)

図3:語末文字n-gramの度数分布

2.2.2 語尾の異なり数の分布

以上の処理で得られた語末文字n-gramの分布について 分っている事を述べる.

語末n-gramの度数分布を図3に示した.英語とチェ

コ語の高頻度4-gramを表1に,高頻度3-gramでを表2 に,高頻度2-gramを表3に示した.

4-gramと3-gramの分布にはっきり出ている事である

が,英語は語末形のタイプ数が乏しく,限られた語末形 (e.g., -ing, -ion)による寡占状態が生じている.これらと の品詞対応が,-ingは体系的にNとAで曖昧であり14),- ionの多くはNだが,例外的にfunction, partition, petition のようにVとして使える語もある.これは,"3.4.1で述 べるように,英語では語の品詞が他の語との相対的位置 で決まる傾向が強いためである.

2.3 Formal Concept Analysis を使った分析

本研究は解析法として形式概念分析 (Formal Concept Analysis: FCA) (Ganter and Wille 1999; Ganter, Stumme, and Wille 2005;鈴木・室伏2007;長田2004;長田2006;

長田2007a;長田2007b)を手法に選んだ.FCAの実行 にはConcept Explorer (ConExp)のv1.315)を使った.

(10)で用意したデータの解析で統計的な手法(例えば

13)roundConj = 0, Prep = 1, Det = 0, Noun = 1, Verb = 1, Adj = 1,

Adv = 15重の属性をもち,曖昧性が最大だった.

14)-ingNになる場合にも,ring, duckling, Kislingのように語彙的 Nである場合と,kicking, killingのようにgerund (動名詞)N なる場合の二種類がある.

15)http://conexp.sourceforge.net/で入手可能.

表1:英語とチェコ語の高頻度の語末文字4-gram

英語 チェコ語

40 tion 16 osti

35 ting 16 ejte

21 ment 14 nout

19 ning, hing 13 ˇejˇs´ı, ovat, n´eho 17 ding, ally 10 v´ych, vali, oval, n´ych 16 ying, king 9 stv´ı, daj´ı

15 ling, less, ight 8 nˇete, luje, k´ych, ´aln´ı, n´ıho, jeme, jdou, deme, dali

14 ring 6 ´ahne, t´ıte, tane, n´ıch, nost, k´eho, kami, j´ıc´ı, h´az´ı, eˇcnˇe

13 able 12 ther, sing 11 ters, ions, ered,

ents 10 ings

9 ture, ness, ical, ever, ence, ated 8 ving, ssed, ping,

lity, ging, ance

表2:英語とチェコ語の高頻度の語末文字3-gram

英語 チェコ語

216 ing 41 nou

47 ers, ion 37 ´ıte, ´ych

45 ent 35 ali

31 ess 34 ´eho

27 est 32 aj´ı

26 red 28 en´ı

25 ate, lly, ted 27 ili

24 ies 25 ila, vat

23 ble 24 eme

22 nce 23 uje

21 ght, ine, ter 22 ala, jte, ete 19 ain, ity, ive 19 ´ıme

18 der, one 16 hle, hne, jˇs´ı, kou, out, ´ıho

17 age, ish, ver 15 -li, n´ım, ´ate, ˇete 16 her, nts, n’t, ons, 14 uj´ı, ´ıch

ous, sed, ves 13 ste, tv´ı, ˇela

14 ned, ure 12 alo, ami, dou,

12 ded, ear, hes, ial, kem, ost, val, ´an´ı ide, ire, ngs, ose

(7)

表3:英語とチェコ語の高頻度の語末文字2-gram 英語 チェコ語

223 ng 173 te

172 ed 120 li

152 es 117 ou

127 er 112 n´ı

84 ly 102 la

68 rs 86 ch

64 st 82 em

63 nt 74 ho

61 on, ts 73 nˇe

56 le 72 at

54 al, re 70 it

53 se 68 me

51 ns 66 ´ım

50 ce 62 n´e

48 en 60 j´ı

47 ve 59 lo

45 te 58 ne

41 ne 56 ky

40 ry 53 na

39 ss 51 ku

37 ll, nd 49 n´a 35 in, ty 48 le, al

31 ge 47 mi

28 ar 43 ti

MaxEntropyモデルやSupport Vector Model (ビショップ 2007a;ビショップ2007b)のような機械学習の成功率)を 使うことは可能だが,次の二つの理由でFCAを選んだ.

(11) a. 本研究は予備的な性格が強いので,結果の直 観的な理解が容易な分析法の方が望ましい.

b. FCAは多重分類(cf. soft clustering)が実現で きるので,排他分類を前提としない.

特に(11b)は言語データのように,非線型な依存性を

もったデータの分析には必須の性質である.実際,品詞 分類が排他的でない事を考えると,排他分類(e.g., hard

clustering)を強要する分類法が言語データの分析に役に

立たないのは明白である16)

一方,FCAは知名度の高い解析法とは言えないので,

動作原理と解釈に関して簡単な解説が必要かも知れな い.詳細に興味がある方は付録Aを参照されたい.

本研究はFCAを次の特殊な形で利用する.

16)それにもかかわらず言語研究では無反省に排他分類が実施され,

そうして得られた歪んだ結果が通説として流布している.

(12) 語形(例えばsincerity, duckling)を対象とし,それら に(1)語形情報(例えば[-ingで終わる],[-ityで終 わる]などの擬似音韻情報)と(2)品詞V, Adj, Adv, N, . . .情報を属性として与えてFCAを構築し,(1) の情報と(2)の情報に相関があるかを見る.

解析結果の評価では,次の想定を置く:

(13) 品詞V, N, Adj, Adv, . . . の属性が分離する部分ラ ティスが重複する度合いが低いほど,語末n-gram からの品詞予想力が高い.

FCAの結果の比較を通じてすべき事は,i)言語を固定 した時,品詞の区別がどんなFCAの配置の違いになる か?ii)品詞を固定した時,言語の区別がどんなFCAの 配置の違いになるか?の二つである.

3 結果と考察

語彙獲得で本質的な困難を生じさせるのは,開いたクラ ス(i.e., Noun, Verb, Adj, Adv)の語彙要素である.閉じ たクラス(i.e., Prep, Conj, etc.)の要素は,定義により有 限なので,深刻な問題を生じさせない.そのため,分析 はNoun, Verb, Adj, Advに限った.

3.1 結果

以下に示すFCAの結果から次の知見を得た:17)

(14) a. 英語でもチェコ語でも語末n-gramの品詞予測 力は,英語でnD4,チェコ語でnD3ぐら いで頭打ちになる(ただし記憶負荷の増加と遭 遇頻度の低下による,トレードオフは存在す るだろう).

b. 英語の語末4-gramの品詞予測力は,チェコ語

の語末3-gramに及ばない.

FCAを使った解析の結果から,英語の語形f の語末 n-gram (2#n#4)から,f の主要品詞V, N, Adj, Adv が(少なくともチェコ語に比べて)高精度に予測できな

17)ConExp 1.3Concept Latticeの構築の際にReduce context (= Re- duce attributes!Reduce objects)の解析オプションを使って冗長な属 性と対象を削除している.

(8)

図4:チェコ語の語末文字3-gramのFCA (属性Verbを選択)

図5:チェコ語の語末文字3-gramのFCA (属性Adjを選択)

図6:チェコ語の語末文字3-gramのFCA (属性Advを選択)

図7:チェコ語の語末文字3-gramのFCA (属性Nounを選択)

(9)

いことが確かめられた.これは,表層語形から品詞が高 精度で予測できるほど語彙獲得が容易になると想定する ならば,英語が語彙獲得の難しい言語である可能性を示 唆する.

以下,"3.2でチェコ語の語末文字3-gramと2-gramの

FCAを示し,"3.3で英語の語末文字4-gramと3-gram

のFCAを示す.高精度の品詞予測が成立しているチェ コ語の語末文字3-gramのFCAを先に見て,それを他の 場合と見比べる事で,個々の場合でどのように予測精度 が下がるかが理解しやすくなると考えたからである.

3.2 チェコ語の語末文字 3-, 2-gram の予測力

"3.4.4で後述の字母(alphabet)が担う音韻情報量の違いを

考慮に入れ,英語の語末n-gramにチェコ語の語末.n$1/- gramが対応すると見込んだ.この結果を以下に示す.

チェコ語の語末3-gramと品詞V, Adj, Adv, Nとの対応 を図4から図6に示す.それぞれのHasse図で濃くなっ ている部分は,選択された属性(Verb, Adj, Adv, Noun)で 支配されている部分束である.AdvがAdj, Verb, Noun に較べて薄いのは,事例数が少ないためである.

図4のFCAはチェコ語の語末3-gramのVを焦点化し た状態である.これは,チェコ語では語末の文字3-gram の段階でほぼ理想的なVの分離が実現されている事を 示している.生起位置に拠らず,またnの数に拠らず,

語形f の部分文字のn-gramがf の品詞pを高精度に 予測している場合には,pの支配する部分束と他の品詞 qの支配する部分束の重なりが少ない.別の言い方をす ると,同じ語形f が相異なる品詞p,qを持つ確率,す なわち異種同型(syncretism)が成立する可能性が小さい という事である.この事は,図4,図5,図6,図7を 見比べると見て取れる.

そうは言っても,品詞による違いはある.チェコ語で はVとAdjの分離が非常に良い.それらに比べて,Nの 分布は少し分散している.チェコ語でAdvはAdjから の派生とNの屈折形の転用から生まれる事が多く,後 者が曖昧性の原因となっている.

チェコ語の語末2-gramと品詞V, Adj, Adv, Nとの対

応を図8から図10に示す.

図8:チェコ語の語末2-gramのFCA (属性Verbを選択)

図9: チェコ語の語末文字2-gramのFCA (属性Adjを 選択)

図10:チェコ語の語末文字2-gramのFCA (属性Advを 選択)

図11:チェコ語の語末文字2-gramのFCA (属性Nounを 選択)

"3.3で説明するように,英語では語末文字4-gramで

ないと十分な予測が得られないが,チェコ語では語末文

字3-gramで非常に高い精度の予測が成立する.更に言

えば,語末文字2-gramでも予測の精度はそれほど低く ない.特筆すべきなのはチェコ語ではVの分離が非常 に良い事である.これは英語の状況と異なっている.

(10)

3.3 英語の語末 4-, 3-gram の予測力

英語の語末文字4-gramと品詞V, Adj, Adv, Nとの対応 を図12から図14に示す.

図12:英語の語末文字4-gramのFCA (属性Verbを選択)

図13:英語の語末文字4-gramのFCA (属性Adjを選択)

図14:英語の語末文字4-gramのFCA (属性Advを選択)

図15:英語の語末文字4-gramのFCA (属性Nounを選択)

英語の語末文字3-gramと品詞V, Adj, Adv, Nとの対 応を図16から図18に示す.

図16:英語の語末文字3-gramのFCA (属性Verbを選択)

図17:英語の語末文字3-gramのFCA (属性Adjを選択)

図18:英語の語末文字3-gramのFCA (属性Advを選択)

図19:英語の語末文字3-gramのFCA (属性Nounを選択)

英語では,語末4-gramで何とか一部の品詞の予測が 成立するが,予測精度は低い.全体として品詞がn-gram で表現されている束に分散している.もっとも予測精度 の高いのはNで,もっとも低いのはVである.これは チェコ語でVの予測精度がもっとも高く,Vの予測精度 がもっとも低かったのとは逆である.

部分束の共有率を品詞混同率と同一視した場合,混同 率の高いのは,VとAdjである.

(11)

紙面の都合で示していないが,語末5-gramでも4-gram に比べて大きな改善はない.従って,品詞予測力は低い 精度のまま,4-gramぐらいで頭打ちになっている.

再確認になるが,精度の低さはNとVの重複,Vと Adjの重複の強さである.語末3-gramでは品詞の高精 度予測は成立していない.

3.4 考察

3.4.1 英語の品詞判定処理

上の解析から,英語では語の語末文字4-gramでも品詞の 識別は十分な精度で達成可能とは言えない.これはチェ コ語の語末文字3-gramの分析結果との比較から明らか である.頭打ちが生じるので,5 < nの語末文字n-gram でも予測精度の劇的な向上は期待できない.実際,英語 では,単独の生起,すなわち単語1-gramが品詞を十分 に予測する程の形態情報をもっていないのは明らかであ る.問題は,異なる品詞の語が同一語形を持つ率が高い (いわゆるゼロ派生(zero derivation)が多い)という形で,

体系的な撹乱が起きている事にある.

では,英語はどうやって品詞の特定を可能としている のか?可能性は幾つか考えられるが,もっとありそうな のは,語列単位で品詞が予測されている可能性である.

例えば,k個の語からなる語列がk個の品詞列と対応づ けられる処理が行われているならば,単語に品詞を特定 する十分な情報がないという問題は回避できる.kが何 個なのかは経験的な問題であるが,POS taggerの実装な どを見ると,3 #k #5ぐらいではないかと想像する.

R.U.R.の英語訳から単語4-gramを無作為に抽出してみ

ると,(15)となる(“,”や“.” をn-gramに含めているた め,gramは“;”で区切っている):

(15) takes revolver out of; a revolver round with; At least, that’s what; given weapons to defend; dominate. We are masters;

stream, you do me; had made, and, behold,;

(16)に示すように,(15)にある4語列で品詞列の割当て が特別に困難なものはない:18)

(16) takes/V revolver/N out/Adv of/P; a/D revolver/N round/Adv with/P; At/P least/N that’s/N-V what/D; given/A weapons/N

18)正確に言うと“, behold,”は最後の“,”のない“, behold”だとAdv と確定しにくい.

to/Inf defend/V; dominate/V. We/N are/V masters/N;

stream/N, you/N do/V me/N; had/V made/A, and/Conj, be- hold/Adv;

これが3語列になると,少し厄介な場合も出てくる(?

で品詞が決まり切らない箇所を示した):

(17) revolver/N out/Adv of/P; revolver/N round/Adv with/P;

least/? that’s/N-V what/D; given/A weapons/N to/?; We/N are/V masters/N; stream/N, you/N do/V; made/?, and/Conj, behold/?,;

この事からも,英語では単語ではなく,語列に対して品 詞列(e.g., V N Adv P; D N Adv P; P N, N-V D; A N Inf V;

V. N V N; N, N V N; V A Conj Adv)を対応させる処理が 行われていると考えられる.また,この処理は統語解析 に先立って,moving widow形式で行われるであろう.

もちろん,語列単位の品詞確定は英語に限った事では なく,チェコ語を含めた他言語でも同じ処理が行われて いると想定すべきであるが,英語の場合は処理の単位と なる単語n-gramのnが大きい(n > 3でないと効果がな い)という事である(単語を見て品詞が判別できるとは,

nD1の単語n-gramに対する品詞対応づけに十分な精

度があるという事である).

これが真であるならば,次の事が帰結する.英語の意 味解釈は単語5-gramから単語7-gramの探索範囲内での 語順変化に感受性が高い.これは前後2,3語より少し 広い範囲の局所で品詞が決まり,それが項構造の特定の 基礎となり,それが意味解釈の条件になるからである.

以上の事実は,英語の他の孤立言語でも成立している 可能性は高い.つまり,そのような言語も,英語と同じ 品詞認識の戦略を採っている可能性は高い.

これは,また英語が語順の自由度が低い言語である事 にも対応している.孤立性(isolating)言語は(中国語の ような例外を除いて)一般に語順変動の自由度が低い.

原因は複数あるだろうが,単語と品詞とが十分な精度で 対応していない事が,その一つである事は十分に考えら れる.

まとめると,英語では語形が簡素である事が,別の所で 皺寄せを生じている.その皺寄せが品詞との対応精度の 低さであり,その埋め合わせに語列処理という戦略が必 要になる.言語習得の際の,個々の負荷の間にはトレー

(12)

ドオフ関係がある.これを理解する事が,言語習得とい う複雑な現象の,より深い認識に繋がるだろう.

3.4.2 語の類型論との係わり

複統合的 (polysynthetic) な言語 (e.g., West Greelandic,

Classical Greek)の扱いがどうなるかを追加的に検討す

19).これは品詞とは何か?という問題に直結する根 本的な問題の一つである.

複統合性言語の扱いについては,該当言語を具体的に 調査していないので確信をもって答えられないが,チェ コ語やハンガリー語のような膠着性(agglunating)の形態 論を扱えている以上,特に大きな問題は生じないと考え る.複統合と膠着の違いは,表4に示すように,形態素 の統合性の有無でしかない.

表4:形態素の孤立性,膠着性,複総合性の関係(語は音 韻的な構成物で,形態素は意味的・概念的な構成物)

形態素が 分析的(analytic) 統合的(synthetic)

D形態素 孤立(isolating) ??

>形態素 膠着(agglutinating) 複統合(polysynthetic)

膠着性言語の場合でも,語自体は統合的である.膠着 性言語では,意味属性と形態素に(ほぼ)一対一対応が ある.その一方,複総合性言語では,意味属性と形態素 に多対一の対応がある.複統合言語が単なる膠着言語と 違うのは,形態素に多重の意味素が実現されている事,

並びに,それが動詞に顕著に現われるという点だと思わ れる.

要点は,品詞を付与する対象が語なのか形態素なの か?である.これは明らかに経験的問題である.品詞は 語に付与するために設計されたものであり,形態素に付 与するために設計されたものではない.このため,形態 素に品詞を付与する事は考えなくて良い.

この扱い方に問題があるとすれば,対象となる言語で 何をもって語と認定するか?が天下りだという点であ る.だが,これは本研究の想定の外にある難しい問題で

19)この問題は査読者の一人によって提起された.この場を借りて感 謝したい.

ある.従って,語として認定された単位が不合理に大き く,複雑でない限りは,品詞は付与できると考えて良い だろう.

3.4.3 品詞予測での有標性の役割

品詞の識別は有標性(markedness) (Greenberg 1966)に基 づいていると思われる.チェコ語の場合,Nは無標なク ラスであり,有標なVやAdjがそれから分離されるだけ でも,語形による品詞の識別は高精度で実現される.V とAdjが有標なのは,言語一般的な傾向であると想像さ れるが,この妥当性を確かめられる程のデータはない.

なお,"3.3の結果を見る限り,英語ではVが有標とは言

い難い面がある.

3.4.4 文字n-gramが担う音韻情報の言語差

本研究の分析結果を左右する大きな要因の一つについて 注意を述べておく.

異なる言語のn-gramを比較する場合,一文字当りの 情報量の違いを考慮に入れる必要がある.実際,字母が 担う情報量は言語ごとに異なる.英語の表記の字母を構 成する27字では(18a)が示すように補助記号(diacritics) が使われていないが,チェコ語の表記の字母を構成する

40字には,(18b)のように,太字で強調した14個の補助

記号つき文字が追加されている(大文字と小文字の区別 は無視する).従って,チェコ語の表記n-gramは(nが等 しいならば)英語のn-gramより多くの音韻情報を担う.

(18) a. 英語の字母: : a, i, u, e, o, y (母音のための字 母); b, c, d, e, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, z (子音のための字母)

b. チェコ語の字母:a, ´a, e,´e,ˇe, i,´ı, o,´o, u,´u,˚u, y,

´y(母音のための字母); b, c, d,d’, f, g, h, j, k, l, m, n,˜n, p, q, r,ˇr, s,ˇs, t,t’, v, w, x, z,ˇz(子音のた めの字母)

本研究の範囲では,チェコ語の語末文字.n$1/-gram による予測が英語のn-gramによる予測に相当すると想 定して比較を試みているが,この想定の妥当性の評価は していない.

(13)

4 まとめと今後の展望

4.1 まとめ

FCAを使った解析の結果から,英語の語形f の語末n- gram (nは2以上で4以下)から,f の主要品詞V, Adj,

Adv, Nが(少なくともチェコ語に比べて)高精度に予測

できないことが確かめられた.これは,表層語形から品 詞が高精度で予測できるほど語彙獲得は容易であると想 定するならば,英語が語彙獲得の難しい言語である可能 性を示唆する.少なくとも英語では,比較的長い語列と 品詞列の対応づけが行われていなければ,効率的に品詞 付与を実行できない.教育応用を視野に入れれば,これ は英語教育の場で語列の重要性がもっと強調されるべき であるという予測を生む.少なくとも,動詞句,名詞句 のような句を単位にした語彙指導が必須だろう.

4.2 残された問題と展望

第一に,比較する言語の数を増やしたい.今後の展望と

して,R.U.R.の翻訳のある言語(例えばドイツ語とフ

ランス語と韓国語)を同じ手法で分析し,結果を比較し たい.

日本語も同じ手法で分析したいが,実は厄介な問題が 二つある.第一に,表記の問題を解決する必要がある.

異表記の問題を解決しなければならないだけでなく,漢 字仮名混じり表記をローマ字化した場合とそうでない場 合の高次の比較も必要である.

第二に,助詞の扱いをどうするかを再考する必要があ る.従来のように助詞を独立要素と考えると,次の問題 が生じる.1)名詞の語形から品詞予測が下がる事が明 らかである.2)一部の形容詞(例えば「真の」)や副詞

(「直角に」)の品詞判別が難しくなる.だが,このような 問題があると言う事は,逆に言えば,定説に従って助詞 を独立要素と考えるエンコードと,定説に反して助詞を 語の一部と考えるエンコードの結果を,他言語の解析結 果と比較を含めて比較する事には大きな意味があるとい う事である.助詞を名詞の一部と考えれば,ハンガリー 語などと同じように扱える.

最後に,本研究で行った調査から英語の指導に役立つ

指針は幾つか得られていると考えられるが,それは学習 効果と実証的に結びつけられていない.その実証を模索 したいが,そのためには本研究で得られた知見に基づく 指導法と学習効果の測定との結びつけが必要である.こ れは別の機会に委ねたい.

参考文献

Ce˜noz, J. (2001). The effect of linguistic distance, L2 status and age on cross-linguistic influence in third language acquisition. Cross-linguistic influence in third language acquisition: Psycholinguistic per- spectives 111(45), 8–20.

Chiswick, B. R. and P. W. Miller (2005). Linguistic dis- tance: A quantitative measure of the distance be- tween English and other languages.Journal of Multi- lingual and Multicultural Development 26(1), 1–11.

Davey, B. A. and H. A. Priestley (2002).Introduction to Lattices and Order(2nd ed.). Cambridge University Press.

Denning, K., B. Kessler, and W. R. Leben (2007).En- glish Vocabulary Elements(2nd ed.). Oxford Univer- sity Press.

Ganter, B., G. Stumme, and R. Wille (eds.) (2005).For- mal Concept Analysis: Foundations and Applica- tions. Berlin/Heidelberg: Springer.

Ganter, B. and R. Wille (1999).Formal Concept Anal- ysis: Mathematical Foundations. Berlin: Springer- Verlag. Translated by C. Franzke.

Greenberg, J. H. (1966). Language Universals: With Special Reference to Feature Hierarchies. The Hague: Mouton.

Hasebe, Y. and K. Kuroda (2009). Extracting English di- transitive constructions using Formal Concept Anal- ysis. In Proceedings of the 23rd Pacific Asia Con- ference on Language, Information and Computation, Vol. 2, pp. 678–685.

(14)

Isphording, I. E. and S. Otten (2011).Linguistic distance and the language fluency of immigrants. Ruhr Eco- nomic Papers, 274.

Odlin, T. (1989).Language Transfer. Cambridge: Cam- bridge University Press.

Ringbom, H. (1987). The Role of the First Language in Foreign Language Learning. Clevedon, Philadel- phia: Multilingual Matters Ltd.

St. Clair, M. C., P. Monaghan, and M. Ramscar (2009).

Relationship between language structure and lan- guage learning: The suffixing preference and gram- matical categorization.Cognitive Science 33, 1317–

1329.

Wichmann, S., E. W. Holman, D. Bakker, and C. H.

Brown (2010). Evaluating linguistic distance mea- sures.Physica A: Statistical Mechanics and its Ap- plications 389(17), 3632–3639.

ビショップ, C. M. (2007a).パターン認識と機械学習 [上]: ベイズ理論による統計的予測.シュプリン ガー・ジャパン. [原典: Christopher M. Bishop,Pat- tern Recognition and Machine Learning, Springer Verlag, 2007.].

ビショップ, C. M. (2007b).パターン認識と機械学習 [下]: ベイズ理論による統計的予測.シュプリン ガー・ジャパン. [原典: Christopher M. Bishop,Pat- tern Recognition and Machine Learning, Springer Verlag, 2007.].

鈴木 治・室伏 俊明(2007).形式概念分析–入門・支援 ソフト・応用–.知能と情報19(2), 103–142.

長田 博泰(2004).形式概念にもとづく質的分析.社会 情報14(1).

長田 博泰(2006).社会情報解析への一寄与:形式概念 解析によるデータ解析.社会情報15(2).

長田 博泰(2007a).形式概念を用いたデータ解析:幼 児発達行動の分析.社会情報学研究11(2).

長田 博泰(2007b).形式概念解析ツールとデータ解析. 社会情報17(1).

長谷部 陽一郎(2009).計算的手法を用いた構文習得研 究の可能性.言語文化12(2), 395–420.

長谷部 陽一郎・浅尾 仁彦(2011). PLMとFCAによ る構文ネットワークの記述について. In認知言語 学会発表論文集, Volume 2, pp. 626–629.

A FCA の基本知識

形式概念分析(Formal Concept Analysis: FCA)の概要を,

実用性を重視しつつ人文系の研究者にもわかるように説 明する.

A.1 FCA は何をする道具か?

簡単に言うと,FCAは属性によって定義された対象を自 動分類するためのアルゴリズムの一つである.それは概

念(concept)を次のように形式化する事で実現される.

(19) a. (形式的)概念cとは,外延oと内包aの対で ある(記号で書けば,cWD.o; a/).

a0. ただし,外延oと内包aはそれぞれ,対象の 全体集合Oと属性の全体集合Aの部分集合と する.

b. ciとcj は,[一方が他方を含む]という関係に ついて順序構造をなし,ci,cj を要素にもつ概 念の全体集合C に束構造(lattice)がある.

要するに,FCAは,概念を(19a)のように(数学的 に)定義した上で,概念間の関係を(19b)が定義す る束構造として明示化する手順である.

もっと一般的な理解では,対象の集合OD fo1; : : : ; ong があり,それらを記述する属性の集合AD fa1; : : : ; amg が(暫定的に)定められた時,OとAの直積O%Aに真 理値を割り当てる.これが表現する状態を離散的に自動 分類するためのアルゴリズムの一つがFCAである.

(15)

A.2 FCA の経緯

FCAは1980年代に,Rudolf Willeと協力者によって束 論(lattice theory)を分類に応用する手法として開発され た.彼らによると「形式(formal)」という限定は「数学 的に定義された(mathematically defined)」と等価である.

FCAの原典はGanter and Wille (1999)である.より 広い数学的視野からの概説がDavey and Priestley (2002) の3章にある.FCAの応用事例集としてGanter et al.

(eds). (2005)がある.以上の文献はすべて英語で書かれ

たものである.

日本語で読める FCAの解説には長田 (2004, 2006, 2007a, 2007b)や鈴木・室伏(2007)がある.長田(2004, 2006, 2007a, 2007b)は説明が平易で実例が多く,数学的 説明は最小限であるので,人文系の研究者でも気後れし ないで読めるだろう.鈴木・室伏(2007)は工学者向け の紹介記事で,人文系読者に理解しやすいとは言えない かも知れない.長田(2007a)はFCAを発達心理学に適 用した研究である.FCAを言語研究に応用した例とし てHasebe and Kuroda (2009),長谷部(2009),長谷部・

浅尾(2011)がある.

A.3 FCA の数学的定義

表5:文脈=対象集合Oと属性集合Aの直積に真理値を 割当てた状態

a1 a2 & & & am

o1 % %

o2 %

:::

on % %

A.3.1 形式文脈の定義

対象集合と属性集合の関係を統合して表現するため,(形 式)文脈((formal) context)を定義する.

(20) a. n個の対象AD fo1; o2; : : : ; ongがあり,こ れらをm個の属性A D fa1; a2; : : : ; amgで

記述した状態がある.OとAの直積O%Aを 考える.

b. O%Aで,対象oiが属性aj をもつ時に,.i; j / に%を書き,そうでない時に何も書かないと する.

c. この処理の結果は,対象oiが属性aj をもつ かどうかの真偽表だと見なせる.この真偽表 をOとAの(形式)文脈と呼ぶ.

d. 二項関係.oi; aj/の全体集合Rは,関係が真 である場合の集合T と偽である場合の集合F に分割できる(RDT [ F).

e. このうち,真である二項関係の集合Tを考え,

三組.O; A; T /を定義する.これが(形式)文 脈である20)

(形式)文脈の一例を表5に示す.この文脈は,対象o1

が属性a2と属性amを持ち,対象o2が属性a2を持ち,

対象onが属性a1と属性amを持っている状態を記述し ている.従って,.O; A; T /で,

T D f.o1; a2/; .o1; am/; .o2; a2/; : : : ; .on; a1/; .o1; am/g

である.

A.3.2 (形式)概念の定義

次に対極と(形式)概念((formal) context)の定義を示す.

(21) a. Oの部分集合oについて,oの対極(polar)を oに属する対象のすべてに共有されている属 性の集合と定義し,o0と表記する.同様に,A の部分集合aについて,aの対極をaのすべ てを属性を体現している対象の集合と定義し,

a0と表記する.数学的には,

b. o0 D fa 2 Aj.x; a/ 2 Tfor all x 2 og で a0D fo2Oj.o; y/2Tfor ally 2Agである (22) a. (形式)文脈.O; A; T /にある(形式)概念cと

は,a0 D oかつo0 D aの条件を満足する対 .o; a/と定義する.

20).O; A; F /.O; A; T /の真偽の指定を逆転した状態を表わす文 脈である..O; A; T /.O; A; F /は同一のHasse図を与えない.

(16)

b. 概念cWD.o; a/のoをcの外延(extent),aを cの内包(intent)と呼ぶ.

A.3.3 (形式)概念束の定義

次に(形式)概念の束(lattice of (formal) concepts) の定 義21)を示す.

(23) a. (形式) 文脈が与えられ,それに .o1; a1/ と .o2; a2/ の二つの (形式) 概念があるとする.

o1 'o2ならば(同じ事だがa2 (a1ならば), .o1; a1/を.o2; a2/の下位(形式)概念と呼ぶ.

この場合,.o2; a2/は.o1; a1/の上位(形式)概 念であり,これを.o1; a1/# .o2; a2/と書き表 わす.

b. #という関係を,(形式)概念の階層的順序(か 単に順序)と呼ぶ.

c. こうして順序づけられた,文脈.O; A; T / の 全概念の集合をB.O; A; T /で書き表し,これ を.O; A; T /の(形式)概念束((formal) concept lattice)と呼ぶ.

B FCA の最適化

"A.3で説明した通り,FCAの動作原理は難解ではない

が,直観的理解が簡単とは言えない.FCAで何が,ど う解析できるのかを知るには,それが体現する数学的構 造を説明するより,実例を通じて,直観的に理解できる 分類を実行し,その結果を通じて理解するのが良いだろ う.この想定の下でFCAの簡単な解説を行う.

B.1 集合の Venn 図による表現 1

FCAの直観的理解の獲得のためにもっとも有効だと思 われるのは,FCAが構築するHasse図と,Venn図との 対応関係を確認する作業である.これでHasse図の直感 的理解が容易になると期待できる.

O=fo1,o2, . . . ,o9gという集合があり,これが図20に 示す通りに分割されているとする.AD fo1; o2; o3; o4g,

21)Ganter and Wille (1999, p. 19)Definition 21を元に解説した.

U

B A

C

1 2 3

4 5 6

8 9

7

図20:U のA,Bによる分割

BD fo3; o4; o5; o6g,C D fo3; o4gである.この状況を 設定するのは,排他分類が不可能な状況をFCAがどう 記述するかを確認するためである.排他分類が不可能な 状況は,実世界にはありふれており,排他分類が可能な 状況より圧倒的に多い.実際,言語データの大半は排他 分類が不可能な状況にある.

B.1.1 集合1のHasse図による表現

さて,OとA,B,C,U との関係をHasse図で表わすに はどうするか?解決の方針は,Oの要素が集合A,B,C に帰属する仕方を属性で表現する事である22).ただし,

属性の相互依存関係にも注意が必要である.

表6: Venn図20を記述する文脈 is A is B is C is neither A

nor B

o1 C $ $ $

o2 C $ $ $

o3 C C C $

o4 C C C $

o5 $ C $ $

o6 $ C $ $

o7 $ $ $ C

o8 $ $ $ C

o9 $ $ $ C

表6にある(形式)文脈を基にして構築したHasse図

がFigure 21である.表6で定義したすべての属性を使

用している.

表6が最適な文脈かどうかを検討する事が,今から行 う事である.だが,その前にHasse図の一般的な特徴は

22)FCAの解説書では属性(attributes)という用語が使われるが,素性 (features)や特徴(characterisitics)と同じ事である.以後,必要に応じ て属性を任意に素性と読み替えて構わない.

(17)

図21: [is A], [is B], [is C], [is neither A nor B]の全属性 を使用

述べておいた方が良いだろう.Hasse図に現われた対象 と属性は,(24)に示す特徴をもつ.

(24) a. 対象は束の上にあるほど一般的である=体現 する属性の数が少ない.

b. 対象は束の下にあるほど特殊である=体現す る対象の数が多い.

c. 属性は束の上にあるほど一般的である=該当 する対象の数が多い.

d. 属性は束の下にあるほど特殊である=該当す る対象の数が少ない.

B.1.2 冗長な属性の除去

図22: [is A type], [is B type], [is C type]の3属性を使用

属性[is neither A nor B] と[is C]は冗長である.[is neither A nor B]はU を想定し,未分類を解釈で許す限 り不要である.[is C]は 自動的に認識される.これらを 無効にして得られるHasse図を下に示す.

表6にある(形式)文脈で属性[is neither A nor B]を無 効にして構築したHasse図がFigure 22である.更に属 性[is C]を無効にして構築したHasse図がFigure 23で ある.

図23: [is A], [is B]の2属性を使用

B.1.3 最適分類を与える文脈

以上の事から,Venn図20の示す構造を記述する最適文 脈は表7にあるものだと判る.

表7: Hasse図23に対応する文脈 is A type is B type

o1 C $

o2 C $

o3 C C

o4 C C

o5 $ C

o6 $ C

o7 $ $

o8 $ $

o9 $ $

[is C]と[is neither A nor C]はいずれも冗長な属性だ が,冗長性の度合いには違いがある.属性[is C]はHasse 図の解釈にとって無害である.実際,Hasse図22が良い

かHasse図23が良いかは,慣れと趣味の問題であろう.

だが,属性[is neither A nor B]は解釈にとって有害であ りうる.U を想定するかしないかが[is neither A nor B]

の必要性にかかわる.

(18)

B.1.4 FCAの結果の最適性の判定

一般論として,FCAで得られるHasse図の表現する分 類の最適状態は次の三条件が同時に満足されている状態 である:

(25) a. 対象が重なりが0 =全対象が別のノードに配 置されている(同値類の重なりはあって当然) b. 空ノード(対象も属性も割当てられてないノー

ド)の数が0

c. 束の(幾何学的な)歪みが0

(25c)の評価は,現状では審美的であり,自動判定

可能なものではない.

FCAの最適化は,これらの三条件の同時満足問題で ある.(25)の三条件は三つ巴で,あちらを立てればこち らが立たずの状況にあるため,最適分類を自動に生成す るアルゴリズムは筆者の知る限り知られてない.

B.2 まとめ

FCAが実現するのは,束論を使った部分集合の表現で ある.Venn図は集合の包含関係のみを表わすが,Hasse 図は包含関係と階層関係の両方を表わす.束論が集合の 表現論である事実から考えて,Hasse図がVenn図に対 して上位互換の関係にある事が理解できれば,Hasse図 の解読が容易になる.

Referensi

Dokumen terkait

Ⅴ ■出題のねらい しばしば「敬語」というものが存在しないと思われている英語にも,丁寧さや礼儀正しさを 表現する仕方があることを示す英文をもとにした,語句整除による英作文問題です。単に機械 的に語を並べ替えるのではなく,前後の文脈を理解して,的確な文を自分で作ることができる ようにすることが大切です。 ■採点講評