言語理論研究における「ツール」としての範疇文法

言語理論研究における「ツール」としての範疇文法∗
窪田 悠介
[email protected]
筑波大学・オハイオ州立大学
概要
理論言語学と計算言語学の 90 年代以降の乖離以来、言語理論研究において形式的アプローチの重
要性がないがしろにされるようになって久しい。本論文では、ハイブリッド範疇文法と呼ばれる範疇
文法の新しい理論を提案し、この状況を打開するための端緒を開くことを目指す。具体的には、ハイ
ブリッド範疇文法を用いることで、現在の理論言語学研究において主流である移動に基づく枠組みを
用いて表現された分析を、ほぼそのまま計算機で解析 (パーズ) できる文法に書き直すことができるこ
とを示す。理論言語学研究者にとっては、これは、理論検証のための新しい道具立て (計算機での明
示的な実装) が労せずして手に入ることを意味する。
はじめに
1
理論言語学において形式的アプローチを等閑視する風潮が当たり前となって久しい (Bekki, 2010) 。
この原因は複雑であり、また、言語学と自然言語処理などの隣接分野との関係の歴史などとも関わる問
題なので、議論を単純化することは危険だが、この現象の背後には、あまり表立って問題とされることの
ない、しかしながら根深く厄介な問題がいくつかあるように思われる。特に、形式的アプローチを標榜
する立場からは看過されがちな問題点の一つとして、形式的に厳密な言語理論が常に「普通」の言語学者
にとって非常に「使いにくい」ものであったという点を挙げることができる。(ここではあえて「普通」、
「使いにくい」という曖昧な言い方をしておく。紙幅の都合上これらの点に細かく立ち入る余裕はない。)
言語学が経験科学である以上、仮説を反証可能な形で明示的に定式化する必要があることは議論の余
地なく当然である。そして、統語論や形式意味論の分野で「明示的に仮説を定式化した」ということを示
すための一番手っとり早く紛れのない方法は、文法を計算機に実装して、その文法が実際に紙とエンピツ
で書いた「机上」の理論通りに動くかを調べることである。もちろん、計算機に実装することだけが仮説
検証の唯一の方法ではないし、計算機に実装したからといって、そのことだけで直ちに仮説が支持され
るわけではない。だが、実装をまったく念頭に入れない机上の理論は、実際には机上の空̇論̇でしかない。
ならば、言語学者は計算機での理論の実装にもっと関心を持つべきではないか? 残念ながら、現在の理
論言語学研究の実践がこのような素朴な期待をほぼ完璧に裏切るものであることは周知の事実である。
言語学者が実際に「使ってみたい」と思うような文法理論を計算機に実装することはできるだろうか?
言語学的にとって魅力的であるためには、その文法理論が、実際に具体的な言語現象の分析の道具とし
て使うのに十分な記述力と柔軟性を持ち、言語学的に重要な一般化を簡潔に記述できるようになってい
ることが必須である。形式的に厳密な言語理論は、現在に至るまで様々なものが提案されてきたが、そ
のいずれも、言語学者の観点からはこれらの要件を満足に満たしているとは言いがたい。(私見では、特
に、最後の「一般化を簡潔に記述できる」という、言語学者にとっては最も重要な点が、純粋に工学的な
観点を優先するなどの理由で犠牲にされることが多いように思われる。)
では、我々理論言語学者は諦めるしかないのか? 本論文では、諦める必要は全くない、ということを主
∗
本稿で報告する研究は、以下のフェローシップ・研究費の助成のもとで行われた。JSPS 特別研究員制度 PD (平成 22 年
度–平成 25 年度)、JSPS 海外特別研究員制度 (平成 25 年度–平成 27 年度)、JSPS 科研費 15K16732。また、本稿は筆者
のオハイオ州立大学研究訪問中に執筆したものである。二年間の在外研究の機会を提供して下さった、筆者の所属先である
筑波大学人文社会国際比較研究機構にも記して謝意を表したい。
張したい。特に、20 年前に比べて計算機の速度が飛躍的に向上し、また、理論言語学、計算言語学双方
とも発展を遂げ、それぞれの分野で理論的に重要な成果がある程度整理されてきた現在、我々は上で述
べたような不幸な (また不健康な) 二分野の乖離を打開するため、実はあと一歩のところまで来ている。
このことを具体的に例証するため、本論文では以下のように議論を進める。まず、筆者らが最近の研究
で提案した、ハイブリッド範疇文法(Kubota, 2010, 2015; Kubota and Levine, 2014a, 2015) と呼ばれ
る範疇文法の新しい理論の概略を示し (より詳しい説明は、 Kubota and Levine (2014b) とその引用文
献を参照のこと)、この理論と、現在統語論・意味論の分野で主流とされている、移動に基づく理論との
対応関係を説明する。以下で述べるように、ハイブリッド範疇文法では、言語の意味表示の分析ですで
に幅広く使われているラムダ計算を、音形表示の分析にも使うことで、「移動」の概念を、比較的単純な
方法で明示的かつ厳密に形式化することができる。一方でハイブリッド範疇文法は範疇文法の一種であ
るので、計算機での実装への親和性も高い。すでに Richard Moot により LinearOne (Moot, 2015) と
呼ばれるパーザーが開発されており、このパーザーを用いることで、現在の理論言語学研究において主
流である移動に基づく枠組みを用いて表現された分析を、ほぼそのまま計算機で解析 (パーズ) できる文
法に書き直すことができる。本論文では、ハイブリッド範疇文法/LinearOne パーザーの理論言語学研究
における有用性を示す一例として、最近の形式意味論の文献で提案されている「寄生スコープ」に基づく
比較構文の分析 (Sawada, 2013; Matsui and Kubota, 2010) をとりあげ、ハイブリッド範疇文法での分
析と、パーザーでの実装と解析結果を示す。
2
ハイブリッド範疇文法
ハイブリッド範疇文法は、ランベック文法 (Lambek, 1958) とラムダ文法 (de Groote, 2001; Muskens,
2003) という二つの範疇文法研究の流れを統合することによって生まれた、新しい範疇文法理論である。
現在までの研究で、等位接続、削除現象、量化子のスコープ解釈など、生成文法の主流の理論において中
心的な問題とされている言語現象の分析に関して目ざましい成果を挙げている。
ハイブリッド範疇文法では主流の言語理論における「移動」の概念を音形表示におけるラムダ抽象に
よって明示的かつ簡潔に形式化できる。よく知られているように、 Heim and Kratzer (1998) などの移
動に基づく理論では、量化子のスコープは QR と呼ばれる操作によって捉えられる。
(1)
A
こ れ に 対 応 す る ハ イ ブ リ ッ ド 範 疇 文 法 で の 派 生 は 以 下 の よ う に な る (こ こ で
person は
λP [∀x.person(x) → P (x)] の略記である)。
yesterday;
saw; saw; (NP\S)/NP [ϕ; x; NP]1
(2)
yest;
/E
saw ◦ ϕ; saw(x); NP\S
(NP\S)\(NP\S)
john;
\E
j; NP
saw ◦ ϕ ◦ yesterday; yest(saw(x)); NP\S
\E
1→
john ◦ saw ◦ ϕ ◦ yesterday; yest(saw(x))(j); S
1
λσ.σ(everyone);
I
2→
λϕ.john ◦ saw ◦ ϕ ◦ yesterday; λx.yest(saw(x))(j); SNP
person ; S(SNP)
E
3→
john ◦ saw ◦ everyone ◦ yesterday; person (λx.yest(saw(x))(j)); S
A
A
(2) の派生では、
1. 目的語位置に ϕ と発音される NP が存在することをとりあえず仮定して導出を進める
2. この前提の元で文字列 john ◦ saw ◦ ϕ ◦ yesterday が文であるという結論が得られる (ステップ
1)
3. 2 より、もし 1 の仮定がなかったなら、2 より弱い結論、即ち、目的語位置に ϕ と発音される
NPが̇あ̇れ̇ば̇文字列 john ◦ saw ◦ ϕ ◦ yesterday は文であるという結論が得られる (ステップ
2)
という推論の流れにより、途中のステップ
2 までで、john ◦ saw ◦ ϕ ◦ yesterday という文字列が、NP の
空所を (目的語位置に) 含む S であるということを証明している。カテゴリ B の空所を持つ A をハイブ
リッド範疇文法では AB というカテゴリで表す。また、カテゴリ AB の言語表現は、音形表示が単な
る文字列ではなく、(A と B がともに文字列タイプである場合) 文字列を引数にとり文字列を返す関数と
なる。ステップ
2 においては、これにより、
(3) λϕ.john ◦ saw ◦ ϕ ◦ yesterday
という関数、即ち引数として与えられた文字列を目的語位置に埋め込んだ文字列を返り値として返す関
数がカテゴリ SNP の言語表現として導出される。ラムダ計算の β 簡約 (「λ 変換」とも呼ばれる) によ
り、例えば以下が成立する。
(4) λϕ[john ◦ saw ◦ ϕ ◦ yesterday](mary) = john ◦ saw ◦ mary ◦ yesterday
ステップ
2 以降は、量化子に
A
(5) λσ.σ(everyone);
person ;
S(SNP)
という語彙指定が与えられていることが重要である。統語範疇を見ると、量化子はカテゴリ S(SNP)
の表現であるので、カテゴリ SNP の表現、即ち空所を持つ文を引数にとり、カテゴリ S の表現、即ち
空所のない文を返す関数として指定されていることが分かる。また、量化子の音形表示は、(3) で与えら
れたような「文字列を引数にとり文字列を返す関数」を引数にとり、文字列を返す関数である。したがっ
て、
3 のステップで与えられる文全体の音形表示は、以下の β 簡約によって得られる。
(6) λσ[σ(everyone)](λϕ.john ◦ saw ◦ ϕ ◦ yesterday) = λϕ.[john ◦ saw ◦ ϕ ◦ yesterday](everyone)
= john ◦ saw ◦ everyone ◦ yesterday
つまり、everyone という文字列は実際に発音される単語列では動詞の項の位置 ((1) の例の場合、目的語
位置) に現れる。一方で、意味合成においては量化子は文全体をスコープに取る演算子 (正確にはタイプ
e → t の述語を引数に取る関数) となっている。これにより、移動に基づく理論では covert movement
によって捉えられる、量化子の意味的スコープと表層の単語列での位置とのずれを、ハイブリッド範疇
文法では音形表示におけるラムダ抽象を用いて捉えられることができる。
Muskens (2003) によって示されたように、上の covert movement の分析は、わずかな変更で overt
movement の分析にも拡張できる。overt movement の分析においては、「移動」を引き起こす演算子の
音形表示の指定が covert movement と異なることがポイントである。主題化 (Bagelsi , Kim likes i )
の分析を以下 (7) に示す。
» ϕ; –1
gave;
(7)
gave;
x;
NP
(NP\S)/PP/NP
to ◦ chris;
/E
gave ◦ ϕ; gave(x); (NP\S)/PP
c; PP
kim;
/E
k; NP
gave ◦ ϕ ◦ to ◦ chris; gave(x)(c); NP\S
\E
λσλϕ.ϕ ◦ σ();
kim ◦ gave ◦ ϕ ◦ to ◦ chris; gave(x)(c)(k); S
λF .F;
I1
λϕ.kim ◦ gave ◦ ϕ ◦ to ◦ chris; λx.gave(x)(c)(k); SNP
(SX)(SX)
bagels;
E
b; NP
λϕ.ϕ ◦ kim ◦ gave ◦ to ◦ chris; λx.gave(x)(c)(k); SNP
E
bagels ◦ kim ◦ gave ◦ to ◦ chris; gave(b)(c)(k); S
ここで、主題化を引き起こす空演算子の音形表示の指定が
(8) λσλϕ.ϕ ◦ σ()
のようになっていることが重要である。overt movement では、covert movement と違い、発音される単
語列において、実際に「元々」空所にあったものが動いているので、(8) では空所を空文字列 で埋めて、
それにより得られた文字列の左側に本来 (=通常の語順では) 目的語位置に現れる単語を結合するという
操作を行っている。つまり、ハイブリッド範疇文法においては、overt movement と covert movement の
違いは「移動」を引き起こす演算子の音形表示の指定における語彙的な違いとして捉えることができる。
このように、ハイブリッド範疇文法は、明示的な文法理論であるという範疇文法の特色と、「移動」の
概念を簡潔に記述できるという主流の言語理論と類似する特色との両方を併せ持つアプローチであり、
理論研究において様々な応用の可能性を秘めている。本稿では紙幅の都合上議論を省くが、音形表示に
おけるラムダ抽象は、単に「移動」の概念を形式化したものではなく、「移動」の概念をより一般的なも
のとして拡張したものと考えられることができる。特に、Gapping などの分析において、
「移動」の概念
では捉えられないような操作を厳密に定式化することによって、従来の分析の問題点を克服することが
できることが示されている (Kubota and Levine, 2014a) 。
3
「ツール」としての範疇文法
以下では、ハイブリッド範疇文法が、主流の生成文法研究において提案されている言語現象の分析を
形式化し、パーザーに実装することでその理論的予測を検証する道具として用いることができることを
示す。上で述べたように、ハイブリッド範疇文法では、他の範疇文法の枠組みと異なり、「移動」の概念
を簡潔に形式化できる。このことにより、派生に基づく主流の文法理論を前提として提案された言語現
象の分析を、ほぼそのままの形で移植することができる。
3.1 LinearOne パーザー
LinearOne パーザーは、Richard Moot により開発された一階線型論理 (first-order linear logic) のパー
ザーであり、Prolog の実装の一つである SWI Prolog で書かれている。解析結果は LaTeX のファイルと
して生成される。パーザー本体、SWI Prolog、LaTeX のすべてがオープンソースのソフトウェアなので、
ある程度プログラミングや PC に関する知識があれば、個人の PC にインストールして容易に利用するこ
とが可能である。現在、LinearOne のホームページ (https://github.com/RichardMoot/LinearOne)
に簡単なインストール方法と使い方が記述されている。
LinearOne パーザー自体は、一階線型論理のパーザーであり、特にハイブリッド範疇文法に特化した
ものではない。このため、パーザーの内部では、以下のような変換が行われて解析が行われている。
ユーザーとのインターフェイス
語彙項目と規則 (ハイブリッド範疇文法での表現)
パーザー内部
=⇒ 語彙項目と規則 (一階線型論理での表現)
↓ 文の解析=一階線型論理での定理の証明
解析結果 (派生) (ハイブリッド範疇文法での表現) ⇐= 解析結果 (派生) (一階線型論理での表現)
ハイブリッド範疇文法のパーザーとして利用する際は、ユーザーが目にするのは左側のハイブリッド範
疇文法での表現のみで、右側の一階線型論理への変換とそれを用いての解析は LinearOne 内部で自動的
に行われる。ここで理論的に重要なのは、ハイブリッド範疇文法での定理の証明 (= 文の派生) と一階線
型論理での定理の証明の間に一対一の対応関係があることである。このため、一階線型論理での定理の
証明から、それに一意に対応するハイブリッド範疇文法での定理の証明を得ることができ、一階線型論
理での定理の証明をハイブリッド範疇文法での文の解析と見なすことができる。
ハイブリッド範疇文法は付録 4.2 に示した 6 つの規則のみを統語規則として認める。これらの規則は
LinearOne に付属するハイブリッド範疇文法用の翻訳コンポーネントですでに指定されているので、実
際にユーザーが行う必要があるのは、辞書に新しい語彙項目を追加し、パーザーを走らせて文が実際に
解析できるかを調べることだけである。辞書の記述用にマクロ (略記法) が用意されているので、語彙項
目の追加は非常に簡単である。以下にいくつか例を示す。
(9) lex(john, np, john, j).
lex(met, (np\s)/np, met, met).
lex(everyone, s|(s|np),S^(S@everyone), P^(quant(forall,X,bool((person@X),->,(P@X))))).
lex(every, ((s|(s|np))|n), P^S^(S@(every+P)), P^Q^(quant(forall,Z,bool(P@Z,->,Q@Z)))).
この表記法において、@は関数適用、^は λ の略記である。例えば、X^(red@X) は λx.red(x) を意味する。
「寄生スコープ」に基づく比較構文の分析の実装
例として、「寄生スコープ」に基づく比較構文の分析の実装を示す。なお、解析結果の派生は pdf で出
力されるが、通常の大きさのフォントで紙に印刷すると A1 サイズの用紙の横幅を目一杯使うほどの大き
さになるので、以下では省略する。サンプルの辞書ファイルと解析結果の出力を、本論文の関連資料と
して以下に公開してあるので参照されたい。
3.2
http://www.u.tsukuba.ac.jp/∼kubota.yusuke.fn/lsj151grammar.pl
http://www.u.tsukuba.ac.jp/∼kubota.yusuke.fn/lsj151derivation.pdf
寄生スコープ分析のポイントは、「より」句に対応する主文中の名詞句を QR により持ち上げて、その
ことによってできるスコープ位置に「寄生」する形で「より」句にスコープを取らせることである。これ
により、どの名詞句が「より」句の寄生スコープのターゲットになるかにより、(10) のような文の曖昧
性を説明できる。詳しくは Matsui and Kubota (2010) の (9)、(11) の分析図を参照されたい。
(10) ジョンが、メアリーに、ロビンより多く会った。
解釈 1:「ジョンがロビンに会った回数/頻度よりジョンがメアリーに会った回数/頻度のほうが多い。」
解釈 2:「ロビンがメアリーに会った回数/頻度よりジョンがメアリーに会った回数/頻度のほうが多い。
」
(11) の語彙項目を指定した文法で、(10) をパーズすると、(12) に示した二つの意味表示が文全体の意
味表示として得られる。
(11) lex(ta, s(inf)\s(fin), ta, past).
lex(john, np, john, j).
lex(robin, np, robin, r).
lex(mary, np, mary, m).
lex(ga, np\dp(n), ga, X^X).
lex(ni, np\dp(d), ni, X^X).
lex(ooku, (vpinf/vpinf)|d, P^(P+ooku), D^P^X^(often@D@P@X)).
lex(at, (dp(d))\(dp(n))\s(inf), at, meet).
lex(yori, ((s(inf)|dp(X))|((s(inf)|dp(X))|d))|np,
P1^S^P2^(S@(P1+yori)@P2), X^R^Y^(bool(iota@(D^(R@D@Y)),>,iota@(D^(R@D@X))))).
(12)
a. past(ι(λx0 .often(j, meet(m), x0 )) > ι(λx0 .often(j, meet(r), x0 )))
b. past(ι(λx0 .often(j, meet(m), x0 )) > ι(λx0 .often(r, meet(m), x0 )))
(13)
語彙項目
a. john; j; NP
d. loves; love; (NP\S)/NP
b. mary; m; NP
e. λσ.σ(everyone);
c. walks; walk; NP\S
f. λϕλσ.σ(every ◦ ϕ);
person ;
S(SNP)
; S(SNP)N
A
4.1
付録: 語彙項目の例と文法規則
A
4
4.2
文法規則
Connective
Introduction
Elimination
/
..
.
..
.
..
n . .
. [ϕ; x; A] .. ..
..
.. ..
.. ..
.
. .
. .
b ◦ ϕ; F ; B n
/I
b; λx.F ; B/A
a; F ; A/B b; G; B
/E
a ◦ b; F (G); A
\
..
.
..
.
..
n . .
. [ϕ; x; A] .. ..
.. ..
..
.. ..
. .
.
. .
ϕ ◦ b; F ; B n
\I
b; λx.F ; A\B
b; G; B a; F ; B\A
\E
b ◦ a; F (G); A
..
n . .
. [ϕ; x; A] .. ..
..
.. ..
.. ..
. .
. .
.
b; F ; B
In
λϕ.b; λx.F ; BA
..
.
..
.
a; F ; AB b; G; B
E
a(b); F (G); A
参考文献
Bekki, Daisuke. 2010. Nihon-go Bunpoo-no Keishiki-Riron (Formal Theory of Japanese Grammar). Tokyo:
Kurosio.
de Groote, Philippe. 2001. Towards abstract categorial grammars. In Association for Computational Linguistics, 39th Annual Meeting and 10th Conference of the European Chapter , 148–155.
Heim, Irene and Angelika Kratzer. 1998. Semantics in Generative Grammar . Oxford: Blackwell Publishers.
Kubota, Yusuke. 2010. (In)flexibility of Constituency in Japanese in Multi-Modal Categorial Grammar with
Structured Phonology. Ph.D. thesis, Ohio State University.
Kubota, Yusuke. 2015. Nonconstituent coordination in Japanese as constituent coordination: An analysis
in Hybrid Type-Logical Categorial Grammar. Linguistic Inquiry 46(1):1–42.
Kubota, Yusuke and Robert Levine. 2014a. Gapping as hypothetical reasoning. To appear in NLLT,
available at http://ling.auf.net/lingbuzz/002123.
Kubota, Yusuke and Robert Levine. 2014b. Hybrid Type-Logical Categorial Grammar. ms., University of
Tsukuba and Ohio State University, available at http://ling.auf.net/lingbuzz/002313.
Kubota, Yusuke and Robert Levine. 2015. Against ellipsis: Arguments for the direct licensing of ‘noncanonical’ coordinations. To appear in Linguistics and Philosophy, ms., University of Tsukuba and Ohio
State University, available at http://ling.auf.net/lingbuzz/002214.
Lambek, Joachim. 1958. The mathematics of sentence structure. American Mathematical Monthly 65:154–
170.
Matsui, Ai and Yusuke Kubota. 2010. Comparatives and contrastiveness: Semantics and pragmatics of
Japanese hoo comparatives. In Proceedings of Formal Approaches to Japanese Linguistics 5 , 126–139.
Cambridge, MA: MITWPL.
Moot, Richard. 2015. Comparing and evaluating extended Lambek calculi. In Y. Kubota and R. Levine,
eds., Proceedings for ESSLLI 2015 Workshop ‘Empirical Advances in Categorial Grammar’ , 108–131.
University of Tsukuba and Ohio State University.
Muskens, Reinhard. 2003. Language, lambdas, and logic. In G.-J. Kruijff and R. Oehrle, eds., Resource
Sensitivity in Binding and Anaphora, 23–54. Dordrecht: Kluwer.
Sawada, Osamu. 2013. The comparative morpheme in modern Japanese: looking at the core from ‘outside’.
Journal of East Asian Linguistics 22(3):217–260.