第14卷 第3期2001年 9月 武 汉 科 技 学 院 学 报Vo1.14No.3Sep. 2001JOURNALOFWUHANINSTITUTEOFSCIENCEANDTECHNOLOGY 中心语驱动短语结构语法的形式化研究
唐旭日 周冬梅
(武汉科技学院外语课部武汉430073)
(浙江林学院杭州31000)
戴运财
摘 要 简要评述了中心语驱动短语结构语法所采用的语言理论形式化方法。中心语驱动短语结构语法的形式化模型包含两个层面:一个层面采用模块化的,陈叙性的,基于归一的语言理论对语言现象和规律进行形式化描写;另一个层面则以类型化的特征结构为基础,对描写语言现象的语言原理论本身进行形式化。而对模型后一层面的理解,是深入了解该语法的运行机制以及正确有效地在计算机上实现该语法的基础。
关键词 中心语驱动短语结构语法 形式化模型 类阶层 类型化特征结构 归一 X中图分类号 H04
0 前言
现代语言学自索绪尔以来,使用某种较为明确定义的符号系统这一形式化方式来描述语言学的研究对象、研究过程和研究结论[1]。随着计算语言学的兴起和蓬勃发展,语言学的形式化研究也更加深入,更加注重语法系统的逻辑结构及语法系统在计算机上的可实现性。由珀兰德(CarlPollard)在1984年提出的中心语驱动短语结构语法(Head-drivenPhraseStructureGrammar,或HPSG)即是在这一发展中出现的成果。该语法在随后的十多年时间内得到很大发展,尤其是1994年珀兰德与塞格(IvanA.Sag)合著的5中心语驱动短语结构语法6标志这一语法趋向成熟。HPSG语法综合了计算机科学、语言学、人工智能等多门学科的研究成[2][3][4][5]果,在语言研究的形式化方法上独具特色。该语法形式化模型包含的两个层面,分别对语言现象和规律以及对描写语言现象的语言原理论本身进行了形式化的描写。其中对描写语言现象的语言原理论本身的形式化的认识,是深入理解该语法的运行机制以及正确有效地在计算机上实现该语法的基础。
1 HPSG形式化方法的基本模式
HPSG认为在建构语言理论时应遵循一般自然科学研究的方法,即通过建立数学模型来讨论经验世界中某一领域的相关现象,并借助数学模型与经验世界的对应关系,通过讨论或解释数学模型的变化规律来解释或预测经验世界的现象。基于上述观点,HPSG构建了自己的形式
X收稿日期:2001-05-20
作者简介:唐旭日(1972-),男,助教;研究方向:计算语言学第3期 唐旭日 等: 中心语驱动短语结构语法的形式化研究 49
化基本模型(图1)[5]。在这一模型中,语言这一外部经验世界的绝对的形式化首先表现为一个层面:对语言现象如动词性、名词性、词、传统意义上的短语、小句、句子以及语法规则等的假设,都被概括为由逻辑语言表述的公理集合,由类型化的特征结构表述,这些公理集合便组成了图中的模型结构。
图1 形式化基本模型
HPSG形式化的第二个层面是对公理集合组成的模型自身的形式化研究。这一层面形式化的研究称为形式理论,其目的是找出与语言学研究有关的特征结构的一些条件。应用于HPSG的主要的是Kasper&Round(1986)研究的有关特征逻辑的理论。
图1中模型对语言现象的模拟即是通常意义上语言学理论对语言现象的形式化描写,而形式理论则是对模型(即类型化特征结构)的形式化描写,并由此而间接预测语言现象。下面我们将进一步说明HPSG语言形式化的两个层面。
2 语言现象的形式化方法
HPSG中语言现象的形式化方法是指用类型化的特征结构来表述语法系统。HPSG采用抽象理论模型法,通过对人脑的表象产物)))言语进行观察,找出人类语言的本质特征,建立抽象语法系统的理论模型。
HPSG在建立抽象的理论模型时具有典型的模块性和陈述性的特点。HPSG在描述某种具体语言的语法系统时,使用三个模块:语言原则、语法原则、语法规则和词汇。以英语为例,一部HPSG表示的英语语法系统可表示为:
English=P1H,HPn+
mH(
L1G,GLpGR1G,GRq)
英语中某一具体言语的解释过程是语言原则(Pi),词汇(Li)和语法规则(Ri)三个模块交替作用的结果。语法机制首先从词汇中获得相关词汇所携带的用类型化的特征结构表示的语言信息,并由句法规则对各词汇信息进行性合并以组成更大的类型特征结构,同时在特征结构合并的过程(即信息的组合)中,受到普遍语言原则和具体语言原则的合格性的。受词汇主义的影响,HPSG的词汇部分携带大量的语言信息,如动词walks的词汇信息可用属性/值矩阵部分表示见图2。
从图2可以看出HPSG的词汇中包含有词的音位信息(PHON)和句法语义信息(SYNSEM),而在句法语义信息中,又包括有这一词汇的句法功能、语义及上下文特征等大量信息。HPSG的句法规则主要有直接控制程式和线形前置规定等,HPSG的直接控制程式如中心语-主语程式等,这些直接控制程式控制两个或多个语言体特征结构之间的归一操作从而形成新的语言体特征结构的过程,如中心语-补语程式可表述为:
50 武 汉 科 技 学 院 学 报 2001年
PHON CATEGORYHEAD|VFORM fin cat
SUBJ <1 NP>
RELN walks
SYNSEMCONTENT
psoaWALKER 1 word
synsemCONTEXT context
图2 walks词汇信息属性/值距阵
带有中心语结构的短语,如果存在特征COMPS-DTR且HEAD-DTR的值为LEX+则特征SUBJ为非空表,特征COMPS为空表。
依据中心语-补语程式,短语drinkmilk的特征值矩阵则可部分地表示为图3。
PHON <1,2>SYNSEM
SUBJ NP
synsemCOMP <>
HD-DTR[PHON <1drinks>] word
hd-ph
NON-HD-DTRS
PHON <2milks>
phSYNSEM NP
图3 drinkmilk特征值距阵
HPSG中的线性前置原则是从广义短语结构语法[6]继承过来的,HPSG认为组成成分的顺序问题是具体语言特有的现象,并制定结构成分顺序规则,其规则用特征/值矩阵表述为图4。也就是说,一个短语中的PHON的值是以短语中的DTRS作为定义域的函数order-constituents的值。而函数的确定是以间接性层级为依据的。如英语中对于中心语动词而言,SUBJ比COMP更为间接,故SUBJ出现在COMP之前。在这方面,HPSG目前所做的工作仍是尝试性的。
PHON order-constituents<1>phrasal-sign[]y
phDTRS 1
图4 结构成分顺序规则
HPSG的第三个重要模块是语言原则,包括普通语言原则和具体语言原则。HPSG中的普遍语言原则包括中心语特征原则、次范畴化原则等。语言原则的作用是特征结构的形成,从而使形成的特征结构具有语法合格性,如中心语特征规则可用属性/值矩阵表示为图5。中心语原则的作用是保证特征结构中中心语所起的中心作用。HPSG中通过词汇,浯法规则和语言原则对类型化特征结构的交互作用解释语言的运用,从而具有很强的模块性和陈述性。
hd-ph[]y HEAD 1 phHD-DTR 1
图5 中心语特征规则
语法的陈叙性与模块性有着紧密的联系。由于词汇部分携带天量的句法功能信息和语义第3期 唐旭日 等: 中心语驱动短语结构语法的形式化研究 51
信息,语法规则与用上下文自由语法时的短语结构规则相比,在数量上大大地减少,在形式上得到大幅度地程式化。句法规则如中心语-补语程式、中心语-主语程式等替代了短语结构语法中的重写规则,通过对非词汇类特征结构进行特征分布来检验语言单位的合法性。语法规则的程式化,使HPSG能够使用陈述性的形式化方式来描写言语表达及其相互之间的方法。
3 语言理论的形式化
语言理论的形式化是HPSG形式化方法中非常重要的层面。该语法之所以在计算语言学界中备受热烈欢迎,原因之一就是描写语言的理论本身综合了近年来计算机科学,人工智能等学科的研究成果,具有高度的形式化,便于在计算机上实现[7]。
3.1 形式化的两个构件
西方现代语言学在描写语言现象时所使用的规则都是形式化的规则由/形式构件0构成[8]。形式构件分为两大类:(1)数据/表征类;(2)运算/操作/推演类。HPSG中,最重要的数据/表征类形式构件是类阶层和类型化的特征结构。所有的语言运用单位全部用类阶层和类型化的特征结构来表示,而不采取其它描写手段。HPSG中的运算、操作/推演类形式构件是基于类型化的特征结构的运算,操作或推演,最基本的运算操作方式是归一运算。对这两个构件进行形式化的组织是必须的。在运用特征结构对语言现象描述的过程中,出现了两个问题:其一是特征结构的最基本运算方式是归一运算,但是特征结构在运算中渐趋复杂,描述出现困难;其二是由于自然语言的多重歧义性,归一运算不能够满足对语言体进行完全的描写的需要。在这种情况下,需要对特征结构进行严格的形式化,并引入更为复杂的运算。
特征逻辑即是对类型化特征结构,归一运算等形式化机制的研究。特征逻辑试图采用集合和函数的方法,建立了类型化的特征结构、归一运算等的数学模型。并且,将逻辑上的析取、否定、蕴涵等引入特征结构的运算,从而提高了特征结构表达能力。通过对特征结构进行性的描述,可以简化描述语言规则或词汇信息描时的冗余结构,建立由类型化的特征结构上的组成的继承性层级系统,从而进一步组成语法系统。下面我们分别介绍这两个形式化构件。
3.2 类阶层及类型化特征结构
HPSG中将语言理论中所有的语法体组织成一个具有传递性的类阶层。所有的语法体如sign,word,phrase,category等类组成一个集合Types。集合各元素间存在包含关系(subsump-tion)。所谓包含关系,是指集合Types中两个元素R和C,如R比C更加具体,包含更多的信息,且R能从C得到传递信息,那么,C包含R,写做CAR。C是R的上类,R是C的下类。集合Types和元素间的包含关系(subsumption)组成一个具有偏序(partialorder)性质的代数系统(Types,A)。由此,HPSG的类阶层可部分的表示如图6。
类阶层中所有的类相对该类阶层都是完全定义的.也就是说,类阶层中每一个类都有一个类型化的特征结构与之相连。类型化的特征结构由一组特征集合组成,每一特征是一属性/值对,特征结构之间存在偏序层级关系,从而使归一运算成为可能。特征结构常被定义为一种特殊的有标记的有向图,如图7所示。有向图的各结点Q1,Q2,Q3表示各层的语言体,如动词性,动词,短语等,弧上的标记a,b表示该结点的特征。由此,如设一有限集合Feat为特征标记(feature)集合,一有限集合Type为类型化的符号集合,我们就可以定义特征结构为:
52 武 汉 科 技 学 院 学 报 2001年
图6 部分HPSG类阶层Q1
a
Q2
b
Q3
图7 有向图
一个特征结构是一个四元组F=Q是一个结点的有限集,起始结点为q0,q0为起始结点,
[9]
,其中
H:HyType是定义于所有结点到集合Type的涵数
D:Feat@QyQ是一个定义于集合Feat与Q的积的到Q的偏函数
在HPSG中特征结构的另一特点是特征结构之间的特征结构共有性(Structure-sharing)。特征结构共有可以通过变量标志的重复出现实现,如上面表示中心语特征规则时HEAD特征/值的反复出现。特征结构共有性在解释语言现象时具有类似于转移生成语法中的0转换机制0的功能,如在解释关系从句中关系词与空位之间的关系时,特征结构共有性起着关键作用。3.3 归一运算
HPSG操作/推演类形式构件是基于类型化的特征结构的运算,最基本的运算操作方式是归一运算。归一运算的实质是与类阶层中的类相联系的信息的求并运算。因为这些信息是以类型化的特征结构表现出来的,所以归一运算是指两个或多个特征结构的运算。归一运算与集合论中的求并运算十分类似,但归一运算与求并运算的不同之处在于,归一被应用于不相容的结构时,归一失败产生一个空集。
由于类阶层中存在的包含关系,两个或多个特征结构F1,F2,进行归一,将得到新的特征结构F,而且F所描述的对象正是前面若于个特征结构F1、F2...等所共同描述的对象。因此,归一运算可定义[9]如下:
特征结构F和Fc的归一运算FHFc,就是特征结构F和Fc在由包含关系和特征结构组成的代数系统中的最大下界(GreatestLowerBound)。
除了归一运算以外,HPSG还采用了逻辑上的析取运算、否运算和蕴涵运算,这些运算使HPSG中的形式描述能力增强,能够进行类型化特征结构的析取、否定和蕴涵。限于篇幅,这里不再详细介绍。
4 结语
HPSG结合了语言学理论、计算机科学、人工智能及逻辑学等近几十年来的发展,对语言现第3期 唐旭日 等: 中心语驱动短语结构语法的形式化研究 53
象以及描写语言现象的语言理论进行了形式化。而后者采用的类阶层,类型化的特征集,归一运算等,都是以语言理论的计算机实现为目标的。而该语法系统在斯坦福大学语言与信息研究中心LKB系统等自然语言理解系统中的实现说明了该语法形式化方法上的可行性。对该语法形式化方法的研究具有积极的意义。
参 考 文 献
[1]许罗迈.语言研究中的形式化方法(上)[J].现代外语,1996,(4):1-5.
[2]Cooper,R.P.Head-drivenPhraseStructureGrammar,inR.E.Asher(ed.)TheEncyclopediaofLanguageand
Linguistics(vol.3)[M].Oxford:PergamonPressLtd.1994.1532-1535.
[3]Hukari,ThomasE.andRobertD.Levine.PhraseStructureGrammar:theNextGeneration[J].JournalofLinguistics
,1996,32.
[4]Pollard,CarlandIvanA.Sag.AnInformationBasedSyntaxandSemantics(vol.1):Fundamentals,CSLIlecture
notes[M].Chicago:ChicagoUniversityPress.1987.
[5]Pollard,CarlandIvanA.Sag.Head-drivenPhraseStructureGrammar[M].Chicago:ChicagoUniversityPressand
StanfordCSLIPublications.1994.
[6]Gazdar,G.etal.GeneralizedPhraseStructureGrammar[M].Cambridge:HarvardUniversePress.1985.[7]冯志伟.自然语言的计算机处理[M].上海:上海外语教育出版社,1996.[8]桂诗春,宁春岩.语言学方[M].北京:外语教学和研究出版社,1997.
[9]Trost,Harald.(ed.)FeatureFormalismandLinguisticAmbiguity[M],NY:EllisHorwoodLimited.1993.
FormalizationofHead-drivenPhraseStructureGrammar
TANGXu-ri ZHOUDong-mei DAIYun-cai
Abstract ThispaperillustratestheformalizationmodelemployedinHead-drivenPhraseStructureGrammar.Themodelconsistsoftwomajorlayers.Onelayerinthemodelisthemodularanddeclarativetheoryaimingattheformalizationoflinguisticphenomena.Theotheristhemathematicalformalizationofthelinguistictheoryitself,whichisbasedontypehierarchy,sortedfeaturestructuresandunification.Abetterunderstandingofthelatterlevelwillthrowlightonthegrammar.soperatingmechanismandthuslayasolidfoundationforitsimplementationoncomputers.
Keywords Head-drivenPhraseStructureGrammar;formalization;typehierarchy;sortedfeaturestructure;unification