快捷分类

藏文文本聚类及其相关技术综述*

更新时间：2009-03-28

0 引言

在网络发展日新月异的今天,国内广大藏族地区的藏族人民生活和互联网的关系越来越紧密,藏文也随之繁荣起来。随着藏文网络数据与日俱增,热点监测、话题追踪与主题识别等问题亟需高效智能的方法加以解决。同时,世界范围内,各种技术和势力风起云涌,网络信息传播速度之快、范围之广前所未有,这对于青藏地区的安定和发展有至关重要的影响。正是这些因素促使藏文文本处理成为近年来中文信息处理中的热门领域。

藏文是一种古老的拼音文字,属于汉藏语系[1],目前现行的藏文已有1 300年的历史。藏语中的词汇和语法十分丰富,还有复杂的敬语体系,加之藏语语法的规则体系严密[2],使得早期的藏文自然语言处理工作大都是基于规则实现。然而随着近年来互联网用户的与日俱增,网络数据大爆炸式地涌现,信息时代数据所具有的多样性和时效性等特点同样在藏文上突显出来。这就对藏文文本信息处理的效率和方式提出了更高的要求。

地铁轨道的施工过程中，基标的准确性是保证施工质量的基础，是地铁轨道铺设的依据。做好基标的设置和保护工作是非常重要的环节。

聚类作为一种高效的无监督学习方法,被广泛应用于各个领域。从影响商务决策到图像识别,无一不体现出聚类在知识发现领域中的优势。在文本挖掘的应用中,聚类是下一阶段分析的预处理环节[3]。文本聚类可以将文档分成若干不同的主题,提高网页搜索效率;在电子档案管理的过程中,利用聚类可以进行民意分析、政策倾向、民生热点等深层的文本挖掘[4];在微博、新闻热点等话题追踪中,文本聚类可以高效辅助舆情分析[5]。基于聚类在文本处理应用中的种种优势,藏文文本聚类研究应运而生。

1 聚类相关概念及划分

聚类是一种常用文本挖掘方法,是无监督的机器学习过程,即不需要标注语料等工作进行人工干预[6]。聚类将经过预处理的数据通过合适的算法聚合成不同的子集(簇)。在各个簇的内部数据对象是相近的,和其他簇相比则不相近。因此内容相似的文本会出现在同一簇中,而来自不同的簇的文本其相似性则较低。

对比２种回归模型结果可以发现，Logistic回归模型更偏向于相信身边选择校园贷的人愈多，本身选择校园贷的可能性就愈少，而逐步回归模型倾向于“近墨者黑”的思想，即身边陷入校园贷的人愈多，本身选择校园贷的可能性只会更高．不言而喻，逐步回归模型更接近现实生活情况．此外，开销占比指的是当月开销占当月生活费的比例，现实中大学生的生活费处于供不应求的状态时，更容易选择校园贷，这与逐步回归模型的结果一致，但Logistic回归却认为占比越低越容易贷款，这违背了经济学的需求平衡．

聚类的具体过程:将已知的文本集进行分词、命名实体识别和去停用词等预处理,经过预处理的文本包含了更多有价值的、主要的文本信息,将这些文本经过特征提取以后进行文本建模,通过数学的方法计算不同文本的相似度,再结合文本的特点选择适合的聚类算法得到聚类划分(图1)。

图1 聚类整体流程Fig.1 The whole process of text clustering

常用的聚类方法有很多种。按照基本原理可以分为基于划分的方法、基于模型的方法、基于蚁群的方法以及层次聚类、SOM网络。划分法的代表算法有k-means方法,其总体思想是先初始k个划分,然后不断迭代计算文档所属类型,最终收敛得到聚类结果。这种方法简单易行,但结果受初始点和极端值的影响较大。自组织神经网络(Self-Or ganization Map,SOM)通过训练神经网络,较好地确保了文档之间的特性,目前在文本聚类上有较广泛的应用,但也存在确定参数困难和运行复杂的缺点。

2 藏文文本聚类关键技术

2.1 藏文分词

藏文分词是藏文信息处理的基础。分词即将原始文本语料分割成若干独立的词的操作。藏文在语法体系中属于逻辑格语法体系[7]。尽管和汉语、日语等语言有所差别,但它们在词边界上都具有共同特点,即词与词之间没有像英语一样的天然间隔,在进行文本处理之前必须要做好分词工作。分词的结果在一定层面上决定了后面聚类的效果。

所谓马克思哲学超越维度的传统研究领域是指以马克思对于宗教的批判为核心的马克思的宗教观和以人的全面自由发展为核心旨趣的共产主义理论。学界对于这两个理论的研究起步较早，且有着充分的文本依据，故而对这一领域的研究已经相对成熟。

20世纪末,扎西次仁[8]通过最大匹配算法实现了一个藏文分词演示系统,藏文分词工作正式进入人们的视野。2003年,陈玉忠等[9]率先提出了根据格助词和藏文接续特征的分词方法,该方法结合藏文字词形态特点和语法知识库,使得藏文分词具有实用性。才智杰[10]结合藏文文本中紧缩词的添加规则,得到经过复原的藏文文本,该方法使得分词效果得到显著提升。祁坤钰[7]从藏文特点出发,通过对语法逻辑、语义以及音势等藏语语言理论的深入研究,设计了匹配切分分词方案。该方法按藏文格划分层级,可以更好地理解文本词的主次关系。

以上这些藏文分词方法虽然涉及一些如词频之类基于统计的方法,但主要是以藏语语法规则作为切入点。随着近年来网络数据的激增,藏文文本也出现了大规模的增长,大量的语料为机器学习在藏文信息处理中的应用注入了新的动力。

2011年,史晓东和卢亚军[11]率先将基于隐马尔科夫模型(H MM)的汉语分词系统移植到藏文处理中,同时对命名实体识别和训练语料方面做了改进,使得分词结果有了进一步的提高。刘汇丹等[12]实现了Seg T藏文分词系统,该方法是先对临界词做识别,同时对格助词进行分块处理,再通过逆向最大匹配算法(RMM)分词,并对紧缩词进行识别,达到了很好的处理结果。

另外,在结合条件随机场方法上,藏文分词研究也有许多成果。何向真等[13]通过有针对性地判断各个音节在词中所处位置来对藏文文本进行切分,在同等实验条件下,对最大间隔马尔可夫网络、条件随机场(CRF)、最大熵等模型下实现的分词系统进行对比,得到的结果表明条件随机场更适合处理分词问题。李亚超[14]采用基于统计的方法对紧缩词进行识别,并运用最大熵与条件随机场相结合的方式,对藏文进行命名实体识别,取得了很好的分词效果。洛桑嘎登等[15]在条件随机场的基础上,利用语法规则进行再处理,分词效果得以提升。

2.2 命名实体识别

命名实体识别在藏文自然语言处理中扮演重要角色,重点是为了将文本中地名、人名等专有名词自动辨别出来,并对这些词进行分类[16]。从语言分析的角度来说,这一步骤是难度最高、最影响后续文本处理效果的处理工作。国内外对于藏文这一方面的研究较少,目前主要的藏文命名实体识别方法有以下3种:

(1)基于规则的藏文命名实体识别。祁坤钰[17]以大规模藏文语料库为基础,对藏语名词进行充分地分析和分类描述,建立了高质量的词表。金明等[18]设计了一个基于隐马尔可夫模型和语法规则的方法,用于藏文命名实体识别。窦嵘等[19]研究了藏族人名的用字特征后,结合命名规则与词典,通过基于统计的方法给出了藏文人名识别模型。然而运用语言学规则进行识别是最传统的模式,对于未登录词、歧义问题处理能力较弱。

(2)基于条件随机场的藏文命名实体识别。这种方式更加灵活,通用性强,但是需要大量语料作为支撑。藏文发展至今,语料规模较之以前有了很大的提高,但相比于其他流行语言还是略显不足。因此,基于条件随机场的藏文处理往往还有人工干预的处理步骤。何向真等[13]采取大量藏文文本语料进行机器学习,从而提出了最大熵和条件随机场相结合的方法。康才畯等[20]从字的粒度上对藏文人名进行识别和划分,该方法充分考虑了藏文的上下文特征,以判断人名在文本中的位置。

(3)基于感知机的藏文命名实体识别。华却才让等[21]提出基于音节特性的感知机方法,用于识别藏文中的专有名词,该训练方法运用藏文紧缩格辨认音节来达到藏文命名实体自动识别的目的。

2.3 停用词过滤

在文本中往往会出现一些高频但是对文章主旨无太大贡献的词,这样的词即是停用词。停用词过滤又称去停用词,这一过程对于文本数据的清洗十分重要,因为它使得文本向量空间的维度减小,从而节省存储空间。停用词选择方式通常有词频、文档频次、熵计算等。然而停用词的选取往往需要语言学科知识作为支撑,对不同的应用场景所选取的策略也应作必要的更新[22]。才让三智[23]构建了藏语格助词、自由虚词和不自由虚词等虚词知识库,并对虚词的语法分类问题和语言模型的结构框架进行阐述,同时还指出藏语中虚词归类和虚词兼类的问题,这两个问题的处理对藏文文本划分和歧义理解有直接影响。阿雅娜[24]也指出了少数民族的语言特点对停用词处理的影响。珠杰等[25]在分析停用词处理对比实验结果后,总结出语法知识和自动处理相结合的停用词选取方法。

3 藏文文本建模

3.1 特征提取与文本建模

经过预处理的文本,去除了与文本内容和主题相关性不大的元素,大大压缩了文本空间,但对于具体的聚类算法,这样的集合仍然是高维的。因此在不影响结果的前提下,需要尽可能地减少需要处理的词,将最有效的特征选取出来以降低样本空间。特征的选取方法有很多,如文档频率(Docu ment Frequency)[26]、互信息(Mut ual Inf or mation)[26]、信息增益(Inf or mation Gain)[26]、卡方检验(CHI)[26]、期望交叉熵[27]、联合熵[28]等。贾会强等[29]引进G函数来表示特征词的词频,同时通过基于词形特性的提取方式,验证了其提取特征词的效率和降低文本向量空间维度的效果,实验结果有效地缩减了向量维度,同时提高了分类的准确性。

欲对藏文文本聚类,首先要解决的问题是将藏文文本转化为算法可以接受的形式,这一步就是文本建模。现行的文本建模主要是采用向量空间模型(VSM)、词向量、后缀树、主题模型以及本体等方法。江涛和于洪志[30]提出一种面向藏文聚类的文本建模方法,该方法基于词向量构建出藏文文本表示模型,在此基础上得到的结果均优于基于主题模型和VSM的聚类结果(图2)。

[24] 阿雅娜.蒙古文停用词表和词干提取对蒙古文文本分类的影响[D].呼和浩特:内蒙古大学,2009.AYA NA.The i mpact of Mongolian stop-list and stemming on Mogolian text categorization[D].Hohhot:Inner Mongolia University,2009.

图2 藏文文本处理实验结果对比[30]Fig.2 The co mparison of experi mental results in Tibetan text processing[30]

3.2 相似度计算

文本聚类的依据是各文档之间的相似性,藏文文本聚类也不例外。文本的相似与否需要通过相似度来度量。目前针对藏文提出的文本相似度计算方法少之又少,主要是依据藏文文本特点建模后,将现有的通用相似度评价方法移植过来。根据对语句分析的深度划分,主要有两种策略:基于统计学的策略,对文本做完全句法和语义分析的策略[32]。前者所用到的计算方法主要有基于VSM、广义向量空间(GVSM)、隐语义索引模型以及其他数学手法[33],后者包括基于语言或本体模型等方法[34]。从粒度上来讲,则有短语或词之间的相似性计算、句子之间的相似性计算、段落间的相似性计算以及文档间的相似性计算等。通常对于表示成VSM的文档和文档集合,相似性计算主要包括余弦法、Jaccard系数法以及欧氏距离函数法等。

利用字或词向量的余弦公式计算相似度,是较常用的一种方法。文档向量采用词作为向量特征单元,通过余弦公式计算两个向量之间的夹角,计算公式如下:

其中di和dj分别表示两个被比较的单位向量,这里表示词向量,则w i,k表示第i个文档集合中第k个词的权值,w j,k表示第j个文档集合中第k个词的权值,n表示文档中词的总个数。

余弦法实现简单,但忽略了上下文所包含的信息。Jaccar d系数法考虑文本中全部不重复的词语,考察两篇文本中所有词语(去重)的交集(记为inter SectionSize)与所有词语(去重)的并集(记为union Size)的比值。见公式2)。

尽管这样的算法一定程度上避免了“一叶障目”的问题,但也在一词多义和多词一义的处理上有局限性。

分段融合的意思是将文本按照段落、句子的层级划分,首先计算句子的相似度,再融合为上一层级——段落的相似度,最后将其融合形成篇章的相似度。邬明强[35]在分析已有的中文分段融合相似度计算方法的基础上,提出了藏文分段融合的相似度计算方法。通过选择段落权重构建相似度矩阵,利用向量夹角预先公式求出段落相似度;而后再根据段落对文章意思的贡献,对文本相似度做精确化处理。目前对藏文文本的相似度计算领域中,还没有进行句子间的深层句法分析并在此基础上计算相似度的报道。

4 藏文文本聚类方法及应用近况

经过前期的处理之后,此时的藏文文本已经成为结构化的语料,因此藏语本身对聚类算法并无太大的影响。常见的聚类算法包括但不限于以下这些方法,如k-means[36]、层次聚合聚类(AHC)[37]、SOM[38]、基于蚁群的方法等。

根据2014年国际睡眠疾病分类，睡眠障碍实际上有90多种！更惊人的是，竟有高达30%的人存在不同程度的睡眠障碍，因此我们说，睡眠障碍和失眠不是等同的，失眠只是睡眠障碍的一种！

目前藏文文本聚类的研究主要集中在应用方面,而不是聚类算法本身。在互联网飞速发展的大背景下,藏族网民的增速尤为突出。藏文聚类能用于迅速归类文档的重要信息,同时为藏族地区的网络舆情状况监控提供技术支持。藏文文本聚类的应用主要集中在两个方面:新闻热点和网络舆情监测。

江涛[39]首次将聚类方法用于藏文网络舆情分析,提出藏文热点发现的模型,开发出用于藏文舆情分析的热点发现模块。邓竞伟等[40]结合网络舆情的复杂网络传播特征对藏文热点话题展开挖掘,并根据热点聚类,从而开发出自动追踪事件的功能。但藏文网络新闻受众规模不大,语料也少,因此曹晖等[41]引入子话题的概念,对藏文新闻这类规模较小的语料对象有良好的效果。这种方法得出的聚类结果避免了文本先后次序的影响,但是在训练语料分布不均衡的时候,结果容易受到影响。康健等[42]则考虑了群体智能具备而传统聚类不具备的特点,将这一技术应用于藏文网页文本聚类,提出了基于群体智能的半结构化藏文Web文本聚类(SCAST)算法。这种算法最终获得的聚类正确率相比于kmeans有大幅提升,具有快速、高效的特点。但由于其基本的模型采用空间向量模型,所以该模型的一些如忽略上下文和语义关系的劣势它也同样存在。袁斌等[43]根据藏文语法特点和句子结构选取特征,构建了语义空间,并对几种常用的分析方法进行整合以及实验对比,使得藏文情感分类效果得到优化。康健[44]引入蚁群算法,同时结合群体智能和多智能体系统,设计了藏文热点舆情管理系统,将藏文舆情管理系统化。

采用回顾性调研的方法，收集患者相关信息（性别、年龄、体重、体格特征、实验室检查指标等）进行统计和分析。信息内容见表1。

5 展望

本文对藏文文档聚类中比较重要的几个关键技术:藏文文本预处理、文本建模、相似度计算等做了概述,同时也介绍了近年来藏文文本聚类算法的研究情况和应用发展情况。藏文文本聚类的发展还处于初级阶段,目前对于藏文文本预处理环节,诸如藏文字词的处理正逐渐走向成熟,但在语义分析、文本建模等深入的语言处理方面还有许多值得深究的地方。在未来信息化更加普及的情况下,会有越来越多的藏文文本数据急速增长,将有越来越多的地方需要用到藏文文本聚类分析。具体的应用需求和侧重点不同,根据算法优缺点所选取的聚类方法也会有所不同,因此并不存在一个适用于所有藏文文本的聚类算法。加上藏文有其特有的语音语法特点,因此藏文聚类在自然语言理解、信息检索、信息提取等更高层面的研究还有很长的路要走。

当基本随机变量服从正态分布时，端口打磨机器人的可靠度对基本随机变量X=(X1,X2,…,Xn)T均值的灵敏度为：

[1] 白玛玉珍.藏文文字特征提取方法的研究[J].电脑知识与技术,2013,9(28):6362-6364.BAI MA Y Z.Tibetan text feat ure extraction met hod[J].Co mputer Knowledge and Technology,2013,9(28):6362-6364.

内燃机的余热形式为烟气、冷却水，其中烟气温度400～600℃，缸套冷却水80～110℃，中冷器、润滑油冷却水40～65℃。余热利用可考虑回收烟气和各部件冷却水用于制冷或供热。

[2] 尼玛扎西.藏文信息处理技术的现状、存在的问题及其前景[J].西藏大学学报,1997,12(2):1-5.NYI MA TRASHI.Present sit uation,existing proble ms and prospect of Tibetan infor mation pr ocessing technology[J].Jour nal of Tibet University,1997,12(2):1-5.

鸦片战争后的近代中国社会开始沦为半封建半殖民地。清朝腐败无能，国家积贫积弱，列强侵略掠夺，民族危机空前严重。戊戌变法失败后，蔡元培“知清廷之不足为，革命之不可已，乃浩然弃官归里，主持教育，以启民智”[1]6。这是基于他对康、梁变法失败的深刻认识：“不先培养革新之人才，而欲以少数人弋取政权，排斥顽旧，不能不情见势绌”[2]卷3，659。革除中国的积弊，如不从培养人才这一根本问题着手，而幻想依靠几道上谕是根本不可能扭转腐败颓势的；救亡图强必先开发民智，而开发民智的根本途径就在于教育。与同时代许多救亡图强的志士仁人一样，蔡元培也坚定地认为“改良社会，首在教育”[2]卷3，36。

[3] 刘远超,王晓龙,徐志明,等.文档聚类综述[J].中文信息学报,2006,20(3):55-62.LIU Y C,WANG X L,XU Z M,et al.A survey of docu ment clustering[J].Journal of Chinese Infor mation Processing,2006,20(3):55-62.

[4] HATZIVASSILOGLOU V,KLAVANSJ L,HOLCOMBE M L,et al.Si mfinder:A flexible clustering tool for su mmarization[C].Proceedings of the Wor kshop on Su mmarization in NAACL 01.Pittsburg,2001.

[5] 邓竞伟,邓凯英,李永生,等.基于藏文网络的舆情传播模型[J].计算机系统应用,2013,22(3):209-211.DENG J W,DENG K Y,LI Y S,et al.Opinion spreading models on Tibetan net wor ks[J].Co mputer Systems&Applications.2013.22(3):209-211.

[6] INGERSOLL G S,MORTON T S,FARRIS A L.Taming text:How to find,or ganize and manipulate it[M].USA:Manning Publication,2013:156.

[7] 祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报:哲学社会科学版,2006(4):92-97.QI K Y.On Tibetan auto matic participate research with the aid of infor mation treat ment[J].Journal of North west University for Nationalities:Philosophy and Social Science,2006(4):92-97.

[25] 珠杰,李天瑞.藏文停用词选取与自动处理方法研究[J].中文信息学报,2015,29(2):125-132.ZHU J,LI T R.Research on Tibetan stop words selection and auto matic processing method[J].Jour nal of Chinese Inf or mation Processing,2015,29(2):125-132.

数形结合思想不仅是一种科学的思维方法，也是数学美感的重要表现形式。作为贯穿数学学习过程的思想方法，数形结合在数学学习的多个方面都有重要体现，教师要善于引导学生发现数形结合思想的巧妙之处，让学生逐步接触、理解和运用这一数学思想方法。一方面教师要结合相关教学内容，运用数形结合思想呈现数学的图形之美，让学生在直观观察中感受数形结合思想，对其产生浓厚的兴趣；另一方面教师要引导学生循序渐进地了解数形结合思想，通过一步步掌握这一数学思想的运用条件和步骤，促使学生主动运用数形结合思想解决数学问题。

[9] 陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82.CHEN Y Z,LI B L,YU S W,et al.An Tibetan segmentation sche me based on case-auxiliar y wor ds and continuous features[J].Applied Linguistics,2003(1):75-82.

[19] 窦嵘,加羊吉,黄伟.统计与规则相结合的藏文人名自动识别研究[J].长春工程学院学报:自然科学版,2010,11(2):113-115.DOU R,JIA Y J,HUANG W.Auto matic recognition of Tibetan name with the co mbination of statistics and regular[J].Jour nal of Changchun Institute of Technology:Natural Science Edition,2010,11(2):113-115.

“影子说”是中国古典小说的一种批评理论，它最开始可见于甲戌本第八回脂评：“晴有林风，袭乃钗副。”这一思想经过发展，形成了蔚为壮观的影射关系。王富鹏先生曾针对《红楼梦》的人物影射现象，概括出了红楼梦的两大影子人物体系，阐释这种影子人物体系与小说叙事结构之间的关系①。《红楼梦》是沿着金瓶梅开创的方向发展而来，可说“深得《金瓶》壶奥”。因此，影身关系在《金瓶梅》中也或多或少地存在着。

[11] 史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56.SHI X D,LU Y J.A Tibetan seg mentation system-Yangjin[J].Journal of Chinese Infor mation Processing,2011,25(4):54-56.

[12] 刘汇丹,诺明花,赵维纳,等.Seg T:一个实用的藏文分词系统[J].中文信息学报,2012,26(1):98-103.LIU H D,NUO M H,ZHAO W N,et al.Seg T:A practical Tibetan word seg mentation system[J].Journal of Chinese Infor mation Processing,2012,26(1):98-103.

[13] 何向真,李亚超,马宁,等.基于音节标注的藏文自动分词研究[J].计算机应用研究,2015,32(7):1989-1991.HE X Z,LI Y C,MA N,et al.Study on Tibetan automatic word seg mentation as syllable tagging[J].Application Research of Co mputers,2015,32(7):1989-1991.

[14] 李亚超.基于条件随机场的藏文分词与命名实体识别研究[D].兰州:西北民族大学,2013.LI Y C.St udy on the Tibetan word seg mentation and na med entity recognition with conditional rando m fields[D].Lanzhou:North west University f or Nationalities,2013.

参考文献:

[15] 洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219.LUOBSANG KARTEN,YANG Y Y,ZHAO X B.Tibetan auto matic word seg mentation based on conditional rando mfields and knowledge f usion[J].Journal of Chinese Inf or mation Processing,2015,29(6):213-219.

该估计是先验过程的期望分布F0(x)和经验分布估计Fn(x|x1,x2,···,xn)的加权平均.由于经验分布函数是阶梯函数,为得到一个光滑的分布估计,用核估计代替经验分布函数Fn(x|x1,x2,···,xn),则总体的密度估计为

[16] CHINCHOR N.MUC-7 named entity task definition[C]//Pr oceedings of the 7t h Message Understanding Conference.Virginia,1998.

[17] 祁坤钰.基于语料库的藏文名词分类与统计研究[J].西北民族大学学报:自然科学版,2012,33(3):44-49.QI K Y.Classification and statistical study of Tibetan nouns based on cor pus[J].Jour nal of Nort hwest University f or Nationalities:Natural Science,2012,33(3):44-49.

[29] 贾会强,刘晓丽,于洪志.基于词性特征提取的藏文文本分类方法研究[C]//CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集.[不详:不详],2011.JIA H Q,LIU X L,YU H Z.Research of feature extraction methods based on part of speech in Tibetan docu ments classification[C]//CCF NCSC 2011-The second academic conference on co mputer association of China co mputer society.[S.l.:s.n.],2011.

[10] 才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37,43.CAI Z J.Identification of abbreviated word in Tibetan word seg mentation[J].Journal of Chinese Inf or mation Processing,2009,23(1):35-37,43.

该地区建造时遭遇连续暴雨天气，7月平均降雨量172.5 mm，8月平均降雨量209.5 mm，雨水汇集到基坑中，导致基坑内地下水位迅速上涨.发现时地下车库已出现整体积水现象，积水最大深度为1 m.此时地下车库及网点主体结构施工已完成，地下车库侧面回填土已完成，但顶板回填土及底板回填土未进行.由于主楼及网点结构已足够抵抗上浮的抗浮水头，仅地下车库部分产生抗浮破坏，需进行加固处理.

[20] 康才畯,龙从军,江荻.基于条件随机场的藏文人名识别研究[J].计算机工程与应用,2015,51(3):109-111.KANG CJ,LONG CJ,JIANG D.Tibetan names recognition research based on CRF[J].Computer Engineering and Applications,2015,51(3):109-111.

[21] 华却才让,姜文斌,赵海兴,等.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176.HUA Q C R,JIANG W B,ZHAO H X,et al.Tibetan na me entity recognition wit h perceptron model[J].Co mputer Engineering and Applications,2014,50(15):172-176.

[22] 化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51.HUA B L.Stop-word pr ocessing technique in knowledge extraction[J].New Technology of Librar y and Inf or mation Service,2007(8):48-51.

[23] 才让三智.藏语虚词知识库的构建研究[D].兰州:西北民族大学,2015.CAIRANG S Z.Research on knowledge base construction f or Tibetan f unction words[D].Lanzhou:Northwest University for Nationalities,2015.

徐涛等[31]结合空间向量模型来切分藏文文本中的句子,将卡方统计量应用于文本词项和对比词项相关程度的计算。经过实验对比,在对比词项组H所占文档词项的比例H p为35%时,得出的准确率最高,可以使相似性高低结果明显区分。该方法与传统模型相比,对藏文文本有更好的识别度和区分度。

[8] 扎西次仁.一个人机互助的藏文分词和词登录系统的设计[C]//中国少数民族语言文字现代化文集.北京:民族出版社,1999:322-327.TASHI TSERING.Design of a word seg mentation system f or word seg mentation and word registration[C]//Essays on t he moder nization of Chinese minority languages.Beijing:Nationalities Publishing House,1999:322-327.

[26] YANG Y M,PEDERSON J O.A co mparative st udy on feature selection in text categorization[C]//Proceedings of ICML-97,14th Inter national Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc,1997:412-420.

[27] MLADENIC D,GROBELNIK M.Feature selection f or unbalanced class distribution and naive bayes[C]//Proceedings of the Sixteenth International Conference on Machine Learning.Bled:Morgan Kaufmann Publishers Inc,1999:258-267.

[28] 顾益军,樊孝忠,王建华,等.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340.GU Y J,FAN X Z,WANG J H,et al.Auto matic selection of Chinese stoplist[J].Transactions of Beijing Institute of Technology,2005,25(4):337-340.

[18] 金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报:自然科学版,2010,31(3):49-52.JIN M,YANG H H,SHAN G R.The st udies of named entity recognition for Tibetan[J].Journal of North west University for Nationalities:Natural Science,2010,31(3):49-52.

[30] 江涛,于洪志.一种面向藏文聚类的文本建模方法[J].西北民族大学学报:自然科学版,2016,37(3):24-28.JIANG T,YU H Z.A met hod of text modeling for Tibetan clustering[J].Jour nal of North west University for Nationalities:Natural Science,2016,37(3):24-28.

[31] 徐涛,于洪志,加羊吉.基于改进卡方统计量的藏文文本表示方法[J].计算机工程,2014,40(6):185-189.XU T,YU H Z,JIA Y J.Tibetan docu ment representation method based on i mproved chi-squared statistic[J].Co mputer Engineering,2014,40(6):185-189.

[32] 李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003(12):15-17.LI B,LIU T,QIN B,et al.Chinese sentence si milarity co mputing based on semantic dependency relationship analysis[J].Application Research of Computers,2003(12):15-17.

自2002年3月“环太湖体育圈”的概念第一次出现在正式文件之后，江苏环太湖地区群众体育得到快速发展，以环太湖国际公路自行车赛为代表的体育赛事活动逐渐增多。此外，环太湖体育圈有丰富的旅游资源，目前拥有13个国家级太湖风景名胜区、4个省级风景区、6个国家级和省级旅游度假区、12个中国旅游国线景点和“江南水线游”国家级专项旅游线路[6]，这为体育小镇的建立提供了优越的自然条件。目前，在建的体育小镇中，环太湖体育圈的苏锡常三市就有6个，占总数的42.86%。

[33] 金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297.JIN B,SHI Y J,TENG H F.Si milarity algorith m of text based on semantic understanding[J].Journal of Dalian University of Technology,2005,45(2):291-297.

[34] 吴夙慧,成颖,郑彦宁,等.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627.WU S H,CHENG Y,ZHENG Y N,et al.A survey on text representation and si milarity calculation in text clustering[J].Inf or mation Science,2012,30(4):622-627.

[35] 邬明强.基于分段融合的藏文文本相似度计算方法研究[D].兰州:西北民族大学,2016.WU M Q.Research on the calculation method of si milarity based on the f usion of Tibetan text seg ment[D].Lanzhou:Northwest University for Nationalities,2016.

[36] JAIN A K,DUBES R C.Algorith ms for clustering data[M].Upper Saddle River,NJ:Prentice Hall,1988.

[37] SNEAT H P H,SOKA R R.Nu merical taxono my[M].London:Freeman,1973.

[38] KOHONEN T.Self-organized for mation of topologically correct feature maps[J].Biological Cyber netics,1982,43(1):59-69.

[39] 江涛.基于藏文Web舆情分析的热点发现算法研究[D].兰州:西北民族大学,2010.JIANG T.St udy on hot topic detection based on t he analysis of Tibetan public opinion[D].Lanzhou:North west University for Nationalities,2010.

[40] 邓竞伟,邓凯英,李永生,等.基于藏文网络的舆情传播模型[J].计算机系统应用,2013,22(3),209-211.DENGJ W,DENG K Y,LI Y S,et al.Opinion spreading models on Tibetan net works[J].Co mputer Systems&Applications,2013,22(3),209-211.

[41] 曹晖,孟祥和.基于藏文新闻文本话题检测的聚类算法研究[J].华中师范大学学报:自然科学版,2014,48(1):37-41.CAO H,MEND X H.The research of clustering algorith m for topic detection based on Tibetan news texts[J].Journal of Huazhong Nor mal University:Natural Science,2014,48(1):37-41.

[42] 康健,乔少杰,格桑多吉,等.基于群体智能的半结构化藏文文本聚类算法[J].模式识别与人工智能,2014,27(7):663-671.KANG J,QIAO S J,GESANG D J,et al.A se mistr ucture Tibetan text clustering algorith m based on swar mintelligence[J].Pattern Recognition and Artificial Intelligence,2014,27(7):663-671.

[43] 袁斌,江涛,于洪志.基于语义空间的藏文微博情感分析方法[J].计算机应用研究,2016,33(3):682-685.YUAN B,JIANG T,YU H Z.Emotional classification method of Tibetan micro-blog based on semantic space[J].Application Research of Co mputers,2016,33(3):682-685.

[44] 康健.基于Multi-agent和群体智能的藏文网络舆情管理研究[D].成都:西南交通大学,2015.KANGJ.Research on multi-agent and swar m intelligence Tibetan net work public opinion management[D].Chengdu:South west Jiaotong University,2015.

作者

李玖一，于洪志，徐涛

出处

《广西科学院学报》 2018年第01期

上一篇：浅谈蒙古文网站现状及发展趋势*

下一篇：知识图谱概念获取研究进展*

《广西科学院学报》2018年第01期文献

序作者：刘连芳

藏文信息处理研究进展* 作者：高定国

傣文信息技术研究进展* 作者：殷建民

壮、蒙古、维、哈、柯、朝语信息处理研究进展* 作者：刘连芳，海银花，那顺乌日图，黄家裕，吐尔根·依布拉音，玄龙云

东南亚语言及信息处理研究进展* 作者：黄家裕，刘连芳，邓姿娴，温家凯

浅谈蒙古文网站现状及发展趋势* 作者：德格吉日胡，木仁，韩百岁，明慧

藏文文本聚类及其相关技术综述* 作者：李玖一，于洪志，徐涛

知识图谱概念获取研究进展* 作者：边慧珍，哈斯

基于规范字符集的多语种统一字符编码方案* 作者：付勇，郭公

朝鲜语特殊短语结构的语言特征分析及自动提取* 作者：毕玉德，扈毅，安帅飞

蒙古文复杂文本布局引擎的标准符合性测试* 作者：呼斯勒，白双成，确精扎布

蒙古语词向量评测研究* 作者：乌云塔那，王斯日古楞

蒙古语媒体资产编目问题研究* 作者：娜仁图雅，白双成

基于谱减法的藏语语音减噪研究* 作者：都格草，才让卓玛，南措吉

杂志信息网