自然语言处理论文在acl发表

“百度奖学金不仅是对我研究工作的高度认可，更坚定了我的科研决心。”覃立波说。作为车万翔教授指导的博士生，覃立波主要研究方向为任务型对话系统，特别关注解决任务型对话系统中数据稀缺的问题，取得了一系列研究成果。他以第一作者或者共同第一作者，在ACL（国际计算语言学协会）、EMNLP（自然语言处理实证方法会议）、AAAI（美国人工智能协会）、IJCAI（国际人工智能联合会议）等自然语言处理和人工智能顶级会议/期刊发表论文14篇，参与开源项目在GitHub上累计获得超过15000星标。覃立波积极参与开源分享和社区建设，创立的“机器学习算法与自然语言处理社区”订阅人数突破50万，阅读超过2000万。他倡导创立的ACL、EMNLP、AAAI、IJCAI等国际顶会交流社区，受到国内同行一致好评。同时他还担任中文信息学会青年工作委员会学生委员、CCL（中国计算语言学大会）2021学生研讨会共同主席、中国计算机学会自然语言处理专业委员会（CCF-NLP）走进高校战略合作媒体负责人之一，曾获省级优秀毕业生、3年国家奖学金、之江实验室国际青年人才奖学金、字节跳动奖学金（全国10名）、哈工大春晖创新成果奖一等奖等。据了解，“百度奖学金”计划由百度公司于2013年5月正式推出，面向世界范围内计算机领域的优秀华人学生，旨在提供业界最优厚的资金支持并为其开展学术研究提供数据、平台和专家指导，助力有潜力的优秀人才实现技术梦想，涉及的技术领域主要是自然语言处理、深度学习、机器学习、智能信息处理、人机交互、自动驾驶、数据挖掘等。此前，我校社会计算与信息检索研究中心唐都钰、刘一佳和深圳校区桂林3名同学曾获百度奖学金。

国际学术会议是一种学术影响度较高的会议，它具有国际性、权威性、高知识性、高互动性等特点，其参会者一般为科学家、学者、教师等。具有高学历的研究人员把它作为一种科研学术的交流方式，够为科研成果的发表和对科研学术论文的研讨提供一种途径；同时也能促进科研学术理论水平的提高。针对自然语言处理方向比较重要的几个会议有：ACL、EMNLP、NACAL、CoNLL、IJCNLP、CoNLL、IJCNLP、COLING、ICLR、AAAI、NLPCC等

会议链接地址： ACL 它是自然语言处理与计算语言学领域最高级别的学术会议，由计算语言学协会主办，每年一届。主要涉及对话(Dialogue)、篇章(Discourse)、评测( Eval)、信息抽取( IE)、信息检索( IR)、语言生成(LanguageGen)、语言资源(LanguageRes)、机器翻译(MT)、多模态(Multimodal)音韵学/ 形态学( Phon/ Morph)、自动问答(QA)、语义(Semantics)、情感(Sentiment)、语音(Speech)、统计机器学习(Stat ML)、文摘(Summarisation)、句法(Syntax)等多个方面。 ACL 成立于1962年，每年举办一次。这个学会主办了 NLP/CL 领域最权威的国际会议，即ACL年会。1982年和1999年，ACL分别成立了欧洲分会（[EACL）和北美分会（NAACL）两个区域性分会。近年来，亚太地区在自然语言处理方面的研究进步显著，2018年7月15日，第56届ACL年会在澳大利亚墨尔本举行。开幕仪式上，ACL主席Marti Hearst正式宣布成立国际计算语言学学会亚太地区分会（ AACL ，The Asia-Pacific Chapter of Association for Computational Linguistics）。此次成立ACL亚太分会，将进一步促进亚太地区NLP相关技术和研究的发展。据悉，首届AACL会议预计在2020年举行，此后将每两年举行一次。

会议链接地址： EMNLP EMNLP涉及多个研究方向，其中包括：信息提取、信息检索和问答系统，语言和视觉，语言理论和心理语言学，机器学习，机器翻译和多语言，分割、标记和语法分析，语义学，情感分析和观点挖掘，社交媒体和计算社交科学，口语处理，概述，生成，论述和对话，文本挖掘和自然语言分析。 EMNLP也是由ACL主办的，其中ACL学会下设多个特殊兴趣小组（Special Interest Groups )，SIGs聚集了NLP/CL不同子领域的学者，性质类似一个大学校园的兴趣社团。其中比较有名的诸如 SIGDAT（Special Interest Group on Linguistic Data & Corpus-based Approaches to Natural Language Processing）、SIGNLL（Special Interest Group on Natural Language Learning）等。这些 SIGs 也会召开一些国际学术会议，其中比较有名的就是 SIGDAT 组织的 EMNLP 和 SIGNLL 组织的 CoNLL（Conference on Computational Natural Language Learning），均为每年举办一次。

会议链接地址： NACAL NACAL会议主要涉及对话，篇章，评测，信息抽取，信息检索，语言生成，语言资源，机器翻译，多模态，音韵学/ 形态学，自动问答，语义，情感，语音，统计机器学习，文摘，句法等多个方面。 NACAL是 ACL 的的北美分会，当然也是由 ACL 主办。这里把 NAACL 单独列出来是因为相比于 ACL 的欧洲分会 EACL（之前是每三年举办一次，过去存在感不太强，据说从2020年开始将改为每年举办，相信会逐渐被大家重视起来），NAACL 是每年举办一次，就目前而言，大家对它的认可度比 EACL 高。ACL、EMNLP、NAACL 均为每年举办一次。因为是同一学术组织举办，所以会有些有意思的潜规则。例如 ACL、EMNLP 会在各大洲轮流举办，而每当ACL在北美举办时，当年NAACL就停办一次（同理，当ACL在欧洲举办时，当年EACL就停办一次）。

会议链接地址： CoNLL SIGDAT 组织的 EMNLP 和 SIGNLL 组织的 CoNLL（ Conference on Computational Natural Language Learning），均为每年举办一次。其中CoNLL的主要涉及的方向有：对话与互动系统、信息提取、信息检索，问题回答、从认知角度研究学习方法(如机器学习、生物启发、主动学习、混合模型)、语言模型、分割、词汇语义和成分语义、语言理论与资源、用于NLP的机器学习、机器翻译、语言学中的归纳法和类比法、词法分析、词性标注和序列标注等。

会议链接地址： COLING COLING会议主要涵盖的方向有：信息提取、信息检索和问答系统；机器学习；机器翻译；分割、标记和语法分析；语义学；情感分析和观点挖掘；社交媒体和计算社交科学；口语处理；对话生成；文本挖掘等。 COLING 全称 International Conference on Computational Linguistics，1965年开办，它是由老牌 NLP/CL 学术组织 ICCL(The International Committee on Computational Linguistics) 组织的，每两年举办一次。不过可能由于不是每年举行，感觉最近几次会议的质量起伏比较大，从认可度上也确有被EMNLP赶超的趋势。

会议链接地址： ICLR ICLR主要发表深度学习各方面的前沿研究，其中涵盖人工智能、统计学和数据科学以及机器视觉、计算生物学、语音识别、文本理解、游戏和机器人等重要应用领域。 ICLR由Yann LeCun 和 Yoshua Bengio 等大牛发起，会议开创了公开评议机制（open review），但在今年取消了公开评议，改为双盲评审。它是一个很年轻的会议，今年举办到第6届，但已经成为深度学习领域不容忽视的重要会议，甚至有深度学习顶会“无冕之王”之称。ICLR也是世界上发展最快的人工智能会议之一，今年将有4000多名参会者。

会议链接地址： AAAI AAAI是人工智能领域的主要学术会议，由美国人工智能促进协会主办。AAAI 成立于 1979 年，最初名为 “美国人工智能协会” （American Association for Artificial Intelligence），2007 年才正式更名为 “人工智能促进协会”（Association for the Advancement of Artificial Intelligence ）。致力于促进对思维和智能行为机制及其在机器中的体现的科学理解。AAAI旨在促进人工智能的研究和负责任的使用。AAAI还旨在提高公众对人工智能的理解，改善人工智能从业者的教学和培训，并就当前人工智能发展的重要性和潜力以及未来方向为研究规划者和资助者提供指导近年的 AAAI 会议不乏中国学者的身影，据统计 AAAI 2018 接收的 910 多篇论文中有1/3以上一作是华人名字。此外，2019 年 AAAI 程序主席是南京大学周志华教授，另一位程序主席是密歇根大学教授 Pascal Van Hentenryck。

会议链接地址： NLPCC NLPCC主要涉及的方向有：分词和命名实体识别、句法分析、语义分析、语篇分析、面向少数民族和低资源语言的NLP、自然语言处理的应用、数字出版、文档工程、OCR和字体计算、用于移动计算的NLP、机器翻译和多语言信息访问、NLP的机器学习、Web/文本挖掘与大数据、信息检索与提取、知识表示与获取、个性化与推荐、用于搜索和广告的NLP等作为自然语言处理和汉语计算领域的国际领先会议，NLPCC最近被CCF确认为C类会议。它为来自学术界、工业界和政府的研究人员和实践者提供了一个主要论坛，以分享他们的想法、研究成果和经验，并促进他们在该领域的研究和技术创新。NLPCC历届会议分别在北京(2012)、重庆(2013)、深圳(2014)、南昌(2015)、昆明(2016)、大连(2017)、呼和浩特(2018)、甘肃（2019）成功举办。

ACL、EMNLP、NAACL 和 COLING 可以说是 NLP 领域的四大顶会。其中 ACL、EMNLP、NAACL都是一家的（均由 ACL 举办）。ACL 、AAAI是 CCF 推荐A类国际学术会议，EMNLP 和 COLING 是B类，NAACL 、CoNLL、NLPCC则是C类。

更多自然语言处理、pytorch相关知识，还请关注 AINLPer 公众号，极品干货即刻送达。

2002年毕业于武汉大学计算机学院并获工学学士学位，2007年毕业于中国科学院计算技术研究所并获工学博士学位。研究方向是自然语言处理，近年来从事的科研工作集中在统计机器翻译领域。近五年来在自然语言处理的顶级国际会议和期刊上发表8篇论文（5篇ACL、1篇EMNLP、1篇Coling、1篇计算语言学长文），并获COLING/ACL 2006的Meritorious Asian NLP Paper Award。2007年入选计算所首批百星计划，2009年赴美国卡内基梅隆大学进行学术访问，并对微软、Google、南加州大学和约翰霍普金斯大学进行短期访问，2010年获得计算所“卓越之星”称号。2010年在自然语言处理领域国际顶级期刊计算语言学上发表国内第一篇长文，并在ACL上成为国内第一个做tutorial学者。2011年9月加盟清华大学计算机系。

2017年 10 月 11 日，阿里巴巴达摩院正式成立，马云的一句 “ 活得要比阿里巴巴长”，让外界对它的未来发展，有了更 “意味深长” 的期待。

在近三年多的时间里，达摩院在人工智能学术科研与应用上齐头并进，无论在国际学术顶会以及各类竞赛上，还是在推动学术成果的商业化落地上，都交出了亮眼的成绩单，这也反过来吸引着人工智能领域的顶尖研究者们都汇聚于此。

对于这些顶尖研究者们目前正在开展的研究工作，想必大家都充满了探知欲！

7月9日（晚）19:30-21:00 ，AI科技评论就将联合阿里达摩院，外加阿里集团在学术科研上同样“坚挺”的存在——阿里安全，给大家呈上一场 “ACL 2020 系列论文解读·阿里巴巴专场” 直播！

届时，来自阿里达摩院机器智能技术团队和阿里安全安全智能团队的 6 位高级算法专家、算法工程师以及研究型实习生们，将分别聚焦于多任务学习、少样本文本分类、任务型对话、神经机器翻译、知识蒸馏、跨域分词标注等NLP 细分领域，为大家带来一场论文解读盛宴！

本次分享的嘉宾具体都有谁呢？下面一一揭晓：****分享主题： SpanMlt：一种基于跨度的用于属性词和观点词配对抽取的多任务学习框架 ****分享嘉宾：黄龙涛

分享内容：

属性词和观点词抽取，是细粒度的基于属性的情感分析（ABSA）的两个关键问题。属性－观点词对（ aspect-opinion pairs）可以为消费者和观点挖掘系统提供相关产品或服务的全局配置文件。但是，传统方法无法在没有给定属性词和观点词的情况下，直接输出属性－观点词对。尽管研究者最近提出了一些共提取方法来联合提取属性词和观点词，但是并不能配对抽取两者。为此，本文提出了一种端到端方法来解决属性词和观点词的配对抽取（PAOTE）任务。此外，本文从联合词和关系抽取的角度而非此前大多数工作中执行的序列标注方法的角度，来处理该问题。我们提出了一个基于共享跨度的多任务学习框架，其中在跨度边界的监督下提取词。同时，使用跨度表示法来联合识别配对关系。大量实验表明，我们的模型始终优于 SOTA 方法。

分享内容：

现有的工作往往使用元学习（meta learning）的方法，通过在一系列meta-task中切换来获得少样本学习的能力，但是在task间的切换会带来遗忘的问题，因此考虑使用记忆机制来辅助meta learning的训练。在本工作中，我们将监督学习得到的分类参数作为meta learning的全局记忆，并提出了动态记忆路由算法，基于dynamic routing的方式将全局记忆信息融入到meta task的训练和预测阶段。此外，动态记忆路由算法还可以使用query信息来增强归纳类别表示的能力，对口语场景下的语言多样性表达有更好的泛化性能。在中英文场景少样本分类任务数据集上，均取得了STOA的结果。

分享主题：多领域对话动作和回复联合生成****分享嘉宾：田俊峰

分享内容：在任务型对话中，产生流畅且信息丰富的回复至关重要。现有pipeline方法通常先预测多个对话动作，然后使用它们的全局表示来辅助回复生成。这种方法有两个缺陷：第一，在预测对话动作时，多领域的固有结构被忽略了；其次，在生成回复时没有考虑到对话动作和回复之间的语义联系。为了解决这些问题，我们提出了一种同时生成对话动作和回复的神经联合生成模型。与以往的方法不同，我们的对话动作生成模块可以保留多领域对话动作的层次结构，同时我们的回复生成模块可以动态地关注到相关的对话动作。在训练时，我们采用不确定性损失函数来自适应地调整两个任务的权重。在大规模MultiWOZ数据集上进行了评估，实验结果表明，我们的模型在自动评估和人工评估上都比SOTA模型有很好的提升。****分享主题：神经机器翻译的多尺度协同深度模型******分享嘉宾：魏相鹏**

近年来，神经机器翻译(NMT)方法凭借其出色的翻译性能在大量应用场景中取代了基于统计的机器翻译方法。目前，制约NMT模型性能的因素主要包括模型的特征表达能力和数据规模。因此，我们提出一种基于多尺度协作(MSC)机制的深度神经机器翻译模型，以提高模型对底层（具象化）和高层（抽象化）特征的建模能力。

实验证明，(1) 多尺度协作机制有助于构建极深的NMT模型的同时带来性能上的提升，(2) 基于MSC机制的深度NMT模型能够更好地翻译语义结构复杂的自然语言句子。

****分享主题：多语种序列标注的结构级知识蒸馏******分享嘉宾：王新宇**

多语言序列标注是一项使用单一统一模型预测多语言标签序列的任务。与依赖于多个单语模型相比，使用多语言模型具有模型规模小、在线服务容易和对低资源语言通用的优点。然而，由于模型容量的限制，目前的多语种模型仍然远远低于单独的单语模型。本文提出将多个单语言模型（teachers）的结构知识提取到统一的多语言模型（student）中，以缩小单语言模型与统一的多语言模型之间的差距。我们提出了两种基于结构层次信息的知识挖掘方法：

****分享主题：跨域中文分词的远程标注与对抗耦合训练******分享嘉宾：丁宁**

完全监督神经方法在中文分词（CWS）的任务上取得了重大进展。但是，如果由于域间的分布差异和集外词（OOV）问题导致域迁移，则监督模型的性能始终一直大幅下降。为了实时缓解此问题，本文将跨域中文分词的远程标注和对抗性训练直观地结合在一起。

7月9日，6位来自阿里的分享嘉宾，与大家不见不散！

ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行，因新冠肺炎疫情改为线上会议。为促进学术交流，方便国内师生提早了解自然语言处理（NLP）前沿研究，AI 科技评论将推出「ACL 实验室系列论文解读」内容，同时欢迎更多实验室参与分享，敬请期待！

自然语言处理投稿期刊

列一下自然语言处理(NLP)这个小方向的：会议(C): ACL (Annual Meeting of the Association for Computational Linguistics) NAACL (Annual Conference of the North American Chapter of Association for Computational Linguistics) EMNLP (Empirical Methods in Natural Language Processing) EACL (Annual Conference of the European Chapter of Association for Computational Linguistics) COLING (International Conference on Computational Linguistics) SIGKDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining) SIGIR (ACM SIGIR Conference on Research and Development in Information Retrieval) WWW (International World Wide Web Conference) 期刊(J): CL (Computational Linguistics) TACL (Transactions of the Association for Computational Linguistics) C(1-3)和J(1,2)没得说，ACL下面的旗舰会议和期刊 (J(2)虽然比较年轻，但是主编是Micheal Collins大神，质量有保障!!) C(4,5) 放在顶会的行列里可能会有一些争议，尤其是C(5)，感觉近年来paper质量下滑严重(?) C(6-8) 基本都会有NLP相关的session或者research topic，所以也可以认为是NLP方向的顶会因为NLP和data mining(DM)有重合的topic，所以有的NLPer也会选择投DM方向的其他顶会/刊，这里就不列出来了。

nlp《导航与控制》中文核心期刊审稿快。根据查询相关资料信息，《导航与控制》是国家新闻出版署批准公开出版发行，由中国航天科技集团公司主管，所以nlp《导航与控制》中文核心期刊审稿快。

自然语言处理发表论文统计

吴军博士毕业于清华大学计算机系（本科）和电子工程系（硕士），并于1993-1996年在清华任讲师。他于1996年起在美国约翰霍普金斯大学攻读博士，并于2002年获得计算机科学博士学位。在清华和约翰霍普金斯大学期间，吴军博士致力于语音识别、自然语言处理，特别是统计语言模型的研究。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。吴军博士于2002年加入Google公司，现任Google研究院资深研究员。到Google不久，他和三个同事们开创了网络搜索反作弊的研究领域，并因此获得工程奖。2003年，他和两个同事共同成立了中日韩文搜索部门。吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google其间，他领导了许多研发项目，包括许多与中文相关的产品和自然语言处理的项目，并得到了公司首席执行官埃里克.施密特的高度评价。吴军博士在国内外发表过数十篇论文并获得和申请了近十项美国和国际专利。他于2005年起，当选为约翰霍普金斯大学计算机系董事会董事。他是一个还不错的摄影爱好者，一个古典音乐迷，喜欢享受高质量的影视，比如Blu-ray的电影。平时偶尔会修理园子，甚至做点木匠活。每年旅游很多次。当然，还时不时地为Google China Blog写东西。以前读书很多，现在事情太多读得就少了

title: 自然语言处理综述 date: 2021-11-18 11:03:11 自然语言是指人类日常使用的语言，比如：中文、英语、日语等。自然语言灵活多变，是人类社会的重要组成部分，但它却不能被计算机很好地理解。为了实现用自然语言在人与计算机之间进行沟通，自然语言处理诞生了。自然语言处理(Natural Language Processing, NLP)是一个融合了语言学、计算机科学、数学等学科的领域，它不仅研究语言学，更研究如何让计算机处理这些语言。它主要分为两大方向：自然语言理解(Natural language Understanding, NLU)和自然语言生成(Natural language Generation, NLG)，前者是听读，后者是说写。本文将从自然语言处理的历史与发展讲起，进而分析目前深度学习在自然语言处理领域的研究进展，最后讨论自然语言处理的未来发展方向。 1950年，计算机科学之父图灵提出了“图灵测试”，标志着人工智能领域的开端。而此时，正值苏美冷战，美国政府为了更方便地破译苏联相关文件，大力投入机器翻译的研究，自然语言处理从此兴起。从这之后的一段时期内，自然语言处理主要采用基于规则的方法，这种方法依赖于语言学，它通过分析词法、语法等信息，总结这些信息之间的规则，从而达到翻译的效果。这种类似于专家系统的方法，泛化性差、不便于优化，最终进展缓慢，未能达到预期效果。到了20世纪80、90年代，互联网飞速发展，计算机硬件也有了显著提升。同时，自然语言处理引入了统计机器学习算法，基于规则的方法逐渐被基于统计的方法所取代。在这一阶段，自然语言处理取得了实质性突破，并走向了实际应用。而从2008年左右开始，随着深度学习神经网络在图像处理、语音识别等领域取得了显著的成果，它也开始被应用到自然语言处理领域。从最开始的词嵌入、word2vec，到RNN、GRU、LSTM等神经网络模型，再到最近的注意力机制、预训练语言模型等等。伴随着深度学习的加持，自然语言处理也迎来了突飞猛进。接下来，我将介绍自然语言处理与深度学习结合后的相关进展。在自然语言中，词是最基本的单元。为了让计算机理解并处理自然语言，我们首先就要对词进行编码。由于自然语言中词的数量是有限的，那就可以对每个词指定一个唯一序号，比如：英文单词word的序号可以是1156。而为了方便计算，通常会将序号转换成统一的向量。简单做法是对单词序号进行one-hot编码，每个单词都对应一个长度为N（单词总数）的向量（一维数组），向量中只有该单词序号对应位置的元素值为1，其它都为0。虽然使用one-hot编码构造词向量十分容易，但并不是一个较好的方法。主要原因是无法很好地表示词的语义，比如苹果和橘子是相似单词（都是水果），但one-hot向量就无法体现这种相似关系。为了解决上述问题，Google的Mikolov等人于2013年发表了两篇与word2vec相关的原始论文[1][2]。word2vec将词表示成一个定长的向量，并通过上下文学习词的语义信息，使得这些向量能表达词特征、词之间关系等语义信息。word2vec包含两个模型：跳字模型（Skip-gram）[1] 和连续词袋模型（continuous bag of words，CBOW）[2]，它们的作用分别是：通过某个中心词预测上下文、通过上下文预测某个中心词。比如，有一句话"I drink apple juice"，Skip-gram模型是用apple预测其它词，CBOW模型则是用其它词预测出apple。首先介绍CBOW模型，它是一个三层神经网络，通过上下文预测中心词。以某个训练数据"I drink apple juice"为例，可以把apple作为标签值先剔除，将"I drink juice"作为输入，apple作为待预测的中心词。 Skip-gram模型与CBOW类似，也是一个三层神经网络模型。不同在于，它是通过中心词预测上下文，即通过"apple"预测出"I drink juice"。接下来简单介绍Skip-gram模型中各层：两种模型训练结束后，会取作为词向量矩阵，第i行就代表词库中第i个词的词向量。词向量可用来计算词之间的相似度（词向量点乘）。比如，输入 I drink _ juice 上下文，预测出中心词为apple、orange的概率可能都很高，原因就是在中apple和orange对应的词向量十分相似，即相似度高。词向量还可以用于机器翻译、命名实体识别、关系抽取等等。其实这两种模型的原型在2003年就已出现[3]，而Mikolov在13年的论文中主要是简化了模型，且提出了负采样与层序softmax方法，使得训练更加高效。词向量提出的同时，深度学习RNN框架也被应用到NLP中，并结合词向量取得了巨大成效。但是，RNN网络也存在一些问题，比如：难以并行化、难以建立长距离和层级化的依赖关系。而这些问题都在2017年发表的论文《Attention Is All You Need》[4]中得到有效解决。正是在这篇论文中，提出了Transformer模型。Transformer中抛弃了传统的复杂的CNN和RNN，整个网络结构完全由注意力机制组成。 Transformer最核心的内容是自注意力机制(Self-Attention)，它是注意力机制(Attention)的变体。注意力的作用是从大量信息中筛选出少量重要信息，并聚焦在这些信息上，比如：人在看一幅图像时，会重点关注较为吸引的部分，而忽略其它信息，这就是注意力的体现。但注意力机制会关注全局信息，即关注输入数据与输出数据以及中间产物的相关性。而自注意力机制则减少了对外部其它数据的关注，只关注输入数据本身，更擅长捕捉数据内部的相关性。自注意力机制的算法过程如下：自注意力机制不仅建立了输入数据中词与词之间的关系，还能并行地高效地计算出每个词的输出。 Transformer的总体架构如下：它分为两部分：编码器（Encoder）和解码器（Decoder）。编码器的输入是词向量加上位置编码（表明这个词是在哪个位置），再通过多头自注意力操作（Multi-Head Attention）、全连接网络（Feed Forward）两部分得到输出。其中，多头自注意力就是输入的每个词对应多组q、k、v，每组之间互不影响，最终每个词产生多个输出b值，组成一个向量。编码器是transformer的核心，它通常会有多层，前一层的输出会作为下一层的输入，最后一层的输出会作为解码器的一部分输入。解码器包含两个不同的多头自注意力操作（Masked Multi-Head Attention和Multi-Head Attention）、全连接网络（Feed Forward）三部分。解码器会运行多次，每次只输出一个单词，直到输出完整的目标文本。已输出的部分会组合起来，作为下一次解码器的输入。其中，Masked Multi-Head Attention是将输入中未得到的部分遮掩起来，再进行多头自注意力操作。比如原有5个输入，但某次只有2个输入，那么q1和q2只会与k1、k2相乘，。如果深度学习的应用，让NLP有了第一次飞跃。那预训练模型的出现，让NLP有了第二次的飞跃。预训练通过自监督学习（不需要标注）从大规模语料数据中学习出一个强大的语言模型，再通过微调迁移到具体任务，最终达成显著效果。预训练模型的优势如下：预训练模型的关键技术有三个：关于预训练模型的架构，以Bert为例：输入是词的one-hot编码向量，乘上词向量矩阵后，再经过多层transformer中的Encoder模块，最终得到输出。本文介绍了NLP领域的流行研究进展，其中transformer和预训练模型的出现，具有划时代的意义。但随着预训练模型越来越庞大，也将触及硬件瓶颈。另外，NLP在一些阅读理解、文本推理等任务上的表示，也差强人意。总而言之，NLP领域依旧存在着巨大的前景与挑战，仍然需要大家的长期努力。 [1]Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119). [2]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. [3]Yoshua Bengio, R´ejean Ducharme, Pascal Vincent, and Christian Janvin. A neural probabilistic language model. The Journal of Machine Learning Research, 3:1137–1155, 2003. [4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008. [5]Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802.05365, 2018. [6]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018. [7]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018. [8]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.

林德康（Dekang Lin）：国际计算语言学学会会士（ACL Fellow）。前Google研究院高级管理科学家（senior staff research scientist），在加入Google之前担任加拿大阿尔伯塔大学计算机教授。他在自然语言处理及理解领域总共发表过90余篇论文，其研究总计被引用超过14000次。1985年毕业于清华大学计算机科学与技术专业，后赴英国求学，又转入加拿大阿尔伯塔大学读取计算机博士。先后任职阿尔伯塔大学副教授、正教授，任教期间主要从事自然语言理解研究.研究成果包括一款基于最简原则的英文语法分析器Minipar和一种用非监督学习同义词组的方法。后在美国Google研究院担任高级管理科学家，是Google搜索问答系统的创始人和技术负责人，领导了一个由科学家及工程师组成的团队，将Google搜索问答系统从一个基础研究项目逐步发展推广成为一个每天回答两千万问题的产品。

自然语言处理论文发表统计

首先想到的不应该是Michael Collins吗……Michael Collins (Columbia), Jason Eisner (JHU), David Yarowsky (JHU)三位师兄弟（David > Michael > Jason）均师承于Upenn的Mitchell Marcus教授，也就是著名的Penn Treebank的作者。这三位是NLP界公认的大神，研究领域各有侧重。collins/eisner对NLP结构学习领域贡献极大，yarowsky早年研究词义消歧，是著名的yarowsky algorithm的作者，后来做了很多跨语言学习的开创性工作。Michael Collins的学生中著名的有Terry Koo (Google), Percy Liang (Stanford), Luke Zettlemoyer (UW)；Jason Eisner的得意弟子当首推Noah Smith (CMU->UW)；David Yarowsky似乎没有什么特别杰出的学生。Stanford NLP掌门Chris Manning，以《统计自然语言处理基础》一书以及Stanford NLP (toolkit) 而闻名。Dan Jurafsky，著有《语音与语言处理》一书，具有深厚的语言学背景。稍微提一下Manning的学生Richard Socher，近几年声名鹊起，在dl4nlp领域风头一时无两，属年轻一代翘楚。

UCBerkeley的Dan Klein，早些年在无指导学习领域建树颇多。Percy Liang也是他的学生。

UIUC的Dan Roth，ChengxiangZhai（偏IR）；MIT的Regina Barzilay；哦，当然还有Brown大学的Eugene Charniak大神（Charniak parser），Brown大学也可算是没落的贵族了，和UPenn有点儿相似。欧洲方面，JoakimNivre (Uppsala University)，代表工作是基于转移的依存句法分析。Philipp Koehn，著名机器翻译开源系统Moses作者，14年加入JHU。当然，在工业界也是NLP群星璀璨。Google有Fernando Pereira坐镇，此外还有Ryan McDonald，Slav Petrov等句法分析领域绕不开的名字；而最近Michael Collins也加入了Google；IBM则有Kenneth Church；提一嘴Tomas Mikolov (Facebook)吧，word2vec作者，虽然他严格意义上并不属于NLP核心圈子，但是不得不说，近两年acl/emnlp近半数文章都给他贡献了citation，能做到这种程度的人极少。以上我提到的人都是对NLP领域有重要基础性贡献并经过时间考验的（citation超过或者接近1W），除了以上提到的，还有很多非常优秀的学者，比如Kevin Knight，Daniel Marcu， Mark Johnson，Eduard Hovy，Chris Callison-Burch，年轻一代的David Chiang，Hal Daume III等。暂时想到的就这些人，水平有限，抛砖引玉。相对而言，虽然华人学者近几年在ACL/EMNLP等顶级会议上占据越来越重要的地位，但是对NLP领域具有重要基础性贡献的学者相对还是很少的。

Christoph manning，目前nlp领域公认首席专家

在学术圈，纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了，然而在业界，到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎，拥有海量数据且文本涉及各个领域；而我这里要谈的业界说大不大，文本来源主要由公司的内部文件和一些订阅的行业信息构成，但说小也不小，因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域，且涵盖大量专有名词，若非业务人员，完全看不懂这些名词还有特定缩写。首先，对于这类公司而言，使用统计方法需要大量labelled data，而公司又往往没有labelled data。如果指派业务人员来打标签（label data），这个时间成本实在太高。相较之下，利用“规则”的方法就省事多了，先用unsupervised方法把topic modelling搞出来，再让业务人员根据topic编制规则，一开始编得粗没关系，之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高，那恐怕是没有的。所以在公司已经有labelled data的情况，我多半也偏向直接用“统计”方法。其次，因为这类客户文本主要集中在某个特定领域，对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题，因为需要穷尽的可能太多了，很难一一写过来。而如果Disambiguation的压力减小了呢，使用“规则”方法产生的false positive错误的压力也会相应减少。

自然语言处理投稿SCI期刊

1、期刊选择

发表sci论文要找sci期刊。作者可以先通过下载sci期刊影响因子表，或阅读文献，或相关单位推荐，或找专业人推荐等多个渠道查找到sci期刊名单。再根据本sci论文的内容方向、质量水平，以及相关单位要求，从学科、收稿范围、影响因子、分区、审稿周期、发表费用等多少角度，综合考虑分析来确定目标sci期刊。

2、论文格式调整

每本sci期刊论文格式要求有差异，作者要在投稿前，了解目标sci期刊作者须知，对论文的格式进行调整。另外，论文投稿A期刊被拒稿，转投B期刊，要根据B期刊的作者须知进行格式调整。若目标期刊未提及格式要求，可以根据sci论文格式修改常用模板来进行格式调整。

3、投稿材料准备

投稿sci期刊，除了文章外，还有其他材料要准备，比如推荐的审稿人、作者简介、图片等。只有材料齐全，才能完整填写相关信息，完成投稿。作者要提前了解自己要准备什么材料，以及材料格式和要求。

4、投稿渠道选择

把文章投稿到sci期刊手里，有多个渠道选择，可以作者单位推送，可以作者通过投稿邮箱投递，也可以找专业人投递。相比较而言，作者有较丰富的经验，可以通过投稿邮箱投递，若是初次投稿，或者着急投稿发表，可以找专业人，能够第一时间内，翻译编审润色书稿或匹配推荐sci期刊等。

不知道怎么回答了需要你有自己的学术见解或者有一定意义的数据或者综述了某一个方面的研究进展这些都要用较流利的英语以科研文章的形式写出来

开源收费并且发文量大的SCI期刊容易中。比如PLOS ONE，版面费1350美元，发文量每年大于4万篇。 SCIENTIFIC REPORTS，版面费9900人民币，发文量大于2W。