中文会议论文发表时间

其实写论文都差不多，先调研，就是多阅读相关小论文和学位论文，可以上中国知网，万方网等地方下载。然后选突破点，看了论文多了，就会知道目前这个领域某些地方有欠缺，针对这个欠缺，你提出一种改进，就可以写一篇论文了。改进不一定需要多么大，一点点的改进都可以。如果需要发表的话建议找学苑论文网

这个要看具体情况的，一个是如果你发的是普刊，那么周期就会短一些，一个是如果你发表的是核心期刊，有可能一年多才能见刊发表，前提是录用的情况下。还有一个情况是，如果你是自己投稿，会慢一些，如果你是找一些论文机构帮忙投稿发表，会快速一些。我之前找淘淘论文网发表的经济类论文，2个月就给你加急发表了，是普刊，如果是核心他们也没法加急。所以看你发表的什么刊物了。

一般的省级、国家级论文审稿需要1～2天，出刊需要1～3个月。个别快的0.5个月，还有个别慢的需要4～7个月。质量水平高一些的期刊，还有一些大学学报，投稿的出刊需要6个月左右，快一些的3～4个月。科技核心期刊审稿需要1～3个月，出刊另需要6～10个月左右，总的算起来大约是1年～1年半。北核、南核审稿需要3～4个月，出刊另需6～15个月左右，跨度较大总的算起来1年～2年。SCI、EI等与北核南核周期相仿。综上所述，评职称发表论文一定要对各不同级别论文的发表周期做到心里有数，提前准备，以免时间上赶不及白白错过评审多等一年。尤其是核心论文，一定要提前。不少客户联系到我们，想三五个月内出刊，那真是太难了，这种急单子我们要么不接，要么提前跟客户说好发不成全额退款，但不担任何责任

首先拿自然投稿来说，省级和国家级的论文审稿需要1-2天，发表时间需要1-3个月。个别快的话半个月内就可以完成，慢的话甚至要4-7个月之久了。对于质量水平较高的期刊和一些大学期刊来说，投稿发表时间通常在6个月左右，较快的也需要3-4个月。科技核心期刊审稿需要1-3个月，发表需要6-10个月，总体时间大致是1-1.5年。北核和南核的审稿需要3-4个月时间，出版则需要6-15个月时间，跨度大，总共需要时长约1-2年。SCI和EI等与北核南核时间周期类似。众所周知，省级和国家级别的期刊是普通期刊，是职称期刊发表的起跑线。相对而言，从选刊到成功收刊用不了多长时间。有些刊物块的话研究1个月左右的时间就收到了，如果慢的话，大概也就是3个月左右的时间。

会议论文发表时间

我查了下，中文期刊在线，会议论文集的话，按照开会时间，来算定论文发表时间。

不是的，首先可以肯定的是：论文出版论文日期肯定是在开会日期之后，一般会议是开会后2个月内出版论文，少部分会议会拖到开会后4个月甚至更长时间。总之整个流程是这样的：论文写作——投稿——录用——注册会议——开会——论文出版——EI检索。如果还是搞不清楚，建议你百度搜：EI学术会议中心，全是关于EI会议的信息和学习指导资料。

wcnc会议论文发表时间

根据中国知网显示，这是一篇会议论文会议论文集名称：实践与思考：七省市第十二届建筑市场与招标投标联席会优秀论文集发表时间：2012-07-26

wcnc是国际通信领域的顶级会议之一、无线领域中最重要的年度活动之一，是世界一流的无线领域盛会，于每年九、十月份截稿，来年三、四月份召开。

涵盖了包括信息论、通信信号处理、无线通信、无线网络、光网络、多媒体通信、机器学习、通信标准和信息安全等在内的通信行业的各个领域。IEEE在无线研究领域的重要年度盛会，汇聚了来自世界各地的研究人员、学者和行业专业人士。

IEEE WCNC 2022于2022年4月10日至13日在德克萨斯州奥斯汀举行。会议将主要以面对面会议的形式进行，远程出席的虚拟形式有限。

第一等级：MobiCom, MobiHoc, Infocom第二等级：ICC, GlobeCom, WCNC, PIMRC, MSWiM第三第一等级的会议一般对文章篇幅限制很小，基本上和杂志对篇幅的限制一样，比如

第一等级的会议一般对文章篇幅限制很小，基本上和杂志对篇幅的限制一样，比如Infocom一般要求不超过双栏排版的12页。基本上发表在这一等级会议上的文章都具有发表在杂志上的水准。等级：VTC

第二等级的会议通常对文章的篇幅限制较多，一般都在5－6页。文章的质量比起第一等级来说要低，但总体来说还说得过去。

第三等级我暂时只列了一个，别的还没想到。让我把VTC的有关数据列出来大家就明白这一等级的标准了。

投稿国际会议的时间不是很长，一般40多天的时间就会给录用通知，不过从录用通知开始到会议的举行，大概得2—3个月，会议结束，就会有论文集了。如果要检索，就得在等2—4个月的时间

bert论文发表时间会议

google在2018年10月底公布BERT在11项nlp任务中的卓越表现，NLP任务的两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4％（绝对改进7.6％），MultiNLI准确度达到86.7% （绝对改进率5.6％）等，此后，BERT（Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型。 BERT的出现，彻底改变了预训练产生词向量和下游具体NLP任务的关系，提出龙骨级的训练词向量概念。词向量，就是用一个向量的形式表示一个词。（1）one-hot编码：词的符号化。（2）词的分布式表示：词的语义由其上下文决定。以（CBOW）为例，如果有一个句子“the cat sits one the mat”，在训练的时候，将“the cat sits one the”作为输入，预测出最后一个词是“mat”。分布式表示的较大优点在于它具有非常强大的表征能力，比如n维向量每维k个值，可以表征k的n次方个概念。其中，词嵌入就是分布式表示的一种：基于神经网络的分布表示一般称为词向量、词嵌入（ word embedding）或分布式表示（ distributed representation）。核心依然是上下文的表示以及上下文与目标词之间的关系的建模。本质：词向量是训练神经网络时候的隐藏层参数或者说矩阵。两种训练模式：CBOW (Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model) NLP任务分成两部分，一是预训练产生词向量，二是对词向量操作实现特定功能。而词向量模型是一个工具，可以把抽象存在的文字转换成可以进行数学公式操作的向量，而对这些向量的操作，才是NLP真正要做的任务。从word2vec到ELMo到BERT，做的其实主要是把下游具体NLP任务的活逐渐移到预训练产生词向量上。（1）word2vec：上下文概率的一种表示，但无法对一词多义进行建模（2）ELMo：用的是一个双向的LSTM语言模型，由一个前向和一个后向语言模型构成，目标函数就是取这两个方向语言模型的最大似然。在预训练好这个语言模型之后，ELMo就是根据下面的公式来用作词表示，其实就是把这个双向语言模型的每一中间层进行一个求和。最简单的也可以使用最高层的表示来作为ELMo。然后在进行有监督的NLP任务时，可以将ELMo直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。总结一下，不像传统的词向量，每一个词只对应一个词向量，ELMo利用预训练好的双向语言模型，然后根据具体输入从该语言模型中可以得到上下文依赖的当前词表示（对于不同上下文的同一个词的表示是不一样的），再当成特征加入到具体的NLP有监督模型里。（3）bert word2vec——>ELMo：结果：上下文无关的static向量变成上下文相关的dynamic向量，比如苹果在不同语境vector不同。操作：encoder操作转移到预训练产生词向量过程实现。 ELMo——>BERT：结果：训练出的word-level向量变成sentence-level的向量，下游具体NLP任务调用更方便，修正了ELMo模型的潜在问题。操作：使用句子级负采样获得句子表示/句对关系，Transformer模型代替LSTM提升表达和时间上的效率，masked LM解决“自己看到自己”的问题。（1）bert模型证明了双向预训练对于语言表示的重要性。与采用单向语言模型进行预训练的模型不同，BERT使用masked language models 进行预训练的深层双向表示。（2）经过预训练的模型表示解决了许多为特定任务而设计架构的需要。BERT是第一个基于微调的表示模型，它在一系列句子级和词级别的任务上实现了最先进的性能，优于许多具有特定任务架构的系统。 bert架构由两步实现：预训练和模型微调；在预训练阶段，基于无标注数据通过多轮预训练任务完成。在微调阶段，bert模型由预训练的参数进行初始化，然后由待下游的任务数据进行参数微调。 bert模型是多层双向transformer编码器。将层的数量（Transformer blocks）表示为L，隐藏的大小表示为H，而self-attention heads 为A。在所有的情况下，我们将feed-forward/filter大小设置为4H，即H＝768时，为3072， H＝1024时，为4096. bert的两种格式： BERTBASE : L=12, H=768, A=12, Total Parameter=110M， BERTLARGE : L=24, H=1024, A=16, Total Parameters=340M 为了使用bert可以应对各式各样的下游任务，bert的输入为token序列，它可以表示一个句子或句子对（比如对话）。使用该方案，输入可以是任意跨度的相邻文本，即一个token序列可以是单个句子，也可以是多个句子。具体地说，bert使用30000个词的词级别的embeddings。每个序列的起始token是[CLS]。句子对被打包在一个序列中，用两种方式区别句子。方法一，使用特殊token[SEP]；方法二，在每个标记中添加一个学习过的嵌入，表示它是属于句子A还是句子B。两个无监督任务对BERT进行训练。任务一：Masked LM语言模型。为了训练双向表示模型，随机按百分比的方式（一般选15%）屏蔽输入序列中的部分词，然后预测那些屏蔽词。在这种情况下，屏蔽词的最终隐向量经softmax运算后输出。有点类似于中文的完形填空。虽然如些操作可以获得一个双向的预训练模型，但这在预训练和微调之间创建了一个不匹配，因为在微调过程中从来没有见过［MASK］词。为了减轻这一点，我们并不总是用实际的［MASK］词替换被屏蔽的词。相反，生成随机选择15%的词进行预测，例如在句子 my dog is hairy 选择了 hairy。接着执行下面的过程：数据生成器不会总是用［MASK] 替换所选单词，而是执行以下操作： 80%的时间，将单词替换为［MASK］词。例如 my dog is hairy -> my dog is [MASK] 10%的时间，用一个随机词替换这个词，例如 my dog is hairy -> my dog is apple 10%的时间，保持单词不变，例如 my dog is hairy -> my dog is hairy。每一轮使用交叉熵损失来预测原始词。任务二：下一句的预测；许多重要的下游任务，如问答（QA）和自然语言推理（NLI），都基于理解两个文本句之间的关系，而语言建模并不能直接捕获到这两个文本句之间的关系。为了训练一个理解句子关系的模型，我们预训练了一个二分类的预测下一个句子的任务，该任务可以由任何单语语料库生成。具体来说，在为每个训练前的例子选择句子A和B时，50%的时间B是A后面的实际下一个句子，50%的时间B是来自语料库的随机句子。例如： Input ＝[CLS］ the man went to [MASK] store [SEP]，he bought a gallon [MASK] milk [SEP] Label = IsNext Input = [CLS] the man [MASK] to the store [SEP]，penguin [MASK] are flight ##less birds [SEP] Label = NotNext 我们完全随机选择NotNext 句子，最终预测模型在这个任务中达到97%－98%的准确率。预训练数据：预训练过程很大程度上依赖现有语言模型的数据。从维基百科上抽取文本信息，忽略列表，表格和标题。对于预训练过程来说，使用文档级别的语料库而不是经过乱序后的句子级语料库来提取长的连续序列是很重要的。对于序列级别分类任务，BERT微调很简单。BERT使用self-attention机制来统一两个过程。因为编码文本序列中，使用self-attention有效地包含了两上句子之间双向交叉的attention。微调过程，就是对于每一个任务，简单地将特定的输入和输出接入bert，然后端到端地调节全部参数即可。在输入端，句子A和句子B类似于（1）语义句子对（2）假设前提（3）问答中的问句（4）文本分类或序列标记中文本。在输出端，token向量被传递给token级别任务的输出层，例如，序列标签，问答对的答案。[CLS]向量被传递给分类的输出层，用于分类或情感分析。相对于预训练，微调要相对容易。大多数模型超参数与预训练相同，除了批的大小、学习率和训练轮数。可以通过一个额外的输出层对预训练的BERT表示进行微调，以创建适用于各种任务的最先进模型，比如问答和语言推断，无需对特定与任务的架构进行实质性修改。第一，如果NLP任务偏向在语言本身中就包含答案，而不特别依赖文本外的其它特征，往往应用Bert能够极大提升应用效果。第二，Bert特别适合解决句子或者段落的匹配类任务。就是说，Bert特别适合用来解决判断句子关系类问题，这是相对单文本分类任务和序列标注等其它典型NLP任务来说的，很多实验结果表明了这一点。第三，Bert的适用场景，与NLP任务对深层语义特征的需求程度有关。感觉越是需要深层语义特征的任务，越适合利用Bert来解决第四，Bert比较适合解决输入长度不太长的NLP任务，而输入比较长的任务，典型的比如文档级别的任务，Bert解决起来可能就不太好。【引用】： bert论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Albert，xlnet，bert，word2vec

通过预训练模型实现迁移学习，迁移学习本质上是在一个数据集上训练模型，然后对该模型进行调整，以在不同的数据集上执行不同的自然语言处理功能。

1. word2vec

线性模型：

很神奇的地方，从而也说明高维空间映射的词向量可以很好体现真实世界中token之间的关系。如：king-man = queen-woman

负采样：

由于训练词向量模型的目标不是为了得到一个多么精准的语言模型，而是为了获得它的副产物——词向量。所以要做到的不是在几万几十万个token中艰难计算softmax获得最优的那个词（就是预测的对于给定词的下一词），而只需能做到在几个词中找到对的那个词就行，这几个词包括一个正例（即直接给定的下一词），和随机产生的噪声词（采样抽取的几个负例），就是说训练一个sigmoid二分类器，只要模型能够从中找出正确的词就认为完成任务。

这种负采样思想也应用到之后的BERT里，只不过从word-level变成sentence-level，这样能获取句子间关联关系。

缺点是上下文无关（static）：

因而为了让句子有一个整体含义(context)，大家会在下游具体的NLP任务中基与词向量的序列做encoding操作。

下面是一个比较表格，模型不细讲了，预测目标这里的next word下一个词，是所有传统语言模型都做的事——寻找下一个词填什么。

BERT模型进一步增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征。

真正的双向encoding：

Masked LM，类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替，可以放心双向encoding。

Transformer做encoder实现上下文相关（context）：

使用transformer而不是bi-LSTM做encoder，可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响，只需要通过self-attention减小mask标记权重即可，而lstm类似黑盒模型，很难确定其内部对于mask标记的处理方式。

提升至句子级别：

学习句子/句对关系表示，句子级负采样。首先给定的一个句子，下一句子正例（正确词），随机采样一句负例（随机采样词）,句子级上来做二分类（即判断句子是当前句子的下一句还是噪声），类似word2vec的单词级负采样。

二、BERT细则

这里主要介绍BERT的三个亮点Masked LM、transformer、sentence-level。

1. Masked Language Model

原本叫cloze test，是完形填空的意思。

随机mask语料中15%的token，然后将masked token 位置输出的最终隐层向量送入softmax，来预测masked token。

这样输入一个句子，每次只预测句子中大概15%的词，所以BERT训练很慢。。。（但是google设备NB。。）

而对于盖住词的特殊标记，在下游NLP任务中不存在。因此，为了和后续任务保持一致，作者按一定的比例在需要预测的词位置上输入原词或者输入某个随机的词。如：my dog is hairy

2. Transformer —— attention is all you need

Transformer模型是2018年5月提出的，可以替代传统RNN和CNN的一种新的架构，用来实现机器翻译，论文名称是attention is all you need。无论是RNN还是CNN，在处理NLP任务时都有缺陷。CNN是其先天的卷积操作不很适合序列化的文本，RNN是其没有并行化，很容易超出内存限制（比如50tokens长度的句子就会占据很大的内存）。

下面左图是transformer模型一个结构，分成左边Nx框框的encoder和右边Nx框框的decoder，相较于RNN+attention常见的encoder-decoder之间的attention（上边的一个橙色框），还多出encoder和decoder内部的self-attention（下边的两个橙色框）。每个attention都有multi-head特征。最后，通过position encoding加入没考虑过的位置信息。

下面从multi-head attention，self-attention， position encoding几个角度介绍。

multi-head attention:

将一个词的vector切分成h个维度，求attention相似度时每个h维度计算。由于单词映射在高维空间作为向量形式，每一维空间都可以学到不同的特征，相邻空间所学结果更相似，相较于全体空间放到一起对应更加合理。比如对于vector-size=512的词向量，取h=8，每64个空间做一个attention，学到结果更细化。

self-attention：

每个词位的词都可以无视方向和距离，有机会直接和句子中的每个词encoding。比如上面右图这个句子，每个单词和同句其他单词之间都有一条边作为联系，边的颜色越深表明联系越强，而一般意义模糊的词语所连的边都比较深。比如：law，application，missing，opinion。。。

position encoding:

因为transformer既没有RNN的recurrence也没有CNN的convolution，但序列顺序信息很重要，比如你欠我100万明天要还和我欠你100万明天要还的含义截然不同。。。

transformer计算token的位置信息这里使用正弦波↓，类似模拟信号传播周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。

但BERT直接训练一个position embedding来保留位置信息，每个位置随机初始化一个向量，加入模型训练，最后就得到一个包含位置信息的embedding（简单粗暴。。），最后这个position embedding和word embedding的结合方式上，BERT选择直接相加。

3. sentence-level representation

在很多任务中，仅仅靠encoding是不足以完成任务的（这个只是学到了一堆token级的特征），还需要捕捉一些句子级的模式，来完成SLI、QA、dialogue等需要句子表示、句间交互与匹配的任务。对此，BERT又引入了另一个极其重要却又极其轻量级的任务，来试图把这种模式也学习到。

句子级负采样

句子级别的连续性预测任务，即预测输入BERT的两端文本是否为连续的文本。训练的时候，输入模型的第二个片段会以50%的概率从全部文本中随机选取，剩下50%的概率选取第一个片段的后续的文本。即首先给定的一个句子（相当于word2vec中给定context），它下一个句子即为正例（相当于word2vec中的正确词），随机采样一个句子作为负例（相当于word2vec中随机采样的词），然后在该sentence-level上来做二分类（即判断句子是当前句子的下一句还是噪声）。

句子级表示

BERT是一个句子级别的语言模型，不像ELMo模型在与下游具体NLP任务拼接时需要每层加上权重做全局池化，BERT可以直接获得一整个句子的唯一向量表示。它在每个input前面加一个特殊的记号[CLS]，然后让Transformer对[CLS]进行深度encoding，由于Transformer是可以无视空间和距离的把全局信息encoding进每个位置的，而[CLS]的最高隐层作为句子/句对的表示直接跟softmax的输出层连接，因此其作为梯度反向传播路径上的“关卡”，可以学到整个input的上层特征。

segment embedding

对于句对来说，EA和EB分别代表左句子和右句子；对于句子来说，只有EA。这个EA和EB也是随模型训练出来的。

如下图所示，最终输入结果会变成下面3个embedding拼接的表示。

首先，XLNet 是一个类似 BERT 的模型，而不是完全不同的模型。但这是一个非常有前途和潜力的。总之，XLNet是一种通用的自回归预训练方法。

那么什么是自回归（AR）语言模型？

AR语言模型是一种使用上下文词来预测下一个词的模型。但是在这里，上下文单词被限制在两个方向，前向或后向。

AR 语言模型的优势是擅长生成式自然语言处理任务。因为在生成上下文时，通常是前向的。AR 语言模型很自然地适用于此类 NLP 任务。

但AR语言模型有一些缺点，它只能使用前向上下文或后向上下文，这意味着它不能同时使用前向和后向上下文。

自回归语言模型有优点有缺点，缺点是只能利用上文或者下文的信息，不能同时利用上文和下文的信息，当然，貌似ELMO这种双向都做，然后拼接看上去能够解决这个问题，因为融合模式过于简单，所以效果其实并不是太好。它的优点，其实跟下游NLP任务有关，比如生成类NLP任务，比如文本摘要，机器翻译等，在实际生成内容的时候，就是从左向右的，自回归语言模型天然匹配这个过程。而Bert这种DAE模式，在生成类NLP任务中，就面临训练过程和应用过程不一致的问题，导致生成类的NLP任务到目前为止都做不太好。

与 AR 语言模型不同，BERT 被归类为自动编码器（AE）语言模型。

AE 语言模型旨在从损坏的输入重建原始数据。

损坏的输入意味着我们在预训练阶段用 [MASK] 替换原始词 into 。目标是预测 into 得到原始句子。

AE 语言模型的优势是，它可以从向前和向后的方向看到上下文。

但 AE 语言模型也有其缺点。它在预训练中使用 [MASK] ，但这种人为的符号在调优时在真实数据中并不存在，会导致预训练-调优的差异。[MASK] 的另一个缺点是它假设预测（掩蔽的）词在给定未屏蔽的词的情况下彼此独立。例如，我们有一句话“它表明住房危机已经变成银行危机”。我们掩蔽“银行业”和“危机”。在这里注意，我们知道掩蔽的“银行业”和“危机”包含彼此的隐含关系。但 AE 模型试图预测“银行业”给予未掩蔽的词，并预测“危机”分别给出未掩蔽的词。它忽略了“银行业”与“危机”之间的关系。换句话说，它假设预测（掩蔽）的标记彼此独立。但是我们知道模型应该学习预测（掩蔽）词之间的这种相关性来预测其中一个词。

作者想要强调的是，XLNet 提出了一种让 AR 语言模型从双向上下文中学习的新方法，以避免 MASK 方法在 AE 语言模型中带来的缺点。 XLNet的出发点就是：能否融合自回归LM和DAE LM两者的优点。就是说如果站在自回归LM的角度，如何引入和双向语言模型等价的效果；如果站在DAE LM的角度看，它本身是融入双向语言模型的，如何抛掉表面的那个[Mask]标记，让预训练和Fine-tuning保持一致。当然，XLNet还讲到了一个Bert被Mask单词之间相互独立的问题，我相信这个不太重要，原因后面会说。当然，我认为这点不重要的事情，纯粹是个人观点，出错难免，看看就完了，不用较真。

AR 语言模型只能向前或向后使用上下文，那么如何让它从双向上下文中学习呢？

语言模型包括两个阶段，即预训练阶段和调优阶段。XLNet 专注于预训练阶段。在预训练阶段，它提出了一个名为排列语言建模的新目标。我们可以从这个名称知道基本思想，它使用排列。

这里我们举一个例子来解释。序列的次序是 [x1, x2, x3, x4] 。这种序列的所有排列如下。

因此对于这 4 个词的（[图片上传失败...(image-c7a4e0-1570519576567)]

）句子，有 24（[图片上传失败...(image-d738b7-1570519576567)]

）个排列。

情景是我们想要预测 x3 。因此在 24 个排列中有 4 种模式，分别 x3 位于第 1 位，第 2 位，第 3 位，第 4 位。

当然，上面讲的仍然是基本思想。难点其实在于具体怎么做才能实现上述思想。首先，需要强调一点，尽管上面讲的是把句子X的单词排列组合后，再随机抽取例子作为输入，但是，实际上你是不能这么做的，因为Fine-tuning阶段你不可能也去排列组合原始输入。所以，就必须让预训练阶段的输入部分，看上去仍然是x1,x2,x3,x4这个输入顺序，但是可以在Transformer部分做些工作，来达成我们希望的目标。具体而言，XLNet采取了Attention掩码的机制，你可以理解为，当前的输入句子是X，要预测的单词Ti是第i个单词，前面1到i-1个单词，在输入部分观察，并没发生变化，该是谁还是谁。但是在Transformer内部，通过Attention掩码，从X的输入单词里面，也就是Ti的上文和下文单词中，随机选择i-1个，放到Ti的上文位置中，把其它单词的输入通过Attention掩码隐藏掉，于是就能够达成我们期望的目标（当然这个所谓放到Ti的上文位置，只是一种形象的说法，其实在内部，就是通过Attention Mask，把其它没有被选到的单词Mask掉，不让它们在预测单词Ti的时候发生作用，如此而已。看着就类似于把这些被选中的单词放到了上文Context_before的位置了）。具体实现的时候，XLNet是用“双流自注意力模型”实现的，细节可以参考论文，但是基本思想就如上所述，双流自注意力机制只是实现这个思想的具体方式，理论上，你可以想出其它具体实现方式来实现这个基本思想，也能达成让Ti看到下文单词的目标。

上面说的Attention掩码，我估计你还是没了解它的意思，我再用例子解释一下。Attention Mask的机制，核心就是说，尽管当前输入看上去仍然是x1->x2->x3->x4，但是我们已经改成随机排列组合的另外一个顺序x3->x2->x4->x1了，如果用这个例子用来从左到右训练LM，意味着当预测x2的时候，它只能看到上文x3；当预测x4的时候，只能看到上文x3和x2，以此类推……这样，比如对于x2来说，就看到了下文x3了。这种在输入侧维持表面的X句子单词顺序，但是其实在Transformer内部，看到的已经是被重新排列组合后的顺序，是通过Attention掩码来实现的。如上图所示，输入看上去仍然是x1,x2,x3,x4，可以通过不同的掩码矩阵，让当前单词Xi只能看到被排列组合后的顺序x3->x2->x4->x1中自己前面的单词。这样就在内部改成了被预测单词同时看到上下文单词，但是输入侧看上去仍然维持原先的单词顺序了。关键要看明白上图右侧那个掩码矩阵，我相信很多人刚开始没看明白，因为我刚开始也没看明白，因为没有标出掩码矩阵的单词坐标，它的坐标是1-2-3-4，就是表面那个X的单词顺序，通过掩码矩阵，就能改成你想要的排列组合，并让当前单词看到它该看到的所谓上文，其实是掺杂了上文和下文的内容。这是attention mask来实现排列组合的背后的意思。

ALBERT相比于BERT的改进 ALBERT也是采用和BERT一样的Transformer的encoder结果，激活函数使用的也是GELU，在讲解下面的内容前，我们规定几个参数，词的embedding我们设置为E，encoder的层数我们设置为L，hidden size即encoder的输出值的维度我们设置为H，前馈神经网络的节点数设置为4H，attention的head个数设置为H/64。

在ALBERT中主要有三个改进方向。

1、对Embedding因式分解（Factorized embedding parameterization）在BERT中，词embedding与encoder输出的embedding维度是一样的都是768。但是ALBERT认为，词级别的embedding是没有上下文依赖的表述，而隐藏层的输出值不仅包括了词本生的意思还包括一些上下文信息，理论上来说隐藏层的表述包含的信息应该更多一些，因此应该让H>>E，所以ALBERT的词向量的维度是小于encoder输出值维度的。

在NLP任务中，通常词典都会很大，embedding matrix的大小是E×V，如果和BERT一样让H=E，那么embedding matrix的参数量会很大，并且反向传播的过程中，更新的内容也比较稀疏。

结合上述说的两个点，ALBERT采用了一种因式分解的方法来降低参数量。首先把one-hot向量映射到一个低维度的空间，大小为E，然后再映射到一个高维度的空间，说白了就是先经过一个维度很低的embedding matrix，然后再经过一个高维度matrix把维度变到隐藏层的空间内，从而把参数量从O(V×H) O(V×H)O(V×H)降低到了O(V×E+E×H) O(V×E+E×H)O(V×E+E×H)，当E<

下图是E选择不同值的一个实验结果，尴尬的是，在不采用参数共享优化方案时E设置为768效果反而好一些，在采用了参数共享优化方案时E取128效果更好一些。

2、跨层的参数共享（Cross-layer parameter sharing）在ALBERT还提出了一种参数共享的方法，Transformer中共享参数有多种方案，只共享全连接层，只共享attention层，ALBERT结合了上述两种方案，全连接层与attention层都进行参数共享，也就是说共享encoder内的所有参数，同样量级下的Transformer采用该方案后实际上效果是有下降的，但是参数量减少了很多，训练速度也提升了很多。

下图是BERT与ALBERT的一个对比，以base为例，BERT的参数是108M，而ALBERT仅有12M，但是效果的确相比BERT降低了两个点。由于其速度快的原因，我们再以BERT xlarge为参照标准其参数是1280M，假设其训练速度是1，ALBERT的xxlarge版本的训练速度是其1.2倍，并且参数也才223M，评判标准的平均值也达到了最高的88.7

除了上述说了训练速度快之外，ALBERT每一层的输出的embedding相比于BERT来说震荡幅度更小一些。下图是不同的层的输出值的L2距离与cosine相似度，可见参数共享其实是有稳定网络参数的作用的。

3、句间连贯（Inter-sentence coherence loss） BERT的NSP任务实际上是一个二分类，训练数据的正样本是通过采样同一个文档中的两个连续的句子，而负样本是通过采用两个不同的文档的句子。该任务主要是希望能提高下游任务的效果，例如NLI自然语言推理任务。但是后续的研究发现该任务效果并不好，主要原因是因为其任务过于简单。NSP其实包含了两个子任务，主题预测与关系一致性预测，但是主题预测相比于关系一致性预测简单太多了，并且在MLM任务中其实也有类型的效果。

这里提一下为啥包含了主题预测，因为正样本是在同一个文档中选取的，负样本是在不同的文档选取的，假如我们有2个文档，一个是娱乐相关的，一个是新中国成立70周年相关的，那么负样本选择的内容就是不同的主题，而正样都在娱乐文档中选择的话预测出来的主题就是娱乐，在新中国成立70周年的文档中选择的话就是后者这个主题了。

在ALBERT中，为了只保留一致性任务去除主题识别的影响，提出了一个新的任务 sentence-order prediction（SOP），SOP的正样本和NSP的获取方式是一样的，负样本把正样本的顺序反转即可。SOP因为实在同一个文档中选的，其只关注句子的顺序并没有主题方面的影响。并且SOP能解决NSP的任务，但是NSP并不能解决SOP的任务，该任务的添加给最终的结果提升了一个点。

4、移除dropout 除了上面提到的三个主要优化点，ALBERT的作者还发现一个很有意思的点，ALBERT在训练了100w步之后，模型依旧没有过拟合，于是乎作者果断移除了dropout，没想到对下游任务的效果竟然有一定的提升。这也是业界第一次发现dropout对大规模的预训练模型会造成负面影响。

参考链接：彻底搞懂BERT 什么是 XLNet，为何它会超越 BERT？ XLNet:运行机制及和Bert的异同比较一文揭开ALBERT的神秘面纱不懂word2vec，还敢说自己是做NLP？

cpci会议论文发表时间

CIS的科研项目是目前全球规模最大的青少年学术科研项目。20年全年就有超过3000人参加。拥有顶尖的师资力量，项目总教授人数300人以上。是全球首个提倡由世界顶尖学者亲自教学的学术科研项目，可以让本科生寻找自己对口专业，跟随教授进行学术研究。项目结束后学生不仅论文写作能力可以得到提升，还能获得教授私人推荐信、成绩单&教授亲签学术评估、EI/CPCI会议论文发表、结业证书等，有助于出国留学深造和提升自身实力。

cpci国际会议论文不水。

1、一般博士毕业，评副教授、教授、副高职称、高级职称等都是想要cpci论文的，一篇cpci也相当于1-2篇北大核心论文，因此现在很多作者都会优先考虑这类论文，中稿率也是很高的。

2、cpci检索也是一种综合性的科技会议文献检索刊物，该检索工具收录包括自然科学、技术科学以及历史与哲学等，覆盖的学科范围广，收录会议文献齐全，并且检索途径多，出版速度较快，已成为了检索全世界正式出版的会议文献的主要的和权威的工具。

3、现在也有很多科研单位依旧称cpci为istp，因此可能大家听到的istp较多，其实自2008年10月20日起，在全新升级的Web of Science中，ISTP更名为CPCI。CPCI（ISTP）多收录国际学术会议论文。简单概括的说，SCI一般是偏理论文章，EI偏实验，CPCI（ISTP）征收论文范围比较广，投稿难度相对也小一些。

CPCI本质上是一个会议检索，所收录的都是国际会议论文，主要包括座谈会、研究会、讨论会、发表会等。而核心期刊大家都比较了解，国内有七大类核心期刊，核心期刊是国内学术界的顶尖刊物。所以，CPCI和核心期刊是没有任何关系的，一个是会议检索，一个是期刊检索，有着本质的不同。

CPCI收录的是世界范围内高质量的论文，收录的中国区论文一般都源自国际级别的大型国际学术会议。而且CPCI与SCI、EI并列成为国际上最具影响力的学术检索工具。因此，CPCI检索的论文含金量是毋庸置疑的，只不过在国内的知名度不如SCI和EI。

一般情况下cpci的第一作者都是自己的导师，本人才是第二作者。CPCI-SSH，CPCI-S 所以，干脆就统称为CPCI。CPCI-S（科学技术会议录）和CPCI-SSH（社会与人文科学会议录），就相当于SSCI和SCI的区别，只不过它主管的是会议论文，而非期刊，在国际上，它和EI会议共同检索会议相关期刊及论文。cpci属于国际核心期刊，cpci是科技会议录索引，原名ISTP，ISTP于2008年更名为CPCI，CPCI是国际知名三大检索工具之一。