bert论文发表在

google在2018年10月底公布BERT在11项nlp任务中的卓越表现，NLP任务的两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4％（绝对改进7.6％），MultiNLI准确度达到86.7% （绝对改进率5.6％）等，此后，BERT（Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型。 BERT的出现，彻底改变了预训练产生词向量和下游具体NLP任务的关系，提出龙骨级的训练词向量概念。词向量，就是用一个向量的形式表示一个词。（1）one-hot编码：词的符号化。（2）词的分布式表示：词的语义由其上下文决定。以（CBOW）为例，如果有一个句子“the cat sits one the mat”，在训练的时候，将“the cat sits one the”作为输入，预测出最后一个词是“mat”。分布式表示的较大优点在于它具有非常强大的表征能力，比如n维向量每维k个值，可以表征k的n次方个概念。其中，词嵌入就是分布式表示的一种：基于神经网络的分布表示一般称为词向量、词嵌入（ word embedding）或分布式表示（ distributed representation）。核心依然是上下文的表示以及上下文与目标词之间的关系的建模。本质：词向量是训练神经网络时候的隐藏层参数或者说矩阵。两种训练模式：CBOW (Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model) NLP任务分成两部分，一是预训练产生词向量，二是对词向量操作实现特定功能。而词向量模型是一个工具，可以把抽象存在的文字转换成可以进行数学公式操作的向量，而对这些向量的操作，才是NLP真正要做的任务。从word2vec到ELMo到BERT，做的其实主要是把下游具体NLP任务的活逐渐移到预训练产生词向量上。（1）word2vec：上下文概率的一种表示，但无法对一词多义进行建模（2）ELMo：用的是一个双向的LSTM语言模型，由一个前向和一个后向语言模型构成，目标函数就是取这两个方向语言模型的最大似然。在预训练好这个语言模型之后，ELMo就是根据下面的公式来用作词表示，其实就是把这个双向语言模型的每一中间层进行一个求和。最简单的也可以使用最高层的表示来作为ELMo。然后在进行有监督的NLP任务时，可以将ELMo直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。总结一下，不像传统的词向量，每一个词只对应一个词向量，ELMo利用预训练好的双向语言模型，然后根据具体输入从该语言模型中可以得到上下文依赖的当前词表示（对于不同上下文的同一个词的表示是不一样的），再当成特征加入到具体的NLP有监督模型里。（3）bert word2vec——>ELMo：结果：上下文无关的static向量变成上下文相关的dynamic向量，比如苹果在不同语境vector不同。操作：encoder操作转移到预训练产生词向量过程实现。 ELMo——>BERT：结果：训练出的word-level向量变成sentence-level的向量，下游具体NLP任务调用更方便，修正了ELMo模型的潜在问题。操作：使用句子级负采样获得句子表示/句对关系，Transformer模型代替LSTM提升表达和时间上的效率，masked LM解决“自己看到自己”的问题。（1）bert模型证明了双向预训练对于语言表示的重要性。与采用单向语言模型进行预训练的模型不同，BERT使用masked language models 进行预训练的深层双向表示。（2）经过预训练的模型表示解决了许多为特定任务而设计架构的需要。BERT是第一个基于微调的表示模型，它在一系列句子级和词级别的任务上实现了最先进的性能，优于许多具有特定任务架构的系统。 bert架构由两步实现：预训练和模型微调；在预训练阶段，基于无标注数据通过多轮预训练任务完成。在微调阶段，bert模型由预训练的参数进行初始化，然后由待下游的任务数据进行参数微调。 bert模型是多层双向transformer编码器。将层的数量（Transformer blocks）表示为L，隐藏的大小表示为H，而self-attention heads 为A。在所有的情况下，我们将feed-forward/filter大小设置为4H，即H＝768时，为3072， H＝1024时，为4096. bert的两种格式： BERTBASE : L=12, H=768, A=12, Total Parameter=110M， BERTLARGE : L=24, H=1024, A=16, Total Parameters=340M 为了使用bert可以应对各式各样的下游任务，bert的输入为token序列，它可以表示一个句子或句子对（比如对话）。使用该方案，输入可以是任意跨度的相邻文本，即一个token序列可以是单个句子，也可以是多个句子。具体地说，bert使用30000个词的词级别的embeddings。每个序列的起始token是[CLS]。句子对被打包在一个序列中，用两种方式区别句子。方法一，使用特殊token[SEP]；方法二，在每个标记中添加一个学习过的嵌入，表示它是属于句子A还是句子B。两个无监督任务对BERT进行训练。任务一：Masked LM语言模型。为了训练双向表示模型，随机按百分比的方式（一般选15%）屏蔽输入序列中的部分词，然后预测那些屏蔽词。在这种情况下，屏蔽词的最终隐向量经softmax运算后输出。有点类似于中文的完形填空。虽然如些操作可以获得一个双向的预训练模型，但这在预训练和微调之间创建了一个不匹配，因为在微调过程中从来没有见过［MASK］词。为了减轻这一点，我们并不总是用实际的［MASK］词替换被屏蔽的词。相反，生成随机选择15%的词进行预测，例如在句子 my dog is hairy 选择了 hairy。接着执行下面的过程：数据生成器不会总是用［MASK] 替换所选单词，而是执行以下操作： 80%的时间，将单词替换为［MASK］词。例如 my dog is hairy -> my dog is [MASK] 10%的时间，用一个随机词替换这个词，例如 my dog is hairy -> my dog is apple 10%的时间，保持单词不变，例如 my dog is hairy -> my dog is hairy。每一轮使用交叉熵损失来预测原始词。任务二：下一句的预测；许多重要的下游任务，如问答（QA）和自然语言推理（NLI），都基于理解两个文本句之间的关系，而语言建模并不能直接捕获到这两个文本句之间的关系。为了训练一个理解句子关系的模型，我们预训练了一个二分类的预测下一个句子的任务，该任务可以由任何单语语料库生成。具体来说，在为每个训练前的例子选择句子A和B时，50%的时间B是A后面的实际下一个句子，50%的时间B是来自语料库的随机句子。例如： Input ＝[CLS］ the man went to [MASK] store [SEP]，he bought a gallon [MASK] milk [SEP] Label = IsNext Input = [CLS] the man [MASK] to the store [SEP]，penguin [MASK] are flight ##less birds [SEP] Label = NotNext 我们完全随机选择NotNext 句子，最终预测模型在这个任务中达到97%－98%的准确率。预训练数据：预训练过程很大程度上依赖现有语言模型的数据。从维基百科上抽取文本信息，忽略列表，表格和标题。对于预训练过程来说，使用文档级别的语料库而不是经过乱序后的句子级语料库来提取长的连续序列是很重要的。对于序列级别分类任务，BERT微调很简单。BERT使用self-attention机制来统一两个过程。因为编码文本序列中，使用self-attention有效地包含了两上句子之间双向交叉的attention。微调过程，就是对于每一个任务，简单地将特定的输入和输出接入bert，然后端到端地调节全部参数即可。在输入端，句子A和句子B类似于（1）语义句子对（2）假设前提（3）问答中的问句（4）文本分类或序列标记中文本。在输出端，token向量被传递给token级别任务的输出层，例如，序列标签，问答对的答案。[CLS]向量被传递给分类的输出层，用于分类或情感分析。相对于预训练，微调要相对容易。大多数模型超参数与预训练相同，除了批的大小、学习率和训练轮数。可以通过一个额外的输出层对预训练的BERT表示进行微调，以创建适用于各种任务的最先进模型，比如问答和语言推断，无需对特定与任务的架构进行实质性修改。第一，如果NLP任务偏向在语言本身中就包含答案，而不特别依赖文本外的其它特征，往往应用Bert能够极大提升应用效果。第二，Bert特别适合解决句子或者段落的匹配类任务。就是说，Bert特别适合用来解决判断句子关系类问题，这是相对单文本分类任务和序列标注等其它典型NLP任务来说的，很多实验结果表明了这一点。第三，Bert的适用场景，与NLP任务对深层语义特征的需求程度有关。感觉越是需要深层语义特征的任务，越适合利用Bert来解决第四，Bert比较适合解决输入长度不太长的NLP任务，而输入比较长的任务，典型的比如文档级别的任务，Bert解决起来可能就不太好。【引用】： bert论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT:【 Pre-training of Deep Bidirectional Transformers for Language Understanding】

○ 将预训练语言模型应用在下游任务中，一般有两种策略：

作者认为影响当前预训练语言模型的瓶颈是——“模型是单向的” 。如 GPT 选择从左到右的架构，这使得每个 token 只能注意到它前面的 token，这对 sentence 级的任务影响还是次要的，但对于 token 级的任务来说影响就很巨大。例如问答任务，从两个方向结合上下文是至关重要的。

BERT 通过使用受完形填空任务启发的 Mask Language Model （MLM）缓解了先前模型的单向性约束问题。MLM 随机 mask 掉一些输入文本中的 token，然后根据剩下的上下文预测 masked 的 token。除了 Mask Language Model，作者还提出了 Next Sequence Predict 任务，来联合训练文本对表示。

论文中BERT的改进如下：

预训练前的一般语言表征有着悠久历史，本节我们简要回顾一下最广泛使用的方法。

2.1 基于特征的无监督方法：几十年来，学习广泛适用的词汇表征一直是一个活跃的研究领域，包括非神经系统、神经系统方法。预训练的词嵌入是现代NLP系统的一个组成部分，与从头学习的嵌入相比，它提供了显著的改进（Turian等人，2010）。为了预先训练单词嵌入向量，已经使用了从左到右的语言建模目标（Mnih和Hinton，2009），以及在左右上下文中区分正确单词和错误单词的目标（Mikolov等人，2013）。

这些方法已被推广到更粗糙的粒度，例如句子嵌入（Kiros等人，2015；Logeswaran和Lee，2018）或段落嵌入（Le和Mikolov，2014）。为了训练句子表征，之前的工作已经使用了目标对候选下一个句子进行排序（Jernite等人，2017；Logeswaran和Lee，2018），根据前一个句子的表征从左到右生成下一个句子单词（Kiros等人，2015），或去噪自动编码器衍生的目标（Hill等人，2016）。

ELMo 及其前身（Peters等人，20172018a）从不同的维度概括了传统的单词嵌入研究。它们通过从左到右和从右到左的语言模型中提取上下文敏感的特征。每个标记的上下文表示是从左到右和从右到左表示的串联。在将上下文单词嵌入与现有任务特定架构相结合时，ELMo推进了几个主要NLP基准（Peters等人，2018a）的最新技术，包括问答（Rajpurkar等人，2016年）、情感分析（Socher等人，2013年）和命名实体识别（Tjong Kim-Sang和De Meulder，2003年）。Melamud等人（2016年）提出通过一项任务来学习语境表征，即使用 LSTM 从左右语境中预测单个单词。与ELMo类似，他们的模型是基于特征的，而不是深度双向的。Fedus等人（2018）表明，完形填空任务可以用来提高文本生成模型的稳健性。

2.2 无监督微调方法：

与基于特征feature-based 的方法一样，第一种方法只在未标记文本中预先训练单词嵌入参数的情况下才朝这个方向工作。最近，产生上下文标记表示的句子或文档编码器已经从未标记的文本和文本中预训练出来针对受监督的下游任务进行了微调fine-tuned 。这些方法的优点是，很少有参数需要从头学习。至少部分由于这一优势，OpenAI GPT在GLUE基准测试的许多句子级任务上取得了之前的最新成果。从左到右的语言建模和自动编码器目标已用于此类模型的预训练。

注解：BERT的整体预训练和微调程序。除了输出层之外，在预训练和微调中使用相同的体系结构。相同的预训练模型参数用于初始化不同下游任务的模型。在微调过程中，所有参数都会微调。

2.3 基于监督数据的迁移学习：也有研究表明，在大数据集的监督任务中，如自然语言推理和机器翻译可以有效地进行转换。计算机视觉研究也证明了从大型预训练模型中进行迁移学习的重要性，其中一个有效的方法是对使用ImageNet预训练模型进行微调。

本节将介绍BERT及其详细实现。在我们的框架中有两个步骤：预训练和微调。

BERT的一个显著特点是其跨不同任务的统一体系结构。预训练的体系结构和最终的下游体系结构之间的差异最小。

BERT 的模型架构是一种多层的双向 transformer encoder ，BERT 在实现上与 transformer encoder 几乎完全相同。

定义：transformer block 的个数为 L ; hidden 大小为 H; self-attentions head 的个数为 A. 作者主要展示了两种规模的 BERT 模型：

在这项工作中，我们将层数（即Transformer blocks）表示为L，隐藏大小表示为H，自我注意头的数量表示为A。我们主要报告两种型号的结果：

为了进行比较，选择BERT-base与OpenAI GPT具有相同的模型大小。然而，关键的是， BERT Transformer使用双向自注意力机制self-attention ，而 GPT Transformer使用受限自注意力机制constrained self-attention ，其中每个标记只能关注其左侧的上下文。

为了使 BERT 能处理大量不同的下游任务，作者将模型的输入设计成可以输入单个句子或句子对，这两种输入被建模成同一个 token 序列。作者使用了有 30000 个 token 的 vocabulary 词嵌入。

3.1 Pre-training BERT : 我们不使用传统的从左到右或从右到左的语言模型来预训练BERT。相反，我们使用本节所述的两个无监督任务对BERT进行预训练。这一步如图1的左半部分所示。

Task #1: Masked LM 标准的语言模型只能实现从左到右或从右到左的训练，不能实现真正的双向训练，这是因为双向的条件是每个单词能直接“看到自己”，并且模型可以在多层上下文中轻松的预测出目标词。

为了能够实现双向的深度预训练，作者选择随机 mask 掉一些比例的 token ，然后预测这些被 masked 的 token，在这种设置下，被 masked 的 token 的隐向量表示被输出到词汇表的 softmax 上，这就与标准语言模型设置相同。作者将这个过程称为“Masked LM”，也被称为“完形填空” 。

○ Masked LM 预训练任务的缺点：在于由于 [MASK] 标记不会出现在微调阶段，这就造成了预训练和微调阶段的不一致。为了解决该问题，作者提出了一种折中的方案：

○ BERT 的 mask策略：

Task #2: Next Sentence Prediction (NSP) 很多下游任务都是基于对两句话之间的关系的理解，语言模型不能直接捕获这种信息。为了训练模型理解这种句间关系，作者设计了 next sentence prediction 的二分类任务。具体来说，就是选择两个句子作为一个训练样本，有 50% 的概率是下一句关系，有 50% 的概率是随机选择的句子对，预测将 [CLS] 的最终隐状态 C 输入 sigmoid 实现。

○ Pre-training data ：作者选用了BooksCorpus (800M words) 和 English Wikipedia (2,500M words) 作为预训练的语料库，作者只选取了 Wikipedia 中的文本段落，忽略了表格、标题等。为了获取长的连续文本序列，作者选用了 BIllion Word Benchmark 这样的文档级语料库，而非打乱的句子级语料库。

3.2 Fine-tuning BERT ：因为 transformer 中的 self-attention 机制适用于很多下游任务，所以可以直接对模型进行微调。对于涉及文本对的任务，一般的做法是独立 encode 文本对，然后再应用双向的 cross attention 进行交互。Bert 使用 self-attention 机制统一了这两个阶段，该机制直接能够实现两个串联句子的交叉编码。

对于不同的任务，只需要简单地将特定于该任务的输入输出插入到 Bert 中，然后进行 end2end 的fine-tuning。

与预训练相比，微调相对便宜。从完全相同的预训练模型开始，本文中的所有结果最多可以在单个云TPU上复制1小时，或在GPU上复制几个小时。

在本节中，我们将介绍11个NLP任务的BERT微调结果。 4.1 GLUE： GLUE (General Language Understanding Evaluation) 是多个 NLP 任务的集合。作者设置 batch size 为 32；训练 3 个 epochs；在验证集上从（5e-5, 4e-5, 3e-5, 2e-5）中选择最优的学习率。结果如下：

结果见表1。 BERT-base和BERT-large在所有任务上都比所有系统表现出色，与现有技术相比，平均准确率分别提高了4.5%和7.0% 。请注意，除了注意掩蔽，BERT-base和OpenAI GPT在模型架构方面几乎相同。

对于最大和最广泛报道的GLUE任务MNLI，BERT获得了4.6%的绝对准确率提高。在官方的GLUE排行榜10中，BERT-lagle获得80.5分，而OpenAI GPT在撰写本文之日获得72.8分。我们发现BERT-large在所有任务中都显著优于BERT-base，尤其是那些训练数据很少的任务。

4.2 SQuAD v1.1 : 斯坦福问答数据集（SQuAD v1.1）收集了10万对众包问答对。给出一个问题和一段维基百科中包含答案的文章，任务是预测文章中的答案文本。

如图1所示，在问答任务中，我们将输入的问题和段落表示为单个压缩序列，问题使用A嵌入，段落使用B嵌入。在微调过程，我们只引入一个起始向量S和一个端向量E。单词i作为答案范围开始的概率计算为Ti和S之间的点积，然后是段落中所有单词的softmax：

答案范围结束时使用类似公式。候选人从位置 i 到位置 j 的得分定义为：S·Ti + E·Tj ,最大得分跨度为 j≥ i 被用作预测。训练目标是正确起始位置和结束位置的对数概率之和。我们微调了3个阶段，学习率为5e-5，批量大小为32。

表2显示了顶级排行榜条目以及顶级发布系统的结果。SQuAD排行榜的前几名没有最新的公共系统描述，并且允许在训练系统时使用任何公共数据。因此，在我们的系统中使用适度的数据扩充，首先在TriviaQA上进行微调，然后再对团队进行微调。

我们表现最好的系统在ensembling方面的表现优于排名第一的系统，在ensembling方面的表现优于排名第一的系统+1.5 F1，在单一系统方面的表现优于排名第一的系统+1.3 F1得分。事实上，我们的单BERT模型在F1成绩方面优于顶级合奏系统。如果没有TriviaQA微调数据，我们只会损失0.1-0.4 F1，仍然远远超过所有现有系统。

其他实验：略

在本节中，我们对BERT的许多方面进行了消融实验，以便更好地了解它们的相对重要性。其他消融研究见附录C。

5.1 预训练任务的效果：

○ 进行了如下消融测试：

○ 结果如下：

5.2 模型大小的影响：

○ 结果如下：

作者证明了：如果模型经过充分的预训练，即使模型尺寸扩展到很大，也能极大改进训练数据规模较小的下游任务。

5.3 将 Bert 应用于 Feature-based 的方法：

○ feature-based 的方法是从预训练模型中提取固定的特征，不对具体任务进行微调。 ○ 这样的方法也有一定的优点：

作者进行了如下实验：在 CoNLL-2003 数据集上完成 NER 任务，不使用 CRF 输出，而是从一到多个层中提取出激活值，输入到 2 层 768 维的 BiLSTM 中，再直接分类。结果如下：

结果说明：无论是否进行微调，Bert 模型都是有效的。

个人认为 Bert 的意义在于：

由于语言模型的迁移学习，最近的经验改进表明，丰富的、无监督的预训练是许多语言理解系统的一个组成部分。特别是，这些结果使得即使是低资源任务也能从深层单向体系结构中受益。我们的主要贡献是将这些发现进一步推广到深层双向体系结构中，使相同的预训练模型能够成功地处理广泛的NLP任务。

bert论文发表在哪

大部分论文都在期刊上发表,CN期刊。

少数的是发表到国外的期刊,或者直接是在杂志的官网上线,比如SCI。对于大多数人来说,发表CN期刊就可以了。

期刊，定期出版的刊物。如周刊、旬刊、半月刊、月刊、季刊、半年刊、年刊等。由依法设立的期刊出版单位出版刊物。期刊出版单位出版期刊，必须经新闻出版总署批准，持有国内统一连续出版物号，领取《期刊出版许可证》。

广义上分类

从广义上来讲，期刊的分类，可以分为非正式期刊和正式期刊两种。非正式期刊是指通过行政部门审核领取“内部报刊准印证”作为行业内部交流的期刊(一般只限行业内交流不公开发行)，但也是合法期刊的一种，一般正式期刊都经历过非正式期刊过程。

正式期刊是由国家新闻出版署与国家科委在商定的数额内审批，并编入“国内统一刊号”，办刊申请比较严格，要有一定的办刊实力，正式期刊有独立的办刊方针。

“国内统一刊号”是“国内统一连续出版物号”的简称，即“CN号”，它是新闻出版行政部门分配给连续出版物的代号。“国际刊号”是“国际标准连续出版物号”的简称，即“ISSN号”，我国大部分期刊都配有“ISSN号”。

此外，正像报纸一样，期刊也可以不同的角度分类。有多少个角度就有多少种分类的结果，角度太多则流于繁琐。一般从以下三个角度进行分类：

按学科分类

以《中国图书馆图书分类法.期刊分类表》为代表，将期刊分为五个基本部类：

(1)思想(2)哲学(3)社会科学(4)自然科学(5)综合性刊物。在基本部类中，又分为若干大类，如社会科学分为社会科学总论、政治、军事、经济、文化、科学、教育、体育、语言、文字、文学、艺术、历史、地理。

按内容分类

以《中国大百科全书》新闻出版卷为代表，将期刊分为四大类：

(1)一般期刊，强调知识性与趣味性，读者面广，如我国的《人民画报》、《大众电影》，美国的《时代》、《读者文摘》等;

(2)学术期刊，主要刊载学术论文、研究报告、评论等文章，以专业工作者为主要对象;

(3)行业期刊，主要报道各行各业的产品、市场行情、经营管理进展与动态，如中国的《摩托车信息》、《家具》、日本的《办公室设备与产品》等;

(4)检索期刊，如我国的《全国报刊索引》、《全国新书目》，美国的《化学文摘》等。

按学术地位分类

可分为核心期刊和非核心期刊（通常所说的普刊）两大类。

关于核心期刊

核心期刊，是指在某一学科领域(或若干领域)中最能反映该学科的学术水平，信息量大，利用率高，受到普遍重视的权威性期刊。

找准了期刊社就可以发表了，可以在早发表网上期刊投稿，一共就一个月的时间就发好了。

论文发表的途径有两种：一是自己进行杂志社的选择进行投稿论文，二是可通过一些网站来进行论文的投稿发表。还有一些是通过朋友或者其他人员的介绍来进行论文的投稿。不管是哪种方面的论文投稿都要注意投稿的各项要求与信息，这样你的论文才能被收录发表。六零16四八26四

一些同学，在投递论文时，找不到或者傻傻分不清论文发表的官网。便就此打住了发表论文的心思。今天就来帮大家揭开论文发表网站的正确途径。

谷歌的bert论文发表在哪

你说的可能是这三个吧：2003年发表了《The Google File System》2004年发表了《MapReduce: Simplified Data Processing on Large Clusters 》2006年发表了《Bigtable: A Distributed Storage System for Structured Data》

Gebru的支持者表示，谷歌的政策“实施得不均衡且具有歧视性”。

最近，科技圈的发生了一件大事，知名AI学者之一、人工智能伦理研究员Timnit Gebru被谷歌突然开除，引得一众哗然。

Timnit Gebru毕业于斯坦福大学，师从李飞飞，是 AI行业为数不多的黑人女性领导者之一，在AI伦理领域，Gebru不仅是基础研究者，更是许多年轻学者的榜样。

她最知名的研究是在2018年发现，面部识别软件对黑人女性有高达35%的错误率，而对白人男性几乎完全正确。

然而，因一篇论文不符合谷歌内部评审，Gebru宣称被谷歌单方面辞退。

大约一周前，Gebru对外宣称，因与他人共同撰写了一篇批评谷歌AI系统的研究论文后，自己被谷歌解雇了。

然而，谷歌对外表示，因论文审查不符合谷歌要求，接受Gebru的个人辞职申请。

据外媒报道，这篇论文标题为“On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”（随机鹦鹉的危险：语言模型会太大吗？），由谷歌的内部团队和外部研究人员共同撰写，提出科技公司应该做更多事情，以确保AI写作和语音识别不会加剧歧视。

值得注意的是，论文内容谈到了谷歌BERT（自然语言处理系统）在AI伦理上的负面影响。

一开始，双方的争议点在于审查流程的问题。根据谷歌公司发表论文的流程，Gebru应在两周前提交论文，而不是在最后期限的前一天。

但Gebru的团队对这一评估进行了反驳，称审查政策旨在灵活，大多数人并没有遵循目前谷歌AI负责人Jeff Dean制定的结构。该团队收集的数据显示，绝大多数的审批都发生在截止日期之前，41%的审批发生在截止日期之后。他们写道： “没有硬性要求论文必须在两周内真正通过这个审查。”

同时，Dean认定该论文没有达到标准，因为它 “忽视了太多相关研究” ，从而要求她撤回这篇论文，或者删除谷歌员工的署名。

据《泰晤士报》（the Times）报道，Gebru在撤回该论文之前，曾要求与谷歌进行进一步讨论。Gebru表示，如果谷歌不能解决她的担忧，她将从公司辞职。

随后谷歌告诉Gebru，公司不能满足她的条件，并将立即接受她的辞职。

Dean还表示，Gebru煽动同事不要参与谷歌的DEI(多元化、公平和包容性)项目，他对此感到失望。

不久，Gebru很快就发现已经无法登陆自己的公司账户，这表示她已经被开除了。

离任后，总共有超过1,400名Google员工以及1,800多名其他行业专家签署了一封公开信，以支持Gebru。

信中写道：“格布鲁博士并没有被谷歌誉为杰出的人才和多产的贡献者，而是面临着防御，种族主义，研究审查以及现在的报复性开除。”

为Gebru辩护的前同事和外部行业研究人员们质疑，在这种情况下，谷歌是否武断地更严格地执行了规则。

前Google员工发推文表示“我支持@timnitGebru”。

这件事也加剧了 Google管理层与一些普通员工之间的紧张关系。

在Gebru发布离职推文的同一天，谷歌被美国国家劳动关系委员会（National Labour Relations Board）指控报复，该机构在投诉中称，谷歌通过监视，讯问和解雇维权雇员而违反了美国劳动法。

Gebru的离职，还引起了已经对谷歌在人工智能道德方面的工作感到担忧的人群的反感。去年Google成立了一个AI道德委员会，之后便遭到了该小组人员的抨击。仅一周后，该委员会被解散。

国外比较专业的论文发表在SCI。

SCI 期刊中文名是《科学引文索引》，是美国科学情报研究所出版的一个期刊文献检索工具。因其严格的选刊标准和评估程序，以及其收录的论文能够全面覆盖全世界多数重要和有影响力的研究成果。而成为了国内大部分科研机构、高校等单位考核评价标准。

《英语广场》省级知网首页可查，SCD期刊，目前正常收21年2-3月的刊期，另外有个别年内版面可以免费加急到年底出刊，注意他的版面是按字算，不是字符。《现代英语》万方收录的期刊，只收英语高教的文章。如果是文学的，如果必须是年内的。

发表sci期刊论文写作的4个要点：

1、文本摘要是对本文的简单总结，包括主要研究问题、方法、结果和结论。它可以用短语概括。摘要中的字数不应超过500个。

2、引言这部分提出问题，回顾前人对这一问题的研究成果，即明确选题的研究背景，以及选题在整个学科中的重要性和必要性，注意清楚的哪些是别人的结论，哪些是自己的结论。

3、方法和结果包括实验对象、实验材料和实验过程。描述应该有一个清晰的层次感。每个步骤之间的顺序和相关性应清楚描述，不要引起实验过程混乱的现象，因为评审者最终判断你的实验是否合理，是从这个过程中描述来的。

4、参考资料应标记引用内容。引用过程中未指出文献档的来源出处会造成本人的成功内容是假象，以免造成剽窃的现象。同时也会被误认为是一种抄袭，因此为了避免在影响作者个人发展时出现这样的误解，所有引用的部分都需要体现在参考中，甚至一些不起眼的内容也需要标准清楚。

以上内容参考：百度百科--论文

bert是哪篇论文在哪发表的

首先我会详细阐述 BERT 原理，然后简单介绍一下 ELMO 以及 GPT

BERT 全称为 B idirectional E ncoder R epresentation from T ransformer，是 Google 以无监督的方式利用大量无标注文本「炼成」的语言模型，其架构为 Transformer 中的 Encoder（BERT=Encoder of Transformer）

我在 Transformer 详解中已经详细的解释了所有 Transformer 的相关概念，这里就不再赘述

以往为了解决不同的 NLP 任务，我们会为该任务设计一个最合适的神经网络架构并做训练，以下是一些简单的例子

不同的 NLP 任务通常需要不同的模型，而设计这些模型并测试其 performance 是非常耗成本的（人力，时间，计算资源）。如果有一个能直接处理各式 NLP 任务的通用架构该有多好？

随着时代演进，不少人很自然地有了这样子的想法，而 BERT 就是其中一个将此概念付诸实践的例子

Google 在预训练 BERT 时让它同时进行两个任务： 1. 漏字填空 2. 下个句子预测

对正常人来说，要完成这两个任务非常简单。只要稍微看一下前后文就知道完形填空任务中 [MASK] 里应该填退了；而醒醒吧后面接你没有妹妹也十分合理(?)

接下来我会分别详细介绍论文中这两个任务的设计细节

在 BERT 中，Masked LM（Masked Language Model）构建了语言模型，简单来说，就是随机遮盖或替换一句话里面的任意字或词，然后让模型通过上下文预测那一个被遮盖或替换的部分，之后做 Loss 的时候也只计算被遮盖部分的 Loss ，这其实是一个很容易理解的任务，实际操作如下：

这样做的好处是，BERT 并不知道 [MASK] 替换的是哪一个词，而且任何一个词都有可能是被替换掉的，比如它看到的 apple 可能是被替换的词。这样强迫模型在编码当前时刻词的时候不能太依赖当前的词，而要考虑它的上下文，甚至根据上下文进行 "纠错"。比如上面的例子中，模型在编码 apple 时，根据上下文 my dog is，应该把 apple 编码成 hairy 的语义而不是 apple 的语义

我们首先拿到属于上下文的一对句子，也就是两个句子，之后我们要在这两个句子中加一些特殊的 token： [CLS]上一句话[SEP]下一句话[SEP] 。也就是在句子开头加一个 [CLS] ，在两句话之间和句末加 [SEP] ，具体地如下图所示

可以看到，上图中的两句话明显是连续的。如果现在有这么一句话 [CLS] 我的狗很可爱 [SEP] 企鹅不擅长飞行 [SEP] ，可见这两句话就不是连续的。在实际训练中，我们会让这两种情况出现的数量为** 1:1**

Token Embedding 就是正常的词向量，即 PyTorch 中的 nn.Embedding() Segment Embedding 的作用是用 embedding 的信息让模型分开上下句，我们给上句的 token 全 0，下句的 token 全 1，让模型得以判断上下句的起止位置，例如

Position Embedding 和 Transformer 中的不一样，不是三角函数，而是学习出来的

BERT 预训练阶段实际上是将上述两个任务结合起来，同时进行，然后将所有的 Loss 相加，例如

BERT 的 Fine-Tuning 共分为 4 种类型，以下内容、图片均来自台大李宏毅老师 Machine Learning 课程（以下内容图在上，解释在下）

为什么要用CLS？这里李宏毅老师有一点没讲到，就是为什么要用第一个位置，即 [CLS] 位置的 output。这里我看了网上的一些博客，结合自己的理解解释一下。因为 BERT 内部是 Transformer，而 Transformer 内部又是 Self-Attention，所以 [CLS] 的 output 里面肯定含有整句话的完整信息，这是毋庸置疑的。但是 Self-Attention 向量中，自己和自己的值其实是占大头的，现在假设使用的 output 做分类，那么这个 output 中实际上会更加看重，而又是一个有实际意义的字或词，这样难免会影响到最终的结果。但是 [CLS] 是没有任何实际意义的，只是一个占位符而已，所以就算 [CLS] 的 output 中自己的值占大头也无所谓。当然你也可以将所有词的 output 进行 concat，作为最终的 output

首先将问题和文章通过 [SEP] 分隔，送入 BERT 之后，得到上图中黄色的输出。此时我们还要训练两个 vector，即上图中橙色和黄色的向量。首先将橙色和所有的黄色向量进行 dot product，然后通过 softmax，看哪一个输出的值最大，例如上图中对应的输出概率最大，那我们就认为 s=2

同样地，我们用蓝色的向量和所有黄色向量进行 dot product，最终预测得的概率最大，因此 e=3。最终，答案就是 s=2,e=3

你可能会觉得这里面有个问题，假设最终的输出 s>e 怎么办，那不就矛盾了吗？其实在某些训练集里，有的问题就是没有答案的，因此此时的预测搞不好是对的，就是没有答案

以上就是 BERT 的详细介绍，参考以下文章

ELMo是Embedding from language Model的缩写，它通过无监督的方式对语言模型进行预训练来学习单词表示

这篇论文的想法其实非常简单，但是效果却很好。它的思路是用深度的双向 Language Model 在大量未标注数据上训练语言模型，如下图所示

在实际任务中，对于输入的句子，我们使用上面的语言模型来处理它，得到输出向量，因此这可以看作是一种特征提取。但是 ELMo 与普通的 Word2Vec 或 GloVe 不同，ELMo 得到的 Embedding 是有上下文信息的

具体来说，给定一个长度为 N 的句子，假设为，语言模型会计算给定的条件下出现的概率：

传统的 N-gram 模型不能考虑很长的历史，因此现在的主流是使用多层双向 LSTM 。在时刻，LSTM 的第层会输出一个隐状态，其中，是 LSTM 的层数。最上层是，对它进行 softmax 之后得到输出词的概率

类似的，我们可以用一个反向来计算概率：

通过这个 LSTM，我们可以得到。我们的损失函数是这两个 LSTM 的加和 :

这两个 LSTM 有各自的参数和，而 Word Embedding 参数和 Softmax 参数是共享的

为了用于下游（DownStream）的特定任务，我们会把不同层的隐状态组合起来，具体组合的参数是根据不同的特定任务学习出来的，公式如下：

GPT 得到的语言模型参数不是固定的，它会根据特定的任务进行调整（通常是微调），这样的到的句子表示能更好的适配特定任务。它的思想也很简单，使用单向 Transformer 学习一个语言模型，对句子进行无监督的 Embedding，然后根据具体任务对 Transformer 的参数进行微调。GPT 与 ELMo 有两个主要的区别：

这里解释一下上面提到的单向 Transformer 。在 Transformer 的文章中，提到了 Encoder 与 Decoder 使用的 Transformer Block 是不同的。在 Decoder Block 中，使用了 Masked Self-Attention ，即句子中的每个词都只能对包括自己在内的前面所有词进行 Attention ，这就是单向 Transformer。GPT 使用的 Transformer 结构就是将 Encoder 中的 Self-Attention 替换成了 Masked Self-Attention ，具体结构如下图所示

训练的过程也非常简单，就是将 n 个词的词嵌入 ( ) 加上位置嵌入 ( )，然后输入到 Transformer 中，n 个输出分别预测该位置的下一个词这里的位置编码没有使用传统 Transformer 固定编码的方式，而是动态学习的

Pretraining 之后，我们还需要针对特定任务进行 Fine-Tuning。假设监督数据集合的输入是一个词序列，输出是一个分类的标签，比如情感分类任务

我们把输入 Transformer 模型，得到最上层最后一个时刻的输出，将其通过我们新增的一个 Softmax 层（参数为）进行分类，最后用 CrossEntropyLoss 计算损失，从而根据标准数据调整 Transformer 的参数以及 Softmax 的参数。这等价于最大似然估计：

正常来说，我们应该调整参数使得最大，但是为了提高训练速度和模型的泛化能力，我们使用 Multi-Task Learning，同时让它最大似然和

这里使用的还是之前语言模型的损失（似然），但是使用的数据不是前面无监督的数据，而是使用当前任务的数据，而且只使用其中的，而不需要标签

针对不同任务，需要简单修改下输入数据的格式，例如对于相似度计算或问答，输入是两个序列，为了能够使用 GPT，我们需要一些特殊的技巧把两个输入序列变成一个输入序列

ELMo 和 GPT 最大的问题就是传统的语言模型是单向的 —— 我们根据之前的历史来预测当前词。但是我们不能利用后面的信息。比如句子 The animal didn’t cross the street because it was too tired 。我们在编码 it 的语义的时候需要同时利用前后的信息，因为在这个句子中， it 可能指代 animal 也可能指代 street 。根据 tired ，我们推断它指代的是 animal 。但是如果把 tired 改成 wide ，那么 it 就是指代 street 了。传统的语言模型，都只能利用单方向的信息。比如前向的 RNN，在编码 it 的时候它看到了 animal 和 street ，但是它还没有看到 tired ，因此它不能确定 it 到底指代什么。如果是后向的 RNN，在编码的时候它看到了 tired ，但是它还根本没看到 animal ，因此它也不能知道指代的是 animal 。 Transformer 的 Self-Attention 理论上是可以同时关注到这两个词的，但是根据前面的介绍，为了使用 Transformer 学习语言模型，必须用 Mask 来让它看不到未来的信息，所以它也不能解决这个问题的

根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务，或者反过来也行，就是根据下文预测前面的单词，这种类型的LM被称为自回归语言模型。（GPT,ELMO）GPT 就是典型的自回归语言模型。ELMO尽管看上去利用了上文，也利用了下文，但是本质上仍然是自回归LM，这个跟模型具体怎么实现有关系。ELMO是做了两个方向（从左到右以及从右到左两个方向的语言模型），但是是分别有两个方向的自回归LM，然后把LSTM的两个方向的隐节点状态拼接到一起，来体现双向语言模型这个事情的。所以其实是两个自回归语言模型的拼接，本质上仍然是自回归语言模型。

自回归语言模型有优点有缺点，缺点是只能利用上文或者下文的信息，不能同时利用上文和下文的信息，当然，貌似ELMO这种双向都做，然后拼接看上去能够解决这个问题，因为融合模式过于简单，所以效果其实并不是太好。它的优点，其实跟下游NLP任务有关，比如生成类NLP任务，比如文本摘要，机器翻译等，在实际生成内容的时候，就是从左向右的，自回归语言模型天然匹配这个过程。而Bert这种DAE模式，在生成类NLP任务中，就面临训练过程和应用过程不一致的问题，导致生成类的NLP任务到目前为止都做不太好。

自回归语言模型只能根据上文预测下一个单词，或者反过来，只能根据下文预测前面一个单词。相比而言，Bert通过在输入X中随机Mask掉一部分单词，然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词，如果你对Denoising Autoencoder比较熟悉的话，会看出，这确实是典型的DAE的思路。那些被Mask掉的单词就是在输入侧加入的所谓噪音。类似Bert这种预训练模式，被称为DAE LM。

这种DAE LM的优缺点正好和自回归LM反过来，它能比较自然地融入双向语言模型，同时看到被预测单词的上文和下文，这是好处。缺点是啥呢？主要在输入侧引入[Mask]标记，导致预训练阶段和Fine-tuning阶段不一致的问题，因为Fine-tuning阶段是看不到[Mask]标记的。DAE吗，就要引入噪音，[Mask] 标记就是引入噪音的手段，这个正常。

XLNet的出发点就是：能否融合自回归LM和DAE LM两者的优点。就是说如果站在自回归LM的角度，如何引入和双向语言模型等价的效果；如果站在DAE LM的角度看，它本身是融入双向语言模型的，如何抛掉表面的那个[Mask]标记，让预训练和Fine-tuning保持一致。当然，XLNet还讲到了一个Bert被Mask单词之间相互独立的问题。

bert模型论文发表在哪个会议

论文标题：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文链接： BERT（Bidirectional Encoder Representations from Transformers）通过预训练来学习无标注数据中的深度双向表示，预训练结束后通过添加一个额外的输出层进行微调，最终在多个NLP任务上实现了SOTA。预训练语言模型在实践中证明对提高很多自然语言处理任务有效，其中包括句子层级的任务，比如自然语言推断（natural language inference）和复述（paraphrasing），还有token层级的任务，比如命名实体识别（named entity recognition）和问答（question answering）。在下游任务中应用预训练语言模型表示的方法有两种：feature-based的方法和fine-tuning的方法。举例来说，ELMo这种预训练语言模型使用feature-based的方法，通过将ELMo的预训练的表示作为额外的特征输入到特定于任务的模型中去；GPT使用fine-tuning的方法，通过引入少量的特定于任务的参数，在下游任务中训练时所有的预训练参数。截止BERT之前的预训练语言模型都是单向的（unidirectional），包括GPT和ELMo，这样的方法对句子层级的任务不是最优的，而且对于token层级的任务比如问答非常有害。BERT使用masked language model（MLM）的方法来预训练，这种方法能够训练一个双向的（directional）语言模型。除了masked language model的预训练的方法，BERT还使用了next sentence prediction的预训练方法。 BERT的使用分为两个阶段：预训练（pre-training）和微调（fine-tuning）。预训练阶段模型通过两种不同的预训练任务来训练无标注数据。微调阶段模型使用预训练参数初始化，然后使用下游任务（downstream task）的标注数据来微调参数。 BERT的一个显著特点是它在不同的任务上有统一的架构，使用时只需要在BERT后面接上下游任务的结构即可使用。 BERT的模型架构是一个多层双向的Transformer的encoder。我们标记模型的层数（每一层是一个Tranformer的block）为，模型的hidden size为，self-attention head的数量为。两个比较通用的BERT架构为和。对比GPT，BERT使用了双向self-attention架构，而GPT使用的是受限的self-attention，即限制每个token只能attend到其左边的token。 BERT的输入表示能够是一个句子或者是一个句子对，这是为了让BERT能够应对各种不同的下游任务。BERT的输入是一个序列，该序列包含一个句子的token或者两个句子结合在一起的token。具体地，我们会将输入的自然语言句子通过 WordPiece embeddings 来转化为token序列。这个token序列的开头要加上 [CLS] 这个特殊的token，最终输出的 [CLS] 这个token的embedding可以看做句子的embedding，可以使用这个embedding来做分类任务。由于句子对被pack到了一起，因此我们需要在token序列中区分它们，具体需要两种方式： ①在token序列中两个句子的token之间添加 [SEP] 这样一个特殊的token； ②我们为每个token添加一个用来学习的embedding来区分token属于句子A还是句子B，这个embedding叫做segment embedding。具体地，BERT的输入由三部分相加组成：token embeddings、segment embeddings和position embeddings。如下图所示： BERT使用两个无监督的任务进行预训练，分别是Masked LM和Next Sentence Prediction(NSP)。如下图所示，我们定义输入的embedding为，BERT最终输出的 [CLS] 的embedding为，最终输出的第个token的embedding为。我们有理由相信一个深度双向模型比left-to-right模型和left-to-right和right-to-left简单连接的模型的效果更加强大。不幸的是，标准的条件语言模型只能够够left-to-right或者right-to-left地训练，这是因为双向条件会使每个token能够间接地“看到自己”，并且模型能够在多层上下文中简单地预测目标词。为了能够双向地训练语言模型，BERT的做法是简单地随机mask掉一定比例的输入token（这些token被替换成 [MASK] 这个特殊token），然后预测这些被遮盖掉的token，这种方法就是Masked LM(MLM)，相当于完形填空任务（cloze task）。被mask掉的词将会被输入到一个softmax分类器中，分类器输出的维度对应词典的大小。在预训练时通常为每个序列mask掉15%的token。与降噪自编码器（denoising auto-encoders）相比，我们只预测被mask掉的token，并不重建整个输入。这种方法允许我们预训练一个双向的语言模型，但是有一个缺点就是造成了预训练和微调之间的mismatch，这是因为 [MASK] 这个token不会在微调时出现。为了缓解这一点，我们采取以下做法：在生成训练数据时我们随机选择15%的token进行替换，被选中的token有80%的几率被替换成 [MASK] ，10%的几率被替换成另一个随机的token，10%的几率该token不被改变。然后将使用交叉熵损失来预测原来的token。一些重要的NLP任务如Question Answering (QA)或者Natural Language Inference (NLI)需要理解句子之间的关系，而这种关系通常不会被语言模型直接捕捉到。为了使得模型能够理解句子之间的关系，我们训练了一个二值的Next Sentence Prediction任务，其训练数据可以从任何单语语料库中生成。具体的做法是：当选择句子A和句子B作为训练数据时，句子B有50%的几率的确是句子A的下一句（标签是 IsNext ），50%的几率是从语料库中随机选择的句子（标签是 NotNext ）。 [CLS] 对应的最后一个隐层输出向量被用来训练NSP任务，这个embedding就相当于sentence embedding。虽然这个预训练任务很简单，但是事实上在微调时其在QA和NLI任务上表现出了很好的效果。在前人的工作中，只有sentence embedding被迁移到下游任务中，而BERT会迁移所有的参数来初始化下游任务模型。 Transformer的self-attention机制允许BERT建模多种下游任务。对于包含句子对的任务，通常的做法是先独立地对句子对中的句子进行编码，然后再应用双向交叉注意（bidirectional cross attention）。而BERT使用self-attention机制统一了这两个过程，这是因为对拼接起来的句子对进行self-attention有效地包含了两个句子之间的双向交叉注意（bidirectional cross attention）。对于每个任务来说，我们只需要将任务特定的输入输出插入到BERT中然后端到端地微调即可。举例子来说，BERT的预训练输入句子A和句子B在微调时可以类比为： ①paraphrasing任务中的句子对； ②entailment任务中的hypothesis-premise对； ③question answering任务中的question-passage对； ④text classification或者sequence tagging任务中的text-∅对（也就是只输入一个text，不必一定需要两个句子）。对于BERT的输出，对于一些token-level的任务，BERT的token表示将被输入到一个输出层，比如sequence tagging或者question answering任务；对于entailment或者sentiment analysis这样的任务，可以将 [CLS] 对应的表示输入到一个输出层。我们使用 [CLS] 这个token的最后一层的隐层向量作为聚合的表示，可以认为是sentence embedding。在微调时只引入一个新的权重，这里的代表标签的数量，然后计算标准分类损失。下图展示了BERT在GLUE上的效果：在这个数据集上，我们将question和passage拼接起来作为一个输入序列（中间是 [SEP] ）。在微调时引入一个start向量和一个end向量，计算和的点积然后通过函数作为word 是答案的span起始位置的概率：。答案的终止位置也做上述类似处理。从到的候选区间的得分记作，我们挑选的最大得分区间作为预测的结果。下图展示了BERT在SQuAD v1.1上的效果： SQuAD v2.0有的question在提供的passage中没有答案存在。在微调时我们设置没有答案的问题的span的起始和结束位置都是 [CLS] 这个token，也就是start和end的可能性空间包含进了 [CLS] 的位置。在预测时，我们比较没有答案的span得分和最优的有答案得分。当时，我们预测这是一个有答案的问题，这里的用来在dev set上选择最优的。下图展示了BERT在SQuAD v2.0上的效果：微调时我们为BERT构建4个输入序列，每一个是所给的句子（句子A）和一个可能的延续（句子B）。然后引入一个向量，该向量和每一个输入对应的 [CLS] 的embedding的点积再通过一个层来得到每个选择的得分。下图展示了BERT在SWAG上的效果：

以下是几个顶级会议的列表（不完整的，但基本覆盖）(1)机器学习顶级会议：NIPS, ICML, UAI, AISTATS; （期刊：JMLR, ML, Trends in ML, IEEE T-NN）计算机视觉和图像识别：ICCV, CVPR, ECCV; （期刊：IEEE T-PAMI, IJCV, IEEE T-IP）人工智能：IJCAI, AAAI; （期刊AI）另外相关的还有SIGRAPH, KDD, ACL, SIGIR, WWW等。特别是，如果做机器学习，必须地，把近4年的NIPS, ICML翻几遍；如果做计算机视觉，要把近4年的ICCV, CVPR, NIPS, ICML翻几遍。(2)另外补充一下：大部分顶级会议的论文都能从网上免费下载到。(3)说些自己的感受。对计算机视觉和计算神经科学领域，从方法和模型的角度看，统计模型（包括probabilistic graphical model和statistical learning theory）是主流也是非常有影响力的方法。有个非常明显的趋势：重要的方法和模型最先在NIPS或ICML出现，然后应用到CV,IR和MM。虽然具体问题和应用也很重要，但多关注和结合这些方法也很有意义。