文本编辑器能查找重复字符串

试着理解一下你的题目：有多篇英文文章，要查找计算出每个英文单词的出现频次，可以这样理解吗？想了个不太复杂的解决方案：

1. pdf先转成txt，如果文字可选，就直接复制或另存，如果不可选就用ocr识别后再转换。

2. 在文本编辑器（如word）中将空格全部替换为回车，目的是将文章转换为每词一行，可以先多次将2个空格替换为1个，避免出现空行，如果出现空行，可以用2个空行替换为1个空行进行批量删除。

3. 将所有单词复制到excel中，直接用数据透视表计算频次，或者增加辅助列计算。

试了篇短文，可行。

我可以帮到您，我在校的研究生，中外数据库可以找到这个文献，把您的邮箱发给我。我给您发过来、

这很简单首先你定义一个int型的变量，用于记录所找到的字符串的位置，然后再读取那个文本文件赋值给一个字符串变量，然后利用字符串的 IndexOf 方法去查找，它返回的是所找到的指定字符的位置，它有两个参数，一个是要查找的字符（也可以是字符串），一个是从哪里开始查起，默认的是从0开始，当找到一个目标时，就把当前位置赋值给那个int型变量，如果要继续查询的话，就从那个位置加1开始再查，直到IndexOf方法返回-1，就表示查询不到指定的字符了。

摘要：本文给出了在C#下利用正则表达式实现字符串搜索功能的方法，通过对.NET框架下的正则表达式的研究及实例分析，总结了正则表达式的元字符、规则、选项等。关键字：正则表达式、元字符、字符串、匹配 1、正则表达式简介正则表达式提供了功能强大、灵活而又高效的方法来处理文本。正则表达式的全面模式匹配表示法可以快速地分析大量的文本以找到特定的字符模式；提取、编辑、替换或删除文本子字符串；或将提取的字符串添加到集合以生成报告。对于处理字符串（例如 HTML处理、日志文件分析和 HTTP 标头分析）的许多应用程序而言，正则表达式是不可缺少的工具。 .NET 框架正则表达式并入了其他正则表达式实现的最常见功能，被设计为与 Perl 5 正则表达式兼容，.NET 框架正则表达式还包括一些在其他实现中尚未提供的功能，.NET 框架正则表达式类是基类库的一部分，并且可以和面向公共语言运行库的任何语言或工具一起使用。 2、字符串搜索正则表达式语言由两种基本字符类型组成：原义（正常）文本字符和元字符。正是元字符组为正则表达式提供了处理能力。当前，所有的文本编辑器都有一些搜索功能，通常可以打开一个对话框，在其中的一个文本框中键入要定位的字符串，如果还要同时进行替换操作，可以键入一个替换字符串，比如在Windows操作系统中的记事本、Office系列中的文档编辑器都有这种功能。这种搜索最简单的方式，这类问题很容易用String类的 ()方法来解决，但如果需要在文档中识别某个重复的，该怎么办？编写一个例程，从一个String类中选择重复的字是比较复杂的，此时使用语言就很适合。一般表达式语言是一种可以编写搜索表达式的语言。在该语言中，可以把文档中要搜索的文本、转义序列和特定含义的其他字符组合在一起，例如序列\b表示一个字的开头和结尾（子的边界），如果要表示正在查找的以字符th开头的字，就可以编写一般表达式\bth（即序列字符界是-t-h）。如果要搜索所有以th结尾的字，就可以编写th\b（序列t-h-字边界）。但是，一般表达式要比这复杂得多，例如，可以在搜索操作中找到存储部分文本的工具性程序（facility）。3、.NET 框架的正则表达式类下面通过介绍 .NET 框架的正则表达式类，熟悉一下.NET框架下的正则表达式的使用方法。 Regex 类表示只读正则表达式 Regex 类包含各种静态方法，允许在不显式实例化其他类的对象的情况下使用其他正则表达式类。以下代码示例创建了 Regex 类的实例并在初始化对象时定义一个简单的正则表达式。请注意，使用了附加的反斜杠作为转义字符，它将 \s 匹配字符类中的反斜杠指定为原义字符。Regex r; // 声明一个 Regex类的变量 r = new Regex("\\s2000"); // 定义表达式 Match 类表示正则表达式匹配操作的结果以下示例使用 Regex 类的 Match 方法返回 Match 类型的对象，以便找到输入字符串中第一个匹配。此示例使用 Match 类的属性来指示是否已找到匹配。Regex r = new Regex("abc"); // 定义一个Regex对象实例 Match m = ("123abc456"); // 在字符串中匹配 if () { ("Found match at position " + ); //输入匹配字符的位置 } MatchCollection 类表示非重叠匹配的序列该集合为只读的，并且没有公共构造函数。MatchCollection 的实例是由属性返回的。使用 Regex 类的 Matches 方法，通过在输入字符串中找到的所有匹配填充 MatchCollection。下面代码示例演示了如何将集合复制到一个字符串数组（保留每一匹配）和一个整数数组（指示每一匹配的位置）中。MatchCollection mc; String[] results = new String[20]; int[] matchposition = new int[20]; Regex r = new Regex("abc"); //定义一个Regex对象实例 mc = ("123abc4abcd"); for (int i = 0; i < ; i++) //在输入字符串中找到所有匹配 { results[i] = mc[i].Value; //将匹配的字符串添在字符串数组中 matchposition[i] = mc[i].Index; //记录匹配字符的位置 } GroupCollection 类表示捕获的组的集合该集合为只读的，并且没有公共构造函数。GroupCollection 的实例在属性返回的集合中返回。下面的控制台应用程序查找并输出由正则表达式捕获的组的数目。using System; using ; public class RegexTest { public static void RunTest() { Regex r = new Regex("(a(b))c"); //定义组 Match m = ("abdabc"); ("Number of groups found = " + ); } public static void Main() { RunTest(); } } 该示例产生下面的输出：Number of groups found = 3 CaptureCollection 类表示捕获的子字符串的序列由于限定符，捕获组可以在单个匹配中捕获多个字符串。Captures属性（CaptureCollection 类的对象）是作为 Match 和 group 类的成员提供的，以便于对捕获的子字符串的集合的访问。例如，如果使用正则表达式 ((a(b))c)+（其中 + 限定符指定一个或多个匹配）从字符串"abcabcabc"中捕获匹配，则子字符串的每一匹配的 Group 的 CaptureCollection 将包含三个成员。下面的程序使用正则表达式 (Abc)+来查找字符串"XYZAbcAbcAbcXYZAbcAb"中的一个或多个匹配，阐释了使用 Captures 属性来返回多组捕获的子字符串。using System; using ; public class RegexTest { public static void RunTest() { int counter; Match m; CaptureCollection cc; GroupCollection gc; Regex r = new Regex("(Abc)+"); //查找"Abc" m = ("XYZAbcAbcAbcXYZAbcAb"); //设定要查找的字符串 gc = ; //输出查找组的数目 ("Captured groups = " + ()); // Loop through each group. for (int i=0; i < ; i++) //查找每一个组 { cc = gc[i].Captures; counter = ; ("Captures count = " + ()); for (int ii = 0; ii < counter; ii++) { // Print capture and position. (cc[ii] + " Starts at character " + cc[ii].Index); //输入捕获位置 } } } public static void Main() { RunTest(); } } 此例返回下面的输出结果：Captured groups = 2 Captures count = 1 AbcAbcAbc Starts at character 3 Captures count = 3 Abc Starts at character 3 Abc Starts at character 6 Abc Starts at character 9 Capture 类包含来自单个子表达式捕获的结果在 Group 集合中循环，从 Group 的每一成员中提取 Capture 集合，并且将变量 posn 和 length 分别分配给找到每一字符串的初始字符串中的字符位置，以及每一字符串的长度。Regex r; Match m; CaptureCollection cc; int posn, length; r = new Regex("(abc)*"); m = ("bcabcabc"); for (int i=0; [i].Value != ""; i++) { cc = [i].Captures; for (int j = 0; j < ; j++) { posn = cc[j].Index; //捕获对象位置 length = cc[j].Length; //捕获对象长度 }}把组合字符组合起来后，每次都会返回一个组对象，就可能并不是我们希望的结果。如果希望把组合字符作为搜索模式的一部分，就会有相当大的系统开销。对于单个的组，可以用以字符序列"?:"开头的组禁止这么做，就像URI样例那样。而对于所有的组，可以在()方法上指定标志。4、利用正则表达式实现字符串搜索在C#中使用.NET一般表达式引擎下面将通过一个样例的开发，执行并显示一些搜索的结果，说明一般表达式的一些特性，以及如何在C#中使用.NET一般表达式引擎。说明使用字符串时应在前面加上符号@。String Text=@"I can not find my position in Beijing"; 把这个文本称为输入字符串，为了说明一般表达式.NET类，本文先进行一次纯文本的搜索，这次搜索不带任何转义序列或一般表达式命令。假定要查找所有字符串ion，把这个搜索字符串称为模式。使用一般表达式和上面声明的变量Text，编写出下面的代码：String Pattern = "ion"; MatchCollection Matches = (Text,Pattern,RegexOptions); foreach(Match NextMatch in Matches) { (); } 在这段代码中，使用了名称空间中Regex类的静态方法Match()。这个方法的参数是一些输入文本、一个模式和RegexOptions每句中的一组可选标志。Matches()返回MatchCollection，每个匹配都用一个 Match对象来表示。在上面的代码中，只是在集合中迭代，使用Match类的Index属性，返回输入文本中匹配所在的索引。运行这段代码，将得到1个匹配项。一般集合的功能主要取决于模式字符串。原因是模式字符串不仅仅包含纯文本。如前所述。还包含元字符和转义序列，元字符是给出命令的特殊字符，而转义序列的工作方式与C#的转义序列相同，它们都是以反斜杠\开头的字符，具有特殊的含义。例如，假定要查找以n开头的字，就可以使用转义序列\b，它表示一个字的边界（字的边界是以某个字母数字标的字符开头，或者后面是一个空白字符或标点符号），下面编写如下代码：String Pattern = @"\bn"; MatchCollection Matches = (Text,Pattern, ); 要在运行时把\b传递给.NET一般表达式引擎，反斜杠\不应被C#编译器解释为转义序列。如果要查找以序列ion结尾的字，可以使用下面的代码：String Pattern = @"ion\b"; 如果要查找以字母n开头，以序列ion结尾的所有字，需要一个以\bn开头，以ion\b结尾的模式，中间内容怎么办？需要告诉计算机n和ion中间的内容可以是任意长度的字符，只要字符不是空白即可，正确的模式如下所示：String Pattern = @"\bn\S*ion\b"; 特定字符或转义序列大多数重要的正则表达式语言运算符都是非转义的单个字符。转义符 \（单个反斜杠）通知正则表达式分析器反斜杠后面的字符不是运算符。例如，分析器将星号 (*) 视为重复限定符，而将后跟星号的反斜杠 (\*) 视为 Unicode 字符 002A。使用一般表达式要习惯的一点是，查看像这样怪异的字符序列，但这个序列的工作是非常逻辑化的。转义序列\S表示任何不适空白的字符。*称为数量词，其含义是前面的字符可以重复任意次，包括0次。序列\S*表示任何不适空白的字符。因此，上面的模式匹配于以n开头，以ion结尾的任何单个字。下表中列出的字符转义在正则表达式和替换模式中都会被识别。表1：特定字符或转义序列特定字符或转义序列含义样例匹配的样例 ^ 输入文本的开头 ^B B，但只能是文本中的第一个字符 $ 输入文本的结尾 X$ X，但只能是文本中的最后一个字符 . 除了换行字符（\n）以外的所有单个字符 isation、ization * 可以重复0次或多次的前导字符 ra*t rat、raat等 + 可以重复1次或多次的前导字符 ra+t rt、rat、raat等？可以重复0次或1次的前导字符 ra?t 只有rt和rat匹配 \s 任何空白字符 \sa [space]a,\ta,\na（\t和\n与C#的\t和\n含义相同） \S 任何不是空白的字符 \SF aF,rF,cF，但不能是\tf \b 字边界 ion\b 以ion结尾的任何字 \B 不是字边界的位置 \BX\B 字中间的任何X 如果要搜索一个元字符，也可以通过带有反斜杠的转义字符来表示。例如，.表示除了换行字符以外的任何字符，而\.表示一个点。可以把可替换的字符放在方括号中，请求匹配包含这些字符。例如，[1 c]表示字符可以是1或者是c。如果要搜索map或者man，可以使用序列"ma[n p]"（仅指引号内字符，下面雷同）。在方括号中，也可以制定一个范围，例如"[a-z]"表示所有的小写字母（使用连字号 (-) 允许指定连续字符范围），"[B-F]"表示B到F之间的所有大写字母，"[0-9]"表示一个数字，如果要搜索一个整数（该序列只包含0到9的字符），就可以编写"[0-9]+"（注意，使用+字符表示至少要有这样一个数字，但可以有多个数字，所以9、83和3443等都是匹配的。）下面看看一般表达式的结果，编写一个实例RegularExpressionsZzy。建立几个一般表达式，显示其结果，让用户了解一下表达式是如何工作的。该实例的核心是一个方法WriteMatches()，它把MatchCollection中的所有匹配以比较详细的方式显示出来。对于每个匹配，它都会显示该匹配在输入字符串中所在的索引，匹配的字符串和一个略长的字符串，其中包含输入文本中至多8个外围字符，其中至少有5个字符放在匹配的前面，至多5个字符放在匹配的后面（如果匹配的位置在输入文本的开头或结尾5个字符内，则结果中匹配前后的字符就会少于4个）。换言之，靠近输入文本末尾的匹配应是"and messaging ofd"，匹配的前后各有5个字符，但位于输入文本的最后一个字上的匹配就应是"g of data"，匹配的字后只有一个字符。因为在该字符的后面是字符串的结尾。这个长字符串可以更清楚地表明一般表达式是在什么地方查找到匹配的：static void WriteMatches(string text, MatchCollection matches) { ("Original text was: \n\n" + text + "\n"); ("No. of matches: " + ); foreach (Match nextMatch in matches) { int Index = ; string result = (); int charsBefore = (Index < 5) ? Index : 5; int fromEnd = - Index - ; int charsAfter = (fromEnd < 5) ? fromEnd : 5; int charsToDisplay = charsBefore + charsAfter + ; ("Index: {0}, \tString: {1}, \t{2}",Index, result, (Index - charsBefore, charsToDisplay)); } } 在这个方法中，处理过程是确定在较长的字符串中有多少个字符可以显示，而无需超限输入文本的开头或结尾。注意在Match对象上使用了另一个属性Value，它包含标识该匹配的字符串，而且，RegularExpressionsZzy只包含名为Find_po，Find_n等的方法，这些方法根据本文执行某些搜索操作。正则表达式选项可以使用影响匹配行为的选项修改正则表达式模式。可以通过两种基本方法设置正则表达式选项：其一是可以在 Regex(pattern, options) 构造函数中的 options 参数中指定，其中 options 是 RegexOptions 枚举值的按位"或"组合；其二是使用内联 (?imnsx-imnsx:) 分组构造或 (?imnsx-imnsx) 其他构造在正则表达式模式内设置它们。在内联选项构造中，一个选项或一组选项前面的减号 (-) 用于关闭这些选项。例如，内联构造 (?ix-ms) 将打开 IgnoreCase 和 IgnorePatternWhiteSpace 选项而关闭 Multiline 和 Singleline 选项。表2：RegexOptions 枚举的成员以及等效的内联选项字符RegexOption 成员内联字符说明 None 无指定不设置任何选项。 IgnoreCase i 指定不区分大小写的匹配。 Multiline m 指定多行模式。更改 ^ 和 $ 的含义，以使它们分别与任何行的开头和结尾匹配，而不只是与整个字符串的开头和结尾匹配。 ExplicitCapture n 指定唯一有效的捕获是显式命名或编号的 (?...) 形式的组。这允许圆括号充当非捕获组，从而避免了由 (?:...) 导致的语法上的笨拙。 Compiled 无指定正则表达式将被编译为程序集。生成该正则表达式的 Microsoft 中间语言 (MSIL) 代码；以较长的启动时间为代价，得到更快的执行速度。 Singleline s 指定单行模式。更改句点字符 (.) 的含义，以使它与每个字符（而不是除 \n 外的所有字符）匹配。 IgnorePatternWhitespace x 指定从模式中排除非转义空白并启用数字符号 (#) 后面的注释。请注意，空白永远不会从字符类中消除。 RightToLeft 无指定搜索是从右向左而不是从左向右进行的。具有此选项的正则表达式将移动到起始位置的左边而不是右边。（因此，起始位置应指定为字符串的结尾而不是开头。）为了避免构造具有无限循环的正则表达式的可能性，此选项不能在中流指定。但是，(?<) 回顾后发构造提供了可用作子表达式的类似替代物。 ECMAScript 无指定已为表达式启用了符合 ECMAScript 的行为。此选项仅可与 IgnoreCase 和 Multiline 标志一起使用。将 ECMAScript 同任何其他标志一起使用将导致异常。例如，Find_po在字开头处查找以"po"开头的字符串：static void Find_po() { string text = @" I can not find my position in Beijing "; string pattern = @"\bpo\S*ion\b"; MatchCollection matches = (text, pattern, ); WriteMatches(text, matches); } 这段代码还使用了名称空间RegularExpressions：using System; using ; 匹配、组和捕获一般表达式的一个很好的特性是可以把字符组合起来，方式与C#中的复合语句一样。在C#中，可以通过把任意数量的语句放在花括号中的方式把它们组合在一起。其结果就像一个复合语句那样。在一般表达式模式中，也可以把任何字符组合起来（包括元字符和转义序列），像处理一个字符那样处理它们。唯一的区别是要使用圆括号，而不是花括号，得到的序列成为一个组。例如，模式"(an)+"定位序列an的任以重复。量词+只应用于它前面的一个字符，但因为我们把字符组合起来了，所以它现在把重复的an作为一个单元来对待。"(an)."应用到输入文本"bananas came to Europe late in the annals of history"上，会从bananas中选择出anan。另一方面，如果使用an+，则将从annals中选择ann，从bananas中选择出两个 an。为什么(an)+选择的是anan，而没有把单个的an作为一个匹配。匹配规则是不能重复的，如果有可能重复，在默认情况下就选择较长的匹配。但是，组的功能要比这强大得多。在默认情况下，把模式的一部分组合为一个组时，就要求一般表达式引擎记住可以按照这个组来匹配，也可以按照整个模式来匹配。换言之，可以把组当作一个要匹配的模式，如果要把字符串分解为各个部分，这种模式就是非常有效的。例如，URI的格式是" :// : "，其中端口是可选的。它的一个样例是。假定要从一个URI中提取协议、地址和端口，而且紧邻URI的后面可能有空白（但没有标点符号），就可以使用下面的表达式："\b(\S+)://(\S+)(?::(\S+))?\b" 该表达式的工作方式如下：首先，前导和尾部的\b序列确保只需要考虑完全是字的文本部分，在这个文本部分中，第一组"(\S+)://"会选择一个或多个不适空白的字符，其后是"://"。在HTTPURI的开头会选择出http://。花括号表示把http存储为一个组。后面的"(\S+)"则在上述URI中选择www. ，这个组在遇到词的结尾时或标记另一个组的冒号"(:)"时结束。下一个组选择端口（本例是:8080）。后面的？表示这个组在匹配中是可选的，如果没有:xxxx，也不会妨碍匹配的标记。这是非常重要的，因为端口在URI中一般不指定，实际上，在大多数情况下，URI是没有端口号的。但是，事情会比较复杂。如果要求冒号可以出现，也可以不出现，但不希望把这个冒号也存储在组中。为此，可以嵌套两个组：内部的"(\S+)"组选择冒号后面的内容（本例中是8080），外面的组包含内部的组，后面是一个冒号，该冒号又在序列"?:"的后面。这个序列表示该组不应保存（只需要保存"8080"，不需要保存":8080"）。不要把这两个冒号混淆了，第一个冒号是序列"?:"的一部分，表示不保存这个组，第二个冒号是要搜索的文本。在这个字符串上运行该模式：I always visit http://www. 得到的匹配是http://www. 。在这个匹配中，仅提到了三个组，还有第四个组表示匹配本身。理论上，每个组都可以选择0次、1次或者多次匹配。单个的匹配就称为捕获。在第一个组"(\S+)"，有一个捕获http。第二个组也有一个捕获www. ，但第三个组没有捕获，因为在这个URI中没有端口号。注意该字符串在其本身上包含第二个http://。虽然它匹配于第一个组，但不会被搜索出来，因为整个搜索表达式不匹配于这部分文本。再比如下面这个例子，以下代码示例使用来从 URL提取协议和端口号。例如，""将返回"http:8080"。String Extension(String url) { Regex r = new Regex(@"^(? \w+)://[^/]+?(? :\d+)?/", ); return (url).Result("${proto}${port}"); } 5、小结 .NET 框架正则表达式类是基类库的一部分，并且可以和面向公共语言运行库的任何语言或工具（包括和 Visual Studio .NET）一起使用。本文给出了在C#下利用正则表达式实现字符串搜索功能的方法，通过对.NET框架下的正则表达式的研究及实例分析，总结了正则表达式的规则、选项等，方便以后朋友们的应用。

查找文章中重复的字符串

1、首先打开桌面上的word文档，如下图所示。

2、然后在打开的文档主页面中，点击工具栏上的查找的下拉菜单，选择高级查找功能。

3、这里以查找学生为例，输入学生，点击查找下一次。

4、这时在word文档里就会出现查找到的内容，如下图所示就完成了。

额，word07或者以后，你ctrl+F左侧貌似可以显示所有本文中出现那个的内容，你点下就到那个地方了，就能见了吧，少的话手工找找就好了，多的话，你试试楼上那个索引呗~

在编辑--查找里面

用MS Word Remove Duplicates In Documents 看看。下载：使用前先备份文档。

查重符号放进编辑器里面

公式查重不到，另外图片也查询不到。

公式编辑器与论文查重没有太大关系，因为它只是用来编辑公式而已，而且很多公式是大家都在用的，都在研究的，怎么能够进行判定呢？主要还是内容的问题，跟用不用公式编辑器编辑公式没多大关系，话说公式编辑器还是用mathtype好一点，那个好用，去mathtype中文网站下就有了。

公式编辑器里的公式是以图片的格式存在的不算字数，所以查重时，没事。

曾熬夜奋战写论文的我来回答这个问题。

不会影响，而且还会降低查重率。因为公式编辑器编辑的公式是一般为图片形式，图片的形式查不出来的。至于Word自带的能够查重这个还有待考量。

建议使用亿图公式编辑器编写，可以将文字叙述部分加入公式说明里面，这样更加降低了公式的查重率，可谓一举多得。

粘贴到Word公式文档即可：

说实话，哈哈哈，一般人我不告诉他。

公式编辑器查重能查到

公式是可以查出来的。可以替换字母，改变变量名，修改公式的。谢谢！如果觉得有用的话，可以采纳哦！！！点赞哦！

会。

因为知网在查重的时候用了这全选，然后再进行查重。也就相当于是我们在word当中通过全选复制之后再重新粘贴一次，并且在粘贴的时候选择只显示文本。这时候有显示出来的元素就是知网会查到的。比如图片这些肯定就没有了。

通过验证就发现，如果公式是用word自带的公式编辑器的话，知网是能够识别并且把它计算到重复率当中去的。但如果我们用的是Mathtype这样的公式编辑器进行插入的话，知网就没办法识别了，他会把我们的公式当做图片来处理，直接跳过去。

所以如果是用word自己自带的公式编辑器的话，最好是把这一个公式编辑完之后截图，然后再以图片的格式插进去。当然，如果你的电脑有安装Mathtype这样的公式编辑器的话，那就更加省事了，不需要考虑这个问题。更多详情可见《知网查重时公式的使用方法》。

知网的概念是国家知识基础设施（National Knowledge Infrastructure，NKI），由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目，由清华大学、清华同方发起，始建于1999年6月。

在党和国家领导以及教育部、中宣部、科技部、新闻出版总署、国家版权局、国家发改委的大力支持下，在全国学术界、教育界、出版界、图书情报界等社会各界的密切配合和清华大学的直接领导下，CNKI工程集团经过多年努力，采用自主开发并具有国际领先水平的数字图书馆技术，建成了世界上全文信息量规模最大的"CNKI数字图书馆"；

并正式启动建设《中国知识资源总库》及CNKI网格资源共享平台，通过产业化运作，为全社会知识资源高效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习平台。（一般评定职称所说的中国期刊网，是中国知网）

参考资料来源：知网官网-知网查重时公式是否检测？

mathtype编辑的公式不会查重。

知网查重的时候，只查重文字部分，图，mathtype编辑公式，word代码是不查重的，建议公式用mathtype编辑，也可以用word自带的公式编辑器，也就是说在提交word这样的文本就会参与知网查重，公式是不能被检测到的。

那就是在使用PDF格式的论文时候，知网论文检测在查重的时候，会对PDF格式文件做一个文本处理的过程，一些公式就会被识别成文本文字，这样这些文本文字就会参与知网查重，PDF格式的论文知网查重是有可能检测到重复率的，这就是知网查重word比PDF格式更准确的原因所在。

总的来说mathtype编辑的公式不会查重，所以可以放心的使用mathtype编辑器编辑，这样第二次查重的时候，是不会被检测到的。知网查重的报告单有四份，学校只看全文标明引文的报告单，报告单上的总文字复制比就是检测结果，总文字复制比达标就可以提交到学校检测。

扩展资料

网查重的基本知识：

1、对于本科生来说，千万不要以为本科论文在知网上搜索不到就可以直接用往届学生的论文，因为本科学校采用的知网查重pmlc检测系统可以检测到往届毕业论文——大学生论文联合对比库。

2、对于研究生来说，千万不要以为本校私密绝密未公开学长研究生毕业论文知网检索不到就可以大量参考其他人的论文，因为高校研究生院采用的是知网VIP或者tmlc可以检测到未公开的学长研究生论文——学术论文联合对比库。

3、高校查重对比的是知网查重数据库，知网论文尽量少参考。

4、也不要以为知网查重一般检测不到书上的，就全篇复制课本。

参考资料来源：

CNCNKI查重网——知网查重 mathtype吗？

公式不会查重。公式是否查重取决于你用什么方式写公式。当公式用图片表示或公式编辑器时，公式不会查重。但是，当你写的公式是用word自带的公式编辑器时，知网可以识别并将内容计算到查重率。但是，当你写的公式是用word自带的公式编辑器时，知网可以识别并将内容计算到查重率，如果你使用Mathtype等公式编辑器进行插入，知网查重时会将编写的公式认定为图片，这样就不会查重，也不会影响论文的查重率。

公式编辑器里文字查重

论文的有些公式是会被查重系统算作重复的。

如果论文中插入的公式是用word自带的公式编辑器操作的，知网是能够识别并且把它计算到重复率当中去的。但如果使用Mathtype这样的公式编辑器进行插入，知网是不会识别成为公式的，知网系统会将公式当做图片进行处理，直接跳过去。

知网的识别系统对于常规的公式会识别查重是因为这些公式并不是自己所编写，而是引用前人的成果，当扫描到公式时，进行全文匹配，符合就会被记录成为重复抄袭，可以采用图片等方式避开。

扩展资料：

知网进行查重时，只检查文字部分，“图“、“mathtype编辑的公式”和“word域代码”是不会检查的（全选”——“复制”——“选择性粘贴”——“只保留文字”可以检验知网查重的具体范围）。

但如果学校检测的是PDF格式文件，知网检测系统会对PDF文件做一个文本处理的过程，也验证了PDF文件知网查重时，知网检测报告的内容是零乱的。对于PDF格式的论文多了一个文本处理过程，一些公式就会被识别成文本文字（字母数字较多），这样这些文本文字就会参与知网查重。

参考资料：学术不端网-知网论文查重查的出公式么

会。

参考资料来源：知网官网-知网查重时公式是否检测？

把文字放到公式编辑器中格子达不能查重。公式编辑器对输入的内容做了特殊处理，本质上是矢量图，无法查重。格子达论文查重方法：1、首先，可以将文字转换为表格、表格基本是查重不了的，文字变成图形、表格变成图形，一目了然并不会检查出是抄袭。2、如果的确是经典的句子，就用上标尾注的方式，在参考文献中表达出来。3、如果是一般的引用，就采用罗嗦法，将原句中省略的主语、谓语、等等添加全，反正哪怕多一个字，就是胜利。4、也可以采用横刀法，将一些句子的成分，去除，用一些代词替代。5、或者是用洋鬼子法，将原文中的洋名，是中文的直接用英文，是英文的直接用中文，如果是中文的全姓名就用中文的名，如果是中文的名就找齐了，替换成中文的姓名。6、故意在一些缩写的英文边上，加上【注释】（画蛇添足法），每句话哪怕多一个字或减少一个字都可以。7、可以将文字转化为表格、表格基本是查重不了的，文字变成图形、表格变成图形，一目了然，绝对不会检查出是重复剽窃了。