搜索引擎是如何判断页面文章内容是否原创的

2023-03-23 IP属地广东佛山建站助手320

核心提示：搜索引擎是如何判断页面文章内容是否原创的：本人最近在操作一个非主流站，内容是采集的，开始收录还好，后来不久就被k了，几万数据的站百度收录只剩几十。当然，我也知道一直采集也不是办法，可是人力有限，不可能去一条条加，也不现实。所以想搜索一下搜索引擎是怎么判定原创与否的，但很可惜，这方面的内容实在不多。然后我去以搜索工程师的角度去想了想，不禁一身冷汗啊，因为判定原创与否实在

搜索引擎是如何判断页面文章内容是否原创的：

本人最近在操作一个非主流站，内容是采集的，开始收录还好，后来不久就被k了，几万数据的站百度收录只剩几十。当然，我也知道一直采集也不是办法，可是人力有限，不可能去一条条加，也不现实。所以想搜索一下搜索引擎是怎么判定原创与否的，但很可惜，这方面的内容实在不多。然后我去以搜索工程师的角度去想了想，不禁一身冷汗啊，因为判定原创与否实在太简单了。我就按我的思维顺序分析一下，供参考。

下面我以这个文章为例来讲解。标题：南昊北京科技有限公司是专业的光标阅读机生产商。内容:南昊科技研发的光标阅读机读卡快，质量优，服务好。我们的公司地址在北京市XXXX。蜘蛛通过超链接文本来到我们的网站，并通过站内链接来到此篇文章页。搜索引擎判断分析开始。

1.标题的分析。现在好多的网页都有明显的优化痕迹，带有很多的长尾词，但是这些在后边位置的长尾词应该只是告诉引擎本页面这是关于什么内容的，因为这样的话引擎会认为有太多重复，显然这是一个不正确的做法。实际应该为有一个截取函数，比如只截取前边40个字符作为分析内容。最终，假设引擎截取的是：南昊北京科技有限公司是专业的光标阅读机。

首先要做的就是判断这个标题是不是唯一，怎么判断呢，放心有办法。我们都知道引擎分类是按词条目来分的，那条目要怎么来呢。简单：相关搜索词条目。如下图：

引擎会把截取到的标题按这个相关搜索词去他的数据库中逐一分析匹对。举个例子吧，从标题中取到光标阅读机这个词，然后和相关搜索词匹对，如果数据库中已经存有了这个标题，就会认为此标题不唯一，待匹对文章内容。如果光标阅读机这个词匹对完毕，再会截取南昊北京，再会以此类推，进行匹对……直到分析完引擎认为标题所含全部的关键词。

最终标题的匹对结果有两种：一，标题数据库暂无此内容，待考察内容。二，标题数据库中已存在此内容，待考察内容。

2.内容的分析。基本思路应该和标题的分析是差不多的，但是也有差别，困为内容包含的信息毕竟比标题要复杂，五花八门的多，也要有更复杂的算法。

前边已经说了我们的内容是：南昊科技研发的光标阅读机读卡快，质量优，服务好。我们的公司地址在北京市XXXX。因为文章内容一般很长，所以不可能去对关键词进行分析，他只好去对一句话或者一段话进行分析匹对。但是这个匹对范围应该还是标题中有相关搜索词的文章数据库中进行分析匹对。

先大体说一下他的分析方法：随机截取随机长的字段，然后就行此字段前后内容的分析，如果当前页与引擎内容数据库中有相同字段的且前后段也相同的话，就会认为这个文章有抄袭，非原创的嫌疑。这个分析过程一般要重复几次，假如分析了10次，有9次在截取字段前后都能在已有内容数据库中有相同内容，再加上标题又相同，这样的话，你这篇文章就会被认定为非原创了。

下面我们来模拟一下。

引擎第一次截取到了“光标阅读机读卡快，”，然后通过相关搜索词来到文章数据库，已有数据库字段前为“科技研发的”，字段后为“质量优”，取出这两个字段与我们当前页面进行匹对。若有相同内容，记为0,没有相同内容，记为1。一次匹对完毕。

然后再截取“公司地址”，进行操作，再次得到一个结果0或1，以此类推。直到完成引擎设置的匹对循环次数。如果匹对10次，有7次，或8次，或10次都能找到相同内容，那么就会认为你的这篇不是原创了……

再往远了说，如果判定这是一篇原创，那么引擎会在他的域名权重数据库中对该域名进行+1操作，显然，越来越多的原创，权重也就越来越高，排名也就越来越好了。如亿企邦,chinaZ。

我想通过标题与内容的这样关键词匹对，只要进行足够次数的匹对，大胆扩展相关数据库匹对范围，一篇文章是不是原创就能分辨出来了。事实上，现在的处理器是越来越快又便宜，再加上搜索引擎工程师都是高学历的，算法的提高改善，还有那经验的积累。搜索引擎对文章原创与否进行判断，就像剁大白菜一样简单。

不想还行，一想真是吓一跳，得到的结论是采集站必死!原创吧还是，最不济标题起码也要改吧。看看吧，要是有时间了再分享一下如何做好引擎分析不出来的伪原创文章。

以上只是小弟浅显分析，实际算法毕竟复杂得多，仅供参考!另AD一下：,我操作的一个站诚招友情链接，企业站为佳，Pr刚更新为1了，QQ：419844484,加好友请注明友链。

内容相关操作算法科技北京

点赞 0举报收藏 0打赏 0评论 0

免责声明

•: 本文源自建站助手发布的内容，本站会员编辑发布。
本网站对站内所有资讯的内容、观点保持中立，不对内容的准确性、可靠性或完整性提供任何明示或暗示的保证。
本网站部分内容来源于合作媒体、企业机构、网友提供和互联网的公开资料,版权归原作者所有，如有侵权等问题，请及时联系我们，我们将在收到通知后第一时间妥善处理该部分内容。info@1688b2b.com。
转载请注明原文出处: http://www.1688b2b.com/news/show-13077.html

更多>同类资讯文章

推荐图文

推荐资讯文章

从SEO到GEO：GPT的营销人员能做什么？

点击排行

手机扫一扫

快速投稿

你可能不是行业专家，但你一定有独特的观点和视角，赶紧和业内人士分享吧！

我要投稿

投稿须知

【行业知识，产业动态、产品指南、产品应用等原创性内容优先审核发布。】
1、提交粗糙的广告软文或者对用户无任何帮助、无价值的文章将无法被通过审核。
2、发布内容时请选择合适的栏目归档。
3、严禁类同内容重复发布及标题堆砌关键字。
4、文章内容须与标题有一定相关性。
5、排版精美工整用户才愿意去看
6、以上不合规一律不予审核直接删除
7、审核时间一般24小时内，优质文章优先审核

• 机器视觉做产品表面检测能检测哪些内容	• 摘要（Abstract）指的是一篇英国留学毕业论文主
• 16岁女孩骑摩托带人出事故双双身亡同乡称刚学	• 16岁女孩骑摩托带人出事故双双身亡多位网红飚
• 余承东、张朝阳首发体验AITO问界M5智驾版：补足	• 5月1日起湖北部分高速公路限速调整：80km/h路
• 立省4万！商家上线理想L7、L8“激光雷达”改装	• 一汽丰田官微删除张继科宣传物料曾任bZ电动车
• Html5移动端div固定到底部实现底部导航条的几种	• SEO之页面具体做法总结篇

商务通

推广服务

增值服务

搜索引擎是如何判断页面文章内容是否原创的