易游娱乐城- YY易游体育官方网站- 体育APP链接作弊垃圾网页检测算法研究

发布时间：2025-10-16 17:43:56 浏览：次

　　易游体育,易游体育官网,易游体育平台,YY易游,YY易游体育官网,易游体育网址,易游体育入口,易游体育注册,易游体育下载,易游体育app,易游体育app下载,易游app,易游官方网站,易游娱乐

易游娱乐城- YY易游体育官方网站- 易游体育APP链接作弊垃圾网页检测算法研究

　　然后针对“链接工厂”等链接作弊的常见形式，采用ＳｐａｍＲａｎｋ算法进行检

　　测。通过对垃圾页面种子集赋予ＳｐａｍＲａｎｋ权值，并在垃圾页面及其链接页面之

　　间相互传递ＳｐａｍＲａｎｋ值，构建Ｗｅｂ图并对其进行遍历，从而达到对测试集进

　　行第二阶段分类的目的。最后采用ＩＮ．ＯＵＴ算法对链接工厂的检测结果进行了分

　　本文最后利用ＷｅｂＳｐａｒｅＣｈａｌｌｅｎｇｅ２００８推出的检测研究用数据集

　　ＷＥＢＳＰＡＭ．ＵＫ２００７分别训练分类器，同时对链接型垃圾网页检测算法进行了实

　　关键词：链接型垃圾网页检测；随机森林算法；链接工厂检测；ＳｐａｍＲａｎｋ

　　ａｄｄｉｔｉｏｎ，ｔｈｅｄａｔａｓｅｔｉｓｃｌａｓｓｉｆｉｅｄｆｏｒｍｅｆｉｒｓｔ

　　ｔｒａｖｅｒｓｅ，ｔｈｅｄａｔａｓｅｔｉｓｃｌａｓｓｉｆｉｅｄｆｏｒｔｈｅｓｅｃｏｎｄ

　　中国互联网络信息中心（ＣＮＮＩＣ）在京发布的《第２８次中国互联网络发展状况统

　　计报告》【ｌＪ显示，截至２０１１年６月底，中国网民规模已经达Ｎ４．８５亿，较２０１０年底增加

　　２７７０万人，上网对于人们的生活已经是必不可少的了。互联网最基础的功能就是提供信

　　息，而大多数网民现在主要依靠搜索引擎来获取自己想要的信息和查找网络资源。搜

　　索引擎使用的排名算法决定了搜索结果的第一页展示的是最重要的几十条信息。搜索

　　者一般只会对前几页的查找结果感兴趣，对于商业网站来说，在搜索引擎中的一个靠

　　前的位置是非常有利的。一方面，排名靠前的网页能吸引来更多的网站点击率，这对

　　于商业类网站来说则也许是一次交易机会；另一方面，随着网站投放广告的普及，很

　　多的网站和个人博客加入了广告联盟，靠前的网页排名会引来更多的广告商来投放广

　　告ｉ２Ｊ。在这种情况下，搜索引擎优化（ＳｅａｒｃｈＥｎｇｉｎｅＯｐｔｉｍｉｚａｔｉｏｎ，ＳＥＯ）就在网络上

　　ＳＥＯ的主要工作是通过了解各种搜索引擎怎样抓取网页、如何确定其对搜索特定

　　关键词的结果排名以及如何进行索引等技术，来对网页进行优化使其提高搜索引擎排

　　名，从而提高网站访问量的技术【４】。ＳＥＯ的最终目的是网页的高排名，然而想在短时间

　　内有高质量的网页进而大幅提高网站排名是一件很困难的事。一个新的网站需要经历

　　一个长期的发展和维护才会变得被人们所熟知，高质量的网页是需要花费大量的资金、

　　时间和精力，而这显然是满足不了一些急于获取利润的商业网站的需求的。于是，一

　　些网站欺骗搜索引擎的排名算法，使自己的网页得到靠前的搜索结果排名。这种行为

　　了作弊手段的ＳＥＯ，都可以称为黑帽ＳＥＯ。Ｇｙｏｎｇｙｉ［５】和ＤｅｍｌｉｓＦｅｔｔｅｒｌｙ［３Ｊ等对于垃圾网

　　页下的定义是：在搜索引擎中，网站不去考虑其真正价值，而故意采用欺骗手段获取

　　Ｎｔｏｕｌａｓ等在一个大型的搜索引擎中对１０个顶级域名随机的抽取网页并手动对它们

　　标记类型１６Ｊ。研究发现，在这些网页中，７０％的＂．ｂｉｚ”网站和３５％的ａ‘．ＵＳ”网站，以及２０％

　　的＂．ｔｏｍ”网站都是垃圾网页。而对于国内来说，对垃圾网页的研究还处于起步阶段，

　　但中文网站所遭受到的垃圾网页的影响对比国外有过之而无不及。ＣＮＮＩＣ（中国互联网

　　信息中心）是．Ｃｒｌ域名的注册服务商，而．ｏｉｌ域名曾经是垃圾网页的重灾区。从趋势科技的

　　数据显示，黑帽ＳＥＯ技术在２０１０年仍旧是最常用的攻击手法，大量在网页中添加社会

　　热词，其中隐藏的木马病毒使得很多用户中招。从２０１０年春节晚会报道开始，大到“房

　　价过高、玉树地震”，小到“明星八卦、球星打架、淘宝购物”，几乎所有能引起网民关

　　注的事件同时也都被黑客利用起来【＿¨。在被恶意网站“暗链”上后，一些譬如“最好香港

　　马会资料”、“怎样才能买六合彩特码”等网络“牛皮癣”就会傍上了具有较高公信力的政

　　府网站，其域名依旧会显示为“ｇｏｖ．ｃｎ”（如图１．１）。这些文本在直接浏览时是看不见的，

　　但通过百度快照等可以看出，实际上链接的是一些色情、赌博、欺诈类非法商品、政

　　治性内容的网页（如图１．２）。而普通网民从Ｗｅｂ上获取自己所需的资源信息时，自身并

　　没有很强的辨识能力，因此很容易误入这些含有诈骗等不良信息的网站。２０１０年，中

　　国共有３．５万家网站被黑客攻击过，其中被攻击的政府网站有４６３６个，比２００９年上升了

　　６７．６％，政府网站安全防护较为薄弱【８】。在我国，百度和谷歌等主流搜索引擎也一直深

　　受垃圾网站的困扰，研究表明垃圾网页可能占到中国总网页的５０％左右，而且该数字

　　∑童墨ｌ芏富囹．量蟊垂澄＝：兰曼！！匿莲二＝爰！：受拦＝＝兰。至：圈站＝兰兰。

　　香港万叁彩公司现场开奖结果嚣全的香港马会特码网站导航香路『－台彰开奖结果一＿＿富蘩ｊ＿｝寺码

　　一一香潜￡鲁彩公司网站导航真的很准，『勺蔫自姐一肖玄机盆

　　杰盒孟２珏奖结昱量堑蚕叠杰盒差ｉ盗茎盐．．蚕港盎盒型公司ｊ呈港杰盒差≥珏；

　　六台彩开奖结果最全的香潜志合彩资睾斗导航，香潜六台彩开奖结果一六台彩特码一香潜六台彩现场

　　蚕叠盎盒显医台差ｉｊ丝期五婆结墨【］生墨期盗垫匿擅杰金孟ｌ！生鱼期盗型Ｌ

　　香潜六音彩Ｉ六台彩１４４期开奖结集１１４５期资料Ｉ香菇六台彩１４６期资料１１４６期再结果Ｉ香落塞马会１

　　４４期资料１１４４开奖结果ｌ走台彩资料Ｉ六台彩网址ｌ香潜六台彩网址Ｉ香潜赛马会．

　　１．垃圾网页采用某些不正当的手段排在搜索结果的前列，严重降低了搜索结果的

　　质量，用户不仅查找不到想要的信息，而且有可能点击垃圾网页后导致中病毒或被引

　　入钓鱼网站，因此造成了难以估量的直接和间接损失，使用户对Ｗｅｂ信息质量失去信心。

　　２．垃圾页面排在搜索结果前列使搜索引擎失去了用户，进而失去了市场；同时也

　　增加了搜索引擎本身的索引成本和存储空间，搜索引擎不得不花费大量的精力和资金

　　３．大量的垃圾页面导致互联网信息质量下降，互联网的应用和管理同时也面临着

　　因此，检测互联网中存在的垃圾网页，保证Ｗｅｂ信息资源质量是当前互联网领域亟

　　度关注和广泛研究。其中比较重要的会议有：从２００４年开始，每年一届的ＣＥＡＳ会议

　　Ａｎｔｉ．Ｓｐａｒｅ，由微软和谷歌联合赞助举办１９Ｊ；从２００５年开始，在

　　每年一次的“国际互联网信息检索论坛”（ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐ

　　垃圾网页检测、竞赛性质的“ｗ曲ＳｐａｍＣｈａｌｌｅｎｇｅ２００８”［１１】。在国内，垃圾网页也逐

　　渐受到了重视，２０１１年中国反钓鱼网站联盟年会召开，来自工业和信息化部、公安部、

　　中国科学院、中国互联网协会等互联网专家和法律专家等近２００人共同出席了２０１１年

　　会，首次签署了《中国反钓鱼网站联盟共同行动倡议书》【２】。此外，在２０１１年专门成立

　　各种链接作弊的检测方法。这些方法针对互联网中网页之间复杂的链接关系，而且大都

　　认为产生链接作弊的主要原因是有大多数页面链向目的垃圾网页，而这些提供了链接

　　斯坦福大学的Ｇｙｏｎｇ），ｉ【５Ｊ等人提出的ＴｒｕｓｔＲａｎｋ算法，是专门用来检测垃圾网页的，

　　它可以算作是ＰａｇｅＲａｎｋ的改进算法。该算法的核心思想是认为好的网页链向的也是好

　　的页面，而很少会链向作弊页面。先在语料集中挑选出一部分受信任的种子页面，对这

　　些页面赋一个ＴｒｕｓｔＲａｎｋ的初始值，然后在整个测试集中进行迭代，其过程也与

　　ＰａｇｅＲａｎｋ算法类似。种子页面的ＴｒｕｓｔＲａｎｋ值将会通过链接关系传递给它所指向的页面，

　　这样被种子页面所链接的页面也将会得到较高的ＴｒｕｓｔＲａｎｋ值。经过若干次迭代后，设

　　定一个合适的阀值Ｎ，最终认为ＴｒｕｓｔＲａｎｋ值超过Ｎ的页面才不是作弊页面，那么它们可

　　以被搜索引擎作为查询结果优先返回给用户。实验结果表明，通过ＴｒｕｓｔＲａｎｋ进行排名

　　比ＰａｇｅＲａｎｋ排名的垃圾网页的位置明显靠后。现在已经有专门计算网页ＴｒｕｓｔＲａｎｋ值的

　　基于对ＹｒｕｓｔＲａｎｋ的认识，Ｋｏｌｄａ等人１２ｌＪ提出了一种相对应的ＢａｄＲａｎｋ算法。他们提

　　出，既然受信任的网页所链接到的网页也是受信任的网页，那么受信任的网页一般不

　　会链接到垃圾网页，或者说链接到垃圾网页的网页很有可能也是垃圾网页。ＢａｄＲａｎｋ

　　算法的核心思想是：如果网页Ａ链接到某个具有较高ＢａｄＲａｎｋ值的网页Ｂ，那么网页Ａ

　　就从网页Ｂ那里得到一些ＢａｄＲａｎｋ值。这与ＰａｇｅＲａｎｋ算法的思想非常相似，区别在于传

　　播的方向和链接的含义不同。在ＰａｇｅＲａｎｋ算法中，ＰａｇｅＲａｎｋ值是沿着正向链接传播的；

　　而在ＢａｄＲａｎｋ算法中，ＢａｄＲａｎｋ值是沿着反向链接传播的。每个垃圾网页都有一定的初

　　始ＢａｄＲａｎｋ值，则这些ＢａｄＲａｎｋ值就可以沿着这些垃圾网页的反向链接传播。最后，一

　　个网页是垃圾网页的可能性就可以由它从垃圾网页那里得到的ＢａｄＲａｎｋ值来表达。

　　为从网页的结构来看，有些垃圾网页和正常网页的结构十分相似。因此，采用基于网

　　页内容和链接特征结合的垃圾网页分类方法就极为有效。ＪａｃｏｂＡｂｅｍｅｔｈｖ等人【２２】介绍了

　　个分类器主要是采用了包含正则化Ｗｅｂ图和松弛变量（ＳｌａｃｋＶａｒｉａｂｌｅ）的支持向量机

　　ＶｅｃｔｏｒＭａｃｈｉｎｅ），通过利用网页的Ｗｅｂ图结构和文本内容特征，可以

　　量造成了巨大的破坏。本文的研究目标主要是针对垃圾网页中存在的链接作弊，来研

　　究分析、设计和实现一个链接型垃圾网页检测系统。针对这一研究目标，首先设计链

　　接型垃圾网页检测系统框架，然后在这一框架下对网页的特征属性进行分析和分类器

　　设计。再利用ＷｅｂＳｐａｍＣｈａｌｌｅｎｇｅ２００８推出的检测研究用数据集ＷＥＢＳＰＡＭ．ＵＫ２００７

　　（１）链接作弊垃圾网页的检测算法。目前黑帽ＳＥＯ广泛采用链接作弊，占了垃圾网

　　页的大部分。因此在对各类垃圾网页链接作弊检测技术做出了深入研究综述的基础上，

　　本文首先实现了一个基于随机森林分类器的链接作弊检测方法。通过对网页进行基于

　　（２）检测“链接工厂＂作弊的ＳｐａｍＲａｎｋ改进算法。链接工厂是最常见但也比较难

　　以检测出的链接作弊形式之一，它们的存在仅仅是为了提升目标网页的ＰａｇｅＲａｎｋ值。

　　传统的ＰａｇｅＲａｎｋ算法几乎没有考虑“链接工厂＂的影响，针对这一问题，本课题通过

　　对垃圾网页种子集赋予ＳｐａｍＲａｎｋ权值，并在垃圾网页及其链接页面之间相互传递

　　ＳｐａｍＲａｎｋ值，最后构建Ｗｅｂ图并对其进行遍历，从而达到对测试集进行第二阶段分

　　类的目的。我们对ＳｐａｍＲａｎｋ算法的改进主要是最后加入ＩＮ．ＯＵＴ算法对垃圾网页中

　　（３）分成２个阶段采用ＵＫ２００７数据集对以上两个阶段分类器进行验证其检测和过

　　滤垃圾网页的有效性。并对比其他一些常用的分类算法，证明我们的算法在精度上具

　　圾网页进行了深入分析，最后对我们采用的随机森林和ＳｐａｍＲａｎｋ算法作了详细介绍。

　　第五章是实验结果和分析，先是介绍了评测指标，’然后是两个阶段分类器详细的

　　互联网发展早期，雅虎等搜索引擎主要是对网页本身内容进行搜索。但是Ｗｅｂ网

　　页通常都会有复杂的内容和结构，因此现在的搜索引擎对搜索结果的排名先后就要全

　　在网页中的出现情况，再利用关键字的文档频率和词频这些特征进行相关性计算排序，

　　主要的算法是ＢＭ２５和ＴＦ．ＩＤＦ等。黑帽ＳＥＯ作弊者主要会通过往标题和锚文本中添

　　表性的算法有ＰａｇｅＲａｎｋ和ＨＩＴＳ等，黑帽ＳＥＯ作弊者主要通过增加网页的出入链来达

　　询独立性特征，所占比重较大，它们可以在索引阶段被预计算，从而节省用户的查询

　　时间。这些特征包括网页的总文档长度、关键字的出现频率、图片数量、标记文本的

　　比例等。从搜索引擎的角度来看，可以通过特征选择方法来去除无关的静态特征，以

　　保持其有效性。因此在实践中可以采用数百个静态特征来计算【ｌ２１。静态排序的很多特

　　征是在网页制作者的控制下的，因为它们依赖于网页本身。对于搜索引擎来说，这意

　　味着这些需要具体计算去的静态特征不能公开，否则某些黑帽ＳＥＯ制作者将会利用专

　　要包括文档相关性的统计和查询者本身的特征（比如说用户所属地区、查询历史、时

　　间段等）。内容排序采用的算法主要是采用空间向量模型和ＴＦ．ＩＤＦ模型进行。Ｓａｌｔｏｎ

　　等提出【１引，在一个用户的查询中，决定文档相关性的主导范式是向量空间模型。而

　　ＴＦ．ＩＤＦ模型主要是用来评估单个关键字对于某个文件集或语料库中的其中某文件的重

　　性。基于链接分析的排名算法使用网页间的链接信息作为评估网页重要性的主要依据。

　　ＨＩＴＳ算法是由康奈尔大学（ＣｏｍｅｌｌＵｎｉｖｅｒｓｉｔｙ）的ＪｏｎＫｌｅｉｎｂｅｒｇ博士【ｌ

　　先提出的，为ＩＢＭ公司阿尔马登研究中心的“ＣＬＥＶＥＲ”研究项目中的一部分。ＨＩＴＳ算

　　法主要就是计算网页的两个属性值：中心值ｍｕｂｓｃｏｒｅ）和权威值（Ａｕｔｈｏｒｉｔｙｓｃｏｒｅ），并且

　　认为中心值和权威值具有互相强化的关系，即一个好的权威性网页则应该被很多好的

　　中心性网页所指向，而一个好的中心性网页应该指向很多好的权威性网页。搜索引擎

　　ＨＩＴＳ算法是Ｗｅｂ结构挖掘中最具有权威性和使用最广泛的算法，然而它也有其自

　　身明显的不足。首先，ＨＩＴＳ算法完全将网页的内容或文本排除在外，仅考虑网页之间

　　的链接结构来分析页面的权威性，这与现实网络中的权威页面相比，其不科学性显而

　　易见。其次，将非正常目的的引用误认为是正常引用，导致实际查询结果与目标的出

　　向受信任的网页的锚文本来实现。但是提升网页的权威值就相对复杂，因为这需要大

　　量来自中心性网页的链接。而作弊者可以先提升自己拥有的网页的中心值，然后让这

　　与ＰａｇｅＲａｎｋ算法相比较，ＨＩＴＳ算法更脆弱也更容易遭受到垃圾网页的攻击。

　　ＰａｇｅＲａｎｋ算法是Ｇｏｏｇｌｅ排名运算法则的一部分，其专利人是Ｇｏｏｇｌｅ创始人之一拉里・佩

　　奇（ＬａｒｒｙＰａｇｅ）［１６］ｏＰａｇｅＲａｎｋ算法是Ｇｏｏｇｌｅ用于用来标识网页的等级／重要性的一种

　　方法，是Ｇｏｏｇｌｅ用来衡量一个网站的好坏的重要标准之一。使那些更具等级和重要性

　　的网页在搜索结果中令网站排名获得提升，从而提高搜索结果的相关性和质量。对于

　　ＰＲ∞）＝ＰＲ，ｄ（Ｕ）＋ＰＲｉ。Ⅳ）一ＰＲｏ。ｔ（∽－ＰＲｓｉｎｋ（Ｕ）（２—２）

　　在公式（２．２）中，ＰＲ，ｄ（Ｕ）是网页被随机点击时的得分；ＰＲｉｎ（Ｕ）是网页从指向它

　　的网页那里获得的得分；Ｐ＆ｍ（Ｕ）是网页指向其他网页而传递出去的得分；ＰＲ。ｉｎｋ（Ｕ）是

　　该集合中没有外链的网页所失去的得分；ＰＲ∞）是网页集合Ｕ的ＰａｇｅＲａｎｋ总得分。

　　根据公式（２．２）的ＰａｇｅＲａｎｋ值计算方法，作弊者通常会采用一种能使网页集合得到

　　最大ＰａｇｅＲａｎｋ值的网页链接结构。如图２．１所示，这种结构具有如下特性：ａ．作弊者

　　全部的网页都能从某些网页链接到，这样就可以确保这些网页都会被搜索引擎检索到；

　　从图２．１中可以看出，作弊者通过攻击受信任的网站，使其添加大量到作弊网页

　　的链接，同时制造大量的网页与作弊网页互相链接，这样就能大大提高作弊网页的