易游娱乐 易游体育 YY易游

易游娱乐城- YY易游体育官方网站- 体育APP链接作弊垃圾网页检测算法研究

发布时间:2025-10-16 17:43:56  浏览:

  易游体育,易游体育官网,易游体育平台,YY易游,YY易游体育官网,易游体育网址,易游体育入口,易游体育注册,易游体育下载,易游体育app,易游体育app下载,易游app,易游官方网站,易游娱乐

易游娱乐城- YY易游体育官方网站- 易游体育APP链接作弊垃圾网页检测算法研究

  然后针对“链接工厂”等链接作弊的常见形式,采用SpamRank算法进行检

  测。通过对垃圾页面种子集赋予SpamRank权值,并在垃圾页面及其链接页面之

  间相互传递SpamRank值,构建Web图并对其进行遍历,从而达到对测试集进

  行第二阶段分类的目的。最后采用IN.OUT算法对链接工厂的检测结果进行了分

  本文最后利用WebSpareChallenge2008推出的检测研究用数据集

  WEBSPAM.UK2007分别训练分类器,同时对链接型垃圾网页检测算法进行了实

  关键词:链接型垃圾网页检测;随机森林算法;链接工厂检测;SpamRank

  addition,thedatasetisclassifiedformefirst

  traverse,thedatasetisclassifiedforthesecond

  中国互联网络信息中心(CNNIC)在京发布的《第28次中国互联网络发展状况统

  计报告》【lJ显示,截至2011年6月底,中国网民规模已经达N4.85亿,较2010年底增加

  2770万人,上网对于人们的生活已经是必不可少的了。互联网最基础的功能就是提供信

  息,而大多数网民现在主要依靠搜索引擎来获取自己想要的信息和查找网络资源。搜

  索引擎使用的排名算法决定了搜索结果的第一页展示的是最重要的几十条信息。搜索

  者一般只会对前几页的查找结果感兴趣,对于商业网站来说,在搜索引擎中的一个靠

  前的位置是非常有利的。一方面,排名靠前的网页能吸引来更多的网站点击率,这对

  于商业类网站来说则也许是一次交易机会;另一方面,随着网站投放广告的普及,很

  多的网站和个人博客加入了广告联盟,靠前的网页排名会引来更多的广告商来投放广

  告i2J。在这种情况下,搜索引擎优化(SearchEngineOptimization,SEO)就在网络上

  SEO的主要工作是通过了解各种搜索引擎怎样抓取网页、如何确定其对搜索特定

  关键词的结果排名以及如何进行索引等技术,来对网页进行优化使其提高搜索引擎排

  名,从而提高网站访问量的技术【4】。SEO的最终目的是网页的高排名,然而想在短时间

  内有高质量的网页进而大幅提高网站排名是一件很困难的事。一个新的网站需要经历

  一个长期的发展和维护才会变得被人们所熟知,高质量的网页是需要花费大量的资金、

  时间和精力,而这显然是满足不了一些急于获取利润的商业网站的需求的。于是,一

  些网站欺骗搜索引擎的排名算法,使自己的网页得到靠前的搜索结果排名。这种行为

  了作弊手段的SEO,都可以称为黑帽SEO。Gyongyi[5】和DemlisFetterly[3J等对于垃圾网

  页下的定义是:在搜索引擎中,网站不去考虑其真正价值,而故意采用欺骗手段获取

  Ntoulas等在一个大型的搜索引擎中对10个顶级域名随机的抽取网页并手动对它们

  标记类型16J。研究发现,在这些网页中,70%的".biz”网站和35%的a‘.US”网站,以及20%

  的".tom”网站都是垃圾网页。而对于国内来说,对垃圾网页的研究还处于起步阶段,

  但中文网站所遭受到的垃圾网页的影响对比国外有过之而无不及。CNNIC(中国互联网

  信息中心)是.Crl域名的注册服务商,而.oil域名曾经是垃圾网页的重灾区。从趋势科技的

  数据显示,黑帽SEO技术在2010年仍旧是最常用的攻击手法,大量在网页中添加社会

  热词,其中隐藏的木马病毒使得很多用户中招。从2010年春节晚会报道开始,大到“房

  价过高、玉树地震”,小到“明星八卦、球星打架、淘宝购物”,几乎所有能引起网民关

  注的事件同时也都被黑客利用起来【_¨。在被恶意网站“暗链”上后,一些譬如“最好香港

  马会资料”、“怎样才能买六合彩特码”等网络“牛皮癣”就会傍上了具有较高公信力的政

  府网站,其域名依旧会显示为“gov.cn”(如图1.1)。这些文本在直接浏览时是看不见的,

  但通过百度快照等可以看出,实际上链接的是一些色情、赌博、欺诈类非法商品、政

  治性内容的网页(如图1.2)。而普通网民从Web上获取自己所需的资源信息时,自身并

  没有很强的辨识能力,因此很容易误入这些含有诈骗等不良信息的网站。2010年,中

  国共有3.5万家网站被黑客攻击过,其中被攻击的政府网站有4636个,比2009年上升了

  67.6%,政府网站安全防护较为薄弱【8】。在我国,百度和谷歌等主流搜索引擎也一直深

  受垃圾网站的困扰,研究表明垃圾网页可能占到中国总网页的50%左右,而且该数字

  ∑童墨l芏富囹.量蟊垂澄=:兰曼!!匿莲二=爰!:受拦==兰。至:圈站=兰兰。

  香港万叁彩公司现场开奖结果嚣全的香港马会特码网站导航香路『-台彰开奖结果一__富蘩j_}寺码

  一一香潜£鲁彩公司网站导航真的很准,『勺蔫自姐一肖玄机盆

  杰盒孟2珏奖结昱量堑蚕叠杰盒差i盗茎盐..蚕港盎盒型公司j呈港杰盒差≥珏;

  六台彩开奖结果最全的香潜志合彩资睾斗导航,香潜六台彩开奖结果一六台彩特码一香潜六台彩现场

  蚕叠盎盒显医台差ij丝期五婆结墨【]生墨期盗垫匿擅杰金孟l!生鱼期盗型L

  香潜六音彩I六台彩144期开奖结 集1145期资料I香菇六台彩146期资料1146期再结果I香落塞马会1

  44期资料1144开奖结果l走台彩资料I六台彩网址l香潜六台彩网址I香潜赛马会.

  1.垃圾网页采用某些不正当的手段排在搜索结果的前列,严重降低了搜索结果的

  质量,用户不仅查找不到想要的信息,而且有可能点击垃圾网页后导致中病毒或被引

  入钓鱼网站,因此造成了难以估量的直接和间接损失,使用户对Web信息质量失去信心。

  2.垃圾页面排在搜索结果前列使搜索引擎失去了用户,进而失去了市场;同时也

  增加了搜索引擎本身的索引成本和存储空间,搜索引擎不得不花费大量的精力和资金

  3.大量的垃圾页面导致互联网信息质量下降,互联网的应用和管理同时也面临着

  因此,检测互联网中存在的垃圾网页,保证Web信息资源质量是当前互联网领域亟

  度关注和广泛研究。其中比较重要的会议有:从2004年开始,每年一届的CEAS会议

  Anti.Spare,由微软和谷歌联合赞助举办19J;从2005年开始,在

  每年一次的“国际互联网信息检索论坛”(InternationalWorkshop

  垃圾网页检测、竞赛性质的“w曲SpamChallenge2008”[11】。在国内,垃圾网页也逐

  渐受到了重视,2011年中国反钓鱼网站联盟年会召开,来自工业和信息化部、公安部、

  中国科学院、中国互联网协会等互联网专家和法律专家等近200人共同出席了2011年

  会,首次签署了《中国反钓鱼网站联盟共同行动倡议书》【2】。此外,在2011年专门成立

  各种链接作弊的检测方法。这些方法针对互联网中网页之间复杂的链接关系,而且大都

  认为产生链接作弊的主要原因是有大多数页面链向目的垃圾网页,而这些提供了链接

  斯坦福大学的Gyong),i【5J等人提出的TrustRank算法,是专门用来检测垃圾网页的,

  它可以算作是PageRank的改进算法。该算法的核心思想是认为好的网页链向的也是好

  的页面,而很少会链向作弊页面。先在语料集中挑选出一部分受信任的种子页面,对这

  些页面赋一个TrustRank的初始值,然后在整个测试集中进行迭代,其过程也与

  PageRank算法类似。种子页面的TrustRank值将会通过链接关系传递给它所指向的页面,

  这样被种子页面所链接的页面也将会得到较高的TrustRank值。经过若干次迭代后,设

  定一个合适的阀值N,最终认为TrustRank值超过N的页面才不是作弊页面,那么它们可

  以被搜索引擎作为查询结果优先返回给用户。实验结果表明,通过TrustRank进行排名

  比PageRank排名的垃圾网页的位置明显靠后。现在已经有专门计算网页TrustRank值的

  基于对YrustRank的认识,Kolda等人12lJ提出了一种相对应的BadRank算法。他们提

  出,既然受信任的网页所链接到的网页也是受信任的网页,那么受信任的网页一般不

  会链接到垃圾网页,或者说链接到垃圾网页的网页很有可能也是垃圾网页。BadRank

  算法的核心思想是:如果网页A链接到某个具有较高BadRank值的网页B,那么网页A

  就从网页B那里得到一些BadRank值。这与PageRank算法的思想非常相似,区别在于传

  播的方向和链接的含义不同。在PageRank算法中,PageRank值是沿着正向链接传播的;

  而在BadRank算法中,BadRank值是沿着反向链接传播的。每个垃圾网页都有一定的初

  始BadRank值,则这些BadRank值就可以沿着这些垃圾网页的反向链接传播。最后,一

  个网页是垃圾网页的可能性就可以由它从垃圾网页那里得到的BadRank值来表达。

  为从网页的结构来看,有些垃圾网页和正常网页的结构十分相似。因此,采用基于网

  页内容和链接特征结合的垃圾网页分类方法就极为有效。JacobAbemethv等人【22】介绍了

  个分类器主要是采用了包含正则化Web图和松弛变量(SlackVariable)的支持向量机

  VectorMachine),通过利用网页的Web图结构和文本内容特征,可以

  量造成了巨大的破坏。本文的研究目标主要是针对垃圾网页中存在的链接作弊,来研

  究分析、设计和实现一个链接型垃圾网页检测系统。针对这一研究目标,首先设计链

  接型垃圾网页检测系统框架,然后在这一框架下对网页的特征属性进行分析和分类器

  设计。再利用WebSpamChallenge2008推出的检测研究用数据集WEBSPAM.UK2007

  (1)链接作弊垃圾网页的检测算法。目前黑帽SEO广泛采用链接作弊,占了垃圾网

  页的大部分。因此在对各类垃圾网页链接作弊检测技术做出了深入研究综述的基础上,

  本文首先实现了一个基于随机森林分类器的链接作弊检测方法。通过对网页进行基于

  (2)检测“链接工厂"作弊的SpamRank改进算法。链接工厂是最常见但也比较难

  以检测出的链接作弊形式之一,它们的存在仅仅是为了提升目标网页的PageRank值。

  传统的PageRank算法几乎没有考虑“链接工厂"的影响,针对这一问题,本课题通过

  对垃圾网页种子集赋予SpamRank权值,并在垃圾网页及其链接页面之间相互传递

  SpamRank值,最后构建Web图并对其进行遍历,从而达到对测试集进行第二阶段分

  类的目的。我们对SpamRank算法的改进主要是最后加入IN.OUT算法对垃圾网页中

  (3)分成2个阶段采用UK2007数据集对以上两个阶段分类器进行验证其检测和过

  滤垃圾网页的有效性。并对比其他一些常用的分类算法,证明我们的算法在精度上具

  圾网页进行了深入分析,最后对我们采用的随机森林和SpamRank算法作了详细介绍。

  第五章是实验结果和分析,先是介绍了评测指标,’然后是两个阶段分类器详细的

  互联网发展早期,雅虎等搜索引擎主要是对网页本身内容进行搜索。但是Web网

  页通常都会有复杂的内容和结构,因此现在的搜索引擎对搜索结果的排名先后就要全

  在网页中的出现情况,再利用关键字的文档频率和词频这些特征进行相关性计算排序,

  主要的算法是BM25和TF.IDF等。黑帽SEO作弊者主要会通过往标题和锚文本中添

  表性的算法有PageRank和HITS等,黑帽SEO作弊者主要通过增加网页的出入链来达

  询独立性特征,所占比重较大,它们可以在索引阶段被预计算,从而节省用户的查询

  时间。这些特征包括网页的总文档长度、关键字的出现频率、图片数量、标记文本的

  比例等。从搜索引擎的角度来看,可以通过特征选择方法来去除无关的静态特征,以

  保持其有效性。因此在实践中可以采用数百个静态特征来计算【l21。静态排序的很多特

  征是在网页制作者的控制下的,因为它们依赖于网页本身。对于搜索引擎来说,这意

  味着这些需要具体计算去的静态特征不能公开,否则某些黑帽SEO制作者将会利用专

  要包括文档相关性的统计和查询者本身的特征(比如说用户所属地区、查询历史、时

  间段等)。内容排序采用的算法主要是采用空间向量模型和TF.IDF模型进行。Salton

  等提出【1引,在一个用户的查询中,决定文档相关性的主导范式是向量空间模型。而

  TF.IDF模型主要是用来评估单个关键字对于某个文件集或语料库中的其中某文件的重

  性。基于链接分析的排名算法使用网页间的链接信息作为评估网页重要性的主要依据。

  HITS算法是由康奈尔大学(ComellUniversity)的JonKleinberg博士【l

  先提出的,为IBM公司阿尔马登研究中心的“CLEVER”研究项目中的一部分。HITS算

  法主要就是计算网页的两个属性值:中心值mubscore)和权威值(Authorityscore),并且

  认为中心值和权威值具有互相强化的关系,即一个好的权威性网页则应该被很多好的

  中心性网页所指向,而一个好的中心性网页应该指向很多好的权威性网页。搜索引擎

  HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法,然而它也有其自

  身明显的不足。首先,HITS算法完全将网页的内容或文本排除在外,仅考虑网页之间

  的链接结构来分析页面的权威性,这与现实网络中的权威页面相比,其不科学性显而

  易见。其次,将非正常目的的引用误认为是正常引用,导致实际查询结果与目标的出

  向受信任的网页的锚文本来实现。但是提升网页的权威值就相对复杂,因为这需要大

  量来自中心性网页的链接。而作弊者可以先提升自己拥有的网页的中心值,然后让这

  与PageRank算法相比较,HITS算法更脆弱也更容易遭受到垃圾网页的攻击。

  PageRank算法是Google排名运算法则的一部分,其专利人是Google创始人之一拉里・ 佩

  奇(LarryPage)[16]oPageRank算法是Google用于用来标识网页的等级/重要性的一种

  方法,是Google用来衡量一个网站的好坏的重要标准之一。使那些更具等级和重要性

  的网页在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和质量。对于

  PR∞)=PR,d(U)+PRi。Ⅳ)一PRo。t(∽-PRsink(U) (2—2)

  在公式(2.2)中,PR,d(U)是网页被随机点击时的得分;PRin(U)是网页从指向它

  的网页那里获得的得分;P&m(U)是网页指向其他网页而传递出去的得分;PR。ink(U)是

  该集合中没有外链的网页所失去的得分;PR∞)是网页集合U的PageRank总得分。

  根据公式(2.2)的PageRank值计算方法,作弊者通常会采用一种能使网页集合得到

  最大PageRank值的网页链接结构。如图2.1所示,这种结构具有如下特性:a.作弊者

  全部的网页都能从某些网页链接到,这样就可以确保这些网页都会被搜索引擎检索到;

  从图2.1中可以看出,作弊者通过攻击受信任的网站,使其添加大量到作弊网页

  的链接,同时制造大量的网页与作弊网页互相链接,这样就能大大提高作弊网页的