ITEYE博文抄袭检查

rank 是一个seo工具,用于分析网站的搜索引擎收录排名。

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?请看这里,ITEYE博文抄袭检查的代码: https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java ,该代码 来自本人的 rank 项目

值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简单的规则之所以生效,是因为我写的博文的标题基本上都是独一无二的,当然也有少许例外。更近一步,我们应该比较原文和其他文章的内容的相似度,以便精准判断是不是抄袭,这个功能稍后加上,这里就不展示了。

本文我们分析ITEYE博客: http://yangshangchuan.iteye.com 被抄袭的情况。

检查博文数目:106

1、 Nutch相关框架安装使用最佳指南 抄袭链接有(27)个

抄袭链接:

  1. http://blog.csdn.net/chabale/article/details/9091977

  2. http://blog.csdn.net/hu948162999/article/details/44244303

  3. http://blog.csdn.net/joeyon1985/article/details/41849367

  4. http://blog.csdn.net/linux_l/article/details/8699632

  5. http://blog.csdn.net/liushu_it/article/details/21014285

  6. http://blog.csdn.net/long_ping/article/details/9897483

  7. http://blog.csdn.net/okman1214/article/details/8831274

  8. http://blog.csdn.net/z_vv11/article/details/8647772

  9. http://blog.sina.cn/dpool/blog/s/blog_6094008a0101htzb.html

  10. http://itindex.net/detail/43176-nutch-%E7%9B%B8%E5%85%B3-%E6%A1%86%E6%9E%B6

  11. http://tech.ddvip.com/2013-12/1386261047206837_12.html

  12. http://tech.ddvip.com/2013-12/1386261047206837_2.html

  13. http://tech.ddvip.com/2013-12/1386261047206837_3.html

  14. http://tech.ddvip.com/2013-12/1386261047206837_5.html

  15. http://tech.ddvip.com/2013-12/1386261047206837_7.html

  16. http://tech.ddvip.com/2013-12/1386261047206837_8.html

  17. http://wenku.baidu.com/link?url=3RCM5xDYtmBexWJKGj1A15FNph3DemzrW5dR04Rja_w4vPHQLuh9Cx-QndqH_jZJ5vLFdABvKJYW__EGdjWpxZgMGUPss86qLTrnR4Sg3n3

  18. http://www.07net01.com/linux/Nutchxiangguankuangjiaanzhuangshiyongzuijiazhinan_213424_1366170698.html

  19. http://www.aliyun.com/zixun/content/1_1_470758.html

  20. http://www.bianceng.cn/a/2014/0628/42039_14.htm

  21. http://www.bianceng.cn/a/2014/0628/42039_2.htm

  22. http://www.doc88.com/p-9959003946558.html

  23. http://www.docin.com/p-744132253.html

  24. http://www.taodocs.com/p-2386166.html

  25. http://www.thebigdata.cn/Hadoop/1351.html

  26. http://www.tuicool.com/articles/ZRjiUr

  27. http://www.tuicool.com/articles/iMvIr2

2、 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 抄袭链接有(13)个

抄袭链接:

  1. http://blog.csdn.net/feelig/article/details/39889747

  2. http://blog.csdn.net/longshenlmj/article/details/39891333

  3. http://blog.csdn.net/u013334719/article/details/38824691

  4. http://m.blog.csdn.net/blog/skydxd/39889747

  5. http://m.oschina.net/blog/308396

  6. http://my.oschina.net/apdplat/blog/308396

  7. http://my.oschina.net/apdplat/blog/308396?p={{page}}

  8. http://www.aboutyun.com/thread-9240-1-1.html

  9. http://www.ithao123.cn/content-665292.html

  10. http://www.mamicode.com/info-detail-416249.html

  11. http://www.open-open.com/lib/view/open1409625381697.html

  12. http://www.sxt.cn/u/2540/blog/3589

  13. http://www.sxt.cn/u/756/blog/2962

3、 分布式搜索算法 抄袭链接有(12)个

抄袭链接:

  1. http://2010.cqvip.com/qk/83110A/200903/29739396.html

  2. http://2010.cqvip.com/qk/90453A/200903/1001042877.html

  3. http://blog.163.com/shi_shun/blog/static/237078492009943215416/

  4. http://wenku.baidu.com/link?url=R7BLfBL6bVXPTXHjxOWRt3_3am6VQtcRrfcFBbBgJ9hNHpFulak4XZrY5CLDImQ30m7mQprBOdmuU6GLbY_ZYvznjs1DYCXVR49fJEVrsq3

  5. http://www.chemdrug.com/article/7/1599/7994394.html

  6. http://www.cnki.com.cn/Article/CJFDTotal-HLGX201404024.htm

  7. http://www.cnki.com.cn/article/cjfdtotal-rjdk200903019.htm

  8. http://www.cqvip.com/QK/93729X/201404/662130030.html

  9. http://www.doc88.com/p-8435599442342.html

  10. http://www.docin.com/p-202753838.html

  11. http://www.docin.com/p-276341327.html

  12. http://xueshu.baidu.com/s?tn=SE_baiduxueshu_c1gjeupa&wd=%E5%88%86%E5%B8%83%E5%BC%8F%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95&ie=utf-8

4、 APDPlat的系统启动和关闭流程剖析 抄袭链接有(8)个

抄袭链接:

  1. http://doc.okbase.net/yangshangchuan/archive/50097.html

  2. http://m.oschina.net/blog/197067

  3. http://my.oschina.net/apdplat/blog/197067

  4. http://my.oschina.net/apdplat/blog/197067?p=1

  5. http://www.fanli7.net/a/JAVAbiancheng/Spring/20140203/424600.html

  6. http://www.kankanews.com/ICkengine/archives/107712.shtml

  7. http://www.thinksaas.cn/group/topic/98379/

  8. http://www.tuicool.com/articles/yuIRra

5、 给JAVA源代码文件统一地添加licence信息头 抄袭链接有(7)个

抄袭链接:

  1. http://itlab.idcquan.com/Java/server/943615.html

  2. http://www.douban.com/note/314229263/

  3. http://www.douban.com/note/314229263/?type=like

  4. http://www.douban.com/note/318267895/

  5. http://www.hzeduask.com/xytd/jishuyuandi/2013/1127/2325.html

  6. http://www.sctarena.com/Article/Article.asp?nid=4070

  7. http://www.softfz.com/jzx/7092/

6、 动态索引结构和索引更新机制 抄袭链接有(6)个

抄袭链接:

  1. http://m.blog.csdn.net/blog/zufpy68084/38544075

  2. http://my.oschina.net/apdplat/blog/308393

  3. http://www.haogongju.net/art/2782814

  4. http://www.kankanews.com/ICkengine/archives/172179.shtml

  5. http://www.sxt.cn/u/324/blog/2936

  6. http://xueshu.baidu.com/s?tn=SE_baiduxueshu_c1gjeupa&wd=%E5%8A%A8%E6%80%81%E7%B4%A2%E5%BC%95%E7%BB%93%E6%9E%84%E5%92%8C%E7%B4%A2%E5%BC%95%E6%9B%B4%E6%96%B0%E6%9C%BA%E5%88%B6&ie=utf-8

7、 APDPlat的日志国际化实现方式 抄袭链接有(5)个

抄袭链接:

  1. http://doc.okbase.net/yangshangchuan/archive/36845.html

  2. http://my.oschina.net/apdplat/blog/196605

  3. http://www.haogongju.net/art/2358241

  4. http://www.kankanews.com/ICkengine/archives/107054.shtml

  5. http://www.tuicool.com/articles/BZbMRf

8、 英语单词音近形似转化规律研究 抄袭链接有(4)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/378570

  2. http://www.erpchn.com/diannao/36765.html

  3. http://www.kankanews.com/ICkengine/archives/212540.shtml

  4. http://www.tuicool.com/articles/yaquae

9、 如何在你的应用中集成人机问答系统QuestionAnsweringSystem? 抄袭链接有(4)个

抄袭链接:

  1. http://blog.csdn.net/zcwfengbingdongguke/article/details/38866457

  2. http://m.blog.csdn.net/blog/bingdongguke/38866457

  3. http://my.oschina.net/apdplat/blog/308397

  4. http://my.oschina.net/apdplat/blog/308397?p=1

10、 配置Nutch模拟浏览器以绕过反爬虫限制 抄袭链接有(4)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/208457

  2. http://my.oschina.net/apdplat/blog/208457?p=1

  3. http://www.kankanews.com/ickengine/archives/121503.shtml

  4. http://www.tuicool.com/articles/quYnAf

11、 中文分词算法 之 基于词典的正向最大匹配算法 抄袭链接有(4)个

抄袭链接:

  1. http://wenku.baidu.com/link?url=JafpukFCKMvtcfBcXQ9Yd8JFjBGY7zhHZhEs18evYx-AIqVsVeyY12bmuSzH8-4cuM-1WjwsbOPZzI0JQKVPprnvkcOsfCjBJITMDSm1RA_

  2. http://wenku.baidu.com/link?url=YKau9ZQFynPx2OLEy1m8M6wy3k5_87Uft6-cqyh2AYqSijPFKMm0HBNNt8YV8u1xVgphjovHJoma61tMRslJ4ZTUFwnKDr5iZxLxxiv3kD3

  3. http://www.aboutyun.com/thread-9241-1-1.html

  4. http://www.docin.com/p-781474791.html

12、 Nutch抓取需要登录的网站 抄袭链接有(3)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/208723

  2. http://my.oschina.net/apdplat/blog/208723?p={{currentPage-1}}

  3. http://my.oschina.net/apdplat/blog/208723?p={{totalPage}}

13、 中文分词算法 之 基于词典的逆向最大匹配算法 抄袭链接有(3)个

抄袭链接:

  1. http://wenku.baidu.com/link?url=fCiNk_9evs_O6bqN1d5DgUD845zA7RgL-cjMjNalcIIUQKryf_jiLbK24xX-KENVJpM8ka51_DrIf69dY0oKanGwCBrOO2H_mgJkYVULHfK

  2. http://www.doc88.com/p-4744136729183.html

  3. http://www.tuicool.com/articles/UBjMJb

14、 APDPlat中数据库备份恢复的设计与实现 抄袭链接有(3)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/196912

  2. http://www.blogjava.net/qileilove/archive/2014/02/12/409768.html

  3. http://www.kankanews.com/ICkengine/archives/107495.shtml

15、 网络爬虫面临的挑战 之 链接构造 抄袭链接有(3)个

抄袭链接:

  1. http://www.52ml.net/9393.html

  2. http://www.csdn123.com/html/mycsdn20140110/d6/d6d6b84592aba995af4ba4f185b085a9.html

  3. http://www.tuicool.com/articles/UJrqqe

16、 使用CountDownLatch来模拟马拉松比赛 抄袭链接有(3)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/385448

  2. http://my.oschina.net/apdplat/blog/385448?p={{currentPage-1}}

  3. http://www.tuicool.com/articles/JJzaMfJ

17、 使用JSoup+CSSPath采集和讯网人物信息 抄袭链接有(3)个

抄袭链接:

  1. http://www.cxyclub.cn/n/30939/

  2. http://www.thinksaas.cn/group/topic/99719/

  3. http://www.tuicool.com/articles/6NZZZ3

18、 APDPlat中的用户密码安全策略 抄袭链接有(3)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/207124

  2. http://www.kaifajie.cn/spring/16825.html

  3. http://www.kankanews.com/ICkengine/archives/120020.shtml

19、 中文分词算法 之 基于词典的逆向最小匹配算法 抄袭链接有(3)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/217589

  2. http://my.oschina.net/apdplat/blog/217589?p={{currentPage+1}}

  3. http://my.oschina.net/apdplat/blog/217589?p={{currentPage-1}}

20、 APDPlat中业务日志和监控日志的设计与实现 抄袭链接有(2)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/196604

  2. http://www.tuicool.com/articles/UJ3ABbY

21、 The Future of Compass & ElasticSearch 抄袭链接有(2)个

抄袭链接:

  1. http://fanyi.baidu.com/translate?query=The%20Future%20of%20Compass%20%26%20ElasticSearch&lang=en2zh

  2. http://www.07net01.com/linux/The_Future_of_Compass__amp_amp__ElasticSearch_703701_1391166381.html

22、 使用Java调用百度搜索 抄袭链接有(2)个

抄袭链接:

  1. http://www.thinksaas.cn/group/topic/99685/

  2. http://www.thinksaas.cn/group/topic/99878/

23、 APDPlat拓展搜索之集成ElasticSearch 抄袭链接有(2)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/197012?p=1

  2. http://www.656463.com/article/fymUZz.htm

24、 APDPlat中的机器码生成机制 抄袭链接有(2)个

抄袭链接:

  1. http://www.nqwang.com/2014/0209/88650_2.html

  2. http://www.sjsjw.com/kf_jiagou/article/6_31254_8198.asp

25、 Java应用系统中自动实时检测资源文件内容变化 抄袭链接有(2)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/312609

  2. http://my.oschina.net/apdplat/blog/312609?p={{totalPage}}

26、 APDPlat拓展搜索之集成Solr 抄袭链接有(2)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/197020

  2. http://www.thinksaas.cn/group/topic/98380/

27、 中文分词算法 之 基于词典的正向最小匹配算法 抄袭链接有(2)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/217588

  2. http://my.oschina.net/apdplat/blog/217588?p={{currentPage-1}}

28、 配置Cygwin支持无密码SSH登陆 抄袭链接有(2)个

抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261501206841.html

  2. http://www.bianceng.cn/a/2014/0628/42031.htm

29、 使用Java调用谷歌搜索 抄袭链接有(1)个

抄袭链接:

  1. http://blog.sina.cn/dpool/blog/s/blog_b5e202380101dsur.html

30、 SOLR4.2+NUTCH1.6 抄袭链接有(1)个

抄袭链接:

  1. http://www.haogongju.net/art/1910293

31、 The Design of HDFS 抄袭链接有(1)个

抄袭链接:

  1. http://fanyi.baidu.com/translate?query=The%20Design%20of%20HDFS&lang=en2zh

32、 SOLR3.6.2+NUTCH1.6 抄袭链接有(1)个

抄袭链接:

  1. http://www.haogongju.net/art/1910282

33、 采集电子报纸 抄袭链接有(1)个

抄袭链接:

  1. http://www.baidu.com/s?tn=baidurt&rtt=1&bsst=1&wd=%B2%C9%BC%AF%B5%E7%D7%D3%B1%A8%D6%BD&origin=ps

34、 对Nutch2.1抽象存储层的一些看法 抄袭链接有(1)个

抄袭链接:

  1. http://www.aliyun.com/zixun/content/1_1_469609.html

35、 30个JDK类库源代码中最频繁出现的词的深度分析 抄袭链接有(1)个

抄袭链接:

  1. http://www.tuicool.com/articles/EFZvym

36、 HBase on CAP 抄袭链接有(1)个

抄袭链接:

  1. http://fanyi.baidu.com/translate?query=HBase%20on%20CAP&lang=en2zh

37、 模拟浏览器的神器 - HtmlUnit 抄袭链接有(1)个

抄袭链接:

  1. http://www.kaifajie.cn/3g/19709.html

38、 Hadoop发行版的比较与选择 抄袭链接有(1)个

抄袭链接:

  1. http://www.csdn123.com/html/blogs/20131108/94269.htm

39、 Java中文分词组件 - word分词 抄袭链接有(1)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/228619

40、 Windows上安装HADOOP单机伪分布式集群 抄袭链接有(1)个

抄袭链接:

  1. http://www.thinksaas.cn/group/topic/234049/

41、 词组习语3054组 抄袭链接有(1)个

抄袭链接:

  1. http://blog.csdn.net/anyqu/article/details/44741749

42、 英语单词前缀规则总结 抄袭链接有(1)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/378753

43、 Ubuntu上安装HADOOP多机完全分布式集群 抄袭链接有(1)个

抄袭链接:

  1. http://www.thinksaas.cn/group/topic/234041/

44、 使用Java8实现自己的个性化搜索引擎 抄袭链接有(1)个

抄袭链接:

  1. http://www.tuicool.com/articles/qmaaquE

45、 英语单词后缀规则总结 抄袭链接有(1)个

抄袭链接:

  1. http://my.oschina.net/apdplat/blog/379330

46、 APDPlat中领域模型的自描述机制与事件通知机制 抄袭链接有(1)个

抄袭链接:

  1. http://www.07net01.com/linux/APDPlatzhonglingyumoxingdezimiaoshujizhiyushijiantongzhijizhi_704261_1391209945.html

47、 JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词 无抄袭链接

48、 分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一) 无抄袭链接

49、 大数据系列5:Pig – 大数据分析平台 无抄袭链接

50、 NUTCH公开课:从搜索引擎到网络爬虫 无抄袭链接

51、 运行nutch报错:unzipBestEffort returned null 无抄袭链接

52、 [置顶] Nutch视频 无抄袭链接

53、 Amazon Dynamo的NWR模型 无抄袭链接

54、 根据76大细分词性对单词进行归组(二) 无抄袭链接

55、 大数据系列2:建立开发环境编写HDFS和Map Reduce程序 无抄袭链接

56、 192本软件著作用词分析(五)用词最复杂99级 无抄袭链接

57、 给LUKE增加mmseg4j分词器 无抄袭链接

58、 软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程 无抄袭链接

59、 JAVA调用CSDN接口发博文 无抄袭链接

60、 Cygwin运行nutch报错:Failed to set permissions of path 无抄袭链接

61、 Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同? 无抄袭链接

62、 nutch2.1+mysql报错及解决 无抄袭链接

63、 大数据系列11:Gora – 大数据持久化 无抄袭链接

64、 搜索引擎的分片(shard)和副本(replica)机制 无抄袭链接

65、 分析151个后缀在各大考纲词汇中的作用(三)总结精选篇 无抄袭链接

66、 word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估 无抄袭链接

67、 Apache Nutch v1.8发布,Java实现的网络爬虫 无抄袭链接

68、 Ubuntu上安装HADOOP单机伪分布式集群 无抄袭链接

69、 分析996个词根在各大考纲词汇中的作用(五)总结精选篇 无抄袭链接

70、 分析113个前缀在各大考纲词汇中的作用(二)总结精选篇 无抄袭链接

71、 如何解决BUG? 无抄袭链接

72、 技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向? 无抄袭链接

73、 QuestionAnsweringSystem v1.1 发布,人机问答系统 无抄袭链接

74、 1208个合成词 无抄袭链接

75、 Java中的null引用,超乎你想象 无抄袭链接

76、 JDK源代码中最重要的4646个英语单词 无抄袭链接

77、 APDPlat中备份文件异地容灾机制之FTP上传 无抄袭链接

78、 大数据系列1:在win7上安装配置Hadoop伪分布式集群 无抄袭链接

79、 运行nutch提示后退出:Generator: 0 records selected for fetching, exiting ... 无抄袭链接

80、 APDPlat旗下10大开源项目,欢迎大家一起来参与 无抄袭链接

81、 大数据系列8:Sqoop – HADOOP和RDBMS数据交换 无抄袭链接

82、 大数据系列4:Hive – 基于HADOOP的数据仓库 无抄袭链接

83、 Java8全新打造,英语学习supertool 无抄袭链接

84、 大数据系列6:HBase – 基于Hadoop的分布式数据库 无抄袭链接

85、 APDPlat如何自动建库建表并初始化数据? 无抄袭链接

86、 自动更改IP地址反爬虫封锁,支持多线程 无抄袭链接

87、 new一个Object对象占用多少内存? 无抄袭链接

88、 利用1189个精选句子彻底掌握2190个单词 无抄袭链接

89、 中文分词效果对比 无抄袭链接

90、 Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor 无抄袭链接

91、 2000个软件开发领域的高频特殊词及精选例句(一) 无抄袭链接

92、 Nutch的发展历程 无抄袭链接

93、 软件业的奥斯卡奖:JOLT奖 之 最好的书 无抄袭链接

94、 根据76大细分词性对单词进行归组(一) 无抄袭链接

95、 计算ITEYE博文在百度的收录与排名情况 无抄袭链接

96、 Java开源项目cws_evaluation:中文分词器分词效果评估 无抄袭链接

97、 大数据系列7:Storm – 流计算 无抄袭链接

98、 中文分词算法 之 词典机制性能优化与测试 无抄袭链接

99、 大数据系列9:Mahout – 机器学习 无抄袭链接

100、 APDPlat v2.5正式发布,开源的Java应用级产品开发平台 无抄袭链接

101、 大数据系列3:用Python编写MapReduce 无抄袭链接

102、 分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词 无抄袭链接

103、 一个月的时间让你的词汇量翻一翻 无抄袭链接

104、 大数据系列12:Hadoop2 – 全新的Hadoop 无抄袭链接

105、 大数据系列10:Spark – 内存计算 无抄袭链接

106、 二百多部软件著作中最重要的9224个英语单词 无抄袭链接

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章