我如何设置一个网站被禁止被爬虫收录?
网站建好之后,当然希望搜索引擎收录的页面越多越好,但是有时候我们也会遇到网站不需要被搜索引擎收录的情况。
比如启用一个新域名作为镜像网站,主要用于PPC的推广,这时候就要想办法阻止搜索引擎蜘蛛对我们镜像网站的所有页面进行抓取和索引。因为如果镜像网站也被搜索引擎收录,很可能会影响官网在搜索引擎中的权重。
下面列举几种阻止主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的思路。注:全网站屏蔽,尽可能屏蔽主流搜索引擎的所有爬虫(蜘蛛)。
1.被robots.txt文件阻止
可以说robots.txt文件是最重要的渠道(可以和搜索引擎建立直接对话),给出以下建议:
用户代理:Baiduspider
不允许:/
用户代理:Googlebot
不允许:/
用户代理:谷歌机器人手机
不允许:/
用户代理:谷歌机器人图像
不允许:/
用户代理:Mediapartners-Google
不允许:/
用户代理:Adsbot-Google
不允许:/
用户代理:Feedfetcher-Google
不允许:/
用户代理:雅虎!大声地吃
不允许:/
用户代理:雅虎!啜饮中国
不允许:/
用户代理:雅虎!-广告爬虫
不允许:/
用户代理:有道机器人
不允许:/
用户代理:Sosospider
不允许:/
用户代理:搜狗蜘蛛
不允许:/
用户代理:搜狗网络蜘蛛
不允许:/
用户代理:MSNBot
不允许:/
用户代理:ia_archiver
不允许:/
用户代理:番茄机器人
不允许:/
用户代理:*
不允许:/
2.按元标签屏蔽
将以下语句添加到所有网页头文件中:
& ltmeta name = & quot机器人& quotcontent = & quotnoindex,nofollow & quot& gt
3.通过服务器的配置文件来设置(比如Linux/nginx)
直接过滤蜘蛛/机器人的IP段。
注意:第一、二项措施只对“君子”有效,第三项措施要用来防“小人”(“君子”和“小人”一般分别指遵守robots.txt协议的蜘蛛/机器人)。所以网站上线后,需要跟踪分析日志,筛选出这些badbot的ip,然后进行屏蔽。
如何设置管理自己的话题?
设置管理自己的话题的方法:
第一种解释:1、来到今日后台的文章编辑器,输入好文章以后,准备开始插入话题。
2、首先,输入一个“#”字符。
3、选择话题,如果下面的选项没有你想带的,你可以输入文字,会出现你想带的话题。
4、话题输入完成。
5、一切设置好以后,点击发布文章即可
第二种解释:
发表后解决办法
1、文章不适合收录
我也很纳闷,我发布的这类视频网上很多人都在发,而且阅读量也挺好,自己发却不适合收录,后来摸索出来了,标题一改,基本都能通过。
2、与已有视频重复
有时候真的很奇怪,明明搜索网上没有的视频,你发布却显示重复,更可气的自己录屏的有时候都不给通过。解决办法:用视频剪辑软件加上片头片尾、去掉水印,降低视频帧率、裁剪视频等再发布应该就没事了。(尽量别发已有的视频)
3、无版权
这个就没啥说的了,知识信息时代,版权为王,原创是最值钱的,还是发原创视频比较保险,当然也赚钱。
4
1、仔细阅读的发文规范!不注意的话很容易不通过。而且的机器审核感觉有时候会出问题,也就是误判。
2、标题要规范
不要做标题党,切记。标题末尾不要有标点符号,别写敏感词语。
3、内容上要正规
不要存在侥幸心理发软文、推广、广告,不要带链接,别发敏感的文章,包括社会新闻类不允许个人自媒体发布。具体的规定多阅读学院和公告。