一般来说,让捕获和索引更多的内容往往是seo们头疼的问题。没有包容和索引,就谈不上排名。特别是对于一个具有一定规模的网站来说,要使网站完全被收录是一项相当费劲的SEO技术。比如,当页面达到几十万个页面时,无论网站架构如何设计和优化,都不可能100%包含网站,所以我们只能尽量提高包含率。
但有时,如何停止搜索引擎包括可能成为一个问题,越来越近。需要屏蔽的信息,如机密信息、复制内容、广告链接等。过去,常用的防止包含的方法包括密码保护、将内容隐藏在表单后面、使用JS/Ajax、使用flash等。
一、使用Flash
几年来,搜索引擎一直试图抢占flash内容。简单的文本内容已经可以被抓取。flash中的链接也可以被跟踪。
二,形式
搜索引擎蜘蛛还可以填写表单和获取post请求页面。这可以在日志中看到。
三、JS/Ajax
使用JS链接一直被认为是一种对搜索引擎不友好的方法,因此可以防止蜘蛛爬行。但两三年前,我看到JS链接无法阻止搜索引擎蜘蛛爬行。不仅会对JS中出现的url进行爬网,还可以执行简单的JS来查找更多的url。
六种提升网站访问速度的技巧
日前,人们发现,许多网站使用的Facebook评论插件中的评论被抓取并包含在内。插件本身是一个Ajax。这是个好消息。我的一个实验性电子商务网站的产品评论功能为此付出了很多努力。使用Facebook评论插件有很大的好处。具体的好处稍后会有时间来说明,较好的问题是审查是由Ajax实现的,无法捕获,而产品审查是作为目的之一(生成原始内容)包括在内的。我想了很长一段时间,没有一个解决方案,所以我不得不打开Facebook评论插件,打开购物车的评论功能。既然Facebook评论中的评论可以包含在内,就没有两套评论功能了。
四、robots文件
目前,确保内容不被包含的方法是禁止robots文件。但也有一个缺点,就是重量会减少,虽然内容不能包含在内,但页面却成了一个只接受链接重量而不流出重量的无底洞。
五、限制跟踪
不保证不包括在内。即使NF被添加到你网站上所有指向该页面的链接中,你也不能保证其他网站不会获得指向该页面的链接。搜索引擎仍然可以找到这个页面。
六、metanoindex+follow
为了防止集合转移权重,我们可以在页面上使用metaindex和metaflow,这样页面就不包括在内,而是可以流出权重。的确,这是一个更好的方法。还有一个问题,否则会浪费蜘蛛爬行的时间。
如何使网页不被收录是一个值得思考的问题。对于那些没有意识到严重性的人员,你可以考虑在你的网站上有多少重复的内容、低质量的内容、各种各样的非搜索值分类和过滤网址。