基础资料
- 主题:
- 积分:12710
- 帖子:0
- 金币:
- 精华:
- 关注:
- 粉丝:
|
什么是搜索引擎?
所谓的搜索引擎(Search Engines)是一些能够主动搜索信息(搜索网页上的单词和简短的特定的内容描述)并将其自动索引的Web 网站,其索引内容储存在可供检索的大型数据库中,建立索引和目录服务。它是一个为你提供信息“检索”服务的网站,它使用某些程序把互联网上的所有信息归类,以帮助人们在茫茫网海中搜寻到所需要的信息。
搜索引擎有什么作用?
把真正对用户有用的信息排在搜索结果的前面!
搜索引擎的工作原理
搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。
探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google 把它的探测器叫做Googlebot,百度就叫Baiduspider,Yahoo 称为Slurp,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。
如何辨别搜索引擎身份?
可以通过DNS反向查询找到主机名:
l Google : 主机名称应包含于googlebot.com 域名中,
如:crawl-66-249-66-1.googlebot.com;
l MSN : 主机名称应包含于search.live.com 域名中,
如:livebot-207-46-98-149.search.live.com;
l Yahoo:主机名称应包含于inktomisearch.com域名中,
如:ab1164.inktomisearch.com。
什么是SiteMap?
Sitemaps 协议使你能够告知搜索引擎网站中可供抓取的网址。最简便的方式就是,使用 Sitemaps 协议的 Sitemaps 就是列有某个网站所有网址的XML 文件。此协议可高度扩展,因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息(上次更新的时间、更改的频率、与网站中其他网址相比它的重要性等),以便搜索引擎可以更智能地抓取该网站。
a)a)用 SiteMap 有利于搜索引擎更加友好的对网站进行收录,不要让网站的收录有些漏洞或者收录不全。有了SiteMap 可以很好的在这方面发挥作用。
b)b)有了 SiteMap 并提交给搜索引擎之后,方便你在以后进行下一步的工作,比如对网站的外部链接和内链错误进行更好的调整,这些都要用到SiteMap 的提交功能。
A. 网站含动态内容。
B. 网站有不容易被发现的页面,如有大量富 AJAX 或 Flash 内容的页面。
C. 网站为新网站且指向网站的链接不多。
D. 网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。
E. 网站上网页的更改频率。
F. 各网页上次修改的日期。
G. 您网站上各网页的相对重要性。
什么是Robots.txt ?
robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被robots 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
该贴已经同步到 ℡幽月╃冰心的微博 |
|