robots.txt是搜索引擎中的一個(gè)協(xié)議,當(dāng)你的網(wǎng)站有一些內(nèi)容不想給蜘蛛爬取,那可以利用robots.txt來(lái)告訴蜘蛛不要去爬取這些頁(yè)面,不爬取這些頁(yè)面當(dāng)然就不收錄了。
robots.txt是搜索引擎中訪問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。
robots.txt規(guī)則怎么寫(xiě)
新建一個(gè)txt文本,命名為robots.txt,比如說(shuō)你不想給蜘蛛去爬你網(wǎng)站后臺(tái)這個(gè)文件夾,那就就這樣寫(xiě),該文件放在網(wǎng)站根目錄
User-agent: *
Disallow: /admin/
解釋?zhuān)?/div>
User-agent: * 這個(gè)是代表所有搜索引擎
Disallow: /admin/ 禁止爬取admin這個(gè)文件夾
Disallow: / 代表根目錄所有
Allow: / 代表允許 例子:比如說(shuō)你禁止webdesgn文件夾 但是你又想讓他收錄webdesign下的wangzhanjianshe 寫(xiě)法Allow: /webdesign/wangzhanjianshe/*.html 收錄webdesign下的wangzhanjianshe下的所有html
如果你只想對(duì)百度有效,那就這樣寫(xiě)。User-agent: Baiduspider 這樣只對(duì)百度有效,其它搜索引擎不受限制。
搜索引擎蜘蛛的名字:Baiduspider 百度蜘蛛、Googlebot 谷歌蜘蛛、Bingbot 必應(yīng)蜘蛛、360Spider 360蜘蛛、Sogouspider 搜狗蜘蛛