搜索引擎工作原理一共包括三個(gè)過(guò)程：網(wǎng)頁(yè)搜索，預(yù)處理信息，建立索引。

細(xì)化分為：爬行—抓取—處理抓取信息—建立索引—呈現(xiàn)排名

一：爬行

爬行的目的：建立待抓取列表

谷歌爬蟲(chóng)：ddos 百度爬蟲(chóng)：spider

1、發(fā)現(xiàn)：

新的網(wǎng)站

被動(dòng)等待：設(shè)置好Robots.txt文件，放在服務(wù)器等待爬蟲(chóng)自己過(guò)來(lái)爬取。（谷歌幾周，百度一個(gè)月至幾個(gè)月不等。）

主動(dòng)引爬蟲(chóng)：寫(xiě)帶有鏈接的軟文花錢(qián)放在高質(zhì)量高權(quán)重的網(wǎng)站中、利用權(quán)重高的博客、在質(zhì)量高的論壇里發(fā)外鏈。

新的內(nèi)容

能放首頁(yè)放首頁(yè)，否則盡量爭(zhēng)取放在頂級(jí)欄目（總結(jié)：爭(zhēng)取權(quán)重高的位置放）

Banner圖片不如幻燈片，幻燈片不如文字。（總結(jié)：文字優(yōu)先，圖片寫(xiě)alt屬性）2、爬蟲(chóng)分析：

查看：網(wǎng)站日志分析。Log文件里可查看站長(zhǎng)工具：查看抓取頻次。太高時(shí)會(huì)造成服務(wù)器崩潰問(wèn)題及解決：網(wǎng)站訪問(wèn)突然為

先site下網(wǎng)站收錄看看有沒(méi)有被懲罰

分析日志爬蟲(chóng)，記錄IP（蜘蛛、用戶）

統(tǒng)計(jì)代碼出現(xiàn)問(wèn)題

3、爬行策略：

深度優(yōu)先：一層欄目走到底（1百萬(wàn)-1千萬(wàn)個(gè)頁(yè)面）廣度優(yōu)先：同行欄目分別收集（1百萬(wàn)個(gè)頁(yè)面）混合：兩者的混合使用（5千萬(wàn)-1億個(gè)頁(yè)面）

4、爬蟲(chóng)抓取障礙：

txt文件設(shè)置錯(cuò)誤服務(wù)器本身的問(wèn)題（動(dòng)態(tài)IP頻繁出現(xiàn)、服務(wù)器不穩(wěn)定）URL超長(zhǎng)，搜索引擎爬蟲(chóng)懶得直接不抓。爬蟲(chóng)陷阱

二：抓取

網(wǎng)頁(yè)本身需符合W3C標(biāo)準(zhǔn)

頁(yè)頭信息：狀態(tài)碼：200（正常訪問(wèn)）、404（死鏈）、301（永久性重定向）、302（臨時(shí)重定向慎用）、403（禁止訪問(wèn)）、5xx（數(shù)據(jù)庫(kù)的問(wèn)題）編碼：建議使用utf-8. gb2312在國(guó)外打開(kāi)是亂碼TDK關(guān)鍵詞：Title：盡量靠前，我們想讓爬蟲(chóng)進(jìn)入到某個(gè)頁(yè)面就看到我們的主旨內(nèi)容。

長(zhǎng)度：33個(gè)漢字文章的話25個(gè)漢字足矣英文兩個(gè)字符算一個(gè)字

位置：關(guān)鍵詞位置前置

次數(shù)：不要過(guò)于重復(fù)太多（欄目可強(qiáng)調(diào)關(guān)鍵詞，最重要的放前面）

可讀性：考慮到用戶體驗(yàn)

原創(chuàng)性：蜘蛛喜歡新鮮的東西

Keyword: 首頁(yè)5-7個(gè)、一級(jí)欄目5-6個(gè)、二級(jí)欄目4-5個(gè)、列表頁(yè)3-4個(gè)、專(zhuān)題2-3個(gè)。Deion：（欄目必須圍繞關(guān)鍵詞寫(xiě)）

作用：提高點(diǎn)擊率

密度：3-8%

長(zhǎng)度：80個(gè)漢字

原創(chuàng)性：有利于收錄

可讀性：用戶體驗(yàn)考慮

號(hào)召行動(dòng)：活動(dòng)、促銷(xiāo)一類(lèi)的頁(yè)面

3、公共部分：

搜索引擎不會(huì)抓取重復(fù)部分(爬蟲(chóng)比較喜歡新鮮原創(chuàng)性的東西，重復(fù)出現(xiàn)的內(nèi)容不利于抓取)

4、導(dǎo)航：主導(dǎo)航、次導(dǎo)航、左導(dǎo)航、SEO導(dǎo)航（標(biāo)簽）、面包屑導(dǎo)航（不要用JS實(shí)現(xiàn)）、

5、廣告：

Banner圖片不如幻燈片，幻燈片不如文字（總結(jié)：文字優(yōu)先，圖片寫(xiě)alt屬性）。文字有利于爬蟲(chóng)抓取。

6、正文：

關(guān)鍵詞：次數(shù)合適、密度適中3-8%、位置靠前（金花站長(zhǎng)工具可以查出來(lái)）

標(biāo)簽：唯一性，整個(gè)頁(yè)面第一重要。含關(guān)鍵詞，關(guān)鍵詞盡量靠前

標(biāo)簽：不唯一性，第二重要性。

中可加其它的屬性屬性：只能用于，意在告訴蜘蛛圖片的解釋

三：處理抓取結(jié)果（預(yù)處理）

爬蟲(chóng)抓取后壓縮成數(shù)據(jù)包返回?cái)?shù)據(jù)庫(kù)

相關(guān)性：因?yàn)榘俣人惴ㄕZ(yǔ)境分析+語(yǔ)義分析的原因，所以網(wǎng)站不要出現(xiàn)不相關(guān)的內(nèi)容出現(xiàn)，否則搜索引擎也會(huì)撇掉的權(quán)威性：各種評(píng)獎(jiǎng)、網(wǎng)絡(luò)評(píng)比、申請(qǐng)百度客服增加信任度。

注：不權(quán)威造成的影響：同一篇文章，由于信任度高低，有可能自己被轉(zhuǎn)載發(fā)布的文章自己的反倒在別人網(wǎng)站后面。

去重：一個(gè)鏈接不能有多個(gè)頁(yè)面、同一個(gè)關(guān)鍵詞不能指向不同鏈接、同一頁(yè)面下不要出現(xiàn)不同鏈接相同關(guān)鍵詞、

四：建立索引

搜索引擎的索引是反向建立的

首頁(yè) URL 76分

一級(jí)欄目 URL 80分

二級(jí)欄目 URL 96分

專(zhuān)題頁(yè) URL 70分

產(chǎn)品 URL 68分

百度分詞：從前往后、從后往前、統(tǒng)計(jì)學(xué)、

第三步處理抓取結(jié)果的時(shí)候說(shuō)到爬蟲(chóng)把抓取的內(nèi)容壓縮成數(shù)據(jù)包返回?cái)?shù)據(jù)庫(kù)。這時(shí)搜索引擎的索引庫(kù)建成。當(dāng)用戶搜某個(gè)詞（長(zhǎng)尾詞或短尾詞）的時(shí)候搜索引擎會(huì)根據(jù)百度分詞規(guī)律首先展現(xiàn)搜索詞與索引庫(kù)里完全一致的詞。

0531-68961579

濟(jì)南網(wǎng)站優(yōu)化：深度剖析SEO搜索引擎工作原理

標(biāo)簽：唯一性，整個(gè)頁(yè)面第一重要。含關(guān)鍵詞，關(guān)鍵詞盡量靠前

標(biāo)簽：不唯一性，第二重要性。

中可加其它的屬性屬性：只能用于，意在告訴蜘蛛圖片的解釋

聯(lián)系我們

關(guān)于我們

我們的服務(wù)

人才招聘

0531-68961579

濟(jì)南網(wǎng)站優(yōu)化：深度剖析SEO搜索引擎工作原理

標(biāo)簽：唯一性，整個(gè)頁(yè)面第一重要。含關(guān)鍵詞，關(guān)鍵詞盡量靠前

標(biāo)簽：不唯一性，第二重要性。

中可加其它的屬性屬性：只能用于，意在告訴蜘蛛圖片的解釋

聯(lián)系我們

關(guān)于我們

我們的服務(wù)

人才招聘

標(biāo)簽：唯一性，整個(gè)頁(yè)面第一重要。含關(guān)鍵詞，關(guān)鍵詞盡量靠前

中可加其它的屬性屬性：只能用于，意在告訴蜘蛛圖片的解釋