湖北網(wǎng)頁設計www.juchi.cc 分段簽吅名算fǎ
這種算fǎ是按照一定的規(guī)則把網(wǎng)頁切成N段,對每一段進行簽吅名,形成每一段的信息指紋。如果這N個信息指紋里面有M個相同時(m是系統(tǒng)定義的闕值),則認為兩者是復制網(wǎng)頁。
這種算fǎ對于小規(guī)模的判斷復制網(wǎng)頁是很好的一種算fǎ,但是對于像Gооgle這樣海量的搜索引擎來說,算fǎ的復雜度相當高。把網(wǎng)站里面共同的部分如導航條、logo、版泉等信息(這些稱之為網(wǎng)頁的“噪音”)過濾掉后剩下的文本。
基于關鍵詞的復制網(wǎng)頁算fǎ
像Gооgle這類搜索引擎,他在抓取網(wǎng)頁的時候都會記下以下網(wǎng)頁信息:
1、網(wǎng)頁中吅出現(xiàn)的關鍵詞(中文分詞技術)以及每個關鍵詞的泉重(關鍵詞密度)。
2、提取meta
descrīption或者每個網(wǎng)頁的512個字節(jié)的有效文吅字。
關于第2點,baidu和Gооgle有所不同,Gооgle是提取你的meta
descrīption,如果沒有查詢關鍵字相關的512個字節(jié),而百度是直接提取后者。湖北網(wǎng)頁設計www.juchi.cc提醒這一點大家使用過的都有所體會。
關于我們 | 友情鏈接 | 網(wǎng)站地圖 | 聯(lián)系我們 | 最新產(chǎn)品
浙江民營企業(yè)網(wǎng) www.ahklwy.com 版權所有 2002-2010
浙ICP備11047537號-1