網(wǎng)站優(yōu)化 網(wǎng)絡(luò)推廣 全網(wǎng)營(yíng)銷(xiāo) 品牌營(yíng)銷(xiāo) 品牌維護(hù) 口碑提升 網(wǎng)站托管
網(wǎng)站優(yōu)化中信息收集模塊包括“蜘蛛控制”和“網(wǎng)絡(luò)蜘蛛”兩部分,“蜘蛛”這個(gè)稱(chēng)呼形象的描述出了信息收集模塊在網(wǎng)絡(luò)數(shù)據(jù)形成的“Web”上進(jìn)行信息獲取的功能??傮w而言,網(wǎng)絡(luò)蜘蛛從種子網(wǎng)頁(yè)出發(fā),通過(guò)反復(fù)下載網(wǎng)頁(yè)并從文檔中尋找未曾見(jiàn)過(guò)的URL,達(dá)到訪問(wèn)其他網(wǎng)頁(yè)得以遍歷Web的目的。而其工作策略一般則可以分為累積式抓取和增量式抓取兩種。
一、累積式抓取
1、網(wǎng)站優(yōu)化中蜘蛛累積式抓取是指從某一個(gè)時(shí)間點(diǎn)開(kāi)始,通過(guò)遍歷的方式抓取系統(tǒng)所能允許存儲(chǔ)和處理的所有網(wǎng)頁(yè)。在理想的軟硬件環(huán)境下,經(jīng)過(guò)足夠的運(yùn)行時(shí)間,累積式抓取的策略可以保證抓取到相當(dāng)規(guī)模的網(wǎng)頁(yè)集合。
2、但在小編看來(lái)由于Web數(shù)據(jù)的動(dòng)態(tài)特性,集合中網(wǎng)頁(yè)的被抓取時(shí)間點(diǎn)是不同的,頁(yè)面被更新的情況也不同,因此累積式抓取到的網(wǎng)頁(yè)集合事實(shí)上并無(wú)法與真實(shí)環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。
二、增量式抓取
1、網(wǎng)站優(yōu)化的蜘蛛增量式抓取與累積式抓取不同,增量式抓取是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁(yè)面集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已有集合中的過(guò)時(shí)網(wǎng)頁(yè)進(jìn)行抓取,以保證所抓取到的數(shù)據(jù)與真實(shí)網(wǎng)絡(luò)數(shù)據(jù)足夠接近。
2、進(jìn)行增量式抓取的前提是,系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁(yè)面,并具有這些頁(yè)面被抓取的時(shí)間信息。面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)中,通常既包括累積式抓取,也包括增量式抓取的策略。
3、累積式抓取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段,而增量式抓取則主要針對(duì)數(shù)據(jù)集合的日常維護(hù)與即時(shí)更新。
4、在確定了抓取策略之后,如何從充分利用網(wǎng)絡(luò)帶寬,合理確定網(wǎng)頁(yè)數(shù)據(jù)更新的時(shí)間點(diǎn)就成了網(wǎng)絡(luò)蜘蛛運(yùn)行策略中的核心問(wèn)題。
總體而言,網(wǎng)站優(yōu)化在合理利用軟硬件資源進(jìn)行針對(duì)網(wǎng)絡(luò)數(shù)據(jù)的即時(shí)抓取方面,已經(jīng)形成了相對(duì)比較成熟的技術(shù)和實(shí)用性解決方案,小編覺(jué)得在這方面目前所需解決的主要問(wèn)題是如何更好的處理動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)問(wèn)題,以及更好的根據(jù)網(wǎng)頁(yè)質(zhì)量修正抓取策略的問(wèn)題。
全國(guó)服務(wù)熱線
15930012679