狠狠操网,91中文字幕在线观看,精品久久香蕉国产线看观看亚洲,亚洲haose在线观看

搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私

今天小編就為大家分享一篇搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。
二月初,珍妮·杰克遜(janet jackson)因?yàn)樽吖馐录仙秊閥ahoo搜索的人氣冠軍,其搜索請(qǐng)求達(dá)到總數(shù)的20%,創(chuàng)下了yahoo搜索關(guān)鍵詞的歷史最高記錄。這一數(shù)字是艷星paris hilton曾經(jīng)所創(chuàng)記錄的60倍,是歌星小甜甜布萊妮的80倍。
  互聯(lián)網(wǎng)上的搜索引擎已經(jīng)成為反映大眾趣味和關(guān)注焦點(diǎn)的最好工具,
也許比任何其他調(diào)查統(tǒng)計(jì)都更為真實(shí)。
  高頻詞與社會(huì)熱點(diǎn)
  縱觀歷史,熱門詞匯反映了短期內(nèi)大眾關(guān)注的焦點(diǎn),長(zhǎng)期來看可以連綴出世事的發(fā)展脈絡(luò)。美國(guó)康奈爾大學(xué)的研究人員jon kleinberg曾經(jīng)做過一項(xiàng)調(diào)查,通過統(tǒng)計(jì)1790年后每年的美國(guó)國(guó)情咨文的用詞,發(fā)現(xiàn)了不同歷史時(shí)期的熱門詞匯。例如美國(guó)獨(dú)立戰(zhàn)爭(zhēng)期間出現(xiàn)頻率最高的是“民兵”和“英軍”;而在1947年到1959年這段時(shí)間內(nèi),“原子彈”則被反復(fù)地提起

他們又好似火精靈為我們驅(qū)除黑暗。傍晚,大家聚在一起吃飯、聊天、看春晚,暢聊一宿。笑聲連綿不斷。


  如今,搜索引擎聲稱自己知道大眾心中的秘密。搜索引擎不只是被動(dòng)地答疑解惑;事實(shí)上,各大搜索引擎提供了包羅萬象的統(tǒng)計(jì)數(shù)據(jù),這些結(jié)果也許十分有趣。keinberg認(rèn)為:雖然計(jì)算機(jī)并不懂歷史,但是可以通過統(tǒng)計(jì)blog(網(wǎng)頁(yè)訪問記錄)、e-mail和網(wǎng)頁(yè)中的文本“學(xué)習(xí)”到相關(guān)的背景知識(shí),從而更好地理解搜索請(qǐng)求的含義。此外,這些統(tǒng)計(jì)數(shù)據(jù)還可以幫助社會(huì)學(xué)者和營(yíng)銷人員發(fā)現(xiàn)某些正在顯露出的大眾趨勢(shì),為他們的研究或者經(jīng)營(yíng)提供參考信息。
  在國(guó)內(nèi),搜索引擎甚至借助這種反映大眾趨向的能力,向更廣的商業(yè)領(lǐng)域主動(dòng)出擊。2004年2月12日,百度搜索和光線傳媒共同發(fā)布了“2003年全球華人明星人氣榜”。熱門詞匯周杰倫、《無間道》、《天龍八部》、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日,百度搜索還與胡潤(rùn)聯(lián)手發(fā)布了“2003中國(guó)大陸百富人氣榜”。
  但是,搜索引擎有時(shí)也會(huì)不知所措

等我從學(xué)校回來時(shí),看見有一只貓?jiān)谔梦輥G洋芋,觀賞著它好可愛,不喜歡小貓的我對(duì)它心生好感。

。比如嘗試使用google搜索哈姆雷特的名言“to be or not to be”,會(huì)發(fā)現(xiàn)google竟然答非所問,羅列在頁(yè)面上的是gnu’s not unix官方網(wǎng)站、hot or not交友網(wǎng)站……就是不見莎士比亞的影子。這個(gè)經(jīng)典的例子引出了搜索技術(shù)的一個(gè)術(shù)語(yǔ)—停止詞(stopword)。
  顧名思義,計(jì)算機(jī)的一切能力都是以計(jì)算為基礎(chǔ),即使閱讀也不例外。搜索引擎瀏覽分布在各個(gè)角落的網(wǎng)頁(yè)的同時(shí),還在后臺(tái)不停地統(tǒng)計(jì)詞語(yǔ)的出現(xiàn)頻率。有一些詞語(yǔ)出現(xiàn)率極高,帶來巨大的統(tǒng)計(jì)成本,卻不包含太多的具體意義,比如漢語(yǔ)的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結(jié)果,實(shí)在是過多了。例如遇到哈姆雷特名言中的那些高頻詞匯,經(jīng)常導(dǎo)致搜索“引擎”突然熄火,因此這些單詞得名“停止詞”。在google“閱讀”哈姆雷特的名言時(shí),遇到了四個(gè)停止詞,出于無奈,所以它只好對(duì)頻率最低的“not”進(jìn)行搜索,得到了一些有關(guān)“not”的流行網(wǎng)站。
  如果將此名言括上引號(hào),google便會(huì)突然開竅,順利地尋找到相關(guān)的網(wǎng)站

一下一下地鏟著冰,寒風(fēng)凜冽,憤怒地咆哮著,他那一張布滿麻子的國(guó)字臉凍得通紅,卻顯示出一種堅(jiān)毅,

。這一功能被稱作短語(yǔ)搜索(phrase search)。不過,比google更智能的是alltheweb,它已將這句名言列入搜索目錄,在結(jié)果頁(yè)面中直接提供了相關(guān)鏈接。
  搜索如何實(shí)現(xiàn)
  “已向英特網(wǎng)搜索gerald salton。共有 5,430 項(xiàng)查詢結(jié)果,這是第1~10項(xiàng)。搜索用時(shí)0.06秒!0.06秒,體現(xiàn)著以google為代表的搜索引擎的快捷和高效。這一切,又是如何實(shí)現(xiàn)的呢?
  通常情況下,一間機(jī)房只能擺放10臺(tái)服務(wù)器,但是google的機(jī)房?jī)?nèi)可以容納80臺(tái)服務(wù)器,因?yàn)樗鼈兌际遣鸬袅藱C(jī)殼和部分零件的裸機(jī)。larry page和sergey brin他們將機(jī)器的外殼拆掉,再卸下沒用的芯片和零件使整機(jī)體積縮小,而且容易維護(hù),當(dāng)然也節(jié)省了租用機(jī)房的花銷。google使用了超過一萬臺(tái)的服務(wù)器,并將其分散到五個(gè)不同地區(qū)的機(jī)房?jī)?nèi),用以應(yīng)付浩如煙海的網(wǎng)絡(luò)信息。
  為了對(duì)每一次搜索請(qǐng)求做出快速的反應(yīng),搜索引擎在前期下足了功夫。它們?cè)诤笈_(tái)不停地重復(fù)三步操作。第一步,搜索引擎會(huì)不斷的利用爬蟲(crawler)程序搜集互聯(lián)網(wǎng)上所有可達(dá)的網(wǎng)頁(yè),無論是公開的還是隱藏的—只要曾被訪問過,就會(huì)招致“爬蟲”上身。這樣,定期外出的“爬蟲”就為搜索引擎囤積起一個(gè)海量數(shù)據(jù)庫(kù)。由于“爬蟲”外出遵循一定的周期,有時(shí)可能跟不上網(wǎng)頁(yè)更新的速度,所以google的“網(wǎng)頁(yè)快照”會(huì)出現(xiàn)與目標(biāo)頁(yè)面不盡相同的情況。第二步,另一個(gè)程序會(huì)統(tǒng)計(jì)出緩存網(wǎng)頁(yè)(cached page)中各個(gè)字詞出現(xiàn)的頻率。第三步,根據(jù)詞頻概括出頁(yè)面的中心思想和段落大意,再按照不同的關(guān)鍵詞提煉出索引目錄。用戶的每一次搜索請(qǐng)求都是基于這些索引計(jì)算而得,因此響應(yīng)異常迅速。
  無論google的pagerank專利技術(shù),還是百度全球獨(dú)有的“超鏈分析”技術(shù),其大致想法都差不多:統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)被其它網(wǎng)頁(yè)鏈接指向的情況,次數(shù)越多則級(jí)別越高,排名也就越靠前。有的搜索引擎專家指出,搜索算法上usedrank比pagerank更為準(zhǔn)確

年度進(jìn)行總結(jié)評(píng)比考核,今年我支部各黨小組以集中學(xué)習(xí)和自學(xué)形式完成校黨委所要求的學(xué)習(xí)任務(wù),每位黨員都寫了讀后感,

。usedrank指的是根據(jù)用戶點(diǎn)擊搜索結(jié)果而再次做出的統(tǒng)計(jì)。有的頁(yè)面可能通過開始的計(jì)算被排在結(jié)果的第八頁(yè),但是通過查看每條鏈接的屬性,引擎可以將用戶點(diǎn)擊多而且瀏覽成功的頁(yè)面提到前面來。alltheweb、yahoo和百度等搜索引擎都老老實(shí)實(shí)地統(tǒng)計(jì)了每一次點(diǎn)擊,而google則非常直接,不做任何再次統(tǒng)計(jì)。
  很多服務(wù)網(wǎng)站認(rèn)同這樣一個(gè)觀點(diǎn),用戶是懶惰的。根據(jù)點(diǎn)擊情況做出的統(tǒng)計(jì),很多用戶一般只看完搜索結(jié)果的第一頁(yè),并不瀏覽后續(xù)頁(yè)面。因此一些網(wǎng)站把更多的搜索結(jié)果顯示在第一頁(yè)上,比如yahoo,它的“第一頁(yè)”有20項(xiàng)。而新浪則把“和盤托出”的服務(wù)形式發(fā)展到了登峰造極,在情人節(jié)當(dāng)天搜索“鮮花”,一下子就跳出了78個(gè)網(wǎng)站鏈接。但是google、alltheweb和百度等搜索引擎依然堅(jiān)持簡(jiǎn)潔的作風(fēng),每頁(yè)只顯示10條搜索結(jié)果。
  除了搜索算法的不同,各家搜索引擎也在細(xì)化服務(wù),推出了日趨豐富的搜索功能,比如大家鐘愛的google圖像搜索。其實(shí),alltheweb的圖像功能也十分優(yōu)秀,它還同時(shí)支持音頻、視頻以及下載站點(diǎn)的搜索

人類發(fā)展得太快了,海洋就快跟不上了,即使有很多人呼吁有節(jié)制地開發(fā)海洋,但總有貪心的人會(huì)去惡意地傷害海洋!”


  整合搜索引擎
  那么,用戶是否不得不逐一訪問每個(gè)搜索引擎以得到最好的搜索結(jié)果呢?也許不必。搜索整合技術(shù)可以一次性地提供盡可能多的信息。
  搜索整合(meta search)如果譯作“后搜索”,可能聽起來更時(shí)髦一些,不過這就無法體現(xiàn)其重新梳理搜索結(jié)果這一標(biāo)志性的功能。通常的搜索是從龐雜的網(wǎng)絡(luò)資源中按照某個(gè)線索分門別類的提取信息,而meta search則是在其他搜索引擎的發(fā)現(xiàn)結(jié)果之上進(jìn)行再加工,可謂是搜索的搜索。
  當(dāng)用戶向搜索整合引擎輸入關(guān)鍵詞之后,它即向若干個(gè)獨(dú)立工作的搜索引擎同時(shí)發(fā)送搜索請(qǐng)求,并從它們的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中檢索出所需的信息。搜索整合引擎沒有建立自己的網(wǎng)頁(yè)數(shù)據(jù)庫(kù),它的一切數(shù)據(jù)都來自其他的搜索引擎;所以,整合的結(jié)果也不會(huì)比其他任何一家搜索引擎的結(jié)果更好。但是,它可以將用戶從重復(fù)性勞動(dòng)中解放出來,同時(shí)提供更有條理的搜索結(jié)果—這也是meta search研發(fā)之初的理想。
  目前搜索整合引擎大致以兩種方式進(jìn)行工作。比較流行的做法是將搜索結(jié)果分析整合,刪除重復(fù)的條目,進(jìn)而針對(duì)主題實(shí)現(xiàn)聚類操作。這類網(wǎng)站中的佼佼者有vivisimo、metacrawler和dogpile等。另一類搜索整合網(wǎng)站面向治學(xué)嚴(yán)謹(jǐn)?shù)难芯空,如surfwax和copernic agent。它們提供關(guān)鍵詞的邏輯運(yùn)算功能,在提供大量搜索結(jié)果的同時(shí),協(xié)助用戶挖掘信息,從而做出更深入的專題研究。第二類網(wǎng)站相當(dāng)專業(yè),一般需要繳費(fèi),在普通用戶中并不流行。
  關(guān)于搜索引擎的數(shù)據(jù)
  ● 在互聯(lián)網(wǎng)的應(yīng)用排名中,搜索僅次于e-mail而位居第二;
  ● 人均每次輸入關(guān)鍵詞數(shù)量為1.3個(gè);
  ● 網(wǎng)頁(yè)上的高頻詞匯出現(xiàn)率約占總字?jǐn)?shù)的1/3,在實(shí)際搜索中幾乎不起作用;
  ● 使用搜索引擎高級(jí)功能的用戶低于0.5%,其中一部分是圖書館管理員。他們向讀者提供其無法搜索到的信息,利用的工具還是搜索引擎,不過是高級(jí)功能;
  ● 2003年,百度被7800萬中國(guó)網(wǎng)民使用了110億次,其中有近7億次搜索與華人明星有關(guān)。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 yyfangchan@163.com (舉報(bào)時(shí)請(qǐng)帶上具體的網(wǎng)址) 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除