国产精品嫩草在线观看高潮一区二区a∨, 高清欧美一区二区三区中文字幕精品视频, 综合欧美日韩一区二区国产精品免费视频, 国产91中文综合字幕日韩免费2023,中国老肥熟女,日本边做边吃奶的av无码,日韩人妻揉捏嗯视频,nanana在线观看视频免费,亚洲色熟女图激情另类图区

品牌知名度調研問卷>>

搜索引擎的基本結構 搜索引擎的主要模塊及功能

本文章由注冊用戶 知識雜談 上傳提供 評論 發(fā)布 糾錯/刪除 版權聲明 0
摘要:搜索引擎是將與用戶檢索內容相關的信息展示給用戶的系統(tǒng),是一項檢索服務,是根據一定的策略,用特定的計算機程序,從網上搜集、整理信息并呈現(xiàn)給用戶。搜索引擎技術的核心模塊一般包括爬蟲、索引、檢索和排序等,同時可添加其他一系列輔助模塊,以為用戶創(chuàng)造更好的網絡使用環(huán)境。下面來了解下搜索引擎的基本結構及模塊功能。

一、搜索引擎的基本結構

搜索引擎基本結構一般包括:搜索器、索引器、檢索器、用戶接口等四個功能模塊。

1、搜索器

搜索器也叫網絡蜘蛛,是搜索引擎用來爬行和抓取網頁的一個自動程序,在系統(tǒng)后臺不停歇地在互聯(lián)網各個節(jié)點爬行,在爬行過程中盡可能快的發(fā)現(xiàn)和抓取網頁。

2、索引器

它的主要功能是理解搜索器所采集的網頁信息,并從中抽取索引項。

3、檢索器

其功能是快速查找文檔,進行文檔與查詢的相關度評價,對要輸出的結果進行排序。

4、用戶接口

它為用戶提供可視化的查詢輸入和結果輸出的界面。

二、搜索引擎的主要模塊及功能

1、爬蟲:從互聯(lián)網爬取原始網頁數(shù)據,存儲于文檔知識庫服務器。

2、文檔知識庫服務器:存儲原始網頁數(shù)據,通常是分布式Key-Value數(shù)據庫,能根據URL/UID快速獲取網頁內容。

3、索引:讀取原始網頁數(shù)據,解析網頁,抽取有效字段,生成索引數(shù)據。索引數(shù)據的生成方式通常是增量的,分塊/分片的,并會進行索引合并、優(yōu)化和刪除。生成的索引數(shù)據通常包括:字典數(shù)據、倒排表、正排表、文檔屬性等。生成的索引存儲于索引服務器。

4、索引服務器:存儲索引數(shù)據,主要是倒排表,通常是分塊、分片存儲,并支持增量更新和刪除。數(shù)據內容量非常大時,還根據類別、主題、時間、網頁質量劃分數(shù)據分區(qū)和分布,更好地服務在線查詢。

5、檢索:讀取倒排表索引,響應前端查詢請求,返回相關文檔列表數(shù)據。

6、排序:對檢索器返回的文檔列表進行排序,基于文檔和查詢的相關性、文檔的鏈接權重等屬性。

7、鏈接分析:收集各網頁的鏈接數(shù)據和錨文本(Anchor Text),以此計算各網頁鏈接評分,最終會作為網頁屬性參與返回結果排序。

8、網頁去重:提取各網頁的相關特征屬性,計算相似網頁組,提供離線索引和在線查詢的去重服務。

9、網頁反垃圾:收集各網頁和網站歷史信息,提取垃圾網頁特征,從而對在線索引中的網頁進行判定,去除垃圾網頁。

10、查詢分析:分析用戶查詢,生成結構化查詢請求,指派到相應的類別、主題數(shù)據服務器進行查詢。

11、頁面描述/摘要:為檢索和排序完成的網頁列表提供相應的描述和摘要。

12、前端:接受用戶請求,分發(fā)至相應服務器,返回查詢結果。

網站提醒和聲明
本站為注冊用戶提供信息存儲空間服務,非“MAIGOO編輯”、“MAIGOO榜單研究員”、“MAIGOO文章編輯員”上傳提供的文章/文字均是注冊用戶自主發(fā)布上傳,不代表本站觀點,版權歸原作者所有,如有侵權、虛假信息、錯誤信息或任何問題,請及時聯(lián)系我們,我們將在第一時間刪除或更正。 申請刪除>> 糾錯>> 投訴侵權>> 網頁上相關信息的知識產權歸網站方所有(包括但不限于文字、圖片、圖表、著作權、商標權、為用戶提供的商業(yè)信息等),非經許可不得抄襲或使用。
提交說明: 快速提交發(fā)布>> 查看提交幫助>> 注冊登錄>>
最新評論
相關推薦
全國網絡信息協(xié)會名錄 中國網絡協(xié)會一覽表
網絡行業(yè)協(xié)會圍繞政府的發(fā)展戰(zhàn)略和社會經濟需要,為企業(yè)服務,對我國網絡行業(yè)的發(fā)展起到了促進作用。那么中國網絡協(xié)會有哪些?中國網絡空間安全協(xié)會、北京網絡行業(yè)協(xié)會、深圳市網絡與信息安全行業(yè)協(xié)會等都是我國較大的網絡行業(yè)協(xié)會。下面小編為大家?guī)砹巳珖W絡信息協(xié)會名錄,一起來看看吧。
頭條極速版賺錢是真的嗎 今日頭條極速版賺錢方法是什么
頭條極速版賺錢是真的嗎?今日頭條極速版是今日頭條的輕量級版本,這款應用通過讓用戶閱讀新聞、觀看視頻、完成任務等方式賺取金幣,然后可以將金幣兌換成現(xiàn)金。下文為大家詳細介紹了今日頭條極速版賺錢方法等內容,趕緊來了解下吧。
網站推廣方法的方法有哪些 SEO核心技術
有了個人的網站或者企業(yè)網站就需要讓更多的人去訪問,那么就涉及到了網絡推廣,否則網站被訪問的幾率很小,那么網站也就失去了意義,那么怎么推廣網站讓網站會吸引更多人訪問呢?網站推廣方法的方法有哪些?如何實現(xiàn)SEO?下面就來一起了解一下吧。
什么是搜索引擎 搜索引擎的工作原理
在互聯(lián)網時代,我們應該都用過搜索引擎查詢過一些信息。說到搜索引擎,我們腦海里想到的無非就是百度、谷歌、搜狗等等。搜索引擎這個名字也許我們并不陌生,但至于什么是搜索引擎也許大家并不怎么了解。下面小編就來介紹搜索引擎的含義及搜索引擎的工作原理。
網站搜索記錄怎么消除 如何恢復刪掉的瀏覽器記錄
現(xiàn)在人人都有手機電腦,上網的頻率也越來越高,無論是工作還是生活我們都會在搜索網站上瀏覽一些網頁。很多人為了安全,會把瀏覽過的網頁信息刪除,不過也有一些人誤刪了重要網頁希望恢復,那么網站搜索記錄怎么消除?如何恢復刪掉的瀏覽器記錄?下面來了解下。