百度搜索：從文本檢索到人工智能

互聯(lián)網(wǎng)時(shí)間： 2023-06-16 15:14:22

現(xiàn)在，在使用搜索引擎時(shí)，你可能不只會(huì)用幾個(gè)關(guān)鍵詞，還會(huì)直接輸入你想問的問題。但其實(shí)早期的搜索引擎采用的是文本檢索的方式，只能做到用戶查詢關(guān)鍵詞和網(wǎng)頁(yè)文本內(nèi)容的匹配。

可想而知，雖然這樣的方式也能把不同網(wǎng)頁(yè)的關(guān)聯(lián)度進(jìn)行排序，但總體的搜索質(zhì)量是比較差的。

而實(shí)際上，網(wǎng)頁(yè)之間有著豐富的鏈接關(guān)系，就像高引論文往往本身質(zhì)量更高，高質(zhì)量的網(wǎng)頁(yè)通常也會(huì)被更多的網(wǎng)頁(yè)鏈接。

為了進(jìn)一步挖掘和利用這種鏈接信息，1996年，李彥宏開發(fā)了Rankdex，即超鏈分析算法。這是世界上首個(gè)使用超鏈接來衡量網(wǎng)站質(zhì)量的搜索引擎。

也就是說，搜索引擎在收到一個(gè)用戶查詢之后，不僅僅會(huì)去匹配網(wǎng)頁(yè)的內(nèi)容，還會(huì)看看其他網(wǎng)頁(yè)對(duì)這個(gè)頁(yè)面的“評(píng)價(jià)”。

在此之后，谷歌也提出并使用了類似的PageRank技術(shù)，并大獲成功。

超鏈分析算法，可以說是當(dāng)今每個(gè)主要搜索引擎排名算法的基礎(chǔ)。值得一提的是，在谷歌創(chuàng)始人拉里·佩奇的第一項(xiàng)網(wǎng)頁(yè)排名專利申請(qǐng)中，也引用了Rankdex。

如果說早期的搜索技術(shù)門檻不算高，從超鏈分析這個(gè)階段開始，一些今天大家伙普遍依賴的搜索引擎，就開始一騎絕塵，拉開差距了，比如谷歌，比如百度。

并且這些做搜索引擎起家的公司，如今也都成為了人工智能領(lǐng)域的先行者。

而事實(shí)上，甚至在人工智能未成顯學(xué)之時(shí)，為了讓搜索結(jié)果更快、更精準(zhǔn)、更個(gè)性化，搜索領(lǐng)域的巨頭們就已經(jīng)著手將機(jī)器學(xué)習(xí)的方法引入到搜索引擎中。

谷歌就在2016年上線了基于反向傳播技術(shù)的RankBrain算法。該算法可以基于語(yǔ)義分析和詞庫(kù)聯(lián)想，幫助用戶更快地搜索冷門的搜索結(jié)果。

而如今在NLP領(lǐng)域大火的BERT，也已被部署到谷歌搜索當(dāng)中。有了預(yù)訓(xùn)練語(yǔ)言模型的加持，即使你輸入的是一大段文字，搜索引擎也能夠get到你想查什么。

根據(jù)谷歌的數(shù)據(jù)，BERT的引入為至少10%的搜索結(jié)果帶來了改善。

國(guó)內(nèi)，百度同樣是最早投入人工智能技術(shù)研發(fā)的科技公司，在2010年就成立了單獨(dú)的NLP部門。

以搜索引擎技術(shù)為核心，在過去十余年中，百度演化出了語(yǔ)音、圖像、知識(shí)圖譜、自然語(yǔ)言處理等人工智能技術(shù)。這些長(zhǎng)期的技術(shù)積累，甚至在今天進(jìn)一步拓展到了自動(dòng)駕駛、AI芯片等領(lǐng)域。

這也是為什么，在今天，搜索引擎不僅僅能按照你輸入的文字進(jìn)行搜索，甚至直接給一張圖、一段音樂，AI也能理解你想要獲取怎樣的信息。

本文標(biāo)題：百度搜索：從文本檢索到人工智能

本文地址： http://www.connecteducations.com/brand/news-3becf42cc.html

內(nèi)容均來源于網(wǎng)絡(luò)，錯(cuò)誤糾正或刪除請(qǐng)發(fā)郵件，收件郵箱kefu@huangye88.com

熱門分類

人工智能搜索引擎虛擬現(xiàn)實(shí) 汽車芯片手機(jī)