關于向量空間模型java,向量空間模型這個問題很多朋友還不知道,今天小六來為大家解答以上的問題,現(xiàn)在讓我們一起來看看吧!
1、VSM概念簡單,把對文本內容的處理簡化為向量空間中的向量運算,并且它以空間上的相似度表達語義的相似度,直觀易懂。
2、當文檔被表示為文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的相似性。
3、文本處理中最常用的相似性度量方式是余弦距離。
4、M個無序特征項ti,詞根/詞/短語/其他每個文檔dj可以用特征項向量來表示(a1j,a2j,…,aMj)權重計算,N個訓練文檔AM*N= (aij) 文檔相似度比較1)Cosine計算,余弦計算的好處是,正好是一個介于0到1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的計算方法為,向量內積/各個向量的模的乘積.2)內積計算,直接計算內積,計算強度低,但是誤差大。
5、向量空間模型 (或詞組向量模型) 是一個應用于信息過濾,信息擷取,索引 以及評估相關性的代數(shù)模型。
6、SMART是首個使用這個模型的信息檢索系統(tǒng)。
7、文件(語料)被視為索引詞(關鍵詞)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現(xiàn)過一次的詞組。
8、搜尋時,輸入的檢索詞也被轉換成類似于文件的向量,這個模型假設,文件和搜尋詞的相關程度,可以經(jīng)由比較每個文件(向量)和檢索詞(向量)的夾角偏差程度而得知。
9、實際上,計算夾角向量之間的余弦比直接計算夾角容易:余弦為零表示檢索詞向量垂直于文件向量,即沒有符合,也就是說該文件不含此檢索詞。
10、通過上述的向量空間模型,文本數(shù)據(jù)就轉換成了計算機可以處理的結構化數(shù)據(jù),兩個文檔之間的相似性問題轉變成了兩個向量之間的相似性問題。
本文分享完畢,希望對大家有所幫助。
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!