123,123

關(guān)于向量空間模型java，向量空間模型這個問題很多朋友還不知道，今天小六來為大家解答以上的問題，現(xiàn)在讓我們一起來看看吧！

1、VSM概念簡單，把對文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算，并且它以空間上的相似度表達(dá)語義的相似度，直觀易懂。

2、當(dāng)文檔被表示為文檔空間的向量，就可以通過計算向量之間的相似性來度量文檔間的相似性。

3、文本處理中最常用的相似性度量方式是余弦距離。

4、M個無序特征項(xiàng)ti，詞根/詞/短語/其他每個文檔dj可以用特征項(xiàng)向量來表示（a1j,a2j，…，aMj）權(quán)重計算，N個訓(xùn)練文檔AM*N= (aij) 文檔相似度比較1）Cosine計算，余弦計算的好處是，正好是一個介于0到1的數(shù)，如果向量一致就是1，如果正交就是0，符合相似度百分比的特性,余弦的計算方法為，向量內(nèi)積/各個向量的模的乘積.2）內(nèi)積計算，直接計算內(nèi)積，計算強(qiáng)度低，但是誤差大。

5、向量空間模型（或詞組向量模型) 是一個應(yīng)用于信息過濾，信息擷取，索引以及評估相關(guān)性的代數(shù)模型。

6、SMART是首個使用這個模型的信息檢索系統(tǒng)。

7、文件（語料）被視為索引詞（關(guān)鍵詞）形成的多次元向量空間，索引詞的集合通常為文件中至少出現(xiàn)過一次的詞組。

8、搜尋時，輸入的檢索詞也被轉(zhuǎn)換成類似于文件的向量，這個模型假設(shè)，文件和搜尋詞的相關(guān)程度，可以經(jīng)由比較每個文件(向量）和檢索詞（向量）的夾角偏差程度而得知。

9、實(shí)際上，計算夾角向量之間的余弦比直接計算夾角容易：余弦為零表示檢索詞向量垂直于文件向量，即沒有符合，也就是說該文件不含此檢索詞。

10、通過上述的向量空間模型，文本數(shù)據(jù)就轉(zhuǎn)換成了計算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù)，兩個文檔之間的相似性問題轉(zhuǎn)變成了兩個向量之間的相似性問題。

本文分享完畢，希望對大家有所幫助。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

向量空間模型java（向量空間模型）

猜你喜歡

最新文章