基于領(lǐng)域知識的增強約束詞向量
摘要:詞向量是一種詞語的數(shù)字化的表達。基于神經(jīng)網(wǎng)絡(luò)模型,利用語料中詞語之間的上下文關(guān)系這一約束條件,通過大量訓(xùn)練得到詞向量。詞向量在表達詞的語義上的表現(xiàn)給人以無限的希望與想象空間,基于詞向量的文本分類、人機對話、智能檢索等得到了廣泛的研究。該文針對校園信息查詢的特定應(yīng)用,建立了所涉及詞語的分類本體,除了利用語料中詞語上下文關(guān)系外,還將本體知識作為約束條件進行詞向量的訓(xùn)練,增強了詞向量的語義表達。基于skip-gram模型,采用多任務(wù)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,在自己收集的語料上訓(xùn)練得到了針對領(lǐng)域的詞向量。實驗表明,基于領(lǐng)域知識的增強約束詞向量能夠更準(zhǔn)確地表達詞的語義信息。
注: 保護知識產(chǎn)權(quán),如需閱讀全文請聯(lián)系中文信息學(xué)報雜志社