1. 引言
汽車服務電子商務業務不斷發展,汽車零部件等服務資源等都是由不同廠商提供,然而不同廠商對同一資源的描述存在差異,比如 “空氣格”、“空氣濾清器”指的是同一個東西,在汽車服務電子商務資源目錄和內容存在的大量類似的語義相似和相關問題,造成了識別汽車服務電子商務資源目錄和內容中術語間的關聯關系的困難。
目前電子商務推薦技術種類繁雜,然而在汽車服務電子商務服務資源語義推薦上的研究并不多,縱觀國內外語義詞典方面的研究,國際通用語義詞典 WordNet 雖然提供大量的術語語義關系,也提供相應的語義查詢接口,但是它只支持英文詞匯的語義計算,無法支持中文環境下的計算; 國內知網開發 HowNet 中文語言知識庫,雖然支持中文術語的語義關系查詢,但并未收錄汽車服務電子商務中的相關術語及詞匯,并且不具有擴展性和提供接口,所以無法適應中文環境下面向汽車服務電子商務的語義計算。
因此,利用 Eclipse RCP 技術,設計并開發汽車服務電子商務語義詞典系統,簡稱 CSEC \\( Car Service Electronic Commerce\\) 語義詞典,并將其應用于汽車服務電子商務服務資源檢索與推薦,為其提供語義查詢和語義匹配接口,以提高檢索與推薦的深度、規模和精度。
2. 汽車服務電子商務語義詞典的設計
2. 1 詞典語義關系類型
鑒于 Wordnet 的應用廣泛性和國際影響力,而且是以同義詞集合\\( synset\\) 作為基本建構單位進行組織的,符合解決數據異構表達問題的求解,因此 CSEC 語義詞典設計了類似 Wordnet 的詞庫結構。而詞典所收錄詞匯包括汽車服務電子商務領域資源專業名稱、定義、功能、屬性等,CSEC 語義詞典概念詞性均為名詞。
CSEC 語義詞典中語義關系類型有上下位關系、屬性關系、同義詞關系和整體部分關系,而上下位關系作為最基本語義類型,包括上位詞匯和下位詞匯,構成了整個詞典的樹形結構; 屬性關系指的是描述一個零部件術語的名稱、尺寸、顏色等信息; 同義關系指該零部件術語的同義詞; 整體部分指的是該零部件由那些子部件組成。
2. 2 詞典詞匯獲取方法
CSEC 語義詞典現收錄汽車售后零件資源目錄概念 10200 個,其中概念詞匯及其關系的獲取主要利用火車頭采集器軟件,從各種汽車零部件網站,如汽車零部件門戶網、中國汽車配件網和慧聰汽配網 \\(等進行抓取,輔以人工梳理到 Excel 的構建方法,然后映射成數據庫模式,實現了 CSEC 語義詞典的樹狀結構。
2. 3 詞典的語義相似度計算
語義相似度是指詞的可替換度和詞義的符合程度,CSEC 語義詞典語義相似度計算采取 Wu - Palmer 算法
其中,sim \\( c1,c2\\) 是表示概念 c1和概念 c2的語義相似度,lso\\( c1,c2\\) 的概念 c1和 c2最近共有祖先,depth \\( c\\) 是指概念 c 的深度。
3 汽車服務電子商務語義詞典的實現
CSEC 語義詞典系統采用 Java 語言開發,采用 C / S 架構設計,利用Eclipse RCP 技術開發,相關的環境如表 1 所示。
如圖 1 所示,該系統由三個模塊組成,即語義詞典編纂模塊、語義詞典管理模塊和語義詞典查詢模塊。
CSEC 語義詞典系統主要分為三個功能模塊,\\( 1\\) 詞典管理模塊是面向開發人員,為建立基本的詞典結構提供,包括導入詞庫文件功能;\\( 2\\) 詞典編纂模塊是為詞典編纂人員或詞匯錄入人員準備,提供了語義關系的編纂、詞匯的增刪改; \\( 3\\) 語義詞典查詢模塊,面向詞典使用人員,提供可視化的詞匯語義查詢工具,可方便查詢詞匯的語義關系和語義相似度。
3. 結論及展望
本文針對汽車服務零部件術語間關聯關系識別困難的問題,設計了語義詞典的方法予以解決,并且研究了語義詞典的結構設計、詞匯獲取方法、語義相似度算法和詞典的實現手段等方面內容,而且開發了這個語義詞典,形成了一個汽車服務電子商務領域的語料庫,里面的總詞匯現有 1 萬多條詞匯,各詞匯按照這四種語義關系形成一個結構清晰、層次分明的語義樹。這樣在進行商品搜索時,就可以準確地將所有這類商品搜索出來,這會極大地提高企業的交易機會,為電子商務銷售渠道的拓展發揮重要的作用。\\( 作者單位: 新奇特車業服務股份有限公司\\)基金項目: 國家科技支撐計劃項目 “汽車維修及配件電子商務平臺研發及示范應用”\\( 2013BAH13F01\\) 。
參考文獻
[1] Hongzhe Liu,Hong Bao,De Xu,Concept vector for semantic similari-ty and relatedness based on WordNet Structure [J]. The Journal ofSystems and Software,2012,85: 370 - 381.
[2] 邊振興,WordNet 中概念語義相似度 IC 參數模型研究 [J]. 計算機工程與應用. 2011,47 \\( 19\\) : 128 -131.
[3] 曾淑琴,吳揚揚. 基于 HowNet 的詞語相關度計算模型 [J]. 微型機與應用. 2012. 31 \\( 8\\) : 77 - 80.