藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 計算機論文 > > 專利挖掘的途徑、技術方法及相關軟件
專利挖掘的途徑、技術方法及相關軟件
>2024-05-12 09:00:00



1 概述。

隨著經濟的發展和社會的進步,專利是技術信息的一種有效載體,它能夠切實反映技術的發展前景,進一步為國家科技和經濟的發展做出貢獻。相比較一般的信息,從專利中提取而來的信息更加。

所謂專利挖掘,其實就是指在產品技術研發中,對所取得的技術成果從技術和法律層面進行剖析、整理、拆分和篩選,從而進一步確定申請專利的技術創新點和技術方案。專利挖掘的目的可分為成果保護型和包圍攔截型。成果保護型是指將技術創新成果申請專利以進行法律化、權力化,有效保護企業的技術研發成果不被他人抄襲復制;包圍攔截型是指針對競爭對手的技術或產品路線進行研究,進而制定相應的專利挖掘規劃和技術研發策略,提前設置外圍專利,干擾和遏制競爭對手的專利策略。

專利挖掘作為一種對專利進行保護和深度研究的技術手段,在當今這個科技和經濟高速發展的時代具有其存在的重要意義和價值。通過專利挖掘,可以更加準確地了解企業技術創新成果的主要發明點,對專利申請文件設計,提升了專利申請的綜合質量;可以對技術創新成果進行全面、充分、有效的保護,梳理并掌握可能具有專利申請價值的各主要技術點,避免出現專利保護的漏洞;通過專利挖掘,可以培育鞏固企業自身的核心競爭力,也可以與競爭對手形成有效對抗甚至在相關技術要點上構成反制;能夠盡早發現競爭對手有威脅的重要專利,便于企業進行規避設計以規避專利風險。簡言之,對于企業而言,做好專利挖掘,有利于實現法律權利和商業收益最大化、專利侵權風險最小化的目標。文章將從專利挖掘的途徑、技術方法和現有軟件三方面分析我國專利挖掘的研究現狀,指出專利挖掘技術突破的難點,并預測專利挖掘未來的發展趨勢。

2 專利挖掘方法途徑。

從一般角度來說,專利挖掘主要可分為兩種:從項目任務出發和從某一創新點出發。專利挖掘的重要研究途徑便是從項目任務出發,該途徑從項目的任務出發,按找出完成任務的組成、分析各組成的技術要素、找出各技術要素的創新點、根據創新點總結技術方案的次序進行。

第二種途徑則是從某一創新點出發的方法來進行專利挖掘。與第一種方式不同,該途徑是從項目的某創新點出發,按找出該創新點的關聯因素、找出各關聯因素其他創新點、根據其他創新點總結技術方案的次序進行。

若按照以上兩種途徑完成挖掘,則會形成若干個大相徑庭的技術方案,在這些技術方案中,專利授權要求是最基本的特征,由此便能夠產生大量的專利申請素材,企業的專利部門可以依照以上兩種方法的鉆研所得出的結論并在此基礎上分析篩選,從而確定專利申請的主題。從整體上講,兩個挖掘途徑的出發點不同,因此使用者可以根據不同的出發點選擇使用。兩者可以單獨使用,也可以有取舍地聯合使用。

3 專利挖掘技術方法。

專利挖掘主要包括以下兩種技術:一種是分類技術;另一種是信息檢索技術。前者基于自然語言處理技術,而后者通常根據分類技術在專利挖掘中應用的頻率高及其重要性,這里主要介紹文本分類技術以及相關研究。

3.1 文本分類。

文本分類就是將未標注類別的文檔分到已定義好的類別中去的一種方法。文本分類系統從某種意義上講也是一種分類器--目的是實現對文檔標注類別信息,而文本分類系統通常也都是采用指導學習的方法進行構造。主要操作步驟是:(1)準備一部分標注了類別信息的訓練樣文章檔集合;(2)在若干訓練樣本的基礎中上,結合某種學習算法訓練分類模型的參數,即可得到文本分類系統;(3)用這個分類系統對新的文檔進行分類,從而進一步實現自動對未知樣本進行分類。[1]

文本分類的方法的發展歷程分為兩個階段:基于規則的文本分類、基于統計機器學習模型的文本分類[2].而基于統計機器學習模型的文本分類方法克服了基于規則系統的不足,不需人工操作,可以很快地適應各種應用,同時在分類效率和準確率上均有很大提高。

3.2 特征選取方法。

文本的特征選取的方法有很多例如文檔頻度 DF(DocumentFre-queney)、類別頻度 CF(ClassFrequeney)、信息增益(informationGain)等。[3]

文檔頻度的目的是根據某一個特征在語料中出現的頻數按照文本頻度的大小排序,根據某一個特定值,去掉頻率最低的詞,選取前 N 個特征詞。但是文檔頻度的假設前提是低頻詞沒有信息量。這種方法的優點有很多,例如:算法簡單、計算量小、易于實現以及減少了很多不必要的特征空間維數;而缺點也恰恰是也存在于這些被去掉的維數中可能存在一些低頻詞可能含有大量的信息,去掉會影響分類效果。

類別頻度的目的是根據某一個特征在語料中出現的頻度大小排序,從而設定文檔頻度的特定值,去掉頻率兩極端的特征詞。類別頻度的假設前提是大多數類別中都出現或只在個別類別中出現的詞含有的信息量很小。

信息增益是指計算特征含有的信息量和對預測樣本類別所能提供的信息量。它考慮了一個詞出現或不出現對類別提供的信息量差別,這種方法在分類任務中效果不錯,但計算量很大。

3.3 特征權重的計算方法。

特征權重計算是為文本特征詞賦予一定的權重,得到文本特征向量。常見的幾種特征選取的方法有:布爾權重、詞頻權重、tf×idf-權重、tfc-權重等。

3.4 分類器。

分類器有很多種,常用的有 KNN 分類器、最大嫡、支持向量機、貝葉斯等,他們的存在可以應用于大量文本分類問題,有助于提高工作效率。

4 專利挖掘軟件。

目前的我國專利挖掘軟件仍停留在統計分析和引用分析層面,國外部分軟件提供了少量的文本挖掘功能。深度專利挖掘仍需要借助文本挖掘軟件或利用 Java 語言自行編寫程序。這里對國內外現有的專利分析軟件進行對比分析,了解專利挖掘軟件現狀。專利分析軟件大都是集成系統,其功能涵蓋了專利檢索、專利下載、專利分析、專利管理以及軟件系統管理等。

目前,在中國也有很多專利分析軟件。主要有:PIAS 專利信息分析系統、東方靈盾中外專利檢索及戰略分析平臺、大為 PatentEX專利信息創新平臺、恒和頓 HIT-恒庫等等。在這其中 PIAS 專利信息分析系統是由國家知識產權局開發的,情報和信息相對比較可信和直觀;東方靈盾公司的分析軟件相比國內其它軟件,具有更加強大而個性化的檢索和分析功能;大為 PatentEX 和恒和頓系統都較為穩定。在統計分析和引用分析方面,國內軟件均較為成熟,專利地圖也制作的直觀且清晰,但深入挖掘功能不足。

國外的專利分析軟件起步較早,目前主要有:Derwent Analyt-ics、TDA、Aureka、VantagePoint、Patentlab - Ⅱ 、BizInt Smart Charts、STN AnaVist、Focust、Invention Machine.國外的軟件多是細節性地針對不同的需求應運而生,相對而言自動化程度高,功能也十分全面。

目前就中外專利分析軟件的比較而言,國內的專利分析軟件在數據庫的信息量、自動化的程度、數據挖掘的深度上都不如國外軟件發展地那么成熟,各個軟件的功能傾向性也沒有那么強,專利挖掘和專利地圖制作也以國外軟件較為領先,但國外專利軟件在文本挖掘應用方面也存在一些空白。我國專利分析軟件要有新的突破不僅要借鑒國外的方法技術,還需要進一步將文本挖掘技術應用到專利挖掘中,實現更深入的分析。

5 專利挖掘的難點。

5.1 專利普通詞匯識別。

專有名詞的檢測主要可以通過以下幾種方法進行:利用命名實體的內部規律,設計規則從而進行進一步識別;設計統計模型,利用人工標注語料庫進行參數訓練,然后把新詞識別的問題當作序列標記的問題進行解碼等方法。[4]

普通新詞,就是新涌現的詞匯,這種直接影響對專利理解的詞匯未被收錄到分詞詞典中,在進行專利檢索的過程中新詞識別會遇到以下幾個難點:(1)專有新名詞未被進行特殊標記,以歐美人名為例,大寫在檢索中更容易辨識,而中文姓名同文本一樣;(2)專有名詞有歧義理解。中文的人名和地名經常會分不清,比如咸陽、秦嶺等;(3)新詞組詞結構過于隨意,在檢索過程中無規律可循;(4)由于多音字或者斷句關系,新詞用字與上下文聯系干擾,例如,武漢市長江大橋。

5.2 生僻術語抽取識別。

關于術語抽取方面的研究大致可以歸納為三方面:一般抽取方法的研究、錯誤來源的分析以及糾正生僻術語。一般的專利術語抽取也就是從專利中提取出重要技術相關詞匯的過程。TsengYuenhsien 等短語抽取的方法相對而言比較簡單,主要是在依靠詞頻和單詞間的包含關系。[5]

在專利的術語抽取研究中,錯誤的抽取一般有兩部分構成,一部分是正確的抽取結果,一部分是錯誤的抽取結果的左邊界或者右邊界造成的干擾。術語抽取研究是制約專利挖掘領域發展的基礎,盡管近幾年專利領域的發展勢頭一直不錯,但是很多研究的方面仍有許多沒有攻破的難點。從某種意義上講,術語抽取的研究就是最為代表的難點之一。術語抽取研究的難點不僅僅在于工具難和技術難,更在于它需要有效的試驗措施進行驗證。

在這其中,構建標準答案的集合也是最重要以及最難的部分。目前看來,面向生僻術語識別的標準答案在術語抽取研究中很稀少,而現如今的專利發展已經不僅僅局限于大眾化的專利,相較于一般的術語,由于生僻術語作為一類特別的術語抽取的研究對象,其抽取難度會更大。最主要的原因是現有的高詞頻統計之中,很多噪聲會在處理低詞頻的候選生僻術語時引入。這在一定程度上講對相關研究的一般的文本挖掘研究的規范會有一定的影響,也會成為制約該領域發展的主要問題。

6 結束語。

文章介紹目前專利挖掘的現狀,主要包括思路與途徑、方法技術和分析軟件的介紹以及技術難點剖析。文章在提出專利挖掘途徑形成的流程圖基礎上,并沒有按照常規的數據挖掘與文本挖掘兩條縱線進行展開,而是重點介紹了較難的文本挖掘技術,分析出專利挖掘的難點。當然,經過這些分析與總結,發現現階段的專利挖掘技術雖然已經取得一定成果,形成了一些通用的專利軟件,但是在文本信息處理特別是詞匯識別方面仍存在很大漏洞,一部分是因為中文本身的特點,同一個字表示的意思豐富;一部分是當今世界都在面臨的問題,生僻術語的統計還沒有形成體系,許多問題還需要進一步解決,但是隨著研究的深入與實用化,專利挖掘將能夠更好的發現專利信息中隱含的技術知識,推動科技創新。

參考文獻。

[1]陳文亮。面向文本分類的文本特征學習技術研究[D].東北大學,2005.

[2]王會珍。文本內容分類和主題追蹤關鍵技術研究[D].東北大學,2008.

[3]陳文亮。面向文本分類的文本特征學習技術研究[D].東北大學,2005.

[4]劉曉東。劉大有。數據挖掘專利綜述電子學報[J].2003,12(12A)。

[5]屈鵬。國內外專利挖掘研究(2005-2014)綜述[J].圖書情報工作,2014,20(58):131-137.

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观