#本文僅代表作者觀點(diǎn),不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#
“基于專利關(guān)聯(lián)度分析的專利地圖有其特定價(jià)值,專利分析不是固定的模板,不是固定的標(biāo)準(zhǔn),通過方法改進(jìn)結(jié)論是一個(gè)有趣的過程。”
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:閆文龍
段曉玲 蘇州京昀知識(shí)產(chǎn)權(quán)代理事務(wù)所
PART 01
背景
“專利地圖”是將多件專利投射到二維空間的形象名稱,每件專利在二維空間的絕對(duì)坐標(biāo)可以不具有實(shí)際含義,但彼此之間的位置關(guān)系應(yīng)該與專利之間的關(guān)系特征存在關(guān)聯(lián)。因此作者認(rèn)為按照一維方向展開的柱狀圖、二維方向展開的氣泡圖、以及具有時(shí)間序列屬性的趨勢圖,甚至將地區(qū)申請(qǐng)量投射到世界地圖的地區(qū)熱力圖不符合上述“專利地圖”的定義。
目前為止,專利與二維空間的映射主要基于專利之間的關(guān)聯(lián)度信息創(chuàng)建,專利之間的距離是專利之間關(guān)聯(lián)度的函數(shù)。專利在二維空間中形成具有不同密度的區(qū)域分布,一個(gè)區(qū)域內(nèi)的專利可以具有相同的技術(shù)主題,不同區(qū)域的專利密度表征技術(shù)熱度。技術(shù)主題可以通過人工概括或利用算法抽取的方式得到。
基于專利關(guān)聯(lián)度的專利地圖相對(duì)于傳統(tǒng)的柱狀圖實(shí)現(xiàn)存在如下挑戰(zhàn):
a.實(shí)現(xiàn)更復(fù)雜。
b.通常需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,實(shí)現(xiàn)過程中還需根據(jù)技術(shù)領(lǐng)域進(jìn)行人工干預(yù)。
c.需要熟悉數(shù)據(jù)挖掘技術(shù)和工具。
d.了解專利數(shù)據(jù)與科技文獻(xiàn)、文學(xué)作品之間的差異,及其對(duì)數(shù)據(jù)挖掘技術(shù)造成的影響。
盡管如此,基于專利關(guān)聯(lián)度的專利地圖仍具有其他分析方法所無法比擬的優(yōu)勢:
a.從多維度展現(xiàn)專利之間的關(guān)系。
基于柱狀圖的分析需要對(duì)專利進(jìn)行一維歸類,本質(zhì)相當(dāng)于將每個(gè)專利放入對(duì)應(yīng)的封閉抽屜,一旦放入就再無法體現(xiàn)抽屜之間的關(guān)聯(lián)。
例如柱狀圖中橫坐標(biāo)軸可以采用技術(shù)環(huán)節(jié)分類展開,如器件類,量測標(biāo)定,軟件算法,驅(qū)動(dòng)電路等,不同的分類之間的關(guān)聯(lián)被完全忽略。而在產(chǎn)品研發(fā)過程中,針對(duì)同一問題會(huì)有多個(gè)環(huán)節(jié)的部門共同參與討論,確認(rèn)問題可能的原因有哪些,通常情況下,問題可能是多個(gè)環(huán)節(jié)共同作用的結(jié)果,例如需要器件方面、量測標(biāo)定方面、軟件算法方面、驅(qū)動(dòng)電路方面分別做出各自的改進(jìn),才能使得問題得到徹底解決。相應(yīng)輸出的專利中,同一個(gè)技術(shù)問題往往具有不同技術(shù)環(huán)節(jié)的專利方案。這類相關(guān)性信息無法通過柱狀圖體現(xiàn)。
當(dāng)然二維氣泡圖可以實(shí)現(xiàn)兩個(gè)維度(如技術(shù)環(huán)節(jié)和技術(shù)問題)交叉點(diǎn)上的專利數(shù)量統(tǒng)計(jì),但無法進(jìn)一步展開交叉點(diǎn)氣泡內(nèi)的專利之間的關(guān)聯(lián)度和差異大小,因此其結(jié)果仍然是相對(duì)粗糙的。
b.作為統(tǒng)計(jì)圖表和專利全文展示之間的過渡
目前我們所熟知的專利分析框架中,第一部分是專利宏觀分析,包含趨勢、技術(shù)、主體類的分析,分析類型包括時(shí)間序列分析(如申請(qǐng)趨勢)、類別比較分析(如技術(shù)分布柱狀圖/雷達(dá)圖/餅狀圖、專利申請(qǐng)主體和發(fā)明人主體柱狀圖)、地理空間分析(如世界各區(qū)域?qū)@暾?qǐng)熱力圖、同一國家內(nèi)各區(qū)域申請(qǐng)熱力圖)、層次關(guān)系分析(如技術(shù)分類魚骨圖/樹狀圖/旭日?qǐng)D)。這部分的特點(diǎn)是“宏觀”,如果宏觀結(jié)論是已知的,又或者宏觀結(jié)論受外在環(huán)境影響而與實(shí)際產(chǎn)業(yè)發(fā)展情況不符,都會(huì)影響其實(shí)際價(jià)值,但這一部分在數(shù)據(jù)處理和標(biāo)引所投入的時(shí)間和人力成本往往是最大的,為此需要進(jìn)一步挖掘宏觀分析輸出數(shù)據(jù)的利用價(jià)值。
第二部分是微觀分析,涉及選取至少一個(gè)子主題、篩選業(yè)界關(guān)鍵/基礎(chǔ)專利或使用對(duì)象更關(guān)注的專利作為數(shù)據(jù)集,進(jìn)行第二輪精細(xì)閱讀和分析。微觀分析是聚焦思想、和分階段項(xiàng)目推進(jìn)理念的體現(xiàn),也是有限時(shí)間預(yù)算內(nèi)輸出可用結(jié)論的現(xiàn)實(shí)選擇。這一部分的輸出盡管有技術(shù)路線圖等圖表的輔助,但最終仍然無法省略對(duì)專利全文或部分實(shí)現(xiàn)細(xì)節(jié)的展示。實(shí)際上,微觀分析目前證明切實(shí)有用的部分仍然是“展示全文”。
由此可見,宏觀分析和微觀分析在分析方法、結(jié)論、和展現(xiàn)形式方面存在巨大的差別,二者能夠被讀懂的對(duì)象群體完全不同,前者偏向技術(shù)管理人員,后者傾向技術(shù)實(shí)現(xiàn)人員。產(chǎn)品的成功離不開管理和實(shí)現(xiàn)的密切配合和相互了解,相應(yīng)地,專利分析報(bào)告中的宏觀分析和微觀分析應(yīng)該力求可以讓兩類人群都感興趣。專利關(guān)聯(lián)度分析的專利地圖可以在宏觀分析和微觀分析之間架起一座橋梁,讓報(bào)告使用者更容易理解報(bào)告的全部內(nèi)容。
PART 02
專利關(guān)聯(lián)度模型
本文采用的專利關(guān)聯(lián)度模型分為三類:
1.基于多維分類的專利關(guān)聯(lián)度模型;
2.基于文本的專利關(guān)聯(lián)度模型;
3.將1和2疊加的專利關(guān)聯(lián)度模型。
PART 03
基于多維分類的專利關(guān)聯(lián)度模型
在沒有文本挖掘技術(shù)基礎(chǔ),或者沒有高質(zhì)量專利文本數(shù)據(jù)的情況下,基于多維分類的專利關(guān)聯(lián)度模型是一個(gè)不錯(cuò)的選擇,其與目前的“宏觀分析”工作相兼容,幾乎無需額外數(shù)據(jù)加工工作,并且當(dāng)多維分類標(biāo)引由人工給出時(shí),基于其進(jìn)行計(jì)算的專利關(guān)聯(lián)度結(jié)果準(zhǔn)確性也更高。
這里定義基于多維分類的專利關(guān)聯(lián)度Sc如下式
(公式1)
ki為第i個(gè)維度近似度占總的專利關(guān)聯(lián)度Sc的權(quán)重系數(shù),Si為專利之間在第i個(gè)維度上的近似度,由專利之間在第i個(gè)維度的分類計(jì)算得出 。
以下圖示出的分類框架為例,每件專利至少從四個(gè)維度進(jìn)行分類,包括技術(shù)領(lǐng)域,技術(shù)分類,技術(shù)問題和技術(shù)環(huán)節(jié)等。每個(gè)維度進(jìn)一步以樹形結(jié)構(gòu)形成相應(yīng)的分類結(jié)構(gòu)。對(duì)每件專利進(jìn)行分類的策略是:盡量分到樹形結(jié)構(gòu)中靠近葉子節(jié)點(diǎn)對(duì)應(yīng)的類別,除非專利涵蓋多個(gè)節(jié)點(diǎn)對(duì)應(yīng)的類別,這時(shí)可以賦予對(duì)應(yīng)的多個(gè)分類,也可以賦予其共同的父節(jié)點(diǎn)對(duì)應(yīng)的分類,例如一件專利的技術(shù)方案同時(shí)適用于快門式眼鏡和偏振眼鏡式3D產(chǎn)品,則可以將其技術(shù)分類賦予父節(jié)點(diǎn)對(duì)應(yīng)的分類“眼鏡式3D”。
接下來將分類框架中的描述型文字轉(zhuǎn)換為代碼類型的標(biāo)識(shí),以方便后續(xù)定量計(jì)算。
如下圖所示,將四個(gè)分類維度對(duì)應(yīng)的代碼分別為F,T,P和S。每個(gè)維度下的樹形分類結(jié)構(gòu)的描述型文字及其對(duì)應(yīng)的代碼如每個(gè)方框中的第一行和第二行文本所示。例如領(lǐng)域A1對(duì)應(yīng)分類代碼F11。分類代碼的格式應(yīng)與其樹形分類框架存在對(duì)應(yīng)。如本文中的分類代碼通過字符串中從左到右逐位表示各層的分類標(biāo)識(shí)。例如F111對(duì)應(yīng)技術(shù)領(lǐng)域的第三層節(jié)點(diǎn),其是第二層節(jié)點(diǎn)F11的一個(gè)子節(jié)點(diǎn),而節(jié)點(diǎn)F11又是第一層節(jié)點(diǎn)F1的一個(gè)子節(jié)點(diǎn),F(xiàn)11和F12是兄弟節(jié)點(diǎn)。
下面確定節(jié)點(diǎn)之間的近似度計(jì)算方法,即基于分類結(jié)果確定兩兩專利在每個(gè)維度上的近似度。
本文中定義同一維度內(nèi)節(jié)點(diǎn)之間近似度為:(節(jié)點(diǎn)向上最近的共同父節(jié)點(diǎn)所在的層數(shù))/(兩個(gè)節(jié)點(diǎn)所在層數(shù)的最大值)。
例如領(lǐng)域A11和領(lǐng)域A2節(jié)點(diǎn)之間的近似度可以定義為:2/3。本文將分類代碼的每一位含義定義為分類框架樹形結(jié)構(gòu)完全對(duì)應(yīng),因此可以通過字符串逐位比對(duì),計(jì)算上述近似度,以簡化實(shí)現(xiàn)邏輯。
簡化后的近似度計(jì)算公式為:(兩個(gè)節(jié)點(diǎn)代碼之間從左側(cè)第一位字符開始連續(xù)匹配的數(shù)量)/(兩個(gè)節(jié)點(diǎn)代碼長度的最大值)。
示例如下圖所示,左側(cè)的專利在四個(gè)維度的分類代碼分別為F111,T11,P1和S1,右側(cè)的專利在四個(gè)維度的分類代碼分別為F12,T12,P1和S2。需要說明的是,分類代碼中的第一位表示僅用于提示的維度信息,計(jì)算近似度時(shí)應(yīng)忽略。由此不斷得出,左右兩個(gè)專利在F代表的維度的近似度=1/3,在T代表的維度的近似度=1/2,在P代表的維度的近似度=1/1,在S代表的維度的近似度=0/1。
通過上述過程確定各個(gè)維度的近似度后,可以代入公式1計(jì)算兩兩專利之間總的關(guān)聯(lián)度Sc。
當(dāng)一件專利在同一個(gè)維度賦予多個(gè)分類時(shí),兩兩專利之間在該維度上的近似度計(jì)算從兩個(gè)分類之間的近似度計(jì)算,擴(kuò)展為兩個(gè)分類集合之間的近似度計(jì)算問題。本文采用的方案是將兩個(gè)專利的分類集合中的元素兩兩計(jì)算近似度,以最大的近似度數(shù)值作為兩個(gè)專利之間的近似度。
PART 04
專利地圖-基于專利關(guān)聯(lián)度的可視化
為了便于了解專利關(guān)聯(lián)度在專利可視化中的應(yīng)用,在介紹其他兩類專利關(guān)聯(lián)度模型之前,首先提供基于多維分類的專利關(guān)聯(lián)度進(jìn)行可視化的示例結(jié)果,如下圖所示。
實(shí)驗(yàn)條件如下:
a.輸入:帶有多維分類代碼結(jié)果的專利清單Excel文件,編寫VBA函數(shù)計(jì)算兩兩專利之間的關(guān)聯(lián)度。
b.工具支撐:本地網(wǎng)頁文件嵌入Javascript,導(dǎo)入Excel數(shù)據(jù),完成數(shù)據(jù)預(yù)處理;嵌入Echarts組件,以專利數(shù)據(jù)作為節(jié)點(diǎn),以關(guān)聯(lián)度數(shù)據(jù)做為節(jié)點(diǎn)之間的連接屬性,創(chuàng)建力導(dǎo)圖進(jìn)行顯示。
c.主題提?。?/strong>人工完成,預(yù)覽各個(gè)簇內(nèi)部的專利摘要,確定各個(gè)簇的專利主題。
上述實(shí)現(xiàn)條件借助Excel+Javascript+Echarts的工具組合可以實(shí)現(xiàn)數(shù)據(jù)量小于300條以內(nèi)的專利地圖繪制,超過300條以上的數(shù)據(jù)集,建議更換為后文將介紹的R語言進(jìn)行處理和可視化,否則可能出現(xiàn)渲染不成功的現(xiàn)象。
PART 05
基于專利IPC分類號(hào)計(jì)算專利近似度的陷阱
采用專利自有的IPC分類號(hào)作為上述模型中的分類代碼輸入,看起來可以省去人工標(biāo)引的工作量,尤其專利數(shù)據(jù)量非常龐大的情況,但是需要正視如下問題:
a.專利IPC分類與產(chǎn)業(yè)界或報(bào)告使用者認(rèn)同的分類體系有一定差異。
b.專利IPC分類號(hào)(即便同級(jí)別分類)之間存在涵義重疊問題,不能夠完全區(qū)分某些技術(shù)的多個(gè)技術(shù)分支。
c.專利IPC分類號(hào)整體上屬于一個(gè)維度的分類,無法映射多個(gè)維度的分類信息。
d.專利IPC分類號(hào)小組層面的樹形結(jié)構(gòu)分類體系依托于分類號(hào)中的“."點(diǎn)符號(hào)的層級(jí)構(gòu)建,而不是IPC分類號(hào)的號(hào)碼格式,因此無法直接使用本文中提到的字符串匹配方式計(jì)算近似度,仍需要根據(jù)小組內(nèi)的樹形結(jié)構(gòu)分類構(gòu)建一套直接對(duì)應(yīng)的分類代碼體系,考慮到前三點(diǎn)的問題,這類重建工作所耗費(fèi)的精力未必有價(jià)值。
e.某些專利的IPC分類號(hào)不是很準(zhǔn)。
因此,作者不推薦直接或間接使用IPC分類號(hào)計(jì)算專利之間近似度。
PART 06
基于文本的專利關(guān)聯(lián)度模型
基于文本的專利關(guān)聯(lián)度計(jì)算是將文本挖掘技術(shù)轉(zhuǎn)用到專利分析領(lǐng)域的產(chǎn)物。
文本挖掘是從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù),是自然語言處理(NLP)的熱門話題?;谖谋就诰蚶缈梢苑治鑫恼碌那楦行畔?、確認(rèn)文章之間的相關(guān)性、對(duì)文章進(jìn)行分類。計(jì)算文章之間的相關(guān)性的主要處理流程如下:
S1.對(duì)文章分詞,統(tǒng)計(jì)詞頻。
S2.去掉停用詞,以避免無實(shí)際含義的虛詞,連詞等對(duì)后續(xù)計(jì)算結(jié)果造成不利影響。
S3.利用文章的詞頻數(shù)據(jù)通過Pearson公式等相關(guān)性公式計(jì)算進(jìn)文章之間的相關(guān)性。
S4.基于相關(guān)性數(shù)據(jù)進(jìn)行可視化。
將文章替換為專利的文本數(shù)據(jù),即可實(shí)現(xiàn)基于文本的專利關(guān)聯(lián)度計(jì)算。
由于R語言提供了豐富的文本挖掘工具包和完善的數(shù)據(jù)可視化工具包,作者建議在R語言環(huán)境下完成一站式專利文本導(dǎo)入、專利關(guān)聯(lián)度計(jì)算、以及力導(dǎo)圖渲染。
下圖是實(shí)際的一個(gè)算例。
基于文本的專利關(guān)聯(lián)度計(jì)算強(qiáng)烈依賴專利的文本特征,為此需要了解專利文本與常見的文章類文本之間的不同,以及對(duì)關(guān)聯(lián)度計(jì)算造成的影響,尤其是為了提升效率,只將專利摘要或權(quán)利要求作為專利文本參與計(jì)算的情況。
a.專利摘要,權(quán)利要求的語言抽象,部分詞匯含義需結(jié)合說明書上下文或附圖方可理解,與自然語言中的通常含義存在差別。
b.專利權(quán)利要求中的語言有上下位關(guān)系,而基于詞頻統(tǒng)計(jì)的專利近似度計(jì)算,無法識(shí)別上位詞匯和下位詞匯之間的關(guān)系,這使得上位專利和下位專利之間的關(guān)聯(lián)度計(jì)算不準(zhǔn)確。
以上兩點(diǎn)可以看出需要重寫摘要的必要性,一方面實(shí)現(xiàn)統(tǒng)一的術(shù)語表述,另一方面將下位概念的列舉補(bǔ)入重寫的摘要中,當(dāng)然也可以補(bǔ)入技術(shù)問題技術(shù)效果的描述。
c.文本挖掘技術(shù)中通用的停用詞集合,對(duì)于具體主題的專利分析是不夠用的。還需結(jié)合專利的檢索式,專利的詞頻統(tǒng)計(jì)結(jié)果增加一些額外的停用詞,例如檢索式中的關(guān)鍵詞、本主題專利普遍攜帶的詞匯(如“顯示”,“設(shè)備”“方法”……)。在實(shí)際操作中,停用詞的增補(bǔ)需要根據(jù)具體主題的專利實(shí)際情況進(jìn)行人工干預(yù),類似一種“調(diào)試”操作。
PART 07
基于多維分類和文本的專利關(guān)聯(lián)度模型
考慮基于多維分類和文本的兩種關(guān)聯(lián)度模型可以優(yōu)勢互補(bǔ),在實(shí)際中可以將二者采用線性加權(quán)求和方式計(jì)算綜合專利關(guān)聯(lián)度信息。
以下是該方法的實(shí)際算例。
代碼下載
本文算例示例代碼已通過Gitee平臺(tái)開源,訪問鏈接如下:
https://gitee.com/yanwenlongair/patent-analysis-r
PART 08
小結(jié)
綜上,基于專利關(guān)聯(lián)度分析的專利地圖有其特定價(jià)值,專利分析不是固定的模板,不是固定的標(biāo)準(zhǔn),通過方法改進(jìn)結(jié)論是一個(gè)有趣的過程。目前的方法顯然不是專利分析的終點(diǎn)。
(原標(biāo)題:專利關(guān)聯(lián)度模型及應(yīng)用)
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:閆文龍 段曉玲
編輯:IPRdaily辛夷 校對(duì):IPRdaily縱橫君
注:原文鏈接:專利關(guān)聯(lián)度模型及應(yīng)用(點(diǎn)擊標(biāo)題查看原文)
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識(shí)產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識(shí)產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個(gè)國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識(shí)產(chǎn)權(quán)負(fù)責(zé)人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請(qǐng)注明出處:“http://m.globalwellnesspartner.com
260萬!2025年第九屆亞洲冬季運(yùn)動(dòng)會(huì)組委會(huì)采購知識(shí)產(chǎn)權(quán)代理服務(wù)
下周四15:00直播!RWS海外專利布局利器——inovia平臺(tái)
文章不錯(cuò),犒勞下辛苦的作者吧