由當前智能語義檢索的不足思考專利檢索的特質(zhì)

#本文僅代表作者觀點，不代表IPRdaily立場，未經(jīng)作者許可，禁止轉(zhuǎn)載#

來源：IPRdaily中文網(wǎng)（iprdaily.cn）

作者：杜衡國家知識產(chǎn)權(quán)局專利局審協(xié)江蘇中心副研究員

原標題：由當前智能語義檢索的不足思考專利檢索的特質(zhì)

當前智能語義檢索的實際效果還遠未達到真正人工智能的程度，其原因既有算法設(shè)計本身的缺陷，亦有處理對象的復雜性。相較于算法設(shè)計的缺陷，處理對象的復雜性是人工智能在專利檢索領(lǐng)域更難逾越的鴻溝，但這又何嘗不是人不可替代的價值所在呢？

隨著計算機技術(shù)的發(fā)展，人工智能（AI）對于社會各行各業(yè)產(chǎn)生了全面而又深遠的影響，使信息革命步入了2.0版本的高級階段。專利檢索正是一種信息獲取的方式，也緊隨潮流出現(xiàn)了智能語義檢索。從概念上說，智能語義檢索與傳統(tǒng)人工操作的計算機檢索的本質(zhì)不同在于：無需人工提取檢索要素并輸入構(gòu)建的檢索式，而僅需輸入目標文件，就能自動獲得對比文件。但從實踐情況來看，目前智能語義檢索的效果仍然差強人意。譬如，國家知識產(chǎn)權(quán)局內(nèi)部使用的S系統(tǒng)，雖然集成了“自動檢索”功能，但幾乎不能直接提供令人滿意的對比文件。而商用專利檢索工具，如Patentics，其智能語義檢索若不加進一步限定，直接有效命中對比文件的概率也不太高。所以，在使用任何智能語義檢索工具時，一般都需要手動添加檢索要素以及人工篩選文件，以一種“半自動”的方式滿足檢索需求。換言之，在專利檢索領(lǐng)域，所謂的智能語義檢索還遠未達到真正意義上的人工智能程度，更無法取代人工檢索。審查員無法僅憑智能語義檢索“守株待兔”式地獲取有效對比文件。大概正因如此，審查員的人均審查任務(wù)量并沒有隨著智能語義檢索的出現(xiàn)而成倍激增。

在人工智能機器“阿爾法狗”（AlphaGo）已經(jīng)能夠擊敗圍棋頂級高手的時代，為什么智能語義檢索還不及一名初級審查員的檢索水平？本文結(jié)合實例，從檢索方法論的角度，探討專利檢索在人工智能設(shè)計上所面臨的獨特困境，兼論智能語義檢索的可能改進方向。

雖然圍棋的變化結(jié)果理論上有10170種可能，看似是個天文數(shù)字；但從另一個角度來看，圍棋的規(guī)則卻十分簡單明確：所圍區(qū)域更多的一方獲勝。基于該簡明規(guī)則，所謂天文數(shù)字的變化其實并不需要遍歷，每一步可能的落子點并不是剩余空位中的任意一點，而是其中獲勝概率較大的位置。AlphaGo的設(shè)計者Demis Hassabis正是抓住了這種本質(zhì)，才以不變應(yīng)萬變，借助網(wǎng)絡(luò)實戰(zhàn)的大數(shù)據(jù)樣本和神經(jīng)網(wǎng)絡(luò)算法，刪繁就簡，實現(xiàn)了計算機的有效自主決策，并能最終取勝。

反觀專利文獻的檢索，判斷檢索成功的標準卻要復雜得多。它并不像圍棋那樣可以簡單通過公開特征數(shù)量的多寡，來判定檢索結(jié)果是否與本發(fā)明等效。因此智能語義檢索無法明確給出結(jié)論，只能給出相似度作為參考，最后仍然需要人工的終極決策。

雖然100%相似度的對比文件可被簡單判定為檢索成功；但是此類對比文件的獲取概率，會隨著權(quán)利要求篇幅的加長而急劇降低。對于有上百字限定的常規(guī)權(quán)利要求，除非是本人的相同申請或他人的故意抄襲，否則要找到特征一一對應(yīng)的對比文件會變得極其困難。

為避免漏檢，更全面而實用的規(guī)則是：找到能夠否定權(quán)利要求創(chuàng)造性的對比文件或?qū)Ρ任募M合。該規(guī)則相較于上述新穎性規(guī)則是較低的標準，優(yōu)勢是不必檢索到權(quán)利要求中的每個細節(jié)，且可以兼容否定新穎性的檢索結(jié)果；缺點是需要辨識權(quán)利要求中各技術(shù)特征的重要性，做一番合理的取舍，還需要考慮證據(jù)的組合方式。而這些判斷都很難量化，這是智能檢索的算法設(shè)計所面臨的瓶頸，也是人工檢索中的決策難點。所以在運用具體數(shù)據(jù)庫中的檢索技巧之前，首先應(yīng)當針對個案理清楚兩個關(guān)鍵問題：一、本權(quán)利要求的組成要素是什么？二、各要素之間結(jié)合的緊密度如何？方能刪繁就簡，有的放矢。

一、權(quán)利要求的組成要素

所謂權(quán)利要求的組成要素，是對權(quán)利要求中各必要技術(shù)特征的概括表達。將組成要素從權(quán)利要求的連貫表述中剝離出來，主要是為了使檢索系統(tǒng)能為本發(fā)明有效地適配同類對比文件，同時也能使檢索者在不斷地檢索調(diào)整中始終保持清晰的目標。

組合要素的選取是否得當，主要看該要素組合的表達能否使本發(fā)明有效地區(qū)別于其他同類方案。這好比是廣播尋人啟事，對于查找對象的特征描述必須要有辨識度，比如性別、身高、年齡、臉型等能夠迅速縮小尋找范圍的特征，以及某處的胎記、疤痕等獨特標志；而無需描述作為同類皆有的特征，如兩個眼睛，一個鼻子等。與之類似，提煉權(quán)利要求的組成要素，主要從兩個方面考慮：一是具體的應(yīng)用領(lǐng)域，二是聲稱的對現(xiàn)有技術(shù)的改進。

但實際操作中，對于限定較多的權(quán)利要求，有效地識別組成要素并非易事。

下面結(jié)合實際案例來分析說明。

案例1，一種養(yǎng)豬用料槽（201710070290 .0）

權(quán)利要求1：

一種養(yǎng)豬用料槽，包括頂部開口的下料桶（1）、位于下料桶兩側(cè)的槽本體（2）、位于下料桶側(cè)壁的出料口（3），所述出料口連通所述槽本體與所述下料桶，所述下料桶為立方體結(jié)構(gòu)，其特征在于：所述槽本體頂部設(shè)有翻蓋（7），所述下料桶沿長度方向的內(nèi)壁垂直設(shè)有擋板（4）以及與所述擋板相適應(yīng)的滑槽，所述擋板可沿所述下料桶內(nèi)壁在所述滑槽內(nèi)滑動，所述擋板與所述出料口（3）同側(cè)，所述擋板側(cè)壁與所述下料桶頂部接觸處設(shè)有夾緊件（10），所述下料桶底部設(shè)有分料塊（6）。

結(jié)構(gòu)附圖如下所示：

由當前智能語義檢索的不足思考專利檢索的特質(zhì)

該技術(shù)方案結(jié)構(gòu)簡單，表述清晰。分別通過S系統(tǒng)智能輔助檢索，Patentics智能語義檢索，以及人工檢索三種途徑進行檢索，所得的最接近的現(xiàn)有技術(shù)完全不同。

★ S系統(tǒng)智能輔助檢索：

相似度判定為99%的最接近現(xiàn)有技術(shù)：一種移動式養(yǎng)豬用料斗（CN201623329U），以下簡稱D1。

主要結(jié)構(gòu)附圖：

由當前智能語義檢索的不足思考專利檢索的特質(zhì)

方案概述：該料斗分為外框架2和內(nèi)部料斗7，內(nèi)部料斗7下部呈錐形，方便飼料下落。需要下料時，通過把手9將推拉擋板8向外拉出即可。

★ Patentics智能語義檢索：

相似度判定94%的最接近現(xiàn)有技術(shù)：一種豬飼料裝置（CN204811436U），以下簡稱D2。

主要結(jié)構(gòu)附圖

由當前智能語義檢索的不足思考專利檢索的特質(zhì)

方案概述：飼料箱204底部依次設(shè)有第一閘門208、計量筒208和第二閘門209。通過交替開閉兩個閘門，實現(xiàn)每次投喂計量筒208體積內(nèi)的定量飼料。此外，采用分隔板102等距分隔而形成進食口301。

★ 人工檢索：

認定的最接近現(xiàn)有技術(shù)：一種多孔料槽（CN20505248U）。以下簡稱D3。

主要結(jié)構(gòu)附圖：

由當前智能語義檢索的不足思考專利檢索的特質(zhì)

方案概述：在料斗1和料槽2之間設(shè)置有擋板3，調(diào)節(jié)擋板3在導槽4中的上下位置可控制料槽2內(nèi)的飼料數(shù)量，并通過銷軸64插在檔位槽91中不同高度，實現(xiàn)對擋板的定位調(diào)節(jié)。料槽2上開設(shè)有多孔板22。

通過簡單對比，可以得出如下結(jié)論。

首先，三份對比文件與本發(fā)明均存在不同，均無法單獨否定本權(quán)利要求的新穎性。具體而言，D1與本發(fā)明的差異最大，僅公開了料斗及橫向抽拉的擋板8，未公開出料槽等其他特征。D2同樣存在較大差異，所公開的兩道橫向閘門僅與本申請的擋板功能類似，結(jié)構(gòu)并不相同。D3公開了可沿滑槽上下移動的擋板3及相關(guān)定位銷軸，但擋板的定位方式與本申請不同。

其次，三份對比文件彼此之間有兩點共性：一、都屬于飼料裝置，二、料斗內(nèi)都設(shè)有的擋板（或閘門）?？梢娫谔崛?quán)利要求組成要素時，都提取了技術(shù)領(lǐng)域“飼料裝置”和改進點“擋板”；而未限定權(quán)1中“翻蓋”、“夾緊件”和“分料塊”等其他特征。

對于技術(shù)領(lǐng)域要素的表達，可以采用本申請的分類號A01K5/，且沒有明顯的交叉領(lǐng)域分類號，因此不會對表達造成困擾。

而對于改進點，把什么特征作為要素優(yōu)先考慮，則要經(jīng)過一番比較和篩選。智能語義檢索的內(nèi)部算法無從知曉，但從結(jié)果可以推斷它并未局限于權(quán)利要求本身的表達，而是結(jié)合了對說明書的記載對權(quán)利要求的特征做了篩選，否則不可能將區(qū)別如此巨大的對比文件判定為如此之高的相似度。

人工檢索時，也依據(jù)了說明書記載的技術(shù)問題和有益效果確定組成要素。說明書中聲稱所要解決的技術(shù)問題是防止多豬搶食，解決的手段是在槽體內(nèi)設(shè)置薄板加以分隔，因此首先將“分隔板”作為要素之一。但該權(quán)利要求書的撰寫并不規(guī)范。在獨立權(quán)利要求1中并未記載該特征，而是在從屬權(quán)利要求6中限定，因此在針對權(quán)利要求1的舉證文獻中該要素并不必要。

繼續(xù)研讀說明書的有益效果提煉權(quán)利要求中的改進點要素。本說明書記載的有益效果除了與聲稱的技術(shù)問題相關(guān)的“防止搶食”之外，還有另外兩個關(guān)聯(lián)度不高的效果：1、出料可控，2、飲水與飼料可分。這兩個效果均與擋板有關(guān)，因此將“擋板”也列為組成要素。

智能語義檢索的D1和D2中的“擋板”結(jié)構(gòu)均是水平橫向設(shè)置的，與權(quán)利要求1中限定的“垂直設(shè)有擋板”存在明顯差別。且當本權(quán)利要求的“出料口”被限定為位于“下料桶側(cè)壁”時，橫向擋板并不能直接轉(zhuǎn)用。此外，橫向開合的擋板也無需“加緊件”來維持開口，與其結(jié)合并無必要。因此用D1或D2單篇否定權(quán)利要求1的創(chuàng)造性缺乏說服力。D3公開的傾斜擋板更接近于本發(fā)明的垂直擋板，也公開了設(shè)置在料斗側(cè)面的出料槽，相較于D1或D2更加接近權(quán)利要求1中的結(jié)構(gòu)。但也未公開在料斗兩側(cè)分置料槽，因此仍然較難單篇否定權(quán)利要求1的創(chuàng)造性。

在此情形下，就需要考慮證據(jù)的組合使用。這就涉及到另一個至關(guān)重要的問題：能否采用不同證據(jù)的組合來評述作為一個整體的權(quán)利要求方案。這也是目前智能語義檢索的較大缺陷——它只能評估單篇相關(guān)文獻的相似度，卻不能判斷是否可以采用多份證據(jù)組合評述，更不會推薦證據(jù)組合的方式。

而要對證據(jù)組合的問題作出比較客觀的判斷，就需要評估各要素之間結(jié)合的緊密度。

二、各要素之間結(jié)合的緊密度

筆者曾提出過“技術(shù)特征團”的概念【1】，用于分析各技術(shù)特征之間結(jié)合緊密度的問題。具體而言，所屬技術(shù)領(lǐng)域的技術(shù)人員根據(jù)本申請的記載，如果判定某個技術(shù)特征必須結(jié)合其他技術(shù)特征才能共同作用，那么這些技術(shù)特征的組合就應(yīng)當作為一個“技術(shù)特征團”考慮，否則可以作為相對獨立的技術(shù)特征分別考慮。

此概念也同樣適用“組成要素”之間結(jié)合緊密度的分析。如果權(quán)利要求方案中的多個組成要素客觀上只能以“要素團”的形式協(xié)同作用，那就應(yīng)當以單篇對比文件舉證，而不能采用多篇證據(jù)組合。如果多個要素的作用相對獨立，那么可用多篇對比文件分別舉證。

以大家熟知的剪刀為例，它具有左刃和右刃兩個要素，且只有通過兩爿刀刃的協(xié)同作用才能進行剪切，因此這兩個要素具有不可拆分的關(guān)聯(lián)性，共同構(gòu)成了一個“要素團”。對于該“要素團”，只能舉證同時具備左刃和右刃的產(chǎn)品的單篇文獻作為對比文件。若采用分別公開單邊開刃的切刀的兩篇對比文件來組合否定剪刀的方案，則屬于“事后諸葛亮”，因為在這兩篇對比文件中均不存在最基本的剪切作用。

而對于帶有刀刃和刀鞘的水果刀，雖然刀刃和刀鞘同樣是高度匹配，但“刀刃”的切割作用不需要依賴“刀鞘”，“刀鞘”的保護作用也不需要借助于“刀刃”。這兩個要素之間不存在不可拆分的關(guān)聯(lián)，即不構(gòu)成“要素團”，因此可以采用不同的對比文件分別舉證。

再看上述實際案例。對于雙側(cè)料槽這一要素，說明書中聲稱可以實現(xiàn)將飲水和飼料分開供給的效果。說明書中給出的具體解決方式是使料斗內(nèi)一側(cè)的擋板關(guān)閉出料口，然后在關(guān)閉側(cè)的槽體內(nèi)注入飲水。而在權(quán)利要求中的相關(guān)特征僅出現(xiàn)在前序部分：位于下料桶兩側(cè)的槽本體。并未限定它和擋板的配合方式。

雖然按照說明書的解釋，雙側(cè)食槽需要和料斗內(nèi)的擋板配合使用才能實現(xiàn)水和飼料的分裝。但從實際的可行性來說，只要設(shè)立了兩條彼此相對隔離的食槽，就可以從不同的方向分別加裝水和飼料，實現(xiàn)分離。因此雙側(cè)食槽并不必須通過與擋板配合使用才能實現(xiàn)所述功能。

從另一角度來看，擋板的作用主要是調(diào)節(jié)料斗內(nèi)飼料的出料量，也并非只與雙側(cè)食槽配合使用，作用相對獨立。因此雙側(cè)食槽和擋板之間不存在緊密關(guān)聯(lián)，不構(gòu)成“要素團”，可以分別舉證。

針對雙側(cè)食槽，檢索得到如下對比文件（以下簡稱D4）：一種防拱料供給豬槽（CN203872771U）

主要結(jié)構(gòu)附圖：
由當前智能語義檢索的不足思考專利檢索的特質(zhì)

相關(guān)特征為：在供料通道5的兩側(cè)分別設(shè)置供食槽3。

因此該對比文件D4可與上述D3結(jié)合評價本發(fā)明。一通采用這組證據(jù)結(jié)合否定權(quán)利要求1的創(chuàng)造性后，本案主撤。

三、小結(jié)

當前智能語義檢索的實際效果還遠未達到真正人工智能的程度，其原因既有算法設(shè)計本身的缺陷，亦有處理對象的復雜性。

就算法設(shè)計本身而言，首先，根據(jù)檢索結(jié)果推斷，目前的智能語義檢索主要根據(jù)對比文件與本申請之間選定要素的重合度，來評估兩者整體的相似度。雖然目前智能檢索系統(tǒng)對于要素的提煉能力和表達的擴展能力都相對較強；但以點代面地判斷方案之間的整體相似度仍會導致誤判。其原因在于，權(quán)利要求作為一個整體，要素與非要素之間還存在特定的關(guān)聯(lián)。若只關(guān)注要素的相似度，而不再結(jié)合相關(guān)非要素做整體匹配度的識別調(diào)整，那么就會出現(xiàn)本文案例中對D1和D2相似度的誤判情形。這兩篇對比文件所公開的“擋板”要素本身就與本申請的擋板存在許多細節(jié)差異，在與出料口和食槽等非要素的匹配方面，差異就被進一步放大。這導致從最終的直觀認知上說，極少會有人認為它們與本發(fā)明的相似度可以高達99%或94%，甚至能否破壞本發(fā)明的創(chuàng)造性都存在疑問，因此本案的實際審查中并未采用D1或D2作為對比文件。

其次，智能語義檢索只能評估單篇文獻的相似度，而不評估多篇文獻組合后的相似度。這種檢索結(jié)果只適用于評價新穎性或區(qū)別皆為公知的創(chuàng)造性。而對于需要組合證據(jù)評價創(chuàng)造性的案例，無法自動提供充分的證據(jù)。本文列舉的實例亦是如此，采用兩篇證據(jù)的組合可以否定權(quán)利要求1的創(chuàng)造性，得到了申請人的默認。而其中最接近現(xiàn)有技術(shù)D3在patentics中判定的相似度僅有74%，D4的相似度為78%，按相似度排序均在前500名之外，基本等同于沒有命中。因此，現(xiàn)有智能檢索系統(tǒng)需要改進的重點是：根據(jù)各要素之間的結(jié)合緊密度的判斷，對要素進一步做聚合或孤立，進而對是否可以組合舉證做出有效判斷；若可以組合舉證，則給出證據(jù)的具體組合方式，并對各組合方式的整體相關(guān)度做出有效判斷。

就處理對象的復雜性而言，實際發(fā)明方案的設(shè)計和撰寫有著各種難以預料的不規(guī)范或者例外，導致創(chuàng)造性的實際判斷存在很多的不確定性。就本文所舉的實例而言，它的方案本身雖然毫不費解，也沒有什么發(fā)明高度，但是在聲稱所要解決的技術(shù)問題、撰寫的權(quán)利要求方案，和聲稱所能實現(xiàn)的有益效果方面，三者之間多有出入。導致對于把握主旨、提煉要素產(chǎn)生較大的困擾。更確切地說難的不是找到相關(guān)的對比文件，而是不易確定要舉證到何種程度才算合格。由于實際操作的不確定性，使得專利檢索并不像下圍棋那樣，能完全客觀地通過公開特征數(shù)量的多寡來判定結(jié)果；也難以通過大數(shù)據(jù)、自學習來使AI有效決策，仍然需要行業(yè)專家主觀判斷的介入。也正因如此，才會使得對于同樣的事實和證據(jù)，秉持同一套判斷規(guī)則的實審部門、復審部門及各級法院，可能會判定出截然不同的結(jié)果，來回搖擺。而且在美日歐等國家地區(qū)，亦是如此。

相較于算法設(shè)計的缺陷，處理對象的復雜性是人工智能在專利檢索領(lǐng)域更難逾越的鴻溝，但這又何嘗不是人不可替代的價值所在呢？

注：

【1】參見杜衡等：《技術(shù)特征團和外延比較法——對修改超范圍的判斷方法小議》，載《專利法研究》2009年

來源：IPRdaily中文網(wǎng)（iprdaily.cn）

作者：杜衡國家知識產(chǎn)權(quán)局專利局審協(xié)江蘇中心副研究員

編輯：IPRdaily王穎校對：IPRdaily縱橫君

注：原文鏈接：由當前智能語義檢索的不足思考專利檢索的特質(zhì)（點擊標題查看原文）

如有想看文章主題內(nèi)容，歡迎留言評論~

點擊圖片，查看專題詳情！

由當前智能語義檢索的不足思考專利檢索的特質(zhì)

「關(guān)于IPRdaily」

IPRdaily是具有全球影響力的知識產(chǎn)權(quán)媒體，致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負責人，還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構(gòu)的全球近100萬用戶（國內(nèi)70余萬+海外近30萬），2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。

（英文官網(wǎng)：iprdaily.com 中文官網(wǎng)：iprdaily.cn）

本文來自IPRdaily中文網(wǎng)（iprdaily.cn）并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場，如若轉(zhuǎn)載，請注明出處：“http://m.globalwellnesspartner.com/”