專利查詢結果出現了很多雜質,應如何剔除?

專利檢索的筆數太少不行,那太多有差嗎?在如何快速擴充關鍵字這篇裡教了如何檢全,那「檢得超級全」不繼續調整「檢準」,這樣可以嗎?
不囉嗦,讓我們繼續看下去~

擴充完的關鍵字讓我的檢索結果變得更全面了?

擴充完的關鍵字把檢索結果的數量推上了一個新高峰,7000多筆專利數字讓人看起來就覺得十分有成就感。
但檢索到越多結果,是否就代表我們可以分析出越完整的資訊呢? 這就像是原本關鍵字只檢索了台灣,現在我把全世界都檢索進來了,不但一樣能給你台灣我還多給了你全世界啊!讚讚!

如同我們在如何快速擴充關鍵字裡面所說到的,檢全跟檢準是兩件互相牴觸的事情,檢得太全面的下場其實反而會讓你的分析結果變得歪七扭八。為什麼呢?

試想,假如今天報告需要提供的是羽絨衣的資訊,你將關鍵字「羽絨」擴充出「羽毛」,然後把Google到的羽絨衣、羽絨枕、羽毛球、羽毛剪以及某位名叫羽毛的youtuber資料全部都寫在報告裡提供給老師,老師會覺得你很棒還是覺得你是來亂的呢?

 

分析時千萬不能Garbage In, Garbage Out.

分析最怕的一件事是揀選的樣本沒辦法代表母體,無論起因是檢不全或檢不準。不過確實,當你的樣本裡面混進去一些雜七雜八小三老王的時候,分析出來的孩子血統純不純正這個實在是很碰運氣。

綠帽都歪了,快戴好

八二法則裡面說到,我們會花大約20%的時間剔除掉80%的雜質,然後得花80%的時間才能把剩下的20%剔乾淨。
也許我們沒辦法做到百分之百,但你應該看得出來這開頭花的這20%時間是效率最高也絕對需要去執行的。
畢竟專利查詢出來的結果品質,將直接影響到後續的分析結論,而且不僅僅是影響結論而已,甚至會影響到未來企業的智慧財產權布局規劃、技術研發方向、技術商品化評估、技術尋找授權移轉或結盟的對象等等等,絕對不是一個憨人拿著羽毛剪的分析資料就可以讓研發中心變出羽絨衣這麼簡單。
有一些數據是可以參考的,比方說「檢準率」是指檢出的該技術主題相關文獻量與檢出文獻總量的比率,是衡量檢索精確度的尺度。
可用下方公式表示:

檢準率
 

我知道一看到數學公式大家眼皮都變得異常沉重,快醒醒!

醒醒啊!

這個公式其實很簡單,懶人包就是:檢索出100筆、剔除了1筆剩餘99筆、檢準率叫做99%。
(你為何一臉鄙視,是不是覺得我在說廢話…= =)

還有一個公式是相反的數據叫「誤檢率」,是指檢出與該技術主題不相關的文獻與檢出文獻總量的比率,是衡量檢索誤檢文獻程度的尺度。
可用下方公式表示:

誤檢率

懶人包就是:檢索出100筆、剔除了1筆、誤檢率叫做1%。
(彷彿看到你翻了個白眼)

邏輯上來說,我們在剔除雜質的過程中,一開始一定會看到檢準率越來越低然後誤檢率越來越高,因為被剔除的專利數量是逐漸增加的。
但其實這是一個在「調整」的概念,所以我們會不斷的針對關鍵字及分類號進行修正及補充。
比方說在剔除專利的同時你可能也會陸續發現一些新關鍵字、新分類號、新發明人,並因此延伸出更多篇種子專利,然後你又會透過種子找到更多關鍵字、分類號、發明人…

來來回回之後檢準率及誤檢率應該會逐漸停在一個穩定的數字上,那個數字的目標是檢準率達到90%,aka誤檢率低於10%。

 

專利查詢第二步:雜質應如何剃除?

「逐篇針對標題及摘要,做一個初步的閱讀,並將無關的專利剔除」這是我們待辦清單上終究需完成的一件事。
但就彷彿是大掃除那天看著自己宛如被核彈炸過的房間不知從何下手,「逐篇閱讀」這件事究竟該如何開始才能比較省時省力呢?
如果有現成系統(WEBPAT)的輔助,「分門別類」會是一個比較簡單的方法。 

比方說下圖,你可能會想從那些只有2、2、1、1筆的分類號開始閱讀起;

主國際分類號分析
主國際分類號分析
 
或是明明2004年以後才出現的新技術,這筆1998年申請的專利是什麼巫術;
 
申請年分析
申請年分析

再或者檢索主題為「寵物外出籠」時,用「圖示模式」看起來每一篇都是籠子或其結構零件的樣子,其中混入兩篇動物毛皮加工專利時就會特別顯眼…等等。

 
意外混入的動物毛皮
意外混入的動物毛皮

當你閱讀得越多,你越能抓到一些感覺。
總結來說,剔除雜質有一些特定手段,大致分為:

  1. 關鍵字:分析與主題不相關的專利文獻,尋找出現頻率較高的關鍵字。
  2. 標題:直接透過標題判斷 (能用標題就判斷得出來是雜質,必定是與主題八竿子打不著的專利)
  3. 分類號:統計各分類號下出現雜質的機率,機率小的可以暫時不理會、機率高的可以深入進行篩選。
  4. 申請日:有些技術的出現有明確年份,所以可以將該年份之前出現的所有文獻剔除掉。

而完整步驟會比較複雜,邏輯是:
假設T為目標專利文獻集,N為疑似雜質專利文獻集、Y為疑似專利文獻集。

  1. 透過抽樣閱讀Y的專利文獻,提煉出N的檢索要素(關鍵字、分類號等等);
  2. T-N;(翻譯:把不要的刪掉)
  3. 透過抽樣閱讀N的專利文獻,提煉出Y的檢索要素(關鍵字、分類號等等);
  4. T-N+(N AND Y);(翻譯:把不要的刪掉,再把藏在N裡面的Y加回來)
  5. 檢查檢準率判斷數值是否收斂。
目標=T-N+Y
目標

最後,專利分析就像在煮一盤菜,檢索的動作則是將食材從市場購買回來並清洗、挑菜、削皮、切塊、醃肉備料。
廚師的烹飪技術固然重要,然而一開始想炒蝦仁炒飯,老公卻從市場買了番茄跟茄子回來;或是明明想煮咖哩飯,但老婆卻把買回來的馬鈴薯跟紅蘿蔔切絲涼拌…結局自然是阿基師也救不了你。
但只要一開始的方向對了,後續去雜質篩選的速度快或慢都只是經驗的累積而已,所有人都可以憑藉著經驗越做越上手。

至於其他專利檢索的小秘訣、或是專利分析的知識科普,都會在日後陸續分享給各位。
有其他想要了解的主題,也歡迎在底下留言給我們。

下期預告:關鍵字完全檢索不到專利何解?試試上下位關鍵字

 

發佈留言