2008年10月1日 星期三

圖資學研究(三)

今天請來UWMILWAUKEE的Mu教授演講潛在語意分析(Laten semantic Analysis, LSA)相關原理與應用。

傳統OPAC的典藏文件通常是獨立的個體,必須建立其關聯性,才能將文件產生更大的效益與價值。而LSI是讓這些文件產生關聯的方法技術之一。

而講義所提到的一詞多義和一義多詞:對於一詞多義可能使得搜尋結果中包含很多不是user真正要查找的結果,一義多詞將使得搜尋結果中遺漏很多user真正要查找的結果。

LSI是將許多文件用"text-document"的矩陣(matrix)來表示,透過SVD等運算方式將query的結果換成向量投射在低維度的空間,並假設每一個singular value 和singular vector都代表著欲檢索文件的潛在語意,比對後就可產生檢索的結果。

相關步驟有:
Step1. 建立特徵矩陣
Step2. 奇異值分解運算
Step3. 產生語意指標及文件分類

相對於Google所使用的page rank,LSI注重每個文件的concept,關聯性強的文章會顯示在前面的檢索結果頁面上,但是從老師們的對話中,LSI似乎會捨去一些關聯性低的query,使得較冷僻的資訊無法被搜尋引擎找到。

LSI在文件的分類上是有幫助的,但在檢索(search)上,query如果太短就會限制semantic的分析效果。

而台灣、韓國等地會產生local search engine > global search engine的現象,小蝶老師認為大概是因為這些local的搜尋引擎會操縱搜尋結果,讓結果產生的項目是大部分人都會點閱的熱門資訊。像海角七號這個關鍵字,在google搜尋的結果就有可能會跟yahoo.tw搜尋的結果面向不一樣。

--------------------------------------------------------------

嗯...這堂課對我來講是個新的知識.....所以目前還沒辦法完整架構出我懂的部分.....整個有點混亂...

不過整堂課我印象最深的有2句話和1件事
  • 第一句話是:使用者會打出的關鍵字,都不是他們所想要找的。

我會用進階查詢,我更常用布林邏輯,但....我承認有些時候,還是會打出一些愚蠢的關鍵字....尤其是在找不到東西時....關鍵字就會亂下了....我現在想不出來什麼愚蠢的例子,不過可以確定的是,例子太多了!!我下次打蠢字的時候...我會記得附上來的.....

愚蠢1:老師提到的鴻海hire退休員工,我想找相關資訊...我打了"鴻海 聘用 退休"...什麼都找不到...

  • 第二句話是:用產業來看研究,It's not fair.

這是我常常犯的錯誤,看完一篇paper後,我會想到一些現實的例子。尤其是在知識管理的部份,大學時我對知識管理很有興趣,看了一些文獻,但我都會想:這用在企業上的效益如何?更精確的是,有哪個企業會花大錢來做知識管理?企業講的是收益,而知識管理偏偏就不是馬上做了就可以看的到效果的東西。久而久之就會覺得整個知識管理限於空談,跟實務無法結合。

但今天我有了另外一個觀點,產業與研究通常是分開的,研究必須縮小變數,以求對該變數精準的控制與描述,而產業則是許多研究問題的集合體,不能用單一研究來概括整個產業狀況。

  • 最後一件事:教授們的專業互動

曾老師最後提出的一些問題,包括page rank、LSI當前的問題等,無一不是針對Mu教授的專業提出質疑(我有感受到火藥味),但當兩人甚至連小蝶老師都掺一腳後,我發現從他們的對話中,我越能越勾勒出整個LSI的輪廓,這就是傳說中的學術討論!!可以讓思考更加清晰,連結更多的訊息。我覺得這短短的10分鐘是我整堂課受益最多的時候。

--------------------------------------------------------------

會後有私底下跟老師出去吃飯,個人覺得他還蠻健談的...對台灣充滿了好奇...
下禮拜會陸續帶他到淡水、鶯歌等地方觀光,有興趣的同學跟所辦報名喔!!

沒有留言: