關鍵字歷史資料之查詢系統-以PubMed文獻為例

ASIA unversity > 資訊學院 > 光電與通訊學系 > 博碩士論文 > Item 310904400/10197

Please use this identifier to cite or link to this item: http://asiair.asia.edu.tw/ir/handle/310904400/10197

Title:	關鍵字歷史資料之查詢系統-以PubMed文獻為例
Authors:	廖益緯
Contributors:	Department of Photonics and Communication Engineering
Keywords:	時間序列;文件探勘;趨勢研究
Date:	2010
Issue Date:	2010-09-09 06:27:02 (UTC+0)
Publisher:	Asia University
Abstract:	傳統使用網際網路來搜尋相關文件，大都由使用者輸入關鍵字到搜尋引擎去查詢，然後，搜尋引擎根據重要性來顯示相關文件，提供給使用者參考。利用這種傳統查詢方式，使用者很難去觀察隱含在這些與關鍵字相關事件的流行趨勢。但是，大部分的文件都具有時間標籤(TimeStamp) ，若能善加利用這些時間標籤，我們可以藉此觀察關鍵字在不同的連續時間區間的出現次數，瞭解與該關鍵字相關事件的流行趨勢。本研究利用類似搜尋引擎中，反向索引(Inverted-Index) 的技術，計算每個字在各連續單位時間中的出現次數，作為該字的歷史序列(時間序列) 。對於處理大量文件資料所面臨的計算與儲存的問題，本研究利用分割和克服(Divide and Conquer) 的方法，先將大量原始文件資料，根據時間先後次序，分割成的許多較小時間單位(如: 每月) 的檔案，分別計算出每個字在每個小單位時間的出現次數，然後，再將其合併成每個字在每個大單位時間(如: 每年12個月) 的歷史序列。最後，再合併成以每個字為單位的完整歷史序列，來提供給使用者查詢關鍵字的流行趨勢。實驗採用從西元1990年到2007年的PubMed 文獻原始資料(共3; 183; 196筆) ，從中抽取出共1061946字的歷史資料。使用者可以透過網際網路，輸入關鍵字來查詢該字的歷史序列，其中圖表是利用Google Chart API 所提供雲端計算之介面來呈現，實驗結果顯示，利用關鍵字的歷史序列，可以觀察許多有趣事件的趨勢變化。
Appears in Collections:	[光電與通訊學系] 博碩士論文

Files in This Item:

File	Size	Format
	0Kb	Unknown	328	View/Open

Loading...