Abstract: | 有別於傳統利用形態學,現今可利用病毒基因體序列,從分子生物學的角度,來提供一個新方法來作病毒分類。為了在向量空間下,利用現有可用之分類器,將每一個病毒轉換成具有代表性的向量是重要的。在本論文採用k-mer(k) 作為樣式抽取,並且利用樣式分佈的 entropy(熵) 作為樣式權重,將病毒實例 (基因體序列) 轉成向量,以作為病毒分類實驗的輸入。為了檢查 DNA 核酸序列中,編碼片段 (coding) 與非編碼的片段 (non-coding) 效能之不同,這裡將序列分別抽取出作為4個輸入種類,分成”ALL”、”Cod- ing”、”NonCoding” 和 ”DirectedCoding”等來做分類比較。實驗的病毒基因體是由 NCBI 下載,包括22個病毒科 (family),其中包含1,601種病毒; 同時實驗中利用1到6的 k 值來評估。實驗結果顯示,使用”ALL”類型之序列,在 k 值等於5的時候,利用 SVM 分類器所得到的最高正確率為95.6%。而且,利用”DirectedCoding”可以比”Coding”,得到較高的正確率。令我們意外的是使用”NonCoding”類型之序列,竟然可以在 k 值等於6時,得到高達90%的正確率,這個觀察隱約透露出在非編碼的片段仍保有一些資訊,值得由生物學家做進一步的研究。 |