病毒分類之研究-利用基因體 DNA 序列

ASIA unversity > 資訊學院 > 生物資訊與醫學工程學系 > 博碩士論文 > Item 310904400/11102

Please use this identifier to cite or link to this item: http://asiair.asia.edu.tw/ir/handle/310904400/11102

Title:	病毒分類之研究-利用基因體 DNA 序列
Authors:	黃進福
Contributors:	Department of Biomedical informatics?
Keywords:	編碼序列;基因組比較;病毒分類;熵
Date:	2011
Issue Date:	2011-09-09 06:27:57 (UTC+0)
Publisher:	Asia University
Abstract:	有別於傳統利用形態學,現今可利用病毒基因體序列,從分子生物學的角度,來提供一個新方法來作病毒分類。為了在向量空間下,利用現有可用之分類器,將每一個病毒轉換成具有代表性的向量是重要的。在本論文採用k-mer(k) 作為樣式抽取,並且利用樣式分佈的 entropy(熵) 作為樣式權重,將病毒實例 (基因體序列) 轉成向量,以作為病毒分類實驗的輸入。為了檢查 DNA 核酸序列中,編碼片段 (coding) 與非編碼的片段 (non-coding) 效能之不同,這裡將序列分別抽取出作為4個輸入種類,分成”ALL”、”Cod- ing”、”NonCoding” 和 ”DirectedCoding”等來做分類比較。實驗的病毒基因體是由 NCBI 下載,包括22個病毒科 (family),其中包含1,601種病毒; 同時實驗中利用1到6的 k 值來評估。實驗結果顯示,使用”ALL”類型之序列,在 k 值等於5的時候,利用 SVM 分類器所得到的最高正確率為95.6%。而且,利用”DirectedCoding”可以比”Coding”,得到較高的正確率。令我們意外的是使用”NonCoding”類型之序列,竟然可以在 k 值等於6時,得到高達90%的正確率,這個觀察隱約透露出在非編碼的片段仍保有一些資訊,值得由生物學家做進一步的研究。
Appears in Collections:	[生物資訊與醫學工程學系 ] 博碩士論文

Files in This Item:

File	Size	Format
	0Kb	Unknown	302	View/Open

Loading...