生信工具能有多不靠谱?
转换和颠换如发生在基因的蛋白编码区内,根据点突变对和蛋白质翻译产生的影响,可以将点突变分为同义突变和非同义突变二种。
1. 基本概念
1.1 同义突变(synonymous mutation)
碱基替换不引起氨基酸改变称为同义突变。
1.2 非同义突变(non-synonymous mutation)
碱基替换引起编码氨基酸改变称为非同义突变。
1.2.1 错义突变
碱基替换引起编码氨基酸密码子的改变,编码产生了一种新的氨基酸称为错义突变。错义突变大多发生在密码子的第一位或第二位核苷酸,且发生在第二位和第三位时危害更大。
1.2.2 无义突变
碱基突变引起编码氨基酸密码子替换终止密码子(UAA、UAG和UGA),使肽链合成提前终止,这种的截短的蛋白很可能不具有活性。
蛋白编码区(CDS区)的位点发生非同义突变(即碱基替换引起编码氨基酸的改变),很可能为致病突变,其危害程度与突变发生的位点及改变后氨基酸的理化性质有关,特别是非同义突变发生在决定蛋白功能或结构的CDS区域时产生的危害可能越大,但若突变后氨基酸的理化性质相近,则可能不会产生危害(即可视为良性突变)。
对全外显子(WES)、全基因组测序(WGS)或靶向捕获panel获得的变异位点数据,可使用下列评估工具对非同义突变位点的危害程度进行打分。
2. 危害性评估工具
2.1 非同义突变危害性预测工具 :
经测试,下列工具中FATHMM表现较优。 1. PolyPhen-2 2. SIFT 3. MutationTaster 4. Mutation Assessor 5. FATHMM 6. LRT 7. PANTHER 8. PhD-SNP 9. SNAP 10. SNPs&GO 11. MutPred
2.2 保守性评估工具:
- GERP++
- SiPhy
- PhyloP
2.3 综合评估工具 :
综合评估工具中,KGGSeq表现最优;CADD核心为支持向量机算法,DANN采用神经网络算法(更容易捕获非线性关系特征)预测变异位点的危害程度,DANN性能优于CADD。 1. CADD 2. PON-P 3. KGGSeq 4. CONDEL
2.4 评估工具预测结果说明
D表示有害,T 表示容忍, P表示可能有害,B表示良性。
3. ANNOVAR软件注释变异位点的危害性
ANNOVAR可调用dbNSFP数据库数据对变异位点进行打分,目前的最新版本为hg19_dbnsfp47a_interpro。
# dbNSFP注释数据下载, 将dbnsfp47a_interpro替换为hg19_dbnsfp42c同样有效
# 使用.pl脚本均为ANNOVAR软件的perl脚本
perl annotate_variation.pl \
-downdb -webfrom annovar \
-buildver hg19 hg19_dbnsfp47a_interpro humandb/
# snp vcf转为avinput格式
perl convert2annovar.pl \
-format vcf4 \
sample.snp.vcf > sample.avinput
# 同时获得所有dnNSFP的注释
perl table_annovar.pl sample.avinput humandb/
-protocol dbnsfp47a_interpro \
-operation f -build hg19 -nastring .
# 单个数据库变异位点打分
perl annotate_variation.pl -filter -dbtype ljb23_sift \
-buildver hg19 \
-out sample sample.avinput humandb/