体结构分析软件admixture安装及使用经验--688IT编程网

体结构分析软件admixture安装及使⽤经验

1. 软件下载及安装admixture：hbuilder网页制作代码

使⽤conda进⾏软件安装

conda install admixture

2. VCF⽂件格式转换为bed格式⽂件（似乎admixture 可以直接识别ped/map⽂件格式的输⼊⽂件）

vcf⽂件转为ped⽂件：

⽅法1：

使⽤vcftools⽀持将vcf⽂件转换成plink对应的ped/map格式，如下

vcftools --vcf input.vcf --plink --out output

⽅法2：

plink⽀持直接读取vcf⽂件格式，基本⽤法如下：

plink --vcf input.vcf --recode --out output

map⽂件染⾊体编号为数字, 未知为0SNP名称为字符或数字, 如果不重要, 可以从1编号, 注意要和bed⽂件SNP列⼀⼀对应染⾊体的摩尔未知(可选项, 可以⽤0)SNP物理坐标

重要！因为转换成的ped和map⽂件⽆法匹配，需要⼿动更改上⼀步转换好的map⽂件

map数据格式为四列：

jsoup常用的选择器

使⽤plink将ped/map转换为⼆进制的bed⽂件，命令⾏如下：

易安卓官方论坛plink --file inputfile --make-bed --out filename

第⼀个FILENAME的后缀为.ped和.map，⽣成的第⼆个FILENAME的后缀为.bed、.bim、.fam

中易广告联盟cpa cps3. plink提取指定样本和指定SNP的数据（keep，extract函数

plink --bfile inputfile --noweb -- --recode --make-bed --out fileout

inputfile为不加.bed后缀的bed⽂件

其中，第⼀列为提取的样本Family ID，第⼆列为Within-family ID（IID）

plink提取SNP位点：

plink --bfile file -- --make-bed --out snp

其中，的⽂件格式如下,⼀个SNP位点⼀⾏：

rs1

rs2

rs3

文件格式转换app4. 如何选择合适的K值

可以同时运⾏多个程序, 每个程序不同的k值, ⽐如, 想要k值选择1,2,3,4,5, 可以写为:

for K in 1 2 3 4 5; do admixture --cv hapmap3.bed $K | tee log${K}.out; done

例⼦：

for K in 1 2 3 4 5 6 7 8 9 10 11 12; do admixture --cv 10729bed2.bed $K | tee log${K}.out; done 多线

程： admixture hapmap3.bed 3 -j 4

使⽤grep命令去查看*out⽂件的cv error(交叉验证的误差)值:

grep -h CV *.out

结果如下：（这个K值显⽰是否有误？应该从第⼀开始分别是K=1，2，3依次往下）

对这个K值出现这样的情况？为何K10开始，个⼈觉得这个K值显⽰有误，应该从第⼀开始分别是K=1，2，3依次往下

二进制转换8421bcd码5. 绘制Q值的百分⽐柱状图

使⽤R语⾔

ta1 = read.table("D:/files.3.Q")

head(ta1)

barplot(t(as.matrix(ta1)),col = rainbow(3),

xlab = "Individual",

ylab = "Ancestry",

border = NA)

————————————————————————————————————————————

本⽂部分分析步骤参考了CSDN博主「育种数据分析之放飞⾃我」的原创⽂章，遵循CC 4.0 BY-SA版权协议，转载请附上原⽂出处链接及本声明。

688IT编程网

体结构分析软件admixture安装及使用经验

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表