littlebot
Published on 2025-04-09 / 0 Visits
0

【源码】基于C语言的蛋白质序列进化树生成系统

项目简介

本项目 Aclust 是使用 C 语言编写的程序,其核心功能是依据 Fasta 格式的蛋白质序列输入生成系统发育树。该程序会计算序列间的距离矩阵,并运用多种算法来构建和优化进化树。

项目的主要特性和功能

  1. 距离矩阵计算:基于序列比对来计算两两序列间的距离矩阵。
  2. 多种进化树构建:采用最近邻接法(NNJ)从距离矩阵直接构建二叉树;在通过对距离矩阵进行特征值分解得到的正交坐标空间中再次使用 NNJ 构建二叉树;对第二棵树进行递归子分支重新嵌入以生成优化后的第三棵二叉树。
  3. 灵活的输入输出:输入支持预对齐(MSA)的序列,若未对齐则进行局部(SW)对齐计算;输出包含 Newick 格式的进化树、对齐文件和距离矩阵文件。

安装使用步骤

安装

假设用户已经下载了本项目的源码文件,在项目目录下,使用以下命令编译程序: cd src; make; make install

运行

运行程序的命令如下: bin/aclust -s dat/BLOSUM62.dat my.fa

命令行参数帮助

使用以下命令获取命令行参数的帮助信息: bin/aclust -h

命令行参数说明

  • 必需参数
    • -s 'path':替换得分矩阵的文件位置,例如 dat/BLOSUM62.txt
  • 可选参数
    • -p 'string':所有输出文件的前缀,默认为第一个输入 Fasta 文件的名称。
    • -d integer:嵌入维度,默认为 20。
  • 可选标志
    • -m:将输入的 Fasta 文件解释为 MSA。
  • 不太重要的标志
    • -j:不写入 JSON 格式的对齐文件。
    • -nonself:不进行自我对齐。
    • -v:开启更详细的输出信息。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】