littlebot
Published on 2025-04-03 / 0 Visits
0

【源码】基于Shell和Python的生物信息学工具集

项目简介

本项目是一个基于Shell和Python的生物信息学工具集,提供一系列用于日常生物信息学任务的脚本。脚本覆盖序列分析、多序列比对、分子对接日志解析、文件压缩和Docker容器管理等多个方面,可帮助研究人员和开发者简化工作流程,提升效率。

项目的主要特性和功能

  1. 序列分析工具
    • cal_fasta_seq_len.py:统计FASTA文件中所有序列的长度,并以CSV格式输出。
    • extract_one_gene_from_a_gff_file.sh:从一个GFF3文件中提取指定基因的相关信息。
  2. 多序列比对工具
    • 包含PROBCONS、MAFFT、T - Coffee和Clustal Omega等工具的使用命令。
  3. 分子对接日志解析
    • vina_docking - log_parser.py:解析AutoDock Vina的对接日志,提取亲和力和RMSD信息,并输出为CSV文件。
  4. 文件压缩与解压缩
    • crabz:高性能的文件压缩工具。
    • pigz:并行压缩工具,支持多线程压缩和解压缩。
  5. Docker容器管理
    • 包含容器的创建、提交、推送和运行等操作的常用指令。
    • 支持通过Docker运行JupyterLab和R环境。
  6. 其他实用工具
    • AnnoSINE_v2:用于SINE序列的注释和分析。
    • 批量下载HMM文件的脚本。

安装使用步骤

1. 环境准备

  • 确保已安装Python 3.x和必要的Python库(如BioPython)。
  • 安装所需的生物信息学工具(如MAFFT、T - Coffee等)。
  • 若需要使用Docker相关功能,安装Docker并配置好环境。

2. 下载项目

shell cd yourrepository

3. 使用脚本

  • 统计FASTA序列长度 shell python3 cal_fasta_seq_len.py -i input.fasta -o output.csv
  • 提取GFF3文件中的基因信息 shell ./extract_one_gene_from_a_gff_file.sh -q gene_id -s input.gff > output.gff
  • 解析Vina对接日志 shell python3 vina_docking - log_parser.py -i input.log -o output.csv
  • 使用Docker运行JupyterLab shell docker run -it -d --name my_bio_env_jupyter --hostname caicai --user root --volume /home/caicai/work:/home/work --workdir /home/work --privileged=true -e TZ=Asia/Shanghai --publish - all docker.io/jupyter/r - notebook:x86_64 - r - 4.3.1 /bin/bash - c "jupyter lab --allow - root"

4. 其他工具的使用

  • 多序列比对:参考MSA软件常用命令部分中的命令进行操作。
  • 文件压缩与解压缩:使用crabzpigz进行文件的压缩和解压缩。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】