Skip to content

Unix 数据工具

我们将重点学习如何使用核心 Unix 工具来操作和探索纯文本数据格式。生物信息学中的许多格式都是以字符分隔的简单表格纯文本文件。生物信息学中最常用的纯文本文件格式是制表符分隔格式。这并非偶然:大多数 Unix 工具(如 cutawk)默认将制表符作为分隔符。由于使用 Unix 工具处理这些文件非常方便,生物信息学逐渐倾向于使用制表符分隔格式。制表符分隔的文件格式也很容易用 Python 和 Perl 等脚本语言进行解析,并很容易加载到 R 中

检查数据的头部与尾部

使用 head 来检查头部:

bash
% head sequence_01.fasta 
>sequence_1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE

可以使用 -n 来定义检查头部的行数:

bash
% head -n 3 sequence_01.fasta 
>sequence_1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA

使用 tail 来检查尾部,同样适用 -n 来控制显示的行数:

bash
% tail -n 3 sequence_01.fasta
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE

同时 tail 还提供了自定义从哪一行开始,使用 +x,此时 tail 就会从 x 行开始读取

bash
% tail -n +3 sequence_01.fasta
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE

less 也是极为强大的文件查看工具:

bash
less [选项] 文件名
  • -N:显示行号
  • -i:忽略搜索时的大小写
  • -F:如果文件内容少于一屏就自动退出
  • -X:退出时不清理屏幕
  • -S:截断长行而不是换行显示

使用 less 和使用 vim 是差不多的,会进入一个交互式终端:

image.png

常用操作命令:

  • 空格键f:向下翻一页
  • b:向上翻一页
  • Entere:向下翻一行
  • y:向上翻一行
  • d:向下翻半页
  • u:向上翻半页
  • g:跳到文件开头
  • G:跳到文件末尾
  • 50g:跳到第50行
  • 50%:跳到文件50%的位置
  • v:使用默认编辑器编辑当前文件
  • h:显示帮助
  • q:退出 less
bash
less file1 file2 # 查看多个文件
ls -l | less # 查看命令输出
less file.gz # 查看压缩文件
less -p "search_term" filename # 高亮搜索内容

最后更新于:

Released under the MIT License.