Unix 数据工具
我们将重点学习如何使用核心 Unix 工具来操作和探索纯文本数据格式。生物信息学中的许多格式都是以字符分隔的简单表格纯文本文件。生物信息学中最常用的纯文本文件格式是制表符分隔格式。这并非偶然:大多数 Unix 工具(如 cut
和 awk
)默认将制表符作为分隔符。由于使用 Unix 工具处理这些文件非常方便,生物信息学逐渐倾向于使用制表符分隔格式。制表符分隔的文件格式也很容易用 Python 和 Perl 等脚本语言进行解析,并很容易加载到 R 中
检查数据的头部与尾部
使用 head
来检查头部:
bash
% head sequence_01.fasta
>sequence_1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE
可以使用 -n
来定义检查头部的行数:
bash
% head -n 3 sequence_01.fasta
>sequence_1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
使用 tail
来检查尾部,同样适用 -n
来控制显示的行数:
bash
% tail -n 3 sequence_01.fasta
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE
同时 tail
还提供了自定义从哪一行开始,使用 +x
,此时 tail
就会从 x
行开始读取
bash
% tail -n +3 sequence_01.fasta
TACGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
CGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
ASDE
less
也是极为强大的文件查看工具:
bash
less [选项] 文件名
-N
:显示行号-i
:忽略搜索时的大小写-F
:如果文件内容少于一屏就自动退出-X
:退出时不清理屏幕-S
:截断长行而不是换行显示
使用 less
和使用 vim
是差不多的,会进入一个交互式终端:
常用操作命令:
空格键
或f
:向下翻一页b
:向上翻一页Enter
或e
:向下翻一行y
:向上翻一行d
:向下翻半页u
:向上翻半页g
:跳到文件开头G
:跳到文件末尾50g
:跳到第50行50%
:跳到文件50%的位置v
:使用默认编辑器编辑当前文件h
:显示帮助q
:退出 less
bash
less file1 file2 # 查看多个文件
ls -l | less # 查看命令输出
less file.gz # 查看压缩文件
less -p "search_term" filename # 高亮搜索内容