其实我自己使用prefetch工具以来,遇到的错误并不多,大多是由于网络环境导致的,在网络上查询也可以看出,大多数情况下prefetch的问题还是出在网络环境上。但有些问题并非由于网络引起,而是自己数据的问题。
我在批量下载约100个数据时,遇到的报错信息如下:
报错提供了3个信息点:
- 无法获取到SRRid,即prefetch无法识别txt文件中给出的id信息。
- 虽然大多数样本无法下载,但仍有几个可以正常下载。
- 虽然在脚本中不可下载,但手动输入prefetch SRR123456没有问题。
这个问题着实令我苦恼,在查询了一些资料,尝试更换版本等一系列操作后,终于在Biostars中找到了答案。
于是我发现我的id文件显示如下:
可以看到,大多数id后是^M$结尾,极少数是$结尾,也就是说是特殊符号的存在导致prefetch无法正确识别Sra id。进一步查询发现,这是由于linux和windows对于换行符的不同表示导致的,windows中表示为rn,linux中则为n。
解决方法
有多种方法可以解决这个问题,最直接的就是把^M替换成空,但考虑到我们id样本的处理不会直接在终端进行,需要office等文本处理软件的参与,因此在从excel过渡到txt的过程建议复制粘贴,而不是将excel文件另存为txt文件,这样基本可以避免格式问题造成的prefetch错误。



