1,摸索篇:
前幾天開始了解TCGA數據庫,想挖掘一下數據,先根據網上各種教程把你要下載的數據加入”購物車“,然后下載”manifest“,然后用官網推薦的GDC下載。于是我首先下載了linux版本的,結果需要linux庫更新,結果我更新了半天,差點把系統搞崩潰。
unix和linux的區別,2,下載篇:
于是放棄之,用windows版本,最后也一直沒有成功,一直報錯(報錯了才知道是python報錯,原來這個工具是用python寫的?哇,python好強大,更要好好學習之)以為是系統不兼容,在群里問了才知道win10可以用,思來想去,可能是運行目錄是中文目錄,于是改之,可運行了。
3,升級篇:
linux提權、現在可以下載了,可是問題是下載老是中斷,無法忍受了(下載量小的windowns用戶用此方法還是比較實用的)。這個時候看了一個帖子,就是我下載當天發的(太巧了!)于是我按圖索驥,上面介紹用linux命令下載,但是那是個微信帖子(生信人轉載的,感謝),上面的下載腳本點不開,于是我只好自己弄(后來工作人員給我原文了下載了腳本)。于是我就根據帖子描述的方法,用wget下載:wget:wget?https://gdc-api.nci.nih.gov/data/UUID -O 文件名
UUID和文件名可以根據manifest文件獲取,然后用awk批量生成下載命令,也可使用download.py腳本下載(鏈接:https://github.com/methylation/knowledge?這里的download.py腳本就是下載腳本,另外parse_json.pl 腳本可能有點問題,我試了一下,轉化不了,后面再優化一下腳本看看)
4,鳴謝:
r語言下載tcga數據?感謝@sisigreen?你的堅持讓我有了發帖的動力,后面轉化ID部分還請賜教!謝謝!
版主dachong99留言:
歡迎分享,加油~
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态