hisat-genotypeでHLA解析
まずはHisat2のインストール。バイオコンダから。
conda install hisat2
その次に、Whole genome sequenceのデータからHLAのリードのみを取り出す。この場合に気をつけねければならないのがファイル名。Inputファイルは、.1.fq.gz, .2.fq.gzという名前じゃないといけない。さらにPair-endの場合、それ以前の名前は同一でないといけない。
hisatgenotype_extract_reads.py --base genotype_genome --read-dir fastq --out-dir output
最後にMapping
hisatgenotype_locus.py --base hla -1 output/190609_14-1_HLA_S17_L001_R1_001.hla.extracted.1.fq.gz -2 output/190609_14-1_HLA_S17_L001_R1_001.hla.extracted.2.fq.gz
Outputは以下の通り
hisat2 graph
7697 reads and 4219 pairs are aligned
1 A*01:01:01:01 (count: 4207)
2 A*01:128 (count: 3941)
3 A*01:01:72 (count: 3925)
4 A*01:09:01 (count: 3925)
5 A*01:02 (count: 3902)
6 A*01:198 (count: 3898)
7 A*01:216 (count: 3890)
8 A*01:165 (count: 3858)
9 A*01:52:02N (count: 3858)
10 A*01:215 (count: 3854)
1 ranked A*01:01:01:01 (abundance: 100.00%)
conda install hisat2
その次に、Whole genome sequenceのデータからHLAのリードのみを取り出す。この場合に気をつけねければならないのがファイル名。Inputファイルは、.1.fq.gz, .2.fq.gzという名前じゃないといけない。さらにPair-endの場合、それ以前の名前は同一でないといけない。
hisatgenotype_extract_reads.py --base genotype_genome --read-dir fastq --out-dir output
最後にMapping
hisatgenotype_locus.py --base hla -1 output/190609_14-1_HLA_S17_L001_R1_001.hla.extracted.1.fq.gz -2 output/190609_14-1_HLA_S17_L001_R1_001.hla.extracted.2.fq.gz
Outputは以下の通り
hisat2 graph
7697 reads and 4219 pairs are aligned
1 A*01:01:01:01 (count: 4207)
2 A*01:128 (count: 3941)
3 A*01:01:72 (count: 3925)
4 A*01:09:01 (count: 3925)
5 A*01:02 (count: 3902)
6 A*01:198 (count: 3898)
7 A*01:216 (count: 3890)
8 A*01:165 (count: 3858)
9 A*01:52:02N (count: 3858)
10 A*01:215 (count: 3854)
1 ranked A*01:01:01:01 (abundance: 100.00%)