hisat-genotypeでHLA解析

まずはHisat2のインストール。バイオコンダから。
conda install hisat2

その次に、Whole genome sequenceのデータからHLAのリードのみを取り出す。この場合に気をつけねければならないのがファイル名。Inputファイルは、.1.fq.gz, .2.fq.gzという名前じゃないといけない。さらにPair-endの場合、それ以前の名前は同一でないといけない。

hisatgenotype_extract_reads.py --base genotype_genome --read-dir fastq --out-dir output

最後にMapping
hisatgenotype_locus.py --base hla -1 output/190609_14-1_HLA_S17_L001_R1_001.hla.extracted.1.fq.gz -2 output/190609_14-1_HLA_S17_L001_R1_001.hla.extracted.2.fq.gz

Outputは以下の通り

                hisat2 graph
                        7697 reads and 4219 pairs are aligned
                                1 A*01:01:01:01 (count: 4207)
                                2 A*01:128 (count: 3941)
                                3 A*01:01:72 (count: 3925)
                                4 A*01:09:01 (count: 3925)
                                5 A*01:02 (count: 3902)
                                6 A*01:198 (count: 3898)
                                7 A*01:216 (count: 3890)
                                8 A*01:165 (count: 3858)
                                9 A*01:52:02N (count: 3858)
                                10 A*01:215 (count: 3854)

                                1 ranked A*01:01:01:01 (abundance: 100.00%)