10x GenomicsのCellrangerのoutputであるfiltered_feature_bc_matrix.h5をRのSeuratで読み込む方法 #rcommand #bioinformatics 3月 22, 2024 Cell Ranger outputのfiltered_feature_bc_matrix.h5は、シングルセルRNA-seq解析で使用する重要なファイルです。このファイルには、細胞ごとに検出された遺伝子発現量の情報がHDF5形式で保存されています。 # 内容 filtered_feature_bc_matrix.h5ファイルには、以下の情報が含まれています。 - 細胞バーコード: 細胞を識別するためのユニークなID - 遺伝子ID: 検出された遺伝子のID - UMIカウント: それぞれの遺伝子発現量に対応するUMIの個数 - これらの情報は、細胞ごとの遺伝子発現量を分析するために使用されます。 # 用途 filtered_feature_bc_matrix.h5ファイルは、以下のような用途に使用されます。 - 細胞ごとの遺伝子発現量を可視化 - 細胞のクラスタリング - 細胞特異的な遺伝子の発掘 - 遺伝子発現量の変化の分析 # Seuratでの読み込み方 library(Seurat) #hdf5ファイルを読み込む data <- Read10X_h5("filtered_feature_bc_matrix.h5") #Seurat objectを作成 seurat_obj <- CreateSeuratObject(data) また、hdf5ファイルからcell barcode, gene id, Count matrixを個別に取得したいときは以下のようにします。 library(h5r) # ファイルを読み込む data <- read_hdf5("filtered_feature_bc_matrix.h5") # 細胞バーコードを取得 cell_barcodes <- data$cell_barcodes # 遺伝子IDを取得 gene_ids <- data$gene_ids # UMIカウントを取得 umi_counts <- data$umi_counts # 参考 - 10x Genomics Cell Ranger documentation: https://www.10xgenomics.com/support/software/cell-ranger/latest/analysis/inputs/cr-inputs-overview - HDF5 website: https://www.hdfgroup.org/solutions/hdf5/