Calculation of PL and GQ by HaplotypeCaller and GenotypeGVCFs
PL est une annotation de sample-level. On peut le calculer avec HaplotypeCaller et GenotypeGVCFs. \[ PL = -10 * \log{P(Genotype | Data)} \]
C’est la probabilitée conditionelle que le génotype nous donne les donnée observé. Le PL es ensuite normaliser
Ainsi on peut regarder a partir des meme donnée; le PL de quel genotype est le plus élever ### Normalisation Pour pouvoir étre exploitable dans un fichier .VCF le PL doit étre normaliser, pour ce faire on prend la valeur de PL brute la plus faible et on la soustrait a chaque PL. ie dans un fichier .VCF la PL la plus basse est 0
Dans une PL un écat de +20 correspond a une probablitée 100x supérieure que notre génotype soit un tel plutot qu’un autre sachant notre jeux de donnée P(AA | Data). On peut grâce à ça trouver la GQ pour genotype quality qui est égale a la seconde plus basse valeur de notre PL.
Assigning per-sample genotypes (HaplotypeCaller)
Calculating genotype likelihoods using Bayes’ Theorem
Cette partie montre comment est caculer la probabilitée conditionelle du génotype G sachant les donnée observé D. \[ P(G|D) = \frac{ P(G) P(D|G) }{ \sum_{i} P(G_i) P(D|G_i) } \]
L’objectif est de calculer la probabilitée que le génotype soit G sachant les données D (Partie gauche). Pour ce faire on a besoins de deux choses: - P(G): Probabilite du génotype G par défaut on considére tous les génotype comme équiprobable - P(D|G): Probabilitée obtenir les donnée D chez un individu de génotype G:
\[ P(D|G) = \prod{j} \left( \frac{P(D_j | H_1)}{2} + \frac{P(D_j | H_2)}{2} \right) \] Pour cette derniere formule seuls deux haplotypes possibles sont considérés (G=H1H2).
Il reste à définir P(Dj|Hn) qui est la probabilité de lire l’allele Dj si l’individu a l’haplotype n.