Personne parle de tester un médicament. On te parle de tirer des conclusions pour dire que le groupe sanguin A est le plus touché sur base de 3k cas.
Pour le poker, je ne sais pas, ça me parait différent quand même, mais je ne saurai mettre les mots sur quoi...
Ici, ce qu'ils ont fait de ce que j'ai (vite) compris, c'est qu'ils ont pris un échantillons de 3-4K de personnes non touchée, randomisées (je suppose) dans deux régions différentes.
A Wuhan, ils ont comparé la répartition des gens A, B, AB ou O dans le groupe contrôles et chez 1700+ malade et ont vu qu'elle était différentes. La répartition des personnes A et O chez le groupe contrôle n'est pas la même que celle du groupe "patient". En d'autre mot, là où on trouvait un nombre similaire de patient A et O chez le groupe sain (+/- 32% de chaque), on a 37% de patient A chez les malade et seulement 25% de patient O, les groupes AB ne semblant pas changer.
Il faut plutôt voir la chose ainsi: sur un évènement (= un individu), j'ai une chance X d'avoir le groupe A, une chance Y d'avoir le groupe B, etc. Pour connaître les valeurs de X, Y, etc... je l'évalue à partir d'une population contrôle. Pour se faire, j'ai besoin d'un grand nombre d'occurence. C'est comme lancer suffisamment de fois un dé pour savoir que tu as effectivement bien une chance sur 6 d'avoir chaque résultats. Si tu le lance 10 fois, tu vas te tromper. Si tu le lance 100 fois, tu approcheras d'un résultats concordant. Si tu le lances 3000 fois, tu auras une valeur toute proche de 1/6 en proba pour chaque résultats.
C'est pareil ici: avec 3000 personnes saines, on est désormais suffisamment en confiance pour considérer que la répartition de 32% pour A, 25% pour B, 10% pour AB et 33% pour O est celle représentant la population globale (en Chine du moins). C'est limite plus facile que pour le dé, où tu as 6 résultats possible contre 4 seulement ici.
Une fois fait, imagine que now, tu veux tester un dé supposé tronqué. Tu vas le lancer 600 fois par exemple (ce qui est largement suffisant) et tu vas vérifier que cette distribution de proba pour chaque résultat correspond bien à 1/6. Si ce n'est pas le cas, le dé sera tronqué.
Pareil ici: tu test 1700+ occurence dans le groupe malade et tu regardes si la distribution est identique. Si elle l'est, c'est que chaque patient de chaque type sanguin a la même proba d'attraper la maladie car il n'y a pas eu de changement de répartition des groupes sanguins chez les contrôles et chez les malades. Si ça ne l'est pas, c'est que qqpart, un groupe sanguin a eu plus de probabilité de choper la maladie (comme un dé tronqué a plus de proba de tomber sur un résultat en particulier).
Du coup vu comme ça, oui, 2-3k d'échantillonnage
par groupe (contrôle et malades), c'est pas mal du tout hein.