Posté par Redbran le Dimanche 06/10/2019 à 14:00
Unintentional p-value hacking, ou le risque de faire mentir les données, malgré elles
Les chercheurs du laboratoire Biologie à Grande Échelle de l’Irig publient un ensemble d'articles destiné à améliorer les bonnes pratiques en science des données pour la protéomique.


Construction graphique permettant d’estimer visuellement la qualité de la calibration des p-values. © IRIG

"Il y a trois types de mensonges: les mensonges, les sacrés mensonges et les statistiques". Cette phrase de Benjamin Disraeli trouve son origine dans un usage inadapté des outils statistiques, dans le but de cautionner une intuition ou une conviction. Bien que décriée, cette pratique a malheureusement son pendant en recherche: le p-value hacking, qui consiste à triturer les données jusqu’à obtenir la significativité désirée pour une hypothèse testée, au détriment de certaines règles statistiques qui s’en trouvent violées. Le plus souvent, cela est fait en toute bonne foi puisque l’objectif est de tirer le meilleur parti possible des données tout en se conformant aux exigences de publication. Malgré tout, il est indispensable de limiter cette pratique qui engendre de nombreuses fausses découvertes.

Cela est d’autant plus vraie en protéomique, en raison de la complexité intrinsèque du protéome, mais aussi de l’évolution rapide des technologies analytiques. C’est notamment pour cela que de nombreux outils bioinformatiques et biostatistiques fleurissent régulièrement dans la littérature [1], avec la promesse de pouvoir dépasser la triple limite des big proteomics data: leur grande taille, leur grande dimensionnalité, et leur grande complexité. Cependant, la simplicité qu’offrent ses outils ne saurait masquer la nécessité d’un minimum de compréhension théorique pour une utilisation et des résultats corrects.

C’est avec cet objectif que des chercheurs du laboratoire Biologie à Grande Échelle de l’Irig ont réalisé ces dernières années un effort particulier dans la divulgation de bonnes pratiques en science des données pour la protéomique [2-4]. Ils ont ainsi publié une introduction à la théorie du FDR (False Discovery rate, une mesure de contrôle qualité omniprésente), ils ont désambiguïsé un ensemble de termes ayant des significations différentes en intelligence artificielle et en chimie analytique, et ont également proposé cinq étapes de contrôle permettant d’améliorer la qualité d’une analyse protéomique différentielle entre plusieurs échantillons.

Références publication:
[1] Jacob L, Combes F and Burger T. PEPA test: Fast and powerful differential analysis from relative quantitative proteomics data using shared peptides. Biostatistics, 2018
[2] Burger T. Gentle introduction to the statistical foundations of false discovery rate in quantitative proteomics. Journal of Proteome Research, 2018
[3] Borges H, Guibert R, Oermiakova O and Burger T. Distinguishing between spectral clustering and cluster analysis of mass spectra. Journal of Proteome Research, 2019
[4] Wieczorek S, Giai Gianetto Q and Burger T. Five simple yet essential steps to correctly estimate the rate of false differentially abundant proteins in mass spectrometry analyses. Journal of Proteomics, 2019
Dernières news
L’Agence spatiale européenne (ESA) et l’entreprise d’État pour les activités spatiales Roskosmos ont décidé de reporter à 2022 le lancement de la deuxième...
Quelques-unes des clés de la compréhension de l’origine du système solaire se trouvent à l’intérieur des planètes géantes. Si la sonde spatiale Juno a...
Une équipe du laboratoire Navier, en collaboration avec l'université du Delaware (Etats-Unis), a identifié un nouveau processus responsable du vieillissement des...
La gaine embryonnaire est une couche de glycoprotéines entourant l’embryon qui a été décrite chez la plante modèle Arabidopsis thaliana. Dans un article publié...
Une collaboration française impliquant le LSCE (CEA-CNRS-UVSQ) a étudié une archive sédimentaire atypique: les matières accumulées entre mai 2015 et mars 2016 dans...
Dans une même expérience et pour un même matériau, des physiciennes et des physiciens ont pour la première fois mesuré la chiralité de l'organisation magnétique...
De nombreux phénomènes permettent de stocker des données au format binaire, comme les changements d’état magnétique dans les matériaux dits à transition de...
Comme beaucoup de ses collègues, le professeur Andrés Finzi, du Département de microbiologie, infectiologie et immunologie de l’Université de Montréal, réoriente...
L’impact artificiel produit par la mission spatiale Hayabusa2 sur l’astéroïde Ryugu: un cratère bien plus grand que prédit ! Quelle est la dimension d’un...
Grâce à une étude de terrain en Chine, une collaboration internationale impliquant le LSCE (CEA-CNRS-UVSQ) démontre que la culture de bambous Moso atténue le...
Au sein des cellules, des protéines appelées facteurs de transcription, reconnaissent spécifiquement diverses molécules. Des chercheurs du LCPO (CNRS/Université de...
Une première preuve de concept de stack pile à combustible PEMFC de 1 kWatt avec des composants imprimés a été réalisée. Outre la diminution des coûts grâce à...
Le projet EmoDémos, mené auprès d’enfants de 7 à 12 ans et dirigé par l’UNIGE, démontre que pratiquer un instrument au sein d’un orchestre peut faciliter...
La marée: un ingrédient essentiel de la dispersion des eaux douces du panache de l’Amazone dans l’océan Atlantique tropical Le panache d’eau douce du fleuve...
L’équipe de Julie Hussin, composée d’une dizaine de chercheurs en bio-informatique, s’attaque à la caractérisation génétique du coronavirus responsable de la...
Une croissance juvénile optimale repose sur une alimentation diversifiée et des études récentes démontrent le rôle important du microbiote intestinal dans ce...
Face à un virus encore mal connu, la recherche a besoin de tous les moyens pour lutter contre le COVID-19. Conçu, hébergé et maintenu à jour par des chercheurs et...
Dans les cellules photovoltaïques, l'absorption d'un photon par un matériau semi-conducteur crée une paire électron-trou (appelée exciton), résultant de...
Le record du monde d’Usain Bolt sur 200 mètres n'a pas été battu depuis 10 ans, et celui de Florence Griffith Joyner depuis plus de 30 ans. Et si les mathématiques...
Mépris, blâme, désinformation: guidées par la peur, les réactions des gens à la pandémie de COVID-19 empirent parfois une situation déjà complexe. Pourquoi...
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales