Posté par Redbran le Dimanche 06/10/2019 à 14:00
Unintentional p-value hacking, ou le risque de faire mentir les données, malgré elles
Les chercheurs du laboratoire Biologie à Grande Échelle de l’Irig publient un ensemble d'articles destiné à améliorer les bonnes pratiques en science des données pour la protéomique.


Construction graphique permettant d’estimer visuellement la qualité de la calibration des p-values. © IRIG

"Il y a trois types de mensonges: les mensonges, les sacrés mensonges et les statistiques". Cette phrase de Benjamin Disraeli trouve son origine dans un usage inadapté des outils statistiques, dans le but de cautionner une intuition ou une conviction. Bien que décriée, cette pratique a malheureusement son pendant en recherche: le p-value hacking, qui consiste à triturer les données jusqu’à obtenir la significativité désirée pour une hypothèse testée, au détriment de certaines règles statistiques qui s’en trouvent violées. Le plus souvent, cela est fait en toute bonne foi puisque l’objectif est de tirer le meilleur parti possible des données tout en se conformant aux exigences de publication. Malgré tout, il est indispensable de limiter cette pratique qui engendre de nombreuses fausses découvertes.

Cela est d’autant plus vraie en protéomique, en raison de la complexité intrinsèque du protéome, mais aussi de l’évolution rapide des technologies analytiques. C’est notamment pour cela que de nombreux outils bioinformatiques et biostatistiques fleurissent régulièrement dans la littérature [1], avec la promesse de pouvoir dépasser la triple limite des big proteomics data: leur grande taille, leur grande dimensionnalité, et leur grande complexité. Cependant, la simplicité qu’offrent ses outils ne saurait masquer la nécessité d’un minimum de compréhension théorique pour une utilisation et des résultats corrects.

C’est avec cet objectif que des chercheurs du laboratoire Biologie à Grande Échelle de l’Irig ont réalisé ces dernières années un effort particulier dans la divulgation de bonnes pratiques en science des données pour la protéomique [2-4]. Ils ont ainsi publié une introduction à la théorie du FDR (False Discovery rate, une mesure de contrôle qualité omniprésente), ils ont désambiguïsé un ensemble de termes ayant des significations différentes en intelligence artificielle et en chimie analytique, et ont également proposé cinq étapes de contrôle permettant d’améliorer la qualité d’une analyse protéomique différentielle entre plusieurs échantillons.

Références publication:
[1] Jacob L, Combes F and Burger T. PEPA test: Fast and powerful differential analysis from relative quantitative proteomics data using shared peptides. Biostatistics, 2018
[2] Burger T. Gentle introduction to the statistical foundations of false discovery rate in quantitative proteomics. Journal of Proteome Research, 2018
[3] Borges H, Guibert R, Oermiakova O and Burger T. Distinguishing between spectral clustering and cluster analysis of mass spectra. Journal of Proteome Research, 2019
[4] Wieczorek S, Giai Gianetto Q and Burger T. Five simple yet essential steps to correctly estimate the rate of false differentially abundant proteins in mass spectrometry analyses. Journal of Proteomics, 2019
Dernières news
Un groupe international de 46 scientifiques publie dans la revue Science un texte appelant à la prudence quant à une étude, parue en juillet dans cette même revue,...
Dans la course aux armements entre les bactériophages et leurs proies, les protéines virales anti-CRISPR inactivent l’immunité bactérienne CRISPR-Cas9. En...
Des données d'une portée sans précédent suggèrent que tous les systèmes vivants suivent la même loi de croissance. Voir aussi notre précédent article sur le...
En identifiant une protéine clé dans la régulation du glucose et des lipides dans le sang, des chercheurs de l’UNIGE espèrent le développement rapide de...
La vue d’un bon repas a un effet très différent selon que l’on soit affamé ou que l’on vienne de manger copieusement. La prise en compte de l’état...
De nouvelles nano-entités bio-organiques en forme d’étoiles, baptisées "Aster Like Nanoparticle" (ALN) ont été découvertes dans des systèmes aquatiques par des...
La campagne ballons Strato-Science 2019, démarrée mi-août, s’est avérée être un franc succès. Les quatre vols de ballons stratosphériques ouverts (BSO)...
Des physiciens de l’UNIGE ont découvert une nouvelle propriété quantique: en plaçant trois paires de photons en réseau, il est possible de les intriquer entre eux...
Les espèces n’ont pas beaucoup d’options face au changement climatique: elles peuvent s’adapter de façon génétique aux nouvelles conditions (évolution), ou se...
Le cyberespace est un lieu de recherche et de partage par excellence. Toutefois, il réserve quelques surprises aux personnes utilisatrices, soit 57 % de la population...
L’intestin doit-il sa forme allongée à la génétique ? Des chercheurs du laboratoire Matière et systèmes complexes ont cultivé des intestins miniatures et...
Jusqu'à présent, l'exploitation du petit gibier par les Néandertaliens était encore considérée comme anecdotique ou occasionnelle. L'analyse des restes de lapins...
À cause de leur évanescence, la dynamique des anneaux de fluide et de tourbillons reste encore mal comprise. Des chercheurs du laboratoire Matière et systèmes...
Des chercheurs des universités de Genève et de Lyon ont découvert une molécule responsable de la nécrose des tissus en cas d’infarctus, et comment réduire de 30%...
Des chercheurs de l’Inra et du CNRS viennent de montrer pour la première fois que la pollinisation par les abeilles surpassait l’utilisation de produits...
Une équipe internationale dirigée par des chercheurs du Département d'Astrophysique (DAp) du CEA-Paris Saclay vient pour la première fois de sonder en détail les...
Dans le cerveau, le réseau du "mode par défaut" est celui qui s’active quand on laisse libre cours à ses pensées. Les régions cérébrales qui s’activent de...
La nature aide l’humain à bien des égards, souvent à très petite échelle. C’est l’abeille sauvage qui traverse une ferme et pollinise au passage quelques...
La Plateforme Hydrogène, dont la vocation est de réaliser des travaux de recherche sur les utilisations et la production de l’hydrogène et d’accompagner les...
Les chercheurs ont découvert la signification biologique du centrage du noyau en fin de phase de croissance ovocytaire chez la souris. En effet, le réseau d’actine...
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales