Validation en santé numérique Featured

Quelle est la meilleure façon d'évaluer la qualité d'une application mobile en santé?

La question de l'évaluation d'applications est devenue fondamentale et est soulevée par un nombre croissant de cliniciens, de payeurs, ainsi que de multiples autres intervenants du secteur de la santé.

TherAppX

20 Aug 2020 • 9 min read

Cette question devenue fondamentale est soulevée par un nombre croissant de cliniciens, de payeurs, ainsi que de multiples autres intervenants du secteur de la santé. Ce thème unique a fait l'objet d'un nombre croissant de publications scientifiques (7'929 depuis 2008, pour être précis).

Figure 1. Nombre de publications scientifiques liées à la requête «application» OU «application» ET «évaluation» ET «qualité» sur Pubmed, au 29 juillet 2020.

Chez Therappx, nous avons examiné toutes les méthodologies d'évaluation utilisées par les organisations ou étudiés par des groupes de recherche du monde entier pour déterminer la qualité des applications, et ce depuis les années 90. Suite à cette analyse, nous sommes arrivés à une déclaration assez audacieuse:

Aucun des cadres publiés depuis les années 90 n'a jamais prouvé qu'il pouvait dénicher des outils de santé numériques (applications, appareils, etc.) destinés aux patients (ou ONS), qui génèrent vraiment des issus favorables pour la santé.

La qualité et la valeur sont deux choses différentes. La qualité peut être un prédicteur de la valeur, mais seulement lorsque vous êtes certains que la méthodologie d'évaluation permette d'isoler les ONS de grande valeur (générant des issus favorables pour la santé des usagers). Aucune méthodologie n'a fait cette démonstration à ce jour.

Bien sûr, des ONS de haute qualité peuvent se traduire plus fréquemment en valeur. Cependant, cette dernière dépend plus des besoins du patient que de la qualité des outils (celle-ci étant davantage liée à des facteurs intrinsèques, comme le nombre de fonctionnalités). Par conséquent, cela ne signifie pas que recommander un ONS de haute qualité se traduira par de la valeur générée chez tous les types de patients. En fait, un ONS de haute qualité pourrait générer aucune valeur pour qui que ce soit s'il n'est pas bien aligné avec les besoins des usagers à qui on le rend disponible.

Ainsi, recommander le remboursement, la prescription ou l'utilisation d'un ONS sur la seule base du fait qu'il est de haute qualité basé sur MARS, APPLICATION ou tout autre type de cadre d'évaluation est sous-optimal.

Comment évaluer la valeur?

Cette section explique comment nous réalisons la validation avec la méthodologie complète et segmentée de Therappx et comment elle nous a permis d'isoler les ONS générant le plus de valeur pendant la pandémie. Dans la section suivante, nous discuterons plus en détail de nos observations concernant notre cadre.

Pour évaluer la valeur d'un ONS donné, nous confirmons qu'il est nécessaire de jeter un regard sur les résultats qu'il génère auprès de vrais patients lors de l'utilisation de sa version actuelle dans des contextes réels. En raison de cette considération critique, les décisions concernant un ONS doivent être basées à la fois sur la qualité et sur des preuves du monde réel (de l'anglais real-world evidence, ou RWE). Les patients peuvent fournir du RWE via des appareils connectés (on appelle ce type de données des biomarqueurs numériques) ou des questionnaires validés cliniquement (on appelle ce type de données des PROMs, si elles ont attrait à des issues cliniques) et des PREMs si elles ont attrait à des mesures expérientielles). On compare ces données à différentes sources d'information retrouvées dans notre produit CORE, afin de savoir où se situe un outil donné sur «l'échelle de la valeur» (voir figure 4).

Réaliser à la fois des évaluations de la qualité et de la valeur permet des décisions efficaces et robustes pour identifier le meilleur ONS de sa catégorie.

Voici comment nous y prenons :

Étape 1. Recherchez la présence de critères excluant de facto un ONS, sur la base de sa qualité. On cherche ici certaines composantes parfois présentes dans les ONS qui peuvent être nocifs pour les patients (du point de vue de la confidentialité, de l'utilisabilité ou de la qualité du contenu, par exemple). Pour des raisons de clarté, nous appelons cette étape de notre méthodologie le no-go dans cet article.
Étape 2. Permettez aux patients d'interagir avec un ONS qui est passée par l'étape 1 et recueillir du RWE;
Étape 3. Identifiez les sous-populations de vos patients ne bénéficiant pas de l'ONS et supprimez tous les ONS qui ont bien performé dans aucune de vos sous-populations de patients. Ne gardez que ceux qui génèrent de la valeur.
Étape 4. Suivez toutes les modifications importantes apportées aux ONS que vous avez ainsi évalués. En fonction de la nature des changements apportés à l'outils (grande mise à jour des fonctionnalités c. corrections de bugs), déterminez si vous devez répéter les étapes 1 à 3 .

C’est ainsi que nous évaluons les ONS chez Therappx. C'est également ainsi que nous alimentons notre produit phare, appelé CORE. Grâce à ce PaaS, nos clients peuvent accéder, à tout moment, à plus de 58 points de données mis à jour sur un grand nombre d'ONS disponibles au Canada.

Au cours des dernières années, nous avons fait des observations assez intéressantes en adoptant cette méthodologie:

Principaux apprentissages liés à nos processus et sur lesquels est basé notre produit CORE

1. Être basé sur les données vaut mieux qu'être basé sur les preuves dites traditionnelles

Chez Therappx, nous avons décidé que le no go serait créé sur mesure pour tenir compte des particularités du Canada (par exemple, l'hébergement de données, la localisation, la langue, les unités de mesure, etc.). De plus, nous divisons notre méthodologie en deux et mobilisons deux types d'expertises pour la rendre efficace:

Un robot et un expert en documentation sont responsables d'une première évaluation. Ils regroupent tous deux une grande quantité de données sur tous les ONS disponibles au Canada. L’objectif est d’identifier les problèmes potentiels du point de vue de la réglementation, de la gouvernance des données, de l’utilisabilité (entre autres) pour supprimer rapidement un ONS de l’écosystème Therappx, sur la base de critères non cliniques.
Ensuite, des cliniciens formés au sujet des ONS effectuent une deuxième évaluation. Ils examinent dans quelle mesure les ONS ayant passé la première étape sont alignés avec les guides pratiques ou pourrait améliorer les soins de leurs patients, au moyen d'une évaluation standardisée. Cette étape nous permet de supprimer un ONS en fonction de la pertinence clinique et de la valeur thérapeutique perçues, mais également de classer chaque ONS en fonction de son niveau d'intervention thérapeutique.

Nous avons mis à profit ce cadre dans les premiers jours de la pandémie. Cela nous a permis d'isoler 25 ONS dans les 1175 applications disponibles dans les deux App Stores qui ont adapté leur application au stress et à l'anxiété produit par la COVID19. Nous y sommes parvenus en moins de dix jours. Notre équipe a poursuivi son travail et nous avons ajouté de nouvelles applications pour plus de 13 conditions dans notre produit phare, CORE.

2. Il est théoriquement possible de prédire la valeur

Grâce au fait qu'un grand nombre d'ONS partagent des similitudes (par exemple en termes d'interface utilisateur ou de fonctionnalités), il est possible de progresser en tant qu'organisation pour prédire la valeur uniquement en évaluant la qualité (étape 1). Cependant, cela nécessite que vous ayez une idée claire des ONS utiles pour la population de votre patient et de leurs caractéristiques (étape 3).

En d'autres termes, vous pouvez ignorer les étapes 2 et 4, en théorie, lorsque vous acquérez suffisamment d'expérience et de données en employant le processus décrit ci-haut. Dans ce cas, vous serez certain que la méthodologie d'évaluation de la qualité ONS que vous utilisez permet d'isoler le sous-groupe d'ONS qui génère de la valeur pour votre population de patients.

Ce type de prédiction est actuellement testé par Therappx, avec l'aide du Conseil national de recherches du Canada (CNRC). Notre objectif commun est de créer un mécanisme de prédiction alimenté par du RWE pour les ONS disponibles sur le marché canadien.

3. Les bibliothèques d'applications et les cadres de qualité ne font que la moitié du travail

Depuis que le premier programme de certification pour les ONS a été lancé en 2013 (et rapidement suspendu en raison du ciblage par des pirates informatiques des ONS incluses), de nombreuses organisations ont lancé leur propre sélection (souvent appelé bibliothèque d'applications). Plus récemment, les gestionnaires de prestations pharmaceutiques (PBM) tels que CVS ont été impliqués dans ces démarches pour aider leurs clients à choisir parmi des ONS préalablement analysés.

Certaines bibliothèques se concentrent sur les besoins d'un patient spécifique (PsyberGuide, GoodThinking, MindTools, etc.), tandis que plus de 40 autres incluent des ONS disponibles pour toutes les conditions de santé.

Certaines bibliothèques ont décidé d'emprunter une méthodologie qui a fait l'objet de publications scientifiques (par exemple vicHealth avec mARS et ABACUS). En revanche, au moins 48 autres ont créé leur propre méthodologie.

Comme indiqué précédemment, toutes ces organisations utilisent certains critères subjectifs pour évaluer la qualité sans valider que ces critères se traduisent en valeur, même ceux qui utilisent des cadres qui ont fait l'objet de publications évaluées par des pairs. En effet, les chercheurs ont tendance à ne s'intéresser qu'aux disparités entre les examinateurs en mesurant la cohérence interne, la fiabilité de type split-half, la fiabilité test-retest ou la fiabilité inter-évaluateurs (réf.1, 2, 3, 4, 5 et 6) pour savoir si une méthodologie est fiable.

Figure 2. La fiabilité ne doit pas être considérée comme synonyme de précision (D). Être cohérent (B) pourrait également signifier que chaque critique a tort.

Nous avons rapidement déterminé que cela ne fonctionnait pas avec le groupe de plus de 20 réviseurs affiliés à Therappx. Ces réviseurs ont tendance à souffrir d'un biais de tendance centrale, ce qui signifie qu'ils fourniront à un trop important nombre d'ONS un score moyen. Bien sûr, les données qu'ils fournissaient étaient cohérentes, mais ne permettait pas d'isoler les ONS qui généraient réellement de la valeur lorsqu'on comparait leurs révisions et le RWE. Et il semble que nous n'étions pas seuls dans cette situation. Maintenant, les informations trouvées dans CORE sont suffisamment nombreuses pour garantir qu'une décision ne repose pas uniquement sur l'appréciation d'un petit groupe de réviseurs.

4. Les chercheurs de la Northwestern University avaient (presque) raison

Dans le cadre de nos revues systématiques des évaluations d'ONS, le concept CEEBIT de l’Université Northwestern (NWU) nous a frappés.

Figure 4. Illustration du concept CEEBIT pour tenir compte de RWE sur une base continue lors de l'évaluation de DHT. BIT est de l'anglais technologies d'intervention comportementale.

CEEBIT, qui en anglais signifie évaluation continue des technologies d'intervention comportementale en évolution, est une méthodologie que les organisations peuvent utiliser pour tirer parti du RWE généré en continue par un groupe d'ONS afin d'éliminer rapidement les ONS qui «démontrent des résultats inférieurs» dans des contextes réels.

Dans un tel système, «[…] tous les [ONS] sont maintenus [dans l'écosystème] jusqu'à ce qu'un [ONS] réponde à un critère d'infériorité et soit éliminé.».

Nous avons constaté chez Therappx que même si ce système est du pur génie, il ne tient pas compte de l’hétérogénéité de la population dans laquelle nous introduisons un ONS. Nous pensons qu'il est sous-optimal d'éliminer un ONS de l'écosystème jusqu'à ce que l'organisation soit convaincue qu'elle atteint l'infériorité chez tous les types de patients.

Une DHT donnée peut en effet être inférieure lorsque vous regardez le RWE généré par votre population dans son ensemble. Cependant, il peut également être le plus performant des ONS dans une sous-population donnée (par exemple, pour les hommes âgés de 65 ans et plus) simplement parce que ce sous-groupe de patients est sous-représenté dans l'ensemble.

Au lieu de cela, nous pensons qu'un ONS devrait être maintenue à la disposition d'un persona donné de votre population jusqu'à ce qu'elle réponde à un critère d'infériorité dans cette population.

Figure 5. CEEBIT centré sur le persona de Therappx

Bien entendu, cela doit être effectué par une machine, car le nombre de variables et de personas peut rapidement devenir important. En outre, cette méthodologie met l'accent sur la nécessité de découvrir les ONS dangereux avant d'entrer de le faire entrer dans le système (no-go), puis qu'il peut nécessité plusieurs mois et plusieurs patients exposés avant d'atteindre l'infériorité menant à l'élimination d'un ONS donné.

Êtes-vous intéressé(e) à en apprendre plus sur notre produit phare CORE ? Écrivez-nous !