Sonderende undersøgelser til at afgøre, om og hvordan vi kommer videre med fuld-skala evalueringer af den offentlige sundhed interventioner: en systematisk gennemgang af vejledning | Pilot og forundersøgelser

se statistik

Fire hundrede halvfems-fem unikke poster blev identificeret, hvoraf 93 blev revideret i fuld tekst (se Fig. 1). I alt blev 30 dokumenter inkluderet i den systematiske gennemgang, der repræsenterer 25 unikke vejledningssæt., De fleste vejledningskilder identificerede ikke eksplicit et beregnet publikum, og vejledning varierede i sin relevans for folkesundheden. Tabel 2 viser en oversigt over alle vejledningskilder, der indgår i gennemgangen, med vejledende kilder, der er mere eller mindre relevante for folkesundheden, samt dem, der specifikt anvendes til sonderende undersøgelser med et randomiseret design.

Tabel 2 Oversigt over inkluderet vejledning

Resultater fra vejledning

Den medfølgende vejledning rapporterede en bred vifte af anbefalinger om processen for gennemførelse af og rapportering sonderende undersøgelser., Vi har kategoriseret disse i otte temaer, der fanger: forudsætninger for at gennemføre en uddybende undersøgelse, nomenklatur, vejledning til intervention, vurdering, vejledning omkring den fremtidige evaluering, undersøgelse, design, adaptive vs stive designs, progression kriterier for udforskende undersøgelser, inddragelse af interessenter og rapportering.,

beskrivelse af temaer

Tema 1: forudsætninger for at gennemføre en uddybende undersøgelse

Hvor er nævnt, forudsætning aktiviteter, der indgår fastsættelse af grundlag, at etablere et teoretisk grundlag for intervention, at identificere den intervention komponenter samt modellering af indgreb med henblik på at forstå, hvordan intervention komponenter interagerer og indvirkning på de endelige resultater . Disse blev ofte drøftet inden for rammerne af MRC ‘ s interventionsudviklingsevalueringscyklus ., Forståelse af, hvordan interventionskomponenter interagerer med forskellige kontekstuelle indstillinger og identificering af utilsigtede skader såvel som potentielle implementeringsproblemer blev også fremhævet. Der var en mangel på detaljer i at dømme, når disse betingelser var opfyldt tilstrækkeligt til at gå videre til en sonderende undersøgelse.

tema 2: nomenklatur

Der blev anvendt en lang række udtryk, nogle gange om hverandre, til at beskrive sonderende undersøgelser, hvor de mest almindelige var pilotforsøg / studie. Tabel 3 viser hyppigheden af de udtryk, der anvendes i vejledning, herunder andre godkendte udtryk.,

Tabel 3 Frekvens af nomenklatur, der anvendes

en Anden terminologi, der ikke synes at være konsekvent forbundet med specifikke studier (se tema 3), som illustreret i Tabel 2. ‘Pilot’ og ‘gennemførlighedsundersøgelser’ blev undertiden brugt om hverandre, mens andre sondrede mellem de to i henhold til designfunktioner eller særlige mål ., For eksempel beskrev nogle pilotundersøgelser som en mindre version af en fremtidig RCT til at køre i miniature og var undertiden forbundet med et randomiseret design , men ikke altid . I modsætning hertil blev gennemførlighedsundersøgelser brugt som en paraplybetegnelse af Eldridge et al. med pilotundersøgelser, der repræsenterer en delmængde af gennemførlighedsundersøgelser: ‘vi foreslår, at forskere betragter gennemførlighed som et overordnet koncept, med alle undersøgelser udført som forberedelse til en hovedundersøgelse åben for at blive kaldt gennemførlighedsundersøgelser, og med pilotundersøgelser som en undergruppe af gennemførlighedsundersøgelser.'(s. 18) .,

gennemførlighedsundersøgelser kan fokusere på særlige interventions-og forsøgsdesignelementer, som måske ikke omfatter randomisering . Interne pilotundersøgelser blev primært betragtet som en del af hele forsøget og er derfor ikke afbildet under nomenklatur i tabel 3.

selvom ingen kilder udtrykkeligt erklærede, at en sonderende undersøgelse skulle fokusere på det ene område og ikke det andet, divergerede mål og tilknyttede metoder til sonderende undersøgelser i to separate temaer. De vedrørte enten selve interventionen eller det fremtidige evalueringsdesign, og er beskrevet nedenfor I Temaer 3 og 4.,

Tema 3: retningslinjer for indgriben vurdering

Kilder til vejledning, er godkendt sonderende undersøgelser, der har formative formål (dvs raffinering intervention og tackle usikkerhed, der er relateret til intervention implementering ) samt summative mål (dvs vurdere den potentielle effekt af en intervention eller et løfte ).

raffinering af intervention og underliggende teori

nogle retningslinjer antydede, at der kunne foretages ændringer inden for sonderende undersøgelser for at forfine interventionen og den underliggende teori og tilpasse interventionsindholdet til en ny indstilling ., Vejledningen var imidlertid ikke klar over, hvad der udgjorde mindre kontra større ændringer og konsekvenser for progressionskriterier (se Tema 6). Når der foretages ændringer i interventionen eller den underliggende teori, anbefales nogle vejledninger, at dette finder sted i løbet af det eksplorative studie (se Tema 5). Andre fremhævede rollen ved at bruge et multi-arm-design til at vælge indholdet af interventionen inden en fuld evaluering og til at vurdere potentielle mekanismer for flere forskellige interventioner eller interventionskomponenter ., Flere kilder fremhævede den rolle, som kvalitativ forskning spiller i optimering eller raffinering af en intervention, især for at forstå komponenterne i den logiske model og overflade skjulte aspekter af interventionen, der er vigtige for at levere resultater .

Interventionsimplementering

Der var enighed på tværs af en lang række retningslinjer om, at sonderende undersøgelser kunne undersøge vigtige usikkerheder i forbindelse med interventionsimplementering, såsom acceptabilitet, gennemførlighed eller praktisk gennemførlighed. Disse udtryk blev især ofte dårligt definerede og brugt om hverandre., Acceptabilitet blev overvejet med hensyn til modtagernes reaktioner, mens andre også var opmærksomme på gennemførlighed set fra interventionsudbydere, leverandører og sundhedspersonale . Implementering, gennemførlighed, troskab og ‘praktisk’ undersøgte sandsynligheden for at kunne levere i praksis, hvad der var hensigten . Disse blev undertiden omtalt som mål inden for en indlejret procesevaluering, der fandt sted sammen med en sonderende undersøgelse, skønt udtrykket procesevaluering aldrig blev defineret .,der blev tilskyndet til kvalitativ forskning med henblik på vurdering af acceptabilitet eller gennemførelse (f.eks. via ikke-deltagerobservation). Der blev anbefalet forsigtighed med hensyn til fokusgrupper, hvor der er risiko for maskering af divergerende synspunkter . Andre anbefalede kvantitative undersøgelser for at undersøge tilbageholdelsesfrekvenser og årsager til Frafald . Desuden understregede flere kilder vigtigheden af at teste implementering i en række sammenhænge —især i mindre socioøkonomisk fordelagtige grupper, for at undersøge risikoen for at udvide uligheder på sundhedsområdet .,

en vejledningskilde overvejede, om randomisering var nødvendig for at vurdere interventionernes acceptabilitet, idet den mente, at dette var unødvendigt, men også antydede, at det kunne ‘potentielt afhænge af præference blandt de interventioner, der tilbydes i hovedundersøgelsen’ (; s. 9). Dermed, spørgsmål om acceptabilitet, især inden for multi-arm-forsøg, kan vedrøre klinisk ligevægt og acceptabilitet af randomiseringsprocedurer blandt deltagerne .,

hensigtsmæssigheden af at vurdere interventionseffekt

flere vejledningskilder diskuterede behovet for at forstå virkningen af interventionen, herunder skader, fordele eller utilsigtede konsekvenser . En stor del af vejledningen fokuserede på statistiske effektivitetstest med uenighed om, hvorvidt dette mål er sundt, skønt der også blev anbefalet kvalitative metoder . Nogle fordømte statistisk test for effektivitet, da sådanne undersøgelser ofte er underpo .ered, hvilket fører til upræcise og potentielt vildledende skøn over effektstørrelser ., Andre hævdede, at et skøn over den sandsynlige effektstørrelse kunne bevise, at interventionen fungerede som tilsigtet og ikke havde alvorlige utilsigtede skader og dermed blev brugt til at beregne effekten til hele forsøget . Senere vejledning fra MRC er mere tvetydig end tidligere vejledning, der angiver, at estimater skal fortolkes med forsigtighed, samtidig med at de angiver ‘sikre’ antagelser om effektstørrelser som en forudsætning, før de fortsætter med en fuld evaluering ., NIHR vejledning, som skelnede mellem pilot og feasibility studier, der understøttes vurderingen af primære resultat i pilot-undersøgelser, selv om det er uklart, om dette tyder på, at en pilot skal omfatte en indledende test af ændringer i det primære resultat, eller blot, at det primære resultat skal måles på samme måde som det ville være i en fuldstændig vurdering. For så vidt angår gennemførlighedsundersøgelser, anførte det derimod, at et mål kan omfatte udformning af en resultatforanstaltning, der skal anvendes i en fuldstændig evaluering.,

Andre gjort for at identificere dokumentation af potentielle effektivitet, herunder brug af midlertidige eller surrogate endpoints , der er defineret som “…variabler på den kausale forløb af, hvad der kan i sidste ende være det primære resultat i fremtiden endelige RCT, eller resultater på tidlige tidspunkter, med henblik på at vurdere potentialet for intervention for at påvirke sandsynlige udfald i fremtiden endelige RCT… ” (s. 14).,

Randomiseringen blev brugt som en design funktion af sonderende undersøgelser ved vurdering af en effekt størrelse skøn af den intervention, som det blev størst sandsynlighed for, at der er observeret forskelle skyldes intervention , med vejledning for det meste skrevet fra et udgangspunkt antagelse, at fuld evaluering vil tage form af en RCT og vejledning fokuseret mindre på sonderende undersøgelser for kvasi-eksperimentelle eller andre designs., For undersøgelser, der sigter mod at vurdere potentiel effektivitet ved hjælp af et surrogat-eller foreløbigt resultat, blev det anbefalet at anvende en standardprøvestørrelsesberegning for at sikre tilstrækkelig effekt, skønt det blev bemærket, at dette mål er sjældent i sonderende undersøgelser .

Tema 4: vejledning omkring det fremtidige evalueringsdesign

kilder foreslog konsekvent at vurdere gennemførligheden af undersøgelsesprocedurer eller estimere parametre for den fremtidige evaluering. Anbefalinger er beskrevet nedenfor.,

vurdering af gennemførligheden af det fremtidige evalueringsdesign

vurdering af gennemførligheden af fremtidige evalueringsprocedurer blev almindeligt anbefalet for at afværge problemer, der kunne undergrave adfærd eller accept af fremtidig evaluering . Der blev foreslået en lang række procedurer , der krævede vurderinger af gennemførligheden , herunder dataindsamling , deltageropbevaringsstrategier , randomisering , rekrutteringsmetoder, gennemførelse af hele forsøgsprotokollen, deltagernes vilje til at blive randomiseret og problemer med forurening ., Der var uenighed om hensigtsmæssigheden af at vurdere blinding i sonderende undersøgelser, med en kilde, der bemærker, at dobbeltblinding er vanskelig, når deltagerne får hjælp til at ændre deres adfærd; selvom det kan være muligt at vurdere enkeltblinding .

kvalitative , kvantitative og blandede metoder blev godkendt til vurdering af disse processer. Hvilket afspejler tendensen til vejledning af sonderende undersøgelser for at være begrænset til undersøgelser som forberedelse til Rkf, diskussion af den rolle, randomiseringen ved sonderende undersøgelse fase fremhævede stærkt i vejledning., Randomiseringen inden for en sonderende undersøgelse, der blev anset for nødvendige for at undersøge mulighederne for rekruttering, samtykke til, at randomiseringen, fastholdelse, forurening eller vedligeholdelse af blændende i kontrol og intervention grupper, randomiseringen procedurer, og om alle komponenter i en protokol, som kan arbejde sammen, selv om randomiseringen blev ikke fundet det nødvendigt at vurdere resultatet byrde og deltager berettigelse ., Mens der var enighed om, hvilke spørgsmål der kunne vurderes gennem randomisering, var kilder uenige om, hvorvidt randomisering altid skulle gå forud for en fremtidig evalueringsundersøgelse, selvom den fremtidige undersøgelse skal være en RCT. Påstand syntes at være knyttet til variation i nomenklatur og tilknyttede mål. For eksempel, nogle definerede pilotundersøgelse som en undersøgelse, der blev kørt i miniature for at teste, hvordan alle dens komponenter fungerer sammen, derved dikterer et randomiseret design . Men for gennemførlighedsundersøgelser var randomisering kun nødvendig, hvis det reducerede usikkerheden ved estimering af parametre for den fremtidige evaluering ., Tilsvarende fremhævede andre vejledninger, at en sonderende undersøgelse (uanset nomenklatur) skulle adressere de vigtigste usikkerheder og derfor muligvis ikke afhænger af randomisering .

estimering af parametre for det fremtidige evalueringsdesign

selv om kvalitative metoder blev anset for nyttige til valg af resultater og passende mål , koncentrerede de fleste retningslinjer sig om kvantitative metoder til estimering af fremtidige vurderingseksempler., Dette var omstridt på grund af potentialet for over – eller underestimering af stikprøvestørrelser, der kræves i en fremtidig evaluering på grund af den manglende præcision af estimater fra en lille pilot . Estimering af stikprøvestørrelser ud fra estimater af effektstørrelse i en sonderende undersøgelse blev ikke desto mindre argumenteret af nogle for at være nyttigt, hvis der var ringe litteratur, og den sonderende undersøgelse anvendte det samme design og resultat som den fremtidige evaluering . Cluster RCT ‘ er, som er almindelige i folkesundhedsinterventioner, blev specifikt øremærket som uegnede til estimering af parametre til stikprøvestørrelsesberegninger (f. eks., intra-cluster korrelationskoefficienter) samt rekrutterings-og opfølgningsrater uden yderligere oplysninger fra andre ressourcer, fordi et stort antal klynger og individuelle deltagere ville være påkrævet . Andre henviste til’ tommelfingerregler ‘ ved bestemmelse af stikprøvestørrelser i en sonderende undersøgelse med antal, der varierer mellem 10 og 75 deltagere pr .forsøgsarm i individuelt randomiserede undersøgelser., Flere anbefalede også behovet for at overveje en ønsket meningsfuld forskel i sundhedsresultaterne fra en fremtidig evaluering og den passende stikprøvestørrelse, der er nødvendig for at detektere dette, snarere end at foretage stikprøvestørrelsesberegninger ved hjælp af estimater af sandsynlig effektstørrelse fra pilotdata .

et randomiseret design blev anset for unødvendigt til at estimere omkostninger eller vælge resultater, skønt det blev vurderet til at estimere rekrutterings-og fastholdelseshastigheder for interventions-og kontrolgrupper ., I de tilfælde, hvor det i vejledningen fremgik, at en effektstørrelse skulle estimeres, som var passende til at oplyse stikprøvestørrelsen med henblik på en fremtidig evaluering, blev et randomiseret design anset for nødvendigt .

Tema 5: fleksibelt kontra fast design

kilder oplyste, at sonderende undersøgelser kunne anvende et stift eller fleksibelt design. Med sidstnævnte kan designet ændre sig i løbet af undersøgelsen, hvilket er nyttigt til at foretage ændringer i interventionen såvel som det fremtidige evalueringsdesign ., Her kan kvalitative data analyseres, efterhånden som de indsamles, ved at forme undersøgelsesprocessen, f .eks. ved prøveudtagning af efterfølgende dataindsamlingspunkter , og ved at klarlægge implikationerne for interventionseffektiviteten.

i modsætning hertil blev faste sonderende undersøgelser opmuntret, når de primært undersøgte de fremtidige evalueringsparametre og-processer . Det kan være, at den nomenklatur, der anvendes i nogle vejledninger (f.eks. pilotundersøgelser, der beskrives som miniatureversioner af evalueringen) antyder en sondring mellem mere fleksible kontra strengere design., I nogle vejledninger blev det ikke nævnt, om der skulle foretages ændringer i løbet af en sonderende undersøgelse eller bagefter for at få det bedst mulige design til den fremtidige evaluering .

Tema 6: progressionskriterier til en fremtidig evalueringsundersøgelse

Der blev kun givet lidt vejledning om, hvad der bør overvejes, når man formulerer progressionskriterier for at fortsætte med en fremtidig evalueringsundersøgelse., Nogle fokuserede på de relevante usikkerheder om gennemførlighed, mens andre fremhæver specifikke emner vedrørende omkostningseffektivitet, raffinering af årsagshypoteser, der skal testes i en fremtidig evaluering og opfyldelse af rekrutteringsmål . Som diskuteret i Temaer 3 og 4 blev statistisk test for effektivitet og brug af effektstørrelser til effektberegninger advaret af nogle, og derfor blev kriterier baseret på effektstørrelser ikke specificeret .

større diskussion var afsat til, hvordan man vægtede bevis fra en sonderende undersøgelse, der behandlede flere mål og anvendte forskellige metoder., Nogle udtrykkeligt angivne progression kriterier bør ikke bedømmes som strenge tærskler, men som retningslinjer ved hjælp af, for eksempel, et trafiklys system med varierende niveauer af acceptabilitet . Andre fremhævede en realistisk tilgang, der bevæger sig væk fra binære indikatorer til at fokusere på ‘hvad der er muligt og acceptabelt for hvem og under hvilke omstændigheder’ . I lyset af vanskelighederne omkring fortolkning af effektestimater bør flere kilder anbefalede kvalitative fund fra sonderende undersøgelser være mere indflydelsesrige end kvantitative fund .,

interessant nok var der tvetydighed med hensyn til progression, når sonderende fund indikerede væsentlige ændringer i interventions-eller evalueringsdesignet. Kilder, der overvejede dette problem, antydede, at hvis der foretages’ omfattende ændringer ‘eller’ større ændringer ‘ til enten (bemærk, at de ikke specificerede, hvad der var kvalificeret som sådan), skulle forskerne vende tilbage til udviklingsfasen for sonderende eller intervention .,

‘Alternativt kan forskere i gennemførlighedsfasen identificere grundlæggende problemer med interventionen eller forsøgsopførelsen og vende tilbage til udviklingsfasen i stedet for at gå videre til et fuldt forsøg.'(s. 1) .

som tidligere beskrevet forblev tærsklen, hvor ændringer bestemmes at være ‘store’, tvetydig., Mens opdateret MRC vejledning flyttet til en mere iterativ model, som accepterer, at bevægelsen tilbage mellem muligheder/forløb og intervention udvikling kan nogle gange være behov for, var der ingen vejledning om, under hvilke betingelser bevægelse mellem disse to faser bør finde sted.

Tema 7: interessentinddragelse

flere kilder anbefalede en række interessenter (f. eks., intervention udbydere, intervention modtagere, offentlige repræsentanter samt praktiserende læger, der kan bruge den dokumentation, der produceres af fuld prøveversion) inddrages i planlægning og afvikling af sonderende undersøgelse for at sikre, sonderende undersøgelser afspejler virkelighedens indgriben indstilling . Især blev fællesskabsbaserede deltagelsesmetoder anbefalet ., Mens mange fremhævet værdien af interessenter på prøve styringsudvalg og andre lignende undersøgelse grupper , nogle advaret om ligevægt mellem forskere og interessenter og advarede også mod forskere conflating inddragelse af interessenter med kvalitativ forskning .

‘selv om patient-og offentlige repræsentanter i forskerteams kan give nyttige tilbagemeldinger om interventionen, udgør dette ikke kvalitativ forskning og kan ikke resultere i tilstrækkeligt robuste data til at informere om en hensigtsmæssig udvikling af interventionen.'(s. 8) .,

Tema 8: indberetning af sonderende undersøgelser

Detaljerede anbefalinger til rapportering sonderende undersøgelser blev for nylig stillet i nye Consolidated Standards of Reporting Trials (ENSEMBLE) vejledning af Eldridge et al. . Derudover blev tilbagevendende punkter opdraget af andre vejledningskilder. Det blev især anbefalet, at sonderende undersøgelser offentliggøres i peer-Revie .ed tidsskrifter, da dette kan give nyttige oplysninger til andre forskere om, hvad der er gjort, hvad der ikke fungerede, og hvad der kunne være mest passende ., En sonderende undersøgelse kan også resultere i flere publikationer, men bør henvise til andet arbejde, der udføres i den samme sonderende undersøgelse . Flere vejledningskilder fremhæver også, at sonderende undersøgelser bør mærkes korrekt i titlen/abstraktet for at gøre det let at identificere; den foreslåede nomenklatur varierede dog afhængigt af vejledningen .

Madame Lelica