Biases in the interpretation of evidence

Sylwia I. Szafraniec, Izabela E. Sakowska

Artykuły w Czytelni Medycznej o SARS-CoV-2/Covid-19

Czytelnia Medyczna » Farmakoekonomika » 3/2004 » Błędy w interpretacji dowodów klinicznych

Poniżej zamieściliśmy fragment artykułu. Informacja nt. dostępu do pełnej treści artykułu

Sylwia I. Szafraniec¹, Izabela E. Sakowska²

Błędy w interpretacji dowodów klinicznych

Biases in the interpretation of evidence

¹ Narodowy Instytut Zdrowia Publicznego, Warszawa
² Państwowy Zakład Higieny, Warszawa

Streszczenie
Celem artykułu jest przedstawienie błędów najczęściej popełnianych przy ocenie wyników badań klinicznych oraz zwrócenie uwagi na pytania, jakie należy sobie postawić, aby określić prawidłowość przeprowadzenia badania. Metody: Przegląd literatury dotyczącej tematu. Wyniki: Błędy mogą powstawać na każdym etapie prowadzenia badania klinicznego: przy doborze rodzaju badania do pytania klinicznego, planowaniu badania, stawianiu hipotezy, zbieraniu danych, wnioskowaniu, jak również po zakończeniu badania podczas oceny jego wiarygodności i przydatności klinicznej. Opisano błąd potwierdzenia, ratunkowy, hipotezy alternatywnej, mechanizmu, orientacji oraz tzw. błąd „czas pokaże”. Wnioski: Istnieje wiele sposobów klasyfikacji, które mają pomóc w ocenie wiarygodności i przydatności klinicznej wyników badań biomedycznych, jednak żaden rodzaj klasyfikacji nie jest w stanie uchronić nas przed popełnieniem błędów, ponieważ żadna z obecnie stosowanych klasyfikacji nie zawiera wszystkich elementów, jakie należy wziąć pod uwagę, oceniając badanie.

Summary
Aim of the study: The aim of the paper was to draw attention to questions which should be asked by the evaluation of clinical trials and to describe the most frequent biases made during evaluation of the evidence. Methods: Review of the appropriate literature. Results: The bias can be made on each step of performing the trial – choosing type of trial for the clinical question that should be answered, planning the trial, putting the hypothesis, collecting data, drawing conclusion, and also after finishing the study while evaluating process. Following biases were described: expectation, rescue, auxiliary hypothesis, mechanism, plausibility and so called "time will tell” bias. Conclusion: There are many hierarchies of evidence which help in evaluation of the evidence; however none of them can protect us from making mistake because none of them cover the whole spectrum of elements that should be taken into consideration.

Słowa kluczowe: randomizowane kontrolowane badania kliniczne, medycyna oparta na dowodach, ocena dowodów klinicznych.

Wstęp

Obecnie istnieje przekonanie, że najbardziej wiarygodną metodą oceny skuteczności klinicznej postępowania diagnostycznego lub leczniczego są randomizowane, kontrolowane badania kliniczne i ich przeglądy systematyczne (1, 2). Aby ułatwić ocenę wiarygodności badań klinicznych opracowano wiele klasyfikacji dowodów pochodzących z tych badań. W tabeli 1 i 2 przedstawiono jedną z takich klasyfikacji polecaną przez Centre for Evidence Based Medicine (3). Takie klasyfikacje mają jednak również wady. Po pierwsze, definicje poziomów różnią się pomiędzy klasyfikacjami tak, że poziom 2 może być różnie rozumiany przez różnych czytelników. Po drugie, nowe lub mieszane plany badań nie są włączane do tych klasyfikacji – jako przykład można podać ponowną analizę indywidualnych danych z kilku badań. Po trzecie, i może najważniejsze, w poszczególnych klasyfikacjach badania mogą być inaczej stopniowane. Może się okazać, że jedno badanie otrzyma różne stopnie zależnie od rodzaju klasyfikacji, a co za tym idzie badania zajmujące się dwiema alternatywnymi interwencjami mogą otrzymać różne stopnie w różnych klasyfikacjach zależnie od zastosowanego sposobu oceny a nie od ich jakości (2).

Tabela 1. Klasyfikacja dowodów z badań klinicznych według Centre for Evidence Based Medicine

Poziom	Pytanie kliniczne o skuteczność terapii/profilaktykę/ etiologię/działania niepożądane	Analiza ekonomiczna i analiza decyzyjna
1a	Przegląd systematyczny (jednorodne RKB*)	PS? (jednorodne badania ekonomiczne stopnia 1)
1b	RKB z wąskim przedziałem ufności	Analiza na podstawie klinicznie uzasadnionych kosztów lub alternatyw; przegląd systematyczny badań; z wykonaną wielokierunkową analizą wrażliwości
1c	Badanie przeżywalności	Analiza całkowitej większej lub mniejszej wartości
2a	PS (jednorodne badania kohortowe)	PS badań ekonomicznych 2 poziomu
2b	Badanie kohortowe oraz niskiej jakości RKB np. >20% pacjentów utracono z obserwacji	Analiza na podstawie klinicznie uzasadnionych kosztów lub alternatyw; niepełny przegląd badań lub pojedyncze badania; w tym wielokierunkowa analiza wrażliwości
2c	Praktyczne badania kliniczne	Badanie audytowe lub praktyczne badania kliniczne
3a	PS jednorodnych badań kliniczno-kontrolnych	PS jednorodnych badań 3b lub lepszych
3b	Badania kliniczno-kontrolne	Analiza ograniczonych alternatyw lub kosztów, złej jakości szacunki danych, lecz z wykonaną analizą wrażliwości z klinicznie uzasadnionymi zmiennymi
4	Opisy grupy przypadków oraz złej jakości badania kohortowe i kliniczno-kontrolne	Analiza bez analizy wrażliwości
5	Opinie ekspertów lub badania przedkliniczne	"Opinie ekspertów lub teoria ekonomiczna

* RKB – randomizowane i kontrolowane badania kliniczne
? PS – przegląd systematyczny

Tabela 2. Stopnie rekomendacji

A	Badania poziomu 1
B	Badania poziomu 2 lub 3 lub ekstrapolacje badań poziomu 1
C	Badania poziomu 4 lub ekstrapolacje badań poziomu 2 lub 3
D	Badania poziomu 5 lub niemiarodajne badania każdego poziomu

Problem stopniowania jest wynikiem sumowania wielu czynników będących wykładnikami jakości (planu badania, sposobu jego przeprowadzenia, wielkości grupy badanej itd.) w jeden stopień w klasyfikacji (4). Dla przykładu, randomizacja jest kluczową cechą metodologiczną w badaniu interwencji, lecz redukcja jakości badania do stopnia odzwierciedlającego prawidłową randomizację nie zawiera innych ważnych czynników jakości randomizowanych badań klinicznych, którymi są np.:

– inne elementy planowania, takie jak walidacja pomiarów i zaślepienie oceny wyników,

– jakość przeprowadzenia badania, w tym utrata pacjentów z obserwacji i sukces zaślepienia terapii,

– bezwzględna i względna wielkość każdego ze stwierdzonych efektów,

– przedziały ufności wokół wartości estymowanych efektów.

Żadna z obecnie stosowanych klasyfikacji dowodów nie zawiera wszystkich tych czynników, i byłoby to prawdopodobnie trudne do uzyskania (4). Co więcej, niektóre czynniki są ważniejsze dla jednych problemów klinicznych, a mniej ważne dla innych. Powodowałoby to potrzebę indywidualnego dostosowywania podejścia do oceny każdego dowodu.

Istnieje wiele wskazówek, jak oceniać badanie pod względem tego, czy było prawidłowo przeprowadzone (5). Podstawowymi pytaniami, na które należy sobie odpowiedzieć, oceniając na przykład badanie zajmujące się skutecznością jakiejś terapii, są: czy pacjenci byli losowo przydzielani do grup leczniczych i czy randomizacja była tajna, czy wszyscy pacjenci włączeni do badania uczestniczyli w nim do jego zakończenia i czy byli analizowani w grupach, do których zostali przydzieleni wskutek randomizacji, czy pacjenci i lekarze nie wiedzieli, jakie leczenie jest stosowane, czy leczenie w obu grupach różniło się tylko lekiem badanym, oraz czy grupy były podobne do siebie przy rozpoczynaniu badania. Również należy zwrócić uwagę na to, czy badanie odpowiadało na jasno postawione pytanie kliniczne, czy było ono zaplanowane tak, aby wykazać wyższość czy równorzędność terapii, czy okres obserwacji był dostateczny, czy mierzone zmienne były odpowiednie do postawionego pytania, jeśli zmienne były zastępcze, to czy były one zwalidowane, czy w badaniu wykryto znamienne statystycznie różnice, czy wielkość badania była znacząca klinicznie i czy przedział zaufania zawierał czy nie zawierał klinicznie znaczących wyników.

Tak więc, stosowanie klasyfikacji stopniujących dowody w zależności od ich jakości pomaga w zwróceniu uwagi, że niektóre rodzaje dowodów są bardziej godne zaufania niż inne. Jednakże uproszczenia konieczne w tworzeniu i stosowaniu klasyfikacji prowadzą również do wielu błędów. W szczególności kryteria utworzone w celu oceny badań dotyczących wyników leczenia zostały bezkrytycznie zastosowane do pytań o etiologię, diagnostykę, częstość występowania choroby, prognozę czy działania niepożądane, podczas gdy w tych przypadkach potrzebne są inne rodzaje badań, a więc i inne ich klasyfikacje (6). Dlatego też, o ile przegląd systematyczny randomizowanych badań jest odpowiedni w celu odpowiedzi na pytania dotyczące głównych efektów leczenia, o tyle niedorzeczne jest usiłowanie użycia go w celu określenia naturalnego przebiegu jakiejś choroby u człowieka, wpływu różnych czynników na ryzyko zachorowania na określone choroby czy też częstości występowania (2). Za pomocą randomizowanych badań można dobrze oszacować efekty leczenia, mają natomiast mniejsze znaczenie jako narzędzie oceny ogólnego rokowania. Natomiast nierandomizowane badania kohortowe z długimi okresami obserwacji są dobrym narzędziem w ocenie rokowanie, a gorszym w przypadku oceny skutków terapii. Tak więc, wybranie złego typu badania w stosunku do pytania, na jakie chcemy odpowiedzieć, jest kolejnym, lecz często niedostrzeganym źródłem błędów (6, 7).

Z małymi wyjątkami żadne badanie, jakiegokolwiek by nie było typu, nie powinno być interpretowane oddzielnie. Przeglądy systematyczne mają odpowiedzieć na postawione pytanie kliniczne na podstawie najlepszych dostępnych typów badań. Typ badań ujętych w przeglądzie systematycznym powinien być, jak już wspomniano wcześniej, odpowiedni do postawionego w przeglądzie pytania.

Chociaż doniesienia o przypadkach są niezbyt dobrym źródłem dowodów, ich rola polega na zwróceniu naszej uwagi na potencjalne rzadkie szkody lub korzyści stosowania określonego leczenia (8). Dlatego też w celu zdobycia miarodajnych dowodów na temat rzadko występujących działań niepożądanych, potrzebujemy raczej systematycznego przeglądu doniesień o przypadkach niż przypadkowego ich wyboru. Badania jakościowe mogą być także włączane do przeglądu systematycznego. W przeglądzie systematycznym nie zawsze konieczne jest przeprowadzanie metaanalizy.

Rodzaje błędów popełnianych przy interpretacji dowodów

Powyżej zamieściliśmy fragment artykułu, do którego możesz uzyskać pełny dostęp.

Mam kod dostępu

Aby uzyskać płatny dostęp do pełnej treści powyższego artykułu albo wszystkich artykułów (w zależności od wybranej opcji), należy wprowadzić kod.
Wprowadzając kod, akceptują Państwo treść Regulaminu oraz potwierdzają zapoznanie się z nim.
Aby kupić kod proszę skorzystać z jednej z poniższych opcji.

Opcja #1

29 zł

Wybieram

dostęp do tego artykułu
dostęp na 7 dni

uzyskany kod musi być wprowadzony na stronie artykułu, do którego został wykupiony

Opcja #2

69 zł

Wybieram

dostęp do tego i pozostałych ponad 7000 artykułów
dostęp na 30 dni
najpopularniejsza opcja

Opcja #3

129 zł

Wybieram

dostęp do tego i pozostałych ponad 7000 artykułów
dostęp na 90 dni
oszczędzasz 78 zł

Piśmiennictwo

1. Davey G., Ebrahim S.S. Data dredging, bias, or confounding; BMJ, Dec 2002; 325: 1437-1438.

2. Glasziou P., Vandenbroucke J., Chalmers I. Assessing the quality of research; BMJ, Jan 2004; 328: 39-41.

3. http://www.cebm.net/levels_of_evidence.asp

4. Juni P., Witschi A., Bloch R., Egger M. The hazards of scoring the quality of clinical trials for meta-analysis; JAMA. 1999 Sep 15;282(11):1054-60.

5. Lohr K.N., Carey T.S. Assessing "best evidence": issues in grading the quality of studies for systematic reviews; Jt Comm J Qual Improv. 1999 Sep;25(9):470-9.

6. Sackett D.L. Wennberg J.E. Choosing the best research design for each question; BMJ, Dec 1997; 315: 1636.

7. Weed L.L., Weed L. Opening the black box of clinical judgmentan overview, BMJ, Nov 1999; 319:1279.

8. McKee M., Britton A., Black N., McPherson K., Sanderson C., Bain C. Methods in health services research: Interpreting the evidence: choosing between randomised and non-randomised studies; BMJ, Jul 1999; 319: 312-315.

9. Kaptchuk T.J. Effect of interpretive bias on research evidence; BMJ, Jun 2003; 326: 1453-1455.

10. Resch K.I., Ernst E., Garrow J. A randomized controlled study of reviewer bias against an unconventional therapy; J R Soc Med. 2000 Apr;93(4):164-7.

11. Als-Nielsen B., Chen W., Gluud C., Kjaergard L.L. Association of funding and conclusions in randomized drug trials: a reflection of treatment effect or adverse events? JAMA. 2003 Aug 20;290(7):921-8.

12. McPherson K., Britton A. Preferences and understanding their effects on health. Qual Health Care. 2001 Sep;10 Suppl 1:i61-6.

13. Freedman L. Bayesian statistical methods; BMJ, Sep 1996; 313: 569-570.

14. Crouch R.A., Bayesian Methods and Ethics in a Clinical Trial Design, by Ed Joseph B Kadane. BMJ, Apr 1997; 314: 1209a.Tabela 3. Rodzaje błędów interpretacyjnych.

Farmakoekonomika 3/2004

Powrót na górę strony

Pozostałe artykuły z numeru 3/2004:

Wiarygodność metody porównania pośredniego w ocenie skuteczności alternatywnych interwencji (na przykładzie reboksetyny i wenlafaksyny w leczeniu depresji)