Numer 3/91 / 2010



ALEKSANDER PALCZEWSKI - Czas zmian – nowa koncepcja sprawowania nadzoru
Zmiana podstawy programowej wychowania przedszkolnego oraz kształcenia ogólnego wprowadzona rozporządzeniem Ministra Edukacji Narodowej z dnia 23 grudnia 2008 r., zapoczątkowała wiele istotnych zmian w polskiej szkole. Rok 2009/2010 jest pierwszym rokiem wdrażania tych zmian.
Celem reformy programowej kształcenia ogólnego jest podniesienie jakości kształcenia oraz dostosowania nauczania do indywidualnych potrzeb i możliwości każdego ucznia. Zmianom programowym i organizacyjnym towarzyszy rozszerzanie autonomii szkół. W wyniku wprowadzanych nowych rozwiązań w ustawie o systemie oświaty oraz w aktach wykonawczych do tej ustawy, dyrektorzy szkół zyskali większą swobodę w zakresie organizacji pracy szkół. Nauczyciele zyskali większą autonomię w sprawach dydaktycznych poprzez swobodny wybór programów nauczania i podręczników.

JAN WNĘK - Polskie badania naukowe nad dzieckiem w latach 1918-1939
Odzyskanie niepodległości po 123 latach niewoli stworzyło zupełnie nowe warunki dla prowadzenia badań w różnych dziedzinach wiedzy. Nastąpiła rozbudowa szkolnictwa wyższego oraz instytucji naukowych, w których prowadzono badania oraz publikowano ich wyniki. W latach 1918–1939 wśród polskich uczonych wzrosło zainteresowanie dzieckiem. Stawało się ono przedmiotem studiów naukowych ze strony pedagogów, psychologów, socjologów, lekarzy, antropologów. W tym okresie polskie piśmiennictwo naukowe wzbogaciło się o wiele dzieł poświęconych dziecku. Pewna ich część stanowiła ważny wkład w rozwój badań nad pierwszymi latami życia człowieka, odznaczała się nowatorstwem treści i ujęcia problemu.


MACIEJ JAKUBOWSKI - Międzynarodowe badania umiejętności uczniów a badania w Polsce, cz. II
Głównym sposobem wykorzystania wyników badań międzynarodowych jest porównanie średniego poziomu umiejętności między krajami. Jak już wspomniano we wstępie cz. I. artykułu, porównania te spotykają się z olbrzymim zainteresowaniem ze strony polityków, nauczycieli, a nawet rodziców. Wyniki PISA trafiają na czołówki gazet na całym świecie, podobnie jak wyniki TIMSS oraz PIRLS. Wszyscy już wiemy, że Finowie mają najlepiej wykształconych 15-latków, a ich japońscy i koreańscy rówieśnicy potrafią niewiele mniej. Wiemy też, że np. USA, mimo olbrzymich nakładów na edukację, nie osiąga wyników zbliżonych do wymienionych powyżej liderów.

            Wyniki PISA interpretowane są także w wymiarze zróżnicowania wyników uczniów. Cała metodologia badania, jak i towarzyszące kognitywnym testom kwestionariusze, nastawione są na pomiar zróżnicowania, a także zbieranie informacji i późniejszą prezentację wyników w odniesieniu do kontekstu społeczno-ekonomicznego. I tak wiemy, że Finowie osiągają nie tylko najwyższe przeciętne wyniki, ale i posiadają niezwykle niskie zróżnicowanie osiągnięć. Japończycy posiadają system szkolny niezwykle silnie segregujący uczniów między szkołami ze względu na wyniki. Podobnie jest w krajach, gdzie utrzymywany jest system dzielący uczniów na różne typy szkół, np. w Niemczech. Duże zróżnicowanie wyników, a także niski wynik średni zaobserwowano także w Polsce w PISA 2000. PISA 2003 pokazała jednak, że w nowo utworzonych gimnazjach wyniki uzyskiwane przez 15-latków są nie tylko wyższe, ale i mniej zróżnicowane.

            Te podstawowe wyniki, które znaleźć można w każdej edycji głównego raportu PISA wraz z bardziej szczegółowymi danymi i wstępnymi analizami, są już same w sobie niezwykle interesujące. Powinny być one jednak jedynie przyczynkiem do pogłębionych studiów, które są o tyle łatwe do zrealizowania, że zarówno dane z badań międzynarodowych, jak i przystępna dokumentacja, są dostępne za darmo, do ściągnięcia przez każdego w Internecie. OECD wraz z konsorcjum PISA publikują nie tylko bazę ze wszystkimi zebranymi danymi dla uczniów i szkół, ale i „PISA Technical Report” zawierający szczegółowy opis metodologii badania oraz „PISA Data Analysis Manual”. Ta ostatnia publikacja zawiera przykłady analiz wykorzystujące specjalnie napisane „makra”, które umożliwiają wykonanie podstawowych analiz w bardzo prosty sposób w pakietach SAS oraz SPSS. Nic więc nie stoi na przeszkodzie, żeby samemu rozpocząć analizy w oparciu o te zbiory danych. Podobnie zresztą jest w przypadku TIMSS oraz PIRLS, które co prawda nie udostępniają pakietu makr wraz z dokumentacją, ale publikowane za każdym razem podręczniki użytkownika do baz danych zawierają pomocne przykłady analiz.

            Mogłoby się więc wydawać, że analizy w oparciu o zbiory PISA, TIMSS oraz PIRLS powinny być niezwykle popularne, jednak okazuje się, że nie jest to związane z łatwością dostępu do danych i przystępnością dokumentacji technicznej. Sporą liczbę badań przeprowadzono w Niemczech, gdzie PISA odbiła się dość głośnym echem i spowodowała wzrost zainteresowania wśród badaczy oraz grantodawców. Ciekawe badania przeprowadzono we Włoszech, gdzie w ostatnim cyklu PISA zwiększono kilkukrotnie próbę uczniów, aby opublikować wyniki w podziale na prowincje. Kraje, takie jak: Kanada, Australia, Szwajcaria, a częściowo także Czechy, wykorzystały badanie PISA do stworzenia własnego projektu badania panelowego (inaczej: podłużnego), czyli śledzącego losy 15-latków w latach późniejszych. Dostarcza to nowych wyników, niezwykle interesujących ze względu na możliwość spojrzenia na relację między osiągnięciami szkolnymi, późniejszymi decyzjami edukacyjnymi uczniów, a w końcu ich sukcesem na rynku pracy. Na wyniki dotyczące rynku pracy trzeba jeszcze poczekać, ale przygotowywane w tym roku raporty z Kanady i Szwajcarii pokazują niezwykle interesujące analizy ścieżek edukacyjnych 15-latków badanych w PISA. Nie należy też dziwić się brakiem szerszego wykorzystania danych PISA w krajach, takich jak: USA, Wielka Brytania, czy Holandia, posiadających znacznie dokładniejsze badania krajowe.

            W Polsce dane PISA są niestety rzadko wykorzystywane. Być może złożoność analiz odstrasza potencjalnych chętnych, jednak powinno zachęcać bogactwo danych, jakie PISA oferuje. Oprócz wstępnych raportów opierających się na analizach zespołu IFiS PAN realizującego badanie PISA w Polsce, nie powstało zbyt wiele prac badawczych. Należy mieć jednak nadzieję, że to się wkrótce zmieni. Na ostatniej konferencji poświęconej PISA (PISA Research Conference 2009, Kiel, Niemcy) badania poświęcone danym z Polski były łatwo zauważalne. Przedstawiono ciekawą analizę porównującą egzaminy zewnętrzne w Polsce z wynikami PISA (M. Grzęda, B. Ostrowska), szczegółową analizę wzrostu umiejętności uczniów w Polsce od 2000 r. (M. Jakubowski, H. Patrinos, E. Porta, J. Wiśniewski), spojrzenie na zmiany w osiągnięciach przez analizę odpowiedzi na pojedyncze pytania (E. Bartnik, M. Federowicz), a także dekompozycję wpływu zasobów ekonomicznych, kulturowych i społecznych rodziny ucznia na jego wyniki i przyrost umiejętności między gimnazjum a szkołą średnią (M. Jakubowski, A. Pokropek). Prezentacje tych badań, jak i innych przedstawionych na konferencji dostępne są w Internecie, pod adresem: http://www.pisaresconf09.org/index.php?id=2-18.

            Mimo że liczba badań nad wynikami PISA jest w Polsce niewielka, to powyższe przykłady pokazują, że ulega to powoli zmianie. Trzeba też podkreślić, że PISA miała znaczny wpływ na inne badania przeprowadzone w Polsce. Badanie CKE realizowane przez firmę Pentor było częściowo wzorowane na PISA. Można też powiedzieć, że dyskusja nad systemem oświaty w świetle reprezentatywnych badań uczniów została zapoczątkowana przez PISA 2000. Miejmy nadzieję, że wkrótce pojawi się więcej prac badawczych wykorzystujących dane PISA, podobnie jak dane PIRLS, czy w przyszłości TIMSS.

 

Badania międzynarodowe a krajowe systemy oceny umiejętności uczniów

 

            Można wskazać kilka sfer, gdzie krajowe systemy oceny umiejętności uczniów mogą czerpać z doświadczeń badań międzynarodowych:

1. Tworzenie podstawy definiującej zakres umiejętności i wiedzy mierzony testami;

2. Tworzenie zasobów z zadaniami, sprawdzanie ich właściwości psychometrycznych i konstruowanie końcowych testów;

3. Skalowanie wyników testów;

4. Sposoby publikacji i interpretacji wyników;

5. Konstruowanie pochodnych miar określających jakość lub efektywność nauczania;

6. Tworzenie zasobów do wykorzystania w pogłębionych analizach wyników uczniów.

Poniżej krótko omawiam każdy z tych punktów.

1. Tworzenie podstawy definiującej zakres umiejętności i wiedzy mierzony testami

            Proces budowania assessment framework dla badań międzynarodowych jest przykładem, jak powinna być tworzona podstawa definiująca zakres ocenianych umiejętności i wiedzy uczniów. Podstawa ta powinna też pomóc w interpretacji wyników tak, aby wspomóc kształtowanie procesu nauczania. Umożliwia to szczegółowe zdefiniowanie umiejętności i wiedzy, jakie mają posiąść uczniowie w poddziedzinach, które potem można wyodrębnić z ogólnego wyniku testu. W ten sposób test daje możliwość oceny wielowymiarowej, tak ważnej w procesie nauczania. Tworzenie podstawy dla badania PISA trwa za każdym razem kilka lat. Grupa międzynarodowych ekspertów, także z Polski, dyskutuje, jakie umiejętności i wiedza decydują o poziomie zaawansowania ucznia w danej dziedzinie, określa konstrukty stojące za tymi umiejętnościami i kierunki, w jakich powinny być rozwijane testy je mierzące. Jest to każdorazowo niezwykle ważny dokument, który tworzy podstawę dla konstrukcji testów, ich skalowania, a następnie raportowania.

            Publikacje dokumentujące tworzenie assessment framework są ogólnie dostępne na stronach OECD. Warto do nich sięgnąć, zastanawiając się nad podstawami pomiaru w naszym kraju. Wiele krajów uczestniczących w badaniach międzynarodowych korzysta z tej dokumentacji i pracy ekspertów, tworząc własne systemy oceny uczniów bezpośrednio odnoszące się do pomiaru w badaniu międzynarodowym. Przykładem może być TIMSS, który jako bliski amerykańskiego programowi nauczania został wykorzystany w kilku stanach USA do porównania umiejętności uczniów w kontekście międzynarodowym. Ostatnio coraz częściej mówi się o podobnym wykorzystaniu PISA w USA, a niektóre inne kraje, w tym Polska, już stosują wiele z idei rozwiniętych przy tworzeniu assessment framework w trakcie rozwijania własnych systemów oceny uczniów. Z pewnością skorzystanie z wiedzy eksperckiej zgromadzonej w pracy nad PISA czy TIMSS, a przy tym możliwość skonfrontowania własnych poglądów z tym, co uważane jest za istotne w innych krajach, mogą w znacznym stopniu przyczynić się do udoskonalenia i poszerzenia krajowego systemu oceny uczniów.

2. Tworzenie zasobów z zadaniami, sprawdzanie ich właściwości psychometrycznych i konstruowanie końcowych testów

            Skrupulatny proces tworzenia zbiorów potencjalnych zadań testowych i drobiazgowe sprawdzanie ich właściwości pomiarowych w badaniach międzynarodowych są świetnym przykładem, jak powinno się tworzyć testy, które nie tylko mierzą konstrukty zdefiniowane w podstawie pomiaru, ale i same w sobie mają wystarczająco dobre właściwości psychometryczne. Procesy te opisane są dość dokładnie w dokumentacji PISA i innych badań międzynarodowych. Można też wykorzystać ekspertów w nie zaangażowanych. Nawet powierzchowne spojrzenie na opisane działania pokazuje, jak wiele z tych rozwiązań można by zastosować w Polsce, szczególnie w procesie tworzenia egzaminów zewnętrznych. Tworzenie zadań w oparciu o szerokie grupy eksperckie starające się oddać to, co zostało zdefiniowanie w podstawie pomiaru, drobiazgowe badania pilotażowe połączone z analizami psychometrycznymi, konstruowanie testów z uwzględnieniem właściwości psychometrycznych poszczególnych pytań; wszystkie te etapy są świetnie opisane w dokumentacji badań międzynarodowych i słabo rozwinięte w polskim systemie egzaminacyjnym. Poprawiając te elementy w polskim systemie, warto by skorzystać z doświadczeń badań międzynarodowych.

3. Skalowanie wyników testów

            Pomiar umiejętności i wiedzy uczniów ma zazwyczaj dwa różne cele. Bardzo często za pomocą testów chcemy ocenić umiejętności i wiedzę każdego ucznia. Dokładniej mówiąc, naszym celem jest prezentacja osobnego wyniku dla każdego ucznia, który jak najbardziej precyzyjnie oddaje jego prawdziwy poziom wiadomości i umiejętności. Wyniki na poziomie szkół czy całej populacji są tutaj sprawą drugorzędną. Nieco inne podejście powinno być stosowane, gdy naszym celem jest określenie przeciętnego poziomu umiejętności i wiedzy dla grup uczniów czy też całych populacji. W takim przypadku wynik indywidualny ucznia nie jest prezentowany, stanowiąc jedynie pośrednią informację pomagającą określić wynik dla szerszej grupy uczniów. Oczywiście, system egzaminów zewnętrznych ma na celu przede wszystkim uzyskanie wyniku dla poszczególnego ucznia. Z tego względu skalowanie wyników powinno być nastawione na uzyskanie pojedynczego, możliwie najbardziej precyzyjnego wyniku dla każdego ucznia, być może w rozbiciu na poszczególne zakresy umiejętności i wiedzy. Można powiedzieć, że średnie wyniki dla szkół czy miary w rodzaju EWD, to już raczej pochodne systemu, być może ważne, ale nie najważniejsze. Dla miar tego typu można rozważyć zastosowanie osobnych modeli skalowania, o czym w punkcie 5.

            Na ile więc metody stosowane w badaniach międzynarodowych, gdzie wynik pojedynczego ucznia nie ma znaczenia, mogą być przydatne dla krajowych systemów oceny uczniów? Przede wszystkim podstawowe metody są tu najczęściej podobne. Stosuje się proste modele IRT dla oceny własności psychometrycznych zadań, a następnie dla szacowania dla każdego ucznia wyniku, który stanowi podstawę dla modelu plausible values. Oczywiście, tworzenie plausible values dla wyników egzaminacyjnych nie ma większego sensu. Proszę sobie wyobrazić ucznia, który dowiaduje się, że ma 5 równie prawdopodobnych wyników z egzaminu z matematyki, przy czym jego koleżanka, która identycznie rozwiązała test, ma nieco inny wynik ze względu na różnice w pochodzeniu społecznym rodzin. Jednak skalowanie wyników prostymi modelami IRT ma olbrzymi sens, i to nie tylko na etapie końcowym, ale i na kolejnych etapach tworzenia testu.

            Polskie wyniki egzaminacyjne nie są w żaden sposób skalowane. Choć prowadzono analizy metodami IRT już opublikowanych wyników, to uczniowie wciąż otrzymują prostą sumę poprawnych odpowiedzi, a szkołom przypisuje się ich średnią. Takie rozwiązanie ma niewątpliwie jedną zaletę: przejrzystość. Dla każdego jest jasne, że wynik egzaminu odpowiada sumie poprawnych odpowiedzi. Jest to jednak chyba jedyna zaleta, która często jest też poważną wadą. Przede wszystkim, wszelkie pomyłki w tworzeniu lub drukowaniu testu, czy też w trakcie egzaminowania, nie mogą być naprawione. Jeśli wyniki byłyby skalowane, to po pierwsze w procesie skalowania łatwo byłoby określić zadania, na które część uczniów nie odpowiedziała, choć powinna (np. ponieważ zostały błędnie wydrukowane w określonej liczbie testów). Co więcej, jeszcze przed udostępnieniem wyników można by zastanowić się, co z tymi zadaniami zrobić. Czy brać je pod uwagę, licząc wyniki egzaminu, czy też opuścić? Czy jeśli bierzemy je pod uwagę, to tylko dla uczniów, gdzie test wydrukowany był prawidłowo, a dla pozostałych uwzględniamy tylko odpowiedzi na zadania wydrukowane poprawnie? Władze edukacyjne mogą tutaj podjąć decyzję, która jest znaczne łatwiejsza i mniej kontrowersyjna niż późniejsze decydowanie ad hoc co zrobić z uczniami, którzy otrzymali błędnie wydrukowany test. Oczywiście, po skalowaniu wynik prezentowany jest na standaryzowanej skali, więc wszyscy uczniowie mogą uzyskać tę samą maksymalną liczbę punktów, nawet jeśli dla części z nich kilka zadań nie zostało uwzględnione.

            Inną zaletą skalowania, zapewne podstawową pod względem prawidłowości pomiaru, jest to, że odpowiedzi na zadania są różnie ważone, zależnie od ich trudności, a jeśli zastosujemy bardziej skomplikowane modele IRT, także od mocy dyskryminacyjnej czy też możliwości „strzelania” (kluczowe przy testach wielokrotnego wyboru). Co więcej, odpowiednie skalowanie umożliwia tworzenie wyników w podskalach, które rzeczywiście odpowiadają konstruktom opisanym w podstawie egzaminowania. Bez zastosowania modeli IRT, nasze klasyfikacje pytań na poszczególne grupy umiejętności mają charakter uznaniowy. Widać to przy analizach polskich wyników egzaminów zewnętrznych, gdzie zdarza się, że pytania z części humanistycznej są silniej powiązane z pytaniami mającymi mierzyć umiejętności matematyczne.

            Wszystkie powyżej wspomniane modele stosowane są w badaniach międzynarodowych na wielu etapach, począwszy od sprawdzania zadań testowych, jak i przy skalowaniu końcowych wyników. Można czerpać z tych doświadczeń, jak i sporej literatury opisującej ich zastosowania w systemach krajowych. Trudno doprawdy znaleźć argumenty na rzecz niestosowania tych metod przy konstruowaniu i skalowaniu wyników polskich egzaminów zewnętrznych.

4. Sposoby publikacji i interpretacji wyników

            Ta kwestia ściśle łączy się z poprzednimi, jest też kluczowa dla odbioru wyników egzaminacyjnych. Poświęca się jej często mniej uwagi, jednak jest to podejście błędne. To, jak przekazywane są wyniki, jest równie ważne jak to, jak tworzone i skalowane są testy. Jednak bez dobrze opisanej i przemyślanej podstawy egzaminowania, a także bez odpowiedniego skalowania wyników, publikowanie wyników testów w sposób przydatny i zrozumiały jest trudne. Żeby dobrze opisać, co oznacza 30 punktów egzaminacyjnych, trzeba by móc odnieść ten wynik do skali opisowej określającej, jaki zestaw umiejętności i wiedzy posiada uczeń o takim wyniku. Podobnie z wynikami w podskalach, np. umiejętności czytania ze zrozumieniem w teście humanistycznym. Muszą być one dobrze zdefiniowane, analizowane metodami IRT, aby wynik miał wiarygodną i poprawną interpretację. Punkty powinny być także publikowane w odpowiednio przygotowanej skali. Czy różnica między 15 a 17 jest taka sama w skali polskich egzaminów jak różnica między 18 a 20? Czy wynik równy 30 w 2005 r. oznacza tyle samo co 30 w 2008 r.? Oczywiście, w przypadku polskich egzaminów zarówno różnica, jak i średni wynik mogą odzwierciedlać zupełnie inne przedziały umiejętności. Trudno więc, o ile wyniki nie zostaną przełożone na jedną skalę o tej samej jednostce pomiaru, średniej i wariancji, publikować rezultaty egzaminów w sposób jasny, zapobiegający nieuprawnionym, ale bardzo dziś popularnym porównaniom.

            Badania międzynarodowe mogą stanowić wzór, w jaki sposób publikowane powinny być wyniki testów, przynajmniej jeśli chodzi o informacje dla grup uczniów. Wyniki prezentowane są zawsze w tej samej skali (500/100, porównywalnej między kolejnymi cyklami) i przekładane na kategorie opisowe (np. w PISA jest od 5 do 6 poziomów umiejętności i wiedzy). Warto skorzystać z tych wzorów, które stosowane są już na co dzień w wielu krajach o dłuższej tradycji testowania wiedzy uczniów (USA czy Wielka Brytania). Pod tym względem polski system egzaminów ma wiele do nadrobienia, jednak jak wspomniano na początku, bez odpowiednich podstaw trudno tutaj wiele zmienić.

5. Konstruowanie pochodnych miar określających jakość lub efektywność nauczania

            System egzaminów zewnętrznych ma przede wszystkim na celu określenie wyniku dla każdego ucznia, jednak często jest też wykorzystywany do określenia średniego wyniku szkoły, gminy, powiatu czy też nawet porównywania regionów (wyników między rejonami poszczególnych OKE czy też województwami) i subpopulacji uczniów całego kraju (np. dziewczęta i chłopcy, uczniowie ze wsi a uczniowie z miast). Co więcej, wyniki egzaminacyjne wykorzystywane są do tworzenia bardziej złożonych miar mających np. określić jakość nauczania w danej szkole. Taką miarą jest – przykładowo – wskaźnik EWD (edukacyjnej wartości dodanej) gimnazjum, który uwzględnia poziom wiadomości i umiejętności ucznia pod koniec nauki w szkole podstawowej (wynik sprawdzianu), oceniając, ile zyskał on podczas nauki w gimnazjum.

            Jak już wspomniano, oceny dla większych grup zyskują na precyzji, gdy pod uwagę brany jest model wyników dla całej populacji uczniów. Załóżmy, że uczeń uzyskał 30 punktów na sprawdzianie szóstoklasistów. Jak wiemy, wynik ten jest miarą prawdziwych umiejętności ucznia obarczoną błędem pomiaru, czyli niepewnością związaną z zestawem rozwiązywanych zadań, dyspozycją ucznia danego dnia etc. Co więcej, 30 punktów może być dość szeroką kategorią zawierającą uczniów o bardzo różnym poziomie wiadomości i umiejętności, których nie możemy rozróżnić ze względu na ograniczoną liczbę zadań w teście (np. 30 punktów na sprawdzianie z 2007 r. uzyskało ponad 20 tysięcy szóstoklasistów).

            Ten sam uczeń poddany identycznemu testowi uzyskałby zapewne nieco inny wynik. Najczęściej bardzo bliski poprzedniemu, jednak z pewnym prawdopodobieństwem nieco inny. Jeśli moglibyśmy podawać wyniki z dokładnością do kilku cyfr po przecinku, to na pewno kolejne testy pokazywałyby inne wartości, nawet gdyby po zaokrągleniu uczeń otrzymywał zawsze 30 punktów. Co więcej, moglibyśmy też rozróżnić wyniki poszczególnych uczniów i tak na przykład, zamiast 20 tysięcy szóstoklasistów z tym samym wynikiem równym 30 punktów, mielibyśmy tysiąc szóstoklasistów z wynikiem równym 30,27 punktów.

            W zależności od tego, jak wykorzystujemy ten wynik, takie rozróżnienie, związane z większą precyzją pomiaru, może mieć spore znaczenie lub też być zupełnie zbędne z praktycznego punktu widzenia. Dla indywidualnego wyniku sprawdzianu udostępnianego uczniowi i nauczycielom taka dokładność nie jest konieczna. Wiemy przecież, że błąd pomiaru wynosi kilka punktów, więc w porównaniu z nim ułamki są naprawdę sprawą pomijalną. Jeśli jednak wynik stanowi podstawę kolejnych obliczeń, np. średniej czy EWD szkoły, to już obliczenie wyniku ucznia z jak największą dokładnością zwiększy istotnie precyzję oszacowań tych wskaźników, dając dodatkowo znacznie lepszą podstawę do określenia zakresu, w jakim znajduje się prawdziwy wynik (przedziału ufności). Intuicyjnie, o ile korzyści płynące z dużej dokładności są niewielkie przy pojedynczym wyniku, to nabierają znaczenia, gdy korzystamy z kilkudziesięciu wyników obliczonych z większą precyzją.

            Można więc zastosować modele populacyjne opracowane w badaniach międzynarodowych. Czerpać z ich doświadczeń i metodologii przy tworzeniu własnych miar. Jest to możliwe w oparciu o wyniki egzaminacyjne w Polsce, choć wymagałoby zbierania dodatkowych informacji o uczniach lub szkołach. Informacje te, w rodzaju poziomu wykształcenia i zawodu rodziców, liczby dzieci uzyskujących pomoc społeczną itp. powinny być zbierane, o ile zależy nam na odpowiedniej interpretacji wyników, przede wszystkim w odniesieniu ich do kontekstu szkoły. Tutaj badania w rodzaju PISA mają wiele do zaoferowania, bowiem stworzyły cały zestaw narzędzi pomiarowych służących analizowaniu wyników ucznia po uwzględnieniu jego pochodzenia społeczno-ekonomicznego. Podobne informacje zbierane są w systemach egzaminacyjnych wielu krajów, np. w Wielkiej Brytanii, i wykorzystywane nie tyle przy ocenianiu poszczególnych uczniów, co przy analizowaniu wyników szkół i grup uczniów. Dla prowadzenia efektywnej polityki edukacyjnej takie informacje mają charakter kluczowy.

6. Tworzenie zasobów do wykorzystania w pogłębionych analizach wyników uczniów

            Na koniec warto podkreślić jeszcze raz, że wyniki badań międzynarodowych służą nie tylko tworzeniu końcowych raportów przedstawiających ich podstawowe rezultaty, ale i są szeroko wykorzystywane do pogłębionych analiz odnoszących osiągnięcia i postawy uczniów do cech ich rodzin, szkół oraz całych systemów szkolnych. Bazy danych ze wszystkich badań są dostępne za darmo w Internecie wraz z drobiazgową i dość przystępną dokumentacją. Podobnie wykorzystywane mogłyby być wyniki egzaminów zewnętrznych. Przykładem może być badanie zrealizowane na zlecenie CKE przez firmę Pentor, gdzie połączono wyniki egzaminów z danymi zebranymi w ankietach wzorowanych na badaniu PISA. Została opracowana dokumentacja dla tej bazy i miejmy nadzieję, że wkrótce będzie ona dostępna dla wszystkich chętnych. Podobnie można postępować z wynikami kolejnych fal egzaminów zewnętrznych. W ten sposób zyskujemy możliwość prowadzenia szczegółowych analiz, które mogą być pomocne w kształtowaniu polityki edukacyjnej, ale i poprawianiu systemu egzaminów zewnętrznych. Przykłady, jak tworzyć i udostępniać takie zbiory danych, dają badania międzynarodowe. Warto z nich skorzystać.

 
OD REDAKCJI:

Tekst pochodzi z książki Badania międzynarodowe i wzory zagraniczne w diagnostyce edukacyjnej. Pod red. Bolesława Niemierki i Marii Krystyny Szmigel. Kraków: Wydaw. PTDE 2009.


ROMAN FICEK - Wiersze

ROMAN FICEK - Jesteśmy

ELŻBIETA CHABIK - Stosunki interpersonalne między uczniami zdrowymi a niepełnosprawnymi

URSZULA GRYGIER - Klucz do integracji. O współpracy pedagoga specjalnego i nauczyciela przedmiotu w klasach integracyjnych

ANNA RAPPE - Spójrzmy na efektywność wiejskich gimnazjów

MARIUSZ STINIA - Wizyty studyjne

JAN BORATYŃSKI TRIZ - Pedagogika, cz. VII

ZESTAWIENIE BIBLIOGRAFICZNE - Integracja społeczna. Praca z uczniem o specjalnych potrzebach edukacyjnych.

DARIA GRODZKA - Relacja z zebrania Rady Wydawniczej, Rady Redakcyjnej i Zespołu Redakcyjnego „Hejnału Oświatowego”

- Małopolski Konkurs o tematyce regionalnej „Mnie ta ziemia od innych droższa…”