Wikipedysta:Zureks/Rozwój Wikipedii w latach 2004-2008


Wikipedysta:Zureks/Rozwój Wikipedii w latach 2004-2008 w encyklopedii

Z Wikipedii, wolnej encyklopedii < Wikipedysta:Zureks Przejdź do nawigacji Przejdź do wyszukiwania

Rozwój polskiej Wikipedii w latach 2004-2008 na tle profesjonalnej encyklopedii PWN

(wersja poszerzona) w encyklopedii

Stanisław Żurek, Sebastian Skolik

Spis treści

Wstęp

Polska wersja „Wolnej Encyklopedii Wikipedia” została założona we wrześniu 2001 roku. Wikipedia jest przedsięwzięciem niekomercyjnym i jest utrzymywana i tworzona wyłącznie przez ochotników. Słowo „wolna” w nazwie ma dwojakie znaczenie. Po pierwsze dostęp do Wikipedii jest darmowy, nie jest ściśle wymagana rejestracja użytkowników, a wszelkie informacje przedstawiane są w sposób jak najbardziej czytelny i przejrzysty. Przede wszystkim jednak „wolność” oznacza również, że wszelkie materiały umieszczone na Wikipedii (teksty, grafiki, animacje, dźwięki, itd.) muszą zostać udostępnione na tzw. „wolnej” licencji, która zezwala na ich dalsze kopiowanie i wykorzystywanie w dowolnym celu, również komercyjnym. Warunkiem wykorzystania jest jednak, że materiały pozostaną wolne i że zostaną one użyte zgodnie z licencją na jakiej zostały udostępnione. Licencją podstawową jest tutaj GNU Free Documentation License (GFDL), która zezwala na wolny użytek, ale która przy każdym wykorzystaniu materiałów wymaga spełnienia odpowiednich warunków [1], z których podstawowe to podanie informacji o pierwotnym autorze oraz pełnego tekstu licencji. Wiele fotografii jest zamieszczonych na licencjach bardziej wolnych, które np. nie wymagają podania pełnego tekstu licencji (np. licencja Creative Commons, CC). Generalnie – licencje „bardziej wolne” niż GFDL są dozwolone, a licencje „mniej wolne” nie mogą być używane na Wikipedii.

Zasady takie wynikają z prostej logiki, że jeśli „coś” jest wolne to można to używać bez ograniczeń w ramach licencji. Dlatego też Wikipedia nie przyjmuje żadnych materiałów, których użycie byłoby sprzeczne z licencją GFDL. Nie można np. użyć fotografii z pozwoleniem typu „tylko do Wikipedii”, ponieważ prowadziłoby to ograniczenia użycia co jest niezgodne z przyjętą licencją i z samym duchem Wikipedii. Konsekwentnie – wszystko co jest umieszczone na polskiej Wikipedii jest wolne. Z punktu widzenia Wikipedii lepsza jest bowiem zupełna wolność i brak niektórych materiałów (np. logo znanych firm), niż wprowadzanie niejasności co do wolności zawartości.

Na polskiej scenie najpoważniejszą encyklopedią jest trzydziestotomowa Wielka encyklopedia PWN [2][3] (dalej zwana w tym artykule PWN). PWN zawiera ponad 140 tysięcy haseł, 15 tysięcy ilustracji, 700 map oraz innych dodatków (tabele, indeksy, tablice, itp.)

Wikipedia aspiruje do miana poważnej encyklopedii i jest bezsprzecznie największą darmową encyklopedią internetową. W chwili pisania tych słów polska Wikipedia (dalej zwana Wiki) miała ponad 580 tysięcy haseł, i coraz częściej pojawiają się głosy na temat użyteczności Wikipedii i jej konkurencyjności względem komercyjnej, a więc „nie-wolnej”, PWN. Wiki ciągle się rozwija i coraz więcej nowych haseł jest dodawanych do bazy danych, a hasła istniejące są nieustannie rozbudowywane, dodawane nowe informacje, fotografie, mapy, itd.

Ten artykuł jest próbą oceny rozwoju artykułów polskiej Wikipedii w latach 2004-2008. Zastosowana tutaj metoda „pomiaru” niektórych wskaźników pozwoliła na odniesienie się do laicko pojętej przydatności artykułów z Wiki i ich porównanie do podobnych artykułów na PWN. Niemniej jednak, głównym celem artykułu jest ocena rozwoju samej polskiej Wikipedii, a artykuły PWN są użyte głównie jako poziom odniesienia.

Część I – porównanie Wiki i PWN w encyklopedii

Metodologia

Jak wspomniano powyżej Wiki ma ponad 580 tys. artykułów, wobec 140 tys. PWN. Na Wiki istnieją więc artykuły, których nie ma w PWN. Z drugiej strony część artykułów z PWN nie jest jeszcze utworzona na Wiki. PWN jest tworzona przez setki specjalistów z każdej dziedziny, a lista zawartości jest dokładnie zaprojektowana przed napisaniem samych artykułów. Jest więc bezspornym, że PWN może być tutaj uznana jako absolutny punkt odniesienia. Dlatego też postanowiono użyć artykuły istniejące na PWN jako wstępną listę artykułów, które powinna posiadać Wiki, i których jakość powinna być na odpowiednim poziomie.

Twórcy PWN udostępnili fragmenty encyklopedii w ilości około 4 stron z każdego tomu. Pliki te są dostępne w formacie PDF pod adresem http://we.pwn.pl (dostęp 2 paźdz. 2008), co jest łatwiej weryfikowalne dla czytelnika niż wydanie drukowane. Nie jest to więc badanie prawdziwie losowe, ponieważ autorowi niniejszego opracowania nie jest znany algorytm jakiego użyto do selekcji udostępnionych artykułów. Ze stron dostępnych dla tomów od 1 do 30 wybrano jak najpełniejsze artykuły, które mogłyby posłużyć jako podstawa analizy. Przy selekcji i „pomiarze” artykułów PWN przyjęto następujące kryteria:

  1. Jeśli artykuł jest dostępny w całości jest użyty w analizie.
  2. Jeśli hasło jest bezpośrednim przekierowaniem do innego hasła (tzn. nie zawiera nawet kilku słów treści), to takie hasło nie jest użyte.
  3. Jeśli artykuł jest niepełny, to jest użyty tylko jeśli jakość lub długość dostępnego fragmentu jest co najmniej porównywalna jakościowo z odpowiadającym artykułem Wiki (co jest nieznacznie kosztystne dla PWN).
  4. Liczba słów w PWN jest liczona jako średnia liczba 8 słów na linijkę, 71 linijek na całą kolumnę. Jeśli artykuł jest dłuższy niż jedna kolumna, to liczba słów jest liczona jako 8 x 71 x liczba kolumn, nawet jeśli artykuł zawiera fotografie. (Jest to podyktowane zamkniętym formatem PDF dostępnych plików, który nie pozwala na kopiowanie tekstu i automatyczne zliczanie wyrazów. 8 wyrazów na linijkę zostało oszacowane po zliczeniu wszystkich wyrazów w kilku krótszych hasłach i obliczeniu średniej ilości słów na linijkę. Jako „wyraz” zalicza się dowolny ciąg znaków oddzielony spacją, wliczając w to jednoliterowe spójniki, daty, itd.)
  5. Do tekstu wlicza się bibliografię i przypisy.
  6. Liczbę obliczonych słów zaokrągla się zawsze w górę do najbliższej wartości 10 (czyli np. 41 lub 49 = 50). Wyjątkiem były niektóre artykuły o długości poniżej 20 słów, gdzie podano wartość rzeczywistą. (Liczba słów ma na celu tylko orientacyjne zobrazowanie długości artykułu.)
  7. Liczone są wszystkie fotografie i grafiki ilustrujące hasło (ale oprócz tych zawartych np. w szablonach na Wiki).
  8. Jeśli artykuł jest potencjalnie dużo dłuższy niż dostępny fragment (np. artykuł o państwie Niemcy), to artykuł również jest wliczony. Takie artykuły przeważnie są dłuższe niż 2 udostępnione strony. Liczba słów jest oszacowana tylko na podstawie dostępnego tekstu, czyli 8 słów x 71 linijki x 2 kolumny x 2 strony = 2272 = 2280 słów (nawet jeśli dostępny fragment zawierał fotografie). Takie podejście zostało podyktowane założeniem, aby statystyki odzwierciedliły również bardzo długie artykuły, które w przeciwnym wypadku zostałyby wykluczone.

W ten sposób wyselekcjonowano 321 artykułów PWN (pełna lista przeanalizowanych haseł znajduje się w załączniku na końcu tego artykułu). Każdy artykuł został „pomierzony” a wyniki zapisano w bazie danych. Następnie każde hasło PWN zostało odszukane na Wiki, i wykonano pomiar z uwzględnieniem kryteriów podobnych do tych podanych powyżej. Różnice były następujące:

  1. Użyty jest cały tekst artykułu wyświetlony dla użytkownika, ale bez słów technicznych typu kategorie, ujednoznacznienia, przekierowania, itd.
  2. Liczona jest dokładna liczba słów (ciągi znaków oddzielone spacjami, jednoliterowe spójniki, daty, itd.), a wyliczona wartość jest zaokrąglana w górę do najbliższej wartości 10.
  3. Do tekstu wlicza się bibliografię i przypisy.
  4. Liczone są wszystkie grafiki.
  5. Rejestrowana jest obecność (0 lub 1) tzw. galerii Commons, która odsyła do strony z większą ilością grafik bezpośrednio związanych z danym tematem.
  6. Galerie wyświetlane bezpośrednio w haśle są traktowane jako dodatkowa liczba grafik. (Zewnętrzne galerie Commons nie są wliczane do liczby grafik.)

Dodatkową informacją wprowadzoną przy porównaniu artykułów Wiki do PWN była „ocena ogólna”. Ocena ta została wykonana arbitralnie przez autorów niniejszego artykułu według zasad opisanych szczegółowo poniżej. Ocena ogólna była oszacowana na podstawie ilości informacji przedstawionych w artykule - długość samego artykułu nie miała większego znaczenia i liczyła się tylko ilość zawartych informacji. Dlatego też, możliwe były sytuacje, w których artykuł Wiki otrzymywał niższą ocenę od artykułu PWN, pomimo że ten drugi miał liczbę słów mniejszą nawet o połowę.

Przy ocenie brano pod uwagę ilość i szczegółowość przedstawionych informacji. Autorzy zdają sobie sprawę ze swoich ograniczeń merytorycznych i nie byli w stanie analizować informacji nieprawdziwych lub błędnych, poza bardzo nielicznymi i oczywistymi wyjątkami wykazanymi poniżej.

Wszystkie artykuły Wiki zostały podane ocenie względem odpowiednich artykułów PWN zgodnie ze skalą ocen przedstawioną w Tabeli 1.


Tabela 1. Kryteria ocen porównujących artykuły Wiki do PWN

(*) To kryterium zostało wprowadzone już w trakcie badań – po zauważeniu kilku przypadków błędów merytorycznych w PWN. W takim przypadku niezależnie od długości artykułu wystawiana była ocena 3. Takich przypadków było tylko 6, więc oceny te nie wpłynęły w znaczący sposób na wyniki uśrednione z 321 artykułów.


Jak nadmieniono powyżej, noty zostały wystawione na podstawie subiektywnej oceny autorów niniejszego artykułu. Głównym kryterium była tutaj szeroko pojmowana użyteczność artykułu dla przeciętnego czytelnika-laika, który nie jest w stanie analizować merytorycznej jakości informacji. Jest zatem możliwe, że dowolna ilość takich błędów merytorycznych jest zawarta zarówno w artykułach PWN (mniej prawdopodobne) jak i w artykułach Wiki (bardziej prawdopodobne). Zagadnienie to wykracza poza niniejszą analizę, i nie będzie tutaj szerzej dyskutowane. Jak wspomniano powyżej, głównym celem jest zbadanie względnego rozwoju samych artykułów Wiki, a PWN została tutaj użyta jako szeroko rozumiany punkt odniesienia. Ocenę bezwzględną pod kątem merytorycznym należy przeprowadzić w osobnym badaniu.

Grafiki w artykułach generalnie nie były brane pod uwagę przy ustalaniu oceny, chyba że wybór oceny był utrudniony. W takich przypadkach brak lub obecność grafiki mogła tylko przeważyć skalę w odpowiednią stronę, ale główna „ocena” została podjęta na bazie zawartości informacji opisanych w tekście. Jeśli obydwa artykuły były tekstowo porównywalne, to przegrywał ten, który albo nie miał grafiki, miał ich mniej lub gorszej jakości.

Wiele artykułów Wiki posiada tzw. „infoboksy”. Są to tabelki umieszczone zazwyczaj po prawej stronie górnej części artykułu. Tabelki te zawierają sumaryczne informacje na dany temat. Dla przykładu, infoboks w artykule Lutra (wydra [4] ) zawierać może pełną systematykę gatunku. Jest to niewątpliwie informacja potencjalnie użyteczna dla czytelnika, i dlatego też takie dodatkowe dane uwzględniono przy porównaniu ilości podanych informacji. Mimo to, artykuł taki oczywiście mógł otrzymać niższą ocenę, jeśli całość informacji była odpowiednio mniejsza. Dla przykładu artykuł Wiki Lutra otrzymał ocenę -2 w porównaniu z artykułem PWN wydra (tom 30, strona 87). Wygląd bazy danych z przykładowymi ocenami kilku pierwszych artykułów przedstawiono w Tabeli 2.


Tabela 2. Początkowe wiersze bazy danych porównujące kolejne artykuły PWN i Wiki


Wyniki badań

Wyniki zaprezentowane poniżej odnoszą się do wartości uśrednionych dla wszystkich zbadanych artykułów, chyba że zaznaczono inaczej. W przypadku Wikipedii użyto tylko artykuły istniejące, ponieważ celem było zbadanie średniej ilości słów na artykuł. Gdyby dla każdego nieistniejącego artykułu przypisać zerową liczbę słów, to zafałszowałoby to obraz obecnego stanu artykułów. Pozostałe wyniki i sposób ich obliczenia zostały opisane poniżej wraz z podanymi wykresami lub danymi liczbowymi.

Liczba artykułów

Jak podano powyżej wybrano określoną liczbę artykułów PWN i wyniosła ona 321 artykułów (pełna lista użytych haseł znajduje się na końcu tego opracowania). Każde z tych haseł zostało sprawdzone w Wiki z dniem 2 października 2008 istniało tylko 230 artykułów (Rys. 1), co daje 72%. Bezpośrednią konsekwencją tego jest że 91 artykułów Wiki otrzymało notę -3, co oczywiście zaowocowało znacznym obniżeniem całkowitej średniej oceny Wiki względem PWN. Z tego powodu zastosowano również ocenę skorygowaną, w której w analizie wzięto pod uwagę tylko artykuły istniejące w obydwu encyklopediach. Takie badanie bowiem umożliwia porównanie bardzo szeroko rozumianej jakości samych artykułów, i nie jest zafałszowane skrajnymi notami dla nieistniejących haseł. Szczegółowe wyniki zostaną podane poniżej.

Rys. 1. Porównanie liczby artykułów PWN (100 %) istniejących na Wiki (72 %)

Wszystkie analizowane artykuły podzielono zgrubnie na 9 kategorii:

  • Geografia (państwa, miasta, rzeki, itd.)
  • Biografie (artykuły opisujące osoby)
  • Biologia (botanika, zoologia, medycyna, itd.)
  • Technika (mechanizmy, wynalazki, urządzenia, narzędzia, itd. ale zaliczono tutaj np. również hasło o firmie Airbus)
  • Historia (wojny, rewolucje, wydarzenia, organizacje założone w przeszłości, itd.)
  • Religia (religie, wierzenia, bogowie, itd.)
  • Sztuka (malarstwo, rzeźba, architektura, itd. – wliczono tutaj również kulinaria)
  • Nauki nieścisłe (humanistyczne, prawo, filozofia, itd.)
  • Nauki ścisłe (matematyka, fizyka, chemia, itd.)

Procentowy udział poszczególnych kategorii w przeanalizowanych artykułach zaprezentowany jest na Rys. 2.

Przerywany prostokąt na Rys. 2 zawiera 5 najczęściej występujących kategorii, które zawierają ponad 80% wszystkich artykułów oraz ponad 83% brakujących artykułów Wiki. Jak łatwo zauważyć, ponad 40% brakujących artykułów (100% brakujących = 91 artykułów) należy tylko do kategorii „biografie”. Jest to liczna kategoria, w której brakuje ponad połowa haseł (68 haseł PWN, z czego tylko 31 istnieje na Wiki). Braki w pozostałych kategoriach rozkładają się bardziej równomiernie, może poza wyjątkiem „historii”, gdzie również zarejestrowano połowę braków (18 PWN, 9 Wiki) – ta kategoria nie jest jednak aż tak liczna.

Z danych przedstawionych na Rys. 2 widać jednak wyraźnie, że Wikipedia powinna popracować nad ilością artykułów o osobach, ponieważ wydaje się to być główną przyczyną różnicy ilościowej względem PWN.

Rys. 2. Procentowy udział kategorii we wszystkich artykułach PWN; niebieskim kolorem zaznaczono procentowe wartości brakujących artykułów Wiki (wszystkie wartości odniesione do liczby 321)

Analiza wykazuje, że tylko 72% artykułów PWN istnieje na Wiki. Niemniej jednak, w bardzo wielu przypadkach Wiki odnotowuje ważność brakujących zagadnień, ponieważ albo nazwiska sławnych osób są wymieniane w innych artykułach, albo też skróty (lub co najmniej nazwy) do brakujących obecnie artykułów pojawiają się w innych hasłach. Dlatego też często przy wyszukiwaniu na Wiki nieistniejącego jeszcze hasła, użytkownik może zostać odesłany do innego artykułu, który w kontekstowy sposób wymienia wyszukiwane nazwisko, termin lub zagadnienie. Tylko 14 % artykułów (44 hasła) wydaje się być w ogóle nie odnotowane w obecnej bazie danych polskiej Wikipedii. Jak łatwo zauważyć, obniża to o połowę liczbę braków.

Liczba słów

Długość artykułów Wiki została zmierzona dokładnie poprzez skopiowanie istotnego tekstu artykułu (z pominięciem szablonów specjalnych, spisu treści, itd.) i wklejenie go do edytora Microsoft Word, który pozwala na zliczanie ilości słów w danym tekście. „Słowo” jest tutaj definiowane jako ciąg znaków oddzielony spacjami (lub znakami interpunkcyjnymi). Metoda ta nie mogła być użyta do artykułów PWN, ponieważ użyto zabezpieczonego formatu plików PDF, który nie pozwalał na kopiowanie tekstu. Zatem liczba słów została oszacowana dla haseł PWN na podstawie ilości linijek tekstu (8 słów na linijkę, 71 linijek na kolumnę).

Porównanie ilości słów dla wszystkich artykułów przedstawiono na Rys. 3 – długość artykułów jest posortowana względem haseł PWN od najdłuższych do najkrótszych. Trend liczby słów artykułów Wiki ogólnie podąża za PWN (zastosowano pionową oś w skali logarytmicznej celem lepszego zobrazowania różnic w całym przedziale wartości). Niemniej jednak, widać wyraźnie, że liczba słów w artykule Wiki może być zarówno o wiele mniejsza jak i o wiele większa od odpowiadającego artykułu PWN. Sugeruje to bardzo nierówny poziom artykułów Wiki, ale pozwala to również na wnioskowanie o sporej ilości artykułów Wiki, które są znacznie dłuższe, a co za tym idzie rośnie prawdopodobieństwo ich lepszej jakości.

Rys. 3. Porównanie całkowitej ilości słów we wszystkich artykułach

Jeśli zaś chodzi o samą liczbę słów w artykułach to statystyczne rozkłady przedstawiają się podobnie dla obydwu encyklopedii. Użyto tylko hasła istniejące na obydwu encyklopediach. Liczby słów w artykułach posortowano od wartości największych do najmniejszych oddzielnie dla każdej encyklopedii, co spowodowało zerwanie bezpośredniego połączenia pomiędzy wynikami, które przedstawiono na Rys. 4.

Najdłuższym analizowanych hasłem PWN jest „Polska”, które rozciąga się na co najmniej 24 strony i szacowana liczba słów to ponad 27 270 (8 słów, 71 linijek, 2 kolumny 24 strony). Kolejne hasła były krótsze, ale dłuższe niż 2 strony, dlatego też ilość słów dla kilku takich haseł została oszacowana na 2280. Było 13 takich haseł, co spowodowało wystąpienie płaskiej części wykresu zaznaczonej kółkiem na Rys. 4. Z ogólnego trendu widać jednak wyraźnie, że charakterystyka powinna rosnąć w kierunku dużo wyższych wartości. Jednym z najkrótszych haseł PWN był artykuł „erotyk” składający się tylko z 7 słów. Na PWN znaleziono 14 haseł nie dłuższych niż 30 słów.

Rys. 4. Porównanie całkowitej liczby słów tylko dla artykułów istniejących na Wiki i PWN

Na Wiki specyfika długich haseł jest nieco inna. Główny artykuł Polska zawierał 13 630 słów [10], ale w treść wplecionych jest bardzo wiele oddzielnych artykułów podrzędnych które opisują określone zagadnienia jak np. Gospodarka Polski [11] (które na PWN są wpisane w głównym artykule). Podrzędne hasła Wiki mogą być bardzo rozbudowane i zawierać nawet ponad 1000 słów (1960 słów w przypadku hasła Wiki Gospodarka Polski). Bezpośrednie porównanie nie jest więc tutaj możliwe, ale dla celów niniejszej oceny użyto tylko ilości słów pojawiające się w głównych artykułach (czyli w sposób niekorzystny dla Wiki).

Warto tutaj jednak odnotować, że generalnie bardzo długie artykuły Wiki czyta się lepiej, ponieważ tekst jest podzielony na sekcje, jest spis treści, i są oddzielne artykuły opisujące konkretne zagadnienia. Podobny tekst na PWN pisany jest niemal bez żadnych przerw, a w szczególności bez podziału na paragrafy. Powoduje to szybsze zmęczenie wzroku i znacznie utrudnia odszukanie danej informacji. (Pominięto tutaj fakt, że encyklopedię drukowaną trzeba przeszukiwać „ręcznie” podczas gdy do tekstu wyświetlonego na ekranie komputera można użyć wyszukiwarki wbudowanej w każdą przeglądarkę internetową i bardzo szybko odszukać żądane słowo w tekście.)

Najkrótszym hasłem na Wiki było „Malanje” o długości 13 słów [12]. Podobnie jak dla PWN na Wiki również znaleziono 14 haseł nie dłuższych niż 30 słów. Z Rys. 4 widać jednak, że ogólnie charakterystyki liczby słów mają bardzo podobne trendy dla obydwu encyklopedii. W środkowej części Wiki wydaje się mieć nieco dłuższe artykuły, co przekłada się na większą średnią liczbę słów, tak jak to pokazano na Rys. 5. Należy jednak pamiętać, że długość co najmniej 10 bardzo długich artykułów PWN była niedoszacowana. Jeśli tylko te artykuły byłyby dwukrotnie dłuższe niż przyjęto (co jest bardzo możliwe), to średnia długość hasła PWN wzrosłaby z 420 do 521 – jest więc bardzo prawdopodobne, że średnie długości artykułów na obu encyklopediach są bardzo zbliżone. Takie założenie nie bierze jednak pod uwagę wpływu artykułów zależnych opisujących zagadnienia bezpośrednio powiązane z długim, głównym hasłem na Wiki.

Rys. 5. Średnia liczba słów


Liczba grafik

Wiele artykułów encyklopedycznych jest opatrzonych ilustracjami, przy czym dłuższe artykuły mogą mieć więcej niż jedną grafikę. Obliczono zatem średnią liczbę grafik na artykuł (Rys. 6). Dla Wiki nie brano tutaj pod uwagę żadnych dodatkowych grafik umieszczonych w zewnętrznych galeriach (tzw. galeria Commons). Dla Wiki wyniki uśredniono tylko dla istniejących artykułów.

Jak widać z Rys. 6 Wiki jest dużo bardziej „multimedialna” niż PWN. Średnia liczba grafik na artykuł jest 2,7-krotnie większa. Co więcej, w 321 artykułach PWN szacunkowa całkowita liczba grafik to 444, podczas gdy w 230 artykułach Wiki wyliczono ich 872, więc Wiki prezentuje się tutaj znacznie lepiej nawet przy tylko 72% istniejących artykułów.

Jak podaje PWN encyklopedia ma 140 tys. artykułów i 15 tys. ilustracji oraz 700 map. Dane te pozwalają na oszacowanie średniej wartości na poziomie tylko 0.11 grafiki na artykuł. Liczba ta jest o wiele mniejsza niż 1.38, co pozwala na przypuszczenie, że autorzy PWN wybrali do prezentacji tylko strony zawierające liczbę grafik dużo powyżej średniej, co jest zrozumiałe z powodów marketingowych. Nawet jeśli przyjąć, że Wikipedia ma podobny współczynnik grafik na artykuł równy 0.11 to wówczas przy 540 tys. artykułów (stan z dnia 3 października 2008) oznaczałoby to 60 tys. grafik. Ponadto Wiki zawiera coraz więcej prawdziwych multimediów w postaci animacji [13][14], muzyki i dźwięków [15][16] – Wiki jest więc dużo bardziej multimedialna w prawdziwym tego słowa znaczeniu.

Rys. 6. Średnia liczba grafik na artykuł

Liczba artykułów z grafikami

Należy tutaj oczywiście rozróżnić łączną liczbę grafik w artykułach, od ilości artykułów zawierających grafiki. Porównano więc również liczby artykułów, które nie zawierały grafik. Okazuje sie, że z dostępnych artykułów PWN tylko 30% było zilustrowanych. Na Wikipedii odsetek haseł z grafikami wynosi aż 68%. Co więcej, aż 35% artykułów Wiki zawiera skrót internetowy do tzw. galerii Commons, gdzie można znaleźć nierzadko dodatkowych kilkadziesiąt wolnych grafik powiązanych z danym tematem [17][18].

Jak widać pod względem ilości grafik Wiki jest wyraźnie lepsza od PWN. Pozostaje jeszcze kwestia jakości tych ilustracji pod kątem encyklopedyczności. Jest to jednak osobne zagadnienie i nie będzie tutaj omawiane. Bezsprzecznie jednak ilość i jakość grafik na Wiki ulega nieustannemu rozwojowi, co będzie przedstawione również w dalszej części tego opracowania.

Rys. 7. Średnia procentowa liczba artykułów zawierających ilustracje

Błędy

Artykuły nie były oceniane na podstawie merytoryczności prezentowanych informacji. Badano jedynie ilość przedstawionych informacji, ale nie ich poprawność merytoryczną. Od tej zasady poczyniono jeden wyjątek. Mianowicie, na samym wstępie tego badania przyjęto, że artykuły PWN są bezwzględnym źródłem odniesienia a zatem i poprawności. Dlatego też, jeśli dostrzeżono, że jakiś artykuł PWN zawiera potencjalny błąd merytoryczny, który na Wiki zawierał poprawną informację, to Wiki przyznawano ocenę +3, niezależnie od względnej „jakości wizualnej” obydwu artykułów. Dostrzeżono błędy w następujących artykułach PWN (we wszystkich przypadkach przyznano ocenę +3, poza jednym wyjątkiem):

  1. Erotomania – PWN podaje tutaj tylko treść odnoszącą się do zagadnienia Hiperseksualność. Nawet jeśli w rozumieniu potocznym erotomania = hiperseksualność, to jednak znaczenie poprawnego terminu medycznego powinno zostać odnotowane. Wiki pod tym hasłem opisuje najpierw hiperseksualność [19], po czym dopiero w jednym z ostatnich zdań nawiązuje to popularnego rozumienia tego terminu. Obydwa artykuły nie posiadają ilustracji, PWN 80 słów, Wiki 300 słów.
  2. Kal-i Naw – PWN podaje liczbę ludności 5,6 tys. mieszkańców w 1982 roku i 119 tys. w 2002 roku. Jest raczej wątpliwe, aby liczba ludności małego miasteczka wzrosła ponad 20-krotnie w przeciągu tylko 20 lat. Wiki podaje bardzo podobne dane [20], dlatego też ogólna nota przyznana przy porównaniu tych haseł to wyjątkowo -2. Brak ilustracji, PWN 80 słów, Wiki 20 słów.
  3. Malamud Bernard – PWN podaje rok urodzenia 1930 zamiast poprawnego 1914. Brak ilustracji, PWN 150 słów, Wiki 210 słów [21].
  4. Ormianie – PWN podaje liczbę Ormian w Polsce na 8 tys., Wiki podaje ponad 40 tys. [22]. Dodatkowo PWN ponad połowę artykułu poświęca Ormianom w Polsce. Wiki ma na ten temat odzielny artykuł (jak również inne np. Historia Armenii). PWN brak grafik i 680 słów, Wiki 9 grafik i 1740 słów. Jeśli nawet dokładna liczba Ormian nie jest znana to PWN powinno podać górną granicę szacunków podaną w [23].
  5. Paprotnik – PWN podaje łacińską nazwę Polistychum. W łacińskich nazwach używa się przedrostka poly, a nie poli - zresztą w następnym zdaniu PWN używa słowa Polypodiaceae. Nawet jeśli nazwa Polistychum jest używana, to Polystychum jest używana o wiele częściej, wiec powinno to zostać odnotowane. PWN brak ilustracji i 80 słów. Wiki jedna fotografia i 50 słów [24].
  6. Scendesmus – poprawna nazwa to Scenedesmus [25]. PWN brak ilustracji i 130 słów. Wiki jedna grafika i 190 słów.
  7. Wydmińskie jezioro – PWN podaje że są "trzy małe wyspy" – w rzeczywistości jest osiem wysp, z czego jedna o powierzchni 47 ha (czyli nie jest taka mała). PWN brak ilustracji i 80 słów. Wiki brak ilustracji i 230 słów [26].

Pomijając niepewne informacje o Kal-i Naw mamy do czynienia z 6 artykułami na 321, co daje odsetek rzędu 1.87 % haseł z wykrytymi błędami (mogło być więcej niewykrytych błędów). Jeśli procentowo cała encyklopedia PWN zawiera podobną ilość błędów, to przy 140 tys. haseł daje to potencjalnie 2617 haseł ze poważnymi błędami merytorycznymi, co jest znaczną ilością jak na najbardziej renomowane źródło informacji encyklopedycznej w Polsce. Wiki na pewno prezentowałaby się dużo gorzej w czysto merytorocznym porównaniu, niemniej jednak autor pragnie zaznaczyć, że encyklopedia PWN jest użyta w niniejszym badaniu jako absolutne źródło odniesienia. Jeśli takie źródło zawiera błędy na szacowanym poziomie ponad 2500 artykułów, to nie jest to absolutnie wiarygodne źródło.

Jest to tym bardziej istotne, że PWN została zredagowana przez setki najlepszych specjalistów w Polsce, w znaczącej ilości profesorów z danych dziedzin. Wiki jest tworzona niemal wyłącznie przez amatorów i studentów. Mówi się o chronicznym braku specjalistów, którzy mogliby recenzować artykuły z poszczególnych zagadnień wiedzy. Mimo tego, wymienione powyżej błędne informacje zamieszczone w PWN były poprawnie zaprezentowane na Wiki. Co jest bardzo istotne – informacje były poprawne PRZED opublikowaniem tego opracowania. Oznacza to, że informacje te na pewno nie były skopiowane z PWN a istniejący system kontroli merytorycznej zawartości artykułów na Wiki musi spisywać się całkiem dobrze, skoro uniknął tych błędów.

Co ciekawe, internetowa wersja encyklopedii PWN podaje podobne definicje (stan z 2 października 2008) jak jej drukowana odpowiedniczka: erotomania = hiperseksualność [27], hasło Kal-i Naw nie jest dostępne, w Malamud Bernard podano ten sam błędny rok urodzenia [28], w Ormianie jest również liczba 8 tysięcy [29], paprotnik używa słowa „Polistychum” (nie jest to wiec to zwykła literówka w wersji drukowanej) [30], istnieje hasło o błędnej nazwie scendesmus [31] (hasło „scenedesmus” nie istnieje) a Wydmińskie jezioro nie zawiera informacji o wyspach [32].

Te same błędy i definicje są również w Uniwersalnej Encyklopedii Multimedialnej PWN, z wyjątkiem Wydmińskiego Jeziora - UEM podaje tylko "w tym wyspy o pow. 57 ha".

Oceny

Każdy artykuł Wiki (istniejący lub nie) otrzymał odpowiednią ocenę. Procentowy udział każdej z tych ocen w całkowitej ilości artykułów przedstawiono na Rys. 8. Jak wspomniano powyżej 28 % (91 haseł) automatycznie otrzymało notę -3. Z poniższego wykresu wynika, że tylko 16 % (51 haseł) artykułów Wiki było dużo uboższych niż odpowiedniki PWN. Pozostałe 56 % (179 haseł) artykułów Wiki było albo tylko nieznacznie uboższych, albo porównywalnych, albo też wizualnie lepszych niż odpowiadające im hasła PWN. Ponieważ więcej niż połowa artykułów Wiki jest „niegorsza” niż PWN, to oczywiście średnia ocena ogólna będzie odzwierciedlać tą sytuację.

Rys. 8. Procentowy udział liczby każdej z ocen w całkowitej ilości artykułów


Ocena ogólna i ocena skorygowana

Średnia ocena ogólna została wyliczona jako wartość średnia ze wszystkich 321 ocen (z uwzględnieniem not -3 za nieistniejące artykuły). Średnia ocena ogólna dla porównania Wiki do PWN wyniosła -0.86 (Rys. 9). Taki wynik oznacza, że dla przeciętnego czytelnika-laika, średnia zawartość informacji zaprezentowanych we wszystkich hasłach Wiki jest tylko nieznacznie uboższa, niż tych dostępnych w PWN.

Taka ocena nie jest jednak do końca miarodajna, ponieważ wliczone są tutaj artykuły nieistniejące, dla których wysokie noty ujemne zakłamują szacowaną „jakość wizualną” artykułów istniejących. Dlatego też wprowadzono dodatkowy współczynnik nazwany skorygowaną oceną ogólną, która jest obliczona tylko dla artykułów istniejących (czyli najniższa możliwa ocena w puli to -2).

Dla tak obliczonego współczynnika skorygowana ocena ogólna wyniosła -0.01, co jest równoważne sytuacji, w której istniejąca zawartość Wikipedii jest dla przeciętnego czytelnika-laika jest praktycznie dokładnie równoważna PWN w swej przydatności co do objętości i ilości zawartych informacji.

Zawartość bazy danych Wiki jest indeksowana przez wyszukiwarki internetowe jak również i przez wewnętrzną wyszukiwarkę Wikipedii, więc odszukanie odpowiedniego hasła zajmuje kilka sekund (zakładając dostęp do internetu). W przypadku drukowanej trzydziestotomowej encyklopedii PWN odszukanie odpowiedniego tomu, a potem odpowiedniego hasła zajmie na pewno o wiele dłużej (zakładając dostęp do trzydziestu tomów publikacji o łącznej cenie rzędu średniej pensji krajowej). Wiki z racji darmowego dostępu jest wobec tego o wiele bardziej dostępna, a więc i przydatna dla przeciętnego użytkownika.

Co więcej, nie ulega wątpliwości, że Wiki podlega ciągłemu rozwojowi, co zostanie wykazane poniżej, i podobne badanie za kilkanaście miesięcy z pewnością wykazałoby, że średnia ocena ogólna zbliży się jeszcze bardziej do granicy zerowej, a średnia ocena skorygowana na pewno osiągnie wartości dodatnie, co będzie oznaczać nieuchronną większą użyteczność istniejących artykułów Wiki niż ich odpowiedników PWN.

Rys. 9. Ocena ogólna i skorygowana (opis w tekście) porównania Wiki względem PWN

Korelacja pomiędzy oceną a liczbą słów

Jest rzeczą oczywistą, że im dłuższy artykuł Wiki tym jest większa szansa na wyższą ocenę. Jak jednak wykazano powyżej, długość artykułów Wiki jest bardzo nierówna (Rys. 3), co rzutuje na rozkład ocen względem użytego punktu odniesienia, czyli objętości artykułów PWN. Rozkład ocen względem długości artykułów PWN przedstawiono na Rys. 10.

Rys. 10. Rozkład ocen względem długości artykułów PWN

Można zgrubnie wyodrębnić cztery grupy rozkładu ocen na Rys. 10:

  • Prostokąt – pokazuje artykuły nieistniejące, które otrzymały notę -3. Jest rzeczą godną uwagi, że niemal wszystkie artykuły brakujące, to bardzo krótkie, krótkie lub średnie hasła PWN, o długości nie przekraczającej kilkaset słów. Poza jednym wyjątkiem (hasło PWN drewniane budownictwo) wszystkie długie i bardzo długie artykuły PWN istnieją na Wikipedii. Mogą one być bardzo krótkie, ale przynajmniej istnienie zagadnienia jest odnotowane na Wikipedii, więc należy się spodziewać w przyszłości rozwinięcia tych tematów.
  • Elipsa – pokazuje niezbyt liczną grupę artykułów krótkich i średnich Wiki, które otrzymały oceny -2, są więc wyraźnie gorsze niż ich odpowiedniki PWN.
  • Owal (w górnej części) – pokazuje że znaczna liczba artykułów Wiki bardzo krótkich, krótkich i średnich została oceniona jako artykuły niewiele gorsze, porównywalne, nieznacznie lepsze oraz dużo lepsze niż odpowiadające hasła PWN.
  • Trójkąt – grupuje artykuły długie i bardzo długie PWN. Jak łatwo zauważyć, długość haseł Wiki odstaje tutaj znacznie i niemal wszystkie artykuły zostały ocenione na dużo gorsze, lub w najlepszym przypadku porównywalne (co było poniekąd wynikiem przyjętych wstępnie założeń opisanych powyżej).

Dane przedstawione na Rys. 10 odnoszą się jednak tylko do długości artykułów PWN, co nie daje pełnego obrazu odpowiednich długości haseł Wiki. W tym celu wykonano jeszcze jedno porównanie, mianowicie ocenę artykułu Wiki względem stosunku długości hasła Wiki do hasła PWN (Rys. 11). Jeśli artykuł Wiki nie istniał to przyznano mu długość 0, czyli w takim przypadku stosunek słowa Wiki / słowa PWN = 0, niezależnie od długości artykułu PWN, a przyznana ocena była -3. Owal na Rys. 11 pokazuje wyraźnie, że tylko artykuły Wiki, które są dwukrotnie dłuższe niż ich odpowiedniki PWN mają szanse na ocenę powyżej zera. Jeśli artykuły mają porównywalne długości (punkty leżące poza owalem na Rys. 11), to nie zdarza się, aby Wiki otrzymała ocenę wyższą. Jedynym wyjątkiem jest tutaj hasło PWN Paprotnica [33], która znaczącą ilość informacji podaną w infoboksie (słowa w infoboksie nie były wliczone), oraz ilustrację, której nie ma w ogóle w PWN. Oceny +3 są oczywiście przyznane za błędy w hasłach PWN, więc nie mają bezpośredniego związku z długością artykułów.

Prostokąt na Rys. 11 grupuje artykuły Wiki, które nie są wiele dłuższe niż ich odpowiedniki PWN. Jak widać w takim przypadku oceny bardzo szybko spadają i jest bardzo mało prawdopodobne, aby artykuły o porównywalnej długości były ocenione na korzyść Wiki. Jeśli artykuł Wiki ma mniejszą ilość słów niż PWN, to jest niemal pewne, że zawiera znacząco mniejszą ilość informacji, i jako taki będzie mniej użyteczny dla czytelnika (a więc otrzyma notę poniżej zera).

Rys. 11. Oceny Wiki względem stosunku długości artykułów

Uwagi dodatkowe

Jedną z głównych zasad Wikipedii jest to, że stara się ona zawierać tylko hasła encyklopedyczne i hasła „słownikowe” nie powinny być tworzone [34]. PWN wydaje się nie mieć podobnych obostrzeń. Sztandarowym przykładem jest tutaj hasło PWN prekursor, które wyjaśnia niemal w sposób słownikowy jego znaczenie i które w całości brzmi i wygląda następująco (tom 22, strona 291):

prekursor [łac.], człowiek wyprzedzający swoje czasy np. pi- sarz, którego twórczość jest zapowiedzią przyszłych kierunków i metod artystycznych. 

Jest to tylko 17 słów lub jeśli liczyć pół-automatycznie 8 słów na linijkę, to 2,5 linijki daje szacunkową liczbę 20, więc zaokrąglenie w górę z 17 do 20 oddaje poprawnie całkowitą liczbę słów. W tym haśle definicja główna bez przykładu, czyli „prekursor [łac.], człowiek wyprzedzający swoje czasy” ma tylko 6 słów, reszta to opis przykładu.

Na Wiki skrót (odwołanie) do hasła prekursor jest wielokrotnie używany (ponad 25 innych haseł), ale samo hasło nie istnieje, ponieważ poprzednich 11 wersji zostało skasowanych między innymi z powodu „słownikowej definicji”. Wersja z dnia 14 stycznia 2007 roku (informacje o skasowanych artykułach są dostępne tylko dla administratorów Wiki) zawierała następujący tekst:

Prekursor - to twórca wyprzedzający w swojej dziedzinie (nauce, sztuce, technice) współczesną sobie epokę, wnoszący oryginalne rozwiązania i wartości, które trafiają w bliżej nieokreślone potrzeby odbiorców, zostają przyjęte i rozpoczynają nowy kierunek, prąd, epokę. 

Jak widać znaczeniowo hasła są co najmniej porównywalne. Hasło Wiki ma tutaj 34 „słowa” jeśli użyć mechanizmu liczenia dostępnego w Microsoft Word lub też 33 słowa jeśli pominąć myślnik. Hasło PWN wyjaśnia znaczenie tylko na przykładzie pisarza, hasło Wiki nawiązuje do nauki, sztuki i techniki – przy hipotetycznym porównaniu takich artykułów przyznano by notę co najmniej +1, ale ponieważ hasło Wiki nie istniało podczas analizy tego artykułu to ocena wyniosła -3, pomimo tego iż hasło Wiki jest potencjalnie wyraźnie lepsze.

Z uwagi na powyższe, Wiki powinna nieco obniżyć kryteria „słownikowości”, szczególnie dla rzeczowników będących nazwami przedmiotów, osób i zawodów, których znaczenie może nie być oczywiste dla użytkownika. Powyżej podano przykład hasła prekursor ale podobny lost spotkał bardzo wiele innych haseł, jak chociażby karbowy, które jednak ocalało pomimo wstępnej selekcji do usunięcia z Wikipedii [35]; inne hasła miały mniej szczęścia [36][37][38] (wszyskie spoza testowanych 321 haseł).

Warto również zwrócić uwagę na ocenę wewnętrzną jakości artykułów stosowaną na Wikipedii. W chwili pisanie tego opracowania praktycznie funkcjonowały 4 stopnie oceny wewnętrznej na Wiki: zalążek – bardzo krótki, definicyjny artykuł, zwykły artykuł – hasło o bardziej rozbudowane od zalążka, którego długość była odpowiednio większa, artykuł dobry – hasło zawierające dość szeroki opis tematu, grafiki i zewnętrzne źródła skąd zaczerpnięto informacje np. bibliografia w postaci książek, gazet, stron internetowych, itd. oraz artykuł na medal – hasło opisujące dany temat w sposób wyczerpujący, zawierające wiele grafik, sekcji, źródeł i które zostało gruntownie sprawdzone pod kątem merytorycznym. Skróty do artykułów „dobrych” i „medalowych” znajdują się m.in. na głównej stronie Wikipedii: http://www.wikipedia.pl.

W niniejszej analizie natknięto się tylko na jeden artykuł dobry, mianowicie hasło Kaktusowate [39], które zostało ocenione na +2, czyli wyraźnie lepsze niż jego odpowiednik PWN. Nie wystąpiły natomiast żadne artykuły medalowe.

PWN nie stosuje takich rozgraniczeń i każdy artykuł traktowany jest po prostu jako „sztuka”. Jest rzeczą ciekawą, że z analizowanych 321 artykułów PWN, aż 238 z nich (czyli ponad 74%) jest krótszych niż 200 słów. Jeszcze do niedawna hasło Wiki o takiej i mniejszej długości byłoby traktowane zaledwie jako „zalążek”. Dla przykładu, w chwili pisania tego artykułu hasło Wiki Arthur Evans (hasło spoza 321 testowanych) ma w swoim kodzie zawartą informację o zalążku {{unistub|||biografia|archeologia}}, która nie jest jednak wyświetlana dla czytelnika [40].

Hasło Wiki Arthur Evans zawiera 181 „słów” (ciągów znaków oddzielonych spacjami), a więc zaliczałoby się do większości haseł PWN (74%) jeśli wziąć pod uwagę tylko ilość słów. (Hasło Evans Arthur istnieje również na internetowej wersji PWN [41], gdzie ma 49 słów.)

Należy więc uznać za rzecz pozytywną, że na Wiki zrezygnowano z oznaczania haseł metką zalążka, ponieważ taka informacja nie tylko nie przynosi żadnej korzyści czytelnikowi, ale wręcz może sprawiać wrażenie, że objętość i jakość artykułu jest bardzo słaba, co niekonieczne musi być prawdą jeśli wziąć pod uwagę długość większości haseł PWN. Sytuację to odzwierciedla średnia ocena skorygowana, odnosząca się do ilości zaprezentowanych informacji (a nie do długości hasła bezpośrednio).


Część II – rozwój Wikipedii w latach 2004-2008 w encyklopedii

W pierwszej części niniejszego opracowania skupiono się na ocenie obecnego stanu rozwoju Wikipedii i porównaniu do odpowiednich artykułów zamieszczonych w trzydziestotomowej Wielkiej Encyklopedii PWN.

Wikipedia jest tak zaprojektowana, że każda korekta dokonana w artykule jest zapisywana, i każdy czytelnik ma dostęp do wszystkich wcześniejszych wersji artykułu (za wyjątkiem sytuacji, gdy dany artykuł został całkowicie skasowany przez administratora). Wcześniejsze wersje dostępne przez kliknięcie w skrót „historia i autorzy” na górze każdego artykułu zostały użyte do poniższej analizy. Poniżej zostały zaprezentowane statystyki dotyczące rozwoju artykułów Wikipedii na przestrzeni lat 2004-2008.

Polska Wikipedia została założona w 2001 roku. Do roku 2003 powstało tylko kilkanaście tysięcy haseł. Większość z haseł ocenionych w pierwszej części tego opracowania nie istniała przed rokiem 2004 i dlatego badania ograniczono tylko do lat 2004 i późniejszych.

Zastosowano podobną metodę pomiarową jak zdefiniowano powyżej. Jedną z głównych różnic było przyjęcie wersji artykułów z września 2008 jako poziomu odniesienia (ponieważ te artykuły już zostały porównane do PWN) i porównywanie wersji tych samych artykułów z wcześniejszych lat. Oceną bazową była ocena z roku 2008 – jeśli więc wcześniejsze wersje artykułu były mniej rozbudowane to otrzymywały odpowiednio niższą ocenę.

Dla przykładu – artykuł Aleksander Kakowski otrzymał notę +2 za wersję z roku 2008 [42]. Wersja z roku 2007 różniła się niewiele [43], więc również przyznano notę +2. W roku 2006 artykuł był wyraźnie mniej rozbudowany [44], więc został oceniony na 0, podobnie jak w roku 2005 [45]. W roku 2004 hasło było jeszcze krótsze [46], więc ocena spadła do -1. Jeśli natomiast artykuł z roku 2008 był oceniony na -2, to wcześniejsze wersje mogły otrzymać notę tylko -2 lub -3.

Do oceny użyto ostatniej wersji artykułu dostępnej z danego roku, czyli np. z 31 grudnia. Jeśli taka wersja nie istniała, to użyto wersji bezpośrednio poprzedniej. Jeśli artykuł pozostał niezmieniony przez kilka lat, to również ocena dla tych lat pozostawała niezmieniona. Jeśli artykuł nie istniał przed danym rokiem, to otrzymywał ocenę -3.

Liczba artykułów

Powyżej wyliczono, że w 2008 roku na Wiki istnieje około 72 % artykułów z PWN. We wcześniejszych latach odsetek ten był odpowiednio mniejszy i zmieniał się tak, jak to przedstawiono na Rys. 12. Na wykresie dodano również linię trendu, która obrazuje, że tempo wzrostu wydaje się nieznacznie zwalniać.

Według tych danych musi upłynąć co najmniej kilka lat, zanim odsetek zbliży się do 100%, zakładając że rozwój nie wyhamuje wcześniej. Co ciekawe, pomimo tego, iż w 2004 roku liczba haseł była co najmniej dziesięciokrotnie mniejsza niż w 2008, to jednak liczba haseł odniesiona do tych zawartych w PWN wyniosła aż 32 %, co sugeruje, że na Wiki najpierw powstawały hasła ważniejsze encyklopedycznie. Liczba artykułów z całkowitej liczby 321 zmieniała się następująco: 2008 = 230, 2007 = 213, 2006 = 187, 2005 = 138, 2004 = 102.

Rys. 12. Procentowe zmiany ilości artykułów względem ilości haseł zawartych w PWN z 2008 roku (przerywana linia obrazuje linię trendu)

Średnia liczba słów

Średnia liczba słów (Rys. 13) została wyliczona tylko dla istniejących artykułów, podobnie jak to miało miejsce przy porównaniu Wiki i PWN. Widać pewną zależność pomiędzy danymi z Rys. 12 i Rys 13. Nie jest do końca jasne czy ta korelacja jest rzeczywista, czy też tylko pozorna. Wynika to z faktu, że obecnie na Wiki istnieje tendencja do rozbijania bardzo długich artykułów na mniejsze, czyli np. wspomniany powyżej artykuł Wiki Polska nie zawiera w sobie wszystkich informacji – do tego używane są dodatkowe artykuły podrzędne jak np. Gospodarka Polski. Artykuły podrzędne nie zostały uwzględnione w niniejszych statystykach, co może powodować niedoszacowanie rozwoju objętości artykułów (w szczególnie w odniesieniu do PWN, która zamieszcza wszystkie informacje w głównym artykule).

Rys. 13. Zmiany średniej liczby słów na przestrzeni lat 2004-2008


Średnia liczba grafik

Najbardziej liniowy wzrost ze wszystkich wskaźników cechuje zmiany średniej liczby grafik na artykuł (Rys. 14). Oznacza to, że całkowita liczba grafik umieszczonych w artykułach (z pominięciem galerii Commons) rośnie szybciej niż liczba artykułów.

Rys. 14. Zmiany średniej liczby grafik na artykuł

Rys. 15 przedstawia procentowe zmiany liczby zilustrowanych artykułów. Jak widać w ostatnich dwóch latach nastąpiło wyraźne spowolnienie wzrostu odsetka zilustrowanych haseł. Nie oznacza to oczywiście, że nowe grafiki nie są dodawane, ponieważ nawet przy stałym procencie artykułów bez grafik ciągle rośnie liczba ogólna artykułów, więc całkowita liczba grafik również będzie rosła. Dane z Rys. 14 wydają się potwierdzać tą tezę.

Rys. 15. Procentowe zmiany artykułów zilustrowanych co najmniej jedną grafiką

Galerie Commons

Znaczna ilość artykułów zawiera zewnętrzne galerie grafik zwane „galeriami Commons”. Okazuje się, że odsetek galerii umieszczonych w artykułach zmienia się z trendem podobnym do zmian zilustrowanych artykułów. Idea galerii Commons została wprowadzona w życie właśnie chyba w roku 2004, więc tylko 5% artykułów (5 galerii w 102 hasłach) posiadało skróty do takich galerii w tamtym roku.

Również i tutaj nastąpiło spowolnienie wzrostu procentowej ilości (Rys. 16). Oznacza to, że liczba galerii w przeciągu ostatnich dwóch lat rośnie wprost proporcjonalnie do liczby nowych artykułów.

Rys. 16. Procentowe zmiany artykułów posiadających galerie Commons

Bibliografia i źródła w artykułach

Coraz więcej artykułów Wiki zawiera dane bibliograficzne lub podaje źródła informacji ważnych merytorycznie. Dane z Rys. 17 pokazują procentowo wzrost artykułów zawierających jakiekolwiek (co najmniej jedną) dane bibliograficzne. Jak widać przyrost w ostatnich latach wyraźnie przyspiesza i już od dwóch lat znacznie więcej artykułów Wiki zawiera dane bibliograficzne. Wykres średniej liczby bibliografii na artykuł wygląda bardzo podobnie – z wartościami 1.42 dla Wiki i 0.37 dla PWN za rok 2008.

Rys. 17. Procentowe zmiany liczby artykułów zawierających co najmniej jedno odwołanie bibliograficzne

Ocena ogólna i ocena skorygowana

Zaprezentowane powyżej wykresy pokazują jak rozwijała się objętość i poniekąd zawartość artykułów Wiki na przestrzeni lat 2004-2008. Podczas analizy każdego artykułu przypisano odpowiednią ocenę, bazowaną na tym w jaki sposób rozwijał się dany artykuł, lub też raczej na ile wcześniejsze wersje były uboższe czy też w ogóle istniały.

Całkowita liczba przeanalizowanych artykułów istniejących w roku 2008 to 230, podczas gdy w roku 2004 było ich 102. Każde nieistniejące hasło dostawało automatycznie ocenę o wartości -3 dlatego też oczywistym jest że średnia ocena ogólna będzie znacznie gorsza dla lat wcześniejszych. Rys. 18 obrazuje jak oceniono analizowane artykuły na przestrzeni pięciu lat.

Jakakolwiek nota średnia poniżej -1 oznacza, że ogólnie całość jest oceniona na „dużo gorzej” niż źródło odniesienia, czyli PWN. Jeśli ocena jest niższa niż -2 to oznacza to, że większość artykułów nie istnieje, co ma miejsce dla lat 2004-2005.

Jest rzeczą niezwykle interesującą, że ocena ogólna rośnie niemal w sposób liniowy, i że dopiero w ostatnim roku wartość oceny ogólnej przekroczyła próg -1, czyli że w ujęciu holistycznym (wliczając brakujące artykuły) użyteczność obydwu encyklopedii (Wiki i PWN) dla czytelnika-laika zaczęła być porównywalna, czyli Wiki może być „wizualnie” uznana jako tylko nieznacznie gorsza.

Rys. 18. Średnia ocena ogólna Wiki dla poszczególnych lat

Niemniej jednak, należy również tutaj wspomnieć o innym sposobie oceny, w którym użyto tylko artykuły istniejące w obydwu encyklopediach. W takim przypadku najniższa możliwa nota to -2, więc każda nota poniżej -1 sugerować będzie niekwestionowaną wyższość PWN nad Wiki.

Okazuje się, że tylko w roku 2004 ocena skorygowana wyniosła poniżej -1, podczas gdy dla kolejnych lat wzrost jest niemal liniowy na poziomie co najmniej 0.2 rocznie (Rys. 19).

Nawet jeśli można zaobserwować bardzo nieznaczne spowolnienie tego wzrostu na przestrzeni lat, to jednak wydaje się nieuniknionym, że za rok ocena ogólna wzrosłaby (i pewnie wzrośnie) wyraźnie powyżej wartości „zero” co oznacza, że wszystkie istniejące artykuły Wiki mogą być postrzegane przez czytelnika-laika jako co najmniej nieznacznie lepsze niż PWN.

Jest to tym bardziej istotne, że pierwszy tom PWN ukazał się w 2001 roku - widać więc jak olbrzymie postępy poczyniła Wikipedia w tym czasie.

Rys. 19. Porównanie oceny skorygowanej i oceny ogólnej artykułów Wiki na przestrzeni lat 2004-2008

Przy założeniu obecnego tempa rozwoju na poziomie 0.2-0.3 można pokusić się o prognozę, że obie oceny (skorygowana i ogólna) przekroczyłyby wartość +1 najwcześniej w okolicach lat 2013-2015. Oznaczałoby to, że Wikipedia zawierałaby potencjalnie dużo więcej informacji i multimediów niż obecne wydanie PWN.

Porównanie całkowitej liczby haseł

Pierwszy tom PWN ukazał się w roku 2001, czyli w tym samym w którym powstała Wikipedia. Rys. 20 przedstawia porównanie całkowitej liczby artykułów dla obydwu encyklopedii. Kolorem czerwonym oznaczono procentową ilość artykułów PWN istniejących na Wiki (linia przerywana oznacza wartości oszacowane, linia ciągła wartości rzeczywiste). Jak widać całkowita liczba haseł Wiki rośnie niemal liniowo (czarna ciągła krzywa).

Rys. 20. Całkowita liczba artykułów oraz ich procentowa ilość artykułów PWN istniejących na Wiki

Podsumowanie

Niniejsze opracowanie miało na celu systematyczne zbadanie rozwoju artykułów Wikipedii na przestrzeni lat 2004-2008. Jest rzeczą bezdyskusyjną, że Wikipedia rozwija się nieustannie i że ciągle rośnie objętość, poziom i zawartość multimedialna tego projektu.

Szczególną uwagę poświęcono na jak najbardziej obiektywną ocenę sytuacji obecnej. Wprowadzono technikę pomiarową zdefiniowaną przed wykonaniem badań, co pozwoliło na zachowanie pewnego stopnia obiektywności oceny. Ocenione zostały tylko parametry ilościowo-wizualne, ponieważ zastosowana metodologia nie pozwoliła na dokładniejsze porównanie encyklopedii PWN i Wikipedii. Niemniej jednak, bardziej szczegółowe badania zawartości merytorycznej i ilości błędów zostały przeprowadzone dla angielskojęzycznej Wikipedii przez porównanie jej artykułów z potentatem w dziedzinie encyklopedyczności czyli Encyclopaedia Britannica. Wyniki opublikowane w renomowanym magazynie naukowym Nature, okazały się co najmniej zaskakujące [47], bo okazało się, że artykuły Encyclopaedia Britannica zawierały błędy merytoryczne mniej lub bardziej poważne, na poziomie porównywalnym z Wikipedią (123 błędy Britannica, 162 błędy Wikipedia). Jak widać również i w niniejszym opracowaniu dostrzeżono poważne błędy merytoryczne w profesjonalnej polskiej encyklopedii PWN.

Jeśli natomiast chodzi o przedstawioną tutaj ocenę polskiej Wikipedii względem Wielkiej Encyklopedii PWN, to porównanie wypada w dalszym ciągu bezdyskusyjnie lepiej dla PWN. Niemniej jednak, statystyki wyraźnie pokazują, że Wikipedia rozwija się niemal liniowo w ostatnich pięciu latach i że jeśli tempo wzrostu się utrzyma, to jej użyteczność dla przeciętnego czytelnika na pewno przekroczy użyteczność ostatniego wydania trzydziestotomowej Wielkiej encyklopedii PWN. Jeśli chodzi o ilustracje i multimedia Wikipedia już w tej chwili zawiera kilkakrotnie więcej wolnych grafik, map, animacji, dźwięków i tematycznych galerii, a liczba ta cały czas rośnie co najmniej wprost proporcjonalnie do wzrostu ilości haseł. Przybywa ponad 100 nowych artykułów dziennie, i należy się spodziewać przyrostu rzędu 5% rocznie względem obecnie brakujących artykułów z encyklopedii PWN.

Obecnie polska Wikipedia ma ponad 580 tysięcy artykułów, wobec 140 tysięcy w encyklopedii PWN. Istnieje więc bardzo dużo artykułów, których nie ma w PWN, ale które mogą być istotne dla przeciętnego czytelnika. Dla przykładu, po wydaniu drukowanej wersji encyklopedii nie ma możliwości dodawania nowych artykułów, ani rozbudowania już istniejących. Wikipedia nie ma takich ograniczeń i niejako z definicji może wziąć pod uwagę bieżące zmiany władz politycznych, korygować wszelkie dostrzeżone lub zgłoszone błędy, czy też dodawać nowe ilustracje, np. nowo odkrytych zjawisk fizycznych czy obiektów astronomicznych.

Na Wikipedii edytuje bardzo niewielu specjalistów, a profesorów można zapewne policzyć na palcach jednej ręki. Jest zatem zastanawiające, że jakość artykułów na Wikipedii jest aż tak wysoka. Oczywiście, artykuły te są bardzo nierówne merytorycznie, i w dalszym ciągu znajdują się hasła dużo słabsze (lub nieistniejące) niż te umieszczone w komercyjnej encyklopedii, niemniej jednak w ogólnym rozrachunku średnim różnica ta wydaje się szybko zacierać i jest to już na dzień dzisiejszy raczej szybko zmniejszający się odstęp niż przepaść, tak jak to miało miejsce jeszcze kilka lat temu.

Uwagi dodatkowe

Wybrane dane przedstawione powyżej zostały opublikowane wcześniej 15 lutego 2009 roku w Biuletynie EBIB [48]. W tamtej analizie pominięto jednak błędy zawarte w artykułach PWN, czyli nie użyto ocen o wartości +3. Średnia ocena skorygowana dla roku 2008 wyniosła wówczas -0.06, w porównaniu do oceny -0.01 przedstawionej w niniejszym opracowaniu. Jak widać różnica jest minimalna i tylko z tego powodu zaprezentowano oceny z dokładnością do dwóch miejsc po przecinku. To skrócone opracowanie pod tym samym tytułem zawiera tylko wybrane dane, podczas gdy w niniejszym tekście pokazano wszystkie dane zebrane podczas badań.

Pełny wykaz analizowanych artykułów w encyklopedii

Na podstawie artykułu: "Wikipedysta:Zureks/Rozwój Wikipedii w latach 2004-2008" pochodzącego z Wikipedii
OryginałEdytujHistoria i autorzy