Kurioza naukowe / Scientific curiosities ISSN 1176-7545; rok XII; No 2626

Zestawienie tematyczne prowadzone na bieżąco

 

Jedno zdumienie dziennie...

 

.

Analiza pięciu milionów książek.

Google, niezwykle ekspansywne mocarstwo internetowe od roku 2004 skanuje książkowy dorobek ludzkości. Przekształca w formę cyfrową książki opublikowane od roku 1500 do chwili obecnej. Jak dotąd zeskanowano 15 milionów książek drukowanych w najważniejszych światowych językach: angielskim, francuskim, hiszpańskim, niemieckim, chińskim, rosyjskim i hebrajskim. Stanowi to 12 procent wszystkich książek wydanych drukiem w ostatnim tysiącleciu. Tysiące tych książek można już czytać, niektóre w ograniczonym zakresie, ale wiele można też sprowadzać w formacie pdf. Robotę wykonuje się w porozumieniu z czterdziestoma bibliotekami uniwersytetów z całego świata. Jest to olbrzymia masa danych. Gdyby tylko czytać same tylko książki opracowane z roku 2000, zajęłoby to czytanie osiemdziesiąt lat - bez spania, bez jedzenia.. Jest to informacja o  tysiąckrotnie większej objętości od genomu ludzkiego. Z drugiej jednak strony - oznacza to, że całą tą olbrzymią masę zebranej inforacji można by zawrzeć w tysiącu komórkach ludzkich, masie ledwo widocznej gołym okiem, gdyby tylko wiedzieć jak to zakodować, a przede wszystkim jak to odczytać. Szkoda, że nikt na to nie wpadł...
W uzupełnieniu zespół specjalistów na Harvardzie opracował do tego program pozwalający analizować zeskanowane teksty. Do analizy wybrano pozycje komputerowo najbardziej klarowne, razem pięć milionów książek, mniej więcej 500 miliardów słów.
Posługując się łatwym programem dostępnym w sieci 'Ngram Viewer' pod adresem

http://ngrams.googlelabs.com/graph

można buszować dowoli po tym gigantycznym zbiorze. I tak, można szukać występowania poszczególnych słów czy zwrotów, robić wykresy, zestawiać, itp. Wynik otrzymuje się w procentach w stosunku do liczby słów w danym przedziale czasowym.
Oto przykład poszukiwania nazwisk Marks, Lenin, Stalin i Mao

Ciekawie przedstawia się rywalizacja potentatów politycznych. Marks raczkuje jeszcze w początku XX wieku, ale potem utrzymuje się mniej więcej na równym poziomie ze Stalinem i Leninem, by nagle wyskoczyć w latach 80-tych. Linia Stalina skacze bez przerwy do lat powojennych, a potem już spada tak samo jak Lenina i Mao. Wiele można wyciągnąć wniosków w zestawieniu z datami poszczególnych wydarzeń.
A oto używalność słów radio, telefon, komputer. Też piękna ilustracja wchodzenia techniki do literatury.

A oto porównanie jak głośno było w świecie o poszczególnych krajach, Rosji, USA, Zjednoczonego Królestwa i Polski w latach od r. 1600 do 2000. O Polsce mówiono wiele w XVIII w., Rosja poważniej pojawiła się w w. XIX, a potem zdominowała prasę by zrównać się z USA. Mamy tu ilustrację wydarzeń światowych przedstawioną w druku.

Szalony skok zainteresowania się DNA na tle terminów takich jak biologia, ekologia widać na wykresie:

Omawiany program doskonale nadaje się do badania częstotliwości używania terminów naukowych i filozoficznych, nazwisk uczonych czy pisarzy. Możliwości są nieograniczone. Proszę się pobawić..

[QZE07::183];[QEP90::211]b,c,d
w sieci 12.1.2011; Nr 2626

 

 


 

witrynę prowadzi
© R. Antoszewski
Titirangi, Auckland, 
Nowa Zelandia

(wybrane z publ. R. Antoszewskiego)

  Site Meter