Wikisłownikarz:Olafbot

Z Wikisłownika – wolnego słownika wielojęzycznego
To konto użytkownika należy do bota obsługiwanego przez Olaf (dyskusja).

Nie jest to pacynka, lecz program, który automatycznie lub półautomatycznie zmienia, dodaje treść lub tworzy nowe strony. Wykorzystywany jest do masowych, powtarzalnych edycji, których ręczne wykonywanie byłoby zbyt uciążliwe.
Administratorze, jeżeli ten bot działa niepoprawnie lub wyrządza szkody, zablokuj go.


Funkcje bota:

Sprzątanie kodu

Bot przejrzał swego czasu wszystkie artykuły w głównej przestrzeni nazw, a teraz przegląda Ostatnie zmiany poprawiając formatowanie. Produkuje przy tym sporo list potencjalnych problemów, których nie zdołał poprawić. Ich spis znajduje się tutaj.

Podobne

Bot uzupełnia i sortuje szablony {{podobne}} i {{podobne2}} według tego mapowania. Szablony są uzupełniane na podstawie listy artykułów na Wikisłowniku oraz listy polskich słów z sjp.pl (licencja GFDL). Produkowana jest też lista problemów, jakie napotkał bot: Wikipedysta:Olafbot/podobne.

Pokrewne

Bot dodaje pokrewne do haseł, na zasadzie symetrii: jeśli w haśle A jest wpisane jako pokrewne hasło B, to bot doda w haśle B jako pokrewne wszystkie formy hasła A. W przypadku gdy forma zostanie usunięta przez człowieka, bot nie dodaje jej po raz drugi. Nie są dodawane żadne formy, jeśli w haśle A lub B w sekcji pokrewne występują numery znaczeń.

Rankingi braków i listy frekwencyjne

Bot odświeża na bieżąco rankingi brakujących słów według wystąpień w innych wikisłownikach oraz rankingi brakujących tłumaczeń w ponad 30 językach, oraz dwie listy brakujących słów angielskich według ich frekwencji: słów i części mowy.

Wspomaganie tworzenia artykułów

Bot przenosi do artykułów polskie hasła zaimportowane przez AlkamidBota z sjp.pl a następnie zweryfikowane i rozbudowane przez redaktorów Wikisłownika: Wikipedysta:AlkamidBot/sjp.

Bot tworzy także na podstawie innych wersji językowych Wikisłownika szkice artykułów niemieckich i portugalskich, które są następnie weryfikowane i uzupełniane przez Edytę T oraz Minga, po czym bot przenosi efekty ich pracy do poszczególnych artykułów. Przez jakiś czas tworzył także szkice haseł słowackich dla Zetzecika, jednak słowacki jest słabo obecny w innych Wikisłownikach i bot wyczerpał swoje możliwości.

Import słów z angielskiego Wikisłownika

Bot na wiosnę 2013 i 2014 importował hasła z angielskiego Wikisłownika. Dotyczyło to tylko haseł, których opisy miały jednoznaczne tłumaczenie na polski, odbywała się też wstępna kontrola jakości, np. sprawdzany był użyty alfabet. Importowane były części mowy, znaczenia, wymowa, niekiedy podział na sylaby, niekiedy etymologia i niekiedy odmiana. Dokładniejszy opis całej akcji: tutaj. W 2013 roku dało to ok. 65000 sekcji językowych, w 2014 ok. 9400. Bot nie ładuje ponownie słów, które załadował wcześniej i zostały potem przez kogoś usunięte lub zmienione. Wszystkich sekcji językowych importowanych w tej i poprzedniej edycji było 74604. Sprawdzając na bieżąco bota pousuwałem z tego 857 sekcji językowych. Po roku usunąłem 261 stron i 34 sekcje, które nie były zweryfikowane (miały nadal szablon importu) a zniknęły z angielskiego Wikisłownika. Lista niezweryfikowanych haseł z tego importu, z podziałem na języki: link. W ciągu roku zweryfikowano 4227 importowanych sekcji (5,7%).

Import wymowy angielskiej

Od 29 lipca 2011 bot prowadzi automatyczny import angielskiej wymowy z angielskiego wikisłownika do nowo powstałych angielskich haseł. Algorytm jest dość zaawansowany i długo testowany offline, wykonuje (bardzo prostą co prawda) kontrolę jakości, sprawdza, czy przypadkiem nie usunąłby jakiejś już wpisanej informacji i potrafi przenieść oprócz IPA oraz audio także kwalifikatory, opisy, homofony i punkty podziału wyrazu.

Generowanie wymowy polskiej

Bot jako warszawiak realizuje wymowę warszawską (w odróżnieniu od jego autora – elementu napływowego z Dąbrowy Górniczej). Bot omija hasła, w których wszystkie znaczenia są oznaczone jako regionalne.

Propozycje wymowy są przez bota wprowadzane na stronę wikipedysta:Olafbot/wymowa/do sprawdzenia, a następnie, po weryfikacji przez człowieka, wprowadzane do haseł. Do dziś bot wprowadził wymowę 47295 razy.

Uwagi na temat systemu fonetycznego

Zobacz więcej na osobnej stronie: Aneks:Język polski - wymowa - zasady.

System fonetyczny jest zgodny z opisanym w podręczniku Ostaszewskiej, Tambor[1]. Według tego opracowania system Ostaszewskiej, Tambor jest bardzo zbliżony także do dwóch innych ostatnio wydanych opracowań naukowych.

Oznacza to jednak w szczególności, że istnieją różnice w stosunku do wymowy opisanej w Słowniku Wymowy Polskiej PWN[2]. Różnice wynikają głównie z nowych badań naukowych, które podały niektóre założenia Słownika w wątpliwość. Zauważone różnice:

  • Ostaszewska i Tambor zakładają w podręczniku, że poprzedzającą spółgłoskę zmiękcza /i/ oraz /i ̯/, ale także każda głoska środkowojęzykowa, podczas gdy słownik zakłada, że zmiękcza tylko /i/ oraz /i ̯/.
  • Ostaszewska i Tambor w podręczniku uwzględniają samogłoski o podwyższonej artykulacji, których nie bierze pod uwagę słownik.
  • W podręczniku (zgodnie z cytowanymi w nim badaniami) stosowana jest asynchroniczna wymowa samogłosek nosowych (ą i ę to zbitki dwóch głosek). W Słowniku stosowana jest wymowa synchroniczna, której wg nowszych źródeł nikt nie realizuje w praktyce, a asynchroniczna jest podawana jako nieprawidłowa.
  • W podręczniku zbitki bie, mie, mię, pie, pię, wie, wię mają w środku spółgłoskę j, a w Słowniku taka wymowa jest podawana zwykle na drugim miejscu. Jest to także związane z asynchroniczną wymową. Ostaszewska, powołując się na nowsze opracowania, podaje że Polacy nie realizują wymowy synchronicznej zmiękczonych spółgłosek wargowych i zawsze wchodzi tam spółgłoska /i ̯/.
  • Słownik stosuje inne reguły dla zbitki -nk-
  • Każde ze źródeł stosuje inny znak zmiękczenia w IPA - ja oficjalnie przyjęty w specyfikacji IPA znak /ʲ/, podręcznik apostrof, a Słownik przecinek.

Bot był testowany na podręczniku[1], oraz ćwiczeniach do niego[3], i jest dokładnie zgodny z systemem z podręcznika. Jedyne różnice to wspomniane przyjęcie innego symbolu zmiękczenia oraz wprowadzanie tylko jednej wersji wymowy także tam, gdzie możliwe są różne wersje.

Lista głosek, uwzględnianych w wygenerowanej wymowie, znajduje się w artykule Aneks:Język polski - wymowa - głoski. Lista uwzględnianych zjawisk fonetycznych znajduje się tutaj.

Uwagi na temat zapisu i czcionek

Bot stosuje w IPA ligatury z łukami (np. [ʥ̑]). Formalnie według najnowszej wersji standardu powinno się zapisywać [d̑ʑ] jednak większość fontów ma z takim użyciem łuków problemy (szczegółowa analiza dostępnych darmowych fontów jest tutaj). Brak łuków powoduje wtedy brak możliwości odróżnienia w IPA np. słów dżem i drzem.

W AS samogłoski nosowe pochodzące od [a], [e], [i] oraz [o] można oznaczyć na dwa sposoby: [ą], [ę], [į], [ǫ] albo odpowiednio [ã], [ẽ], [ĩ], [õ]. Pierwsza konwencja jest jednak myląca, ze względu na to, że polska litera ą nie jest bynajmniej oddawana dźwiękiem zapisywanym [ą]. Zdecydowałem się więc na tę drugą konwencję, zgodnie z podręcznikiem zresztą.

Znak dolnego łuku [ ‿ ] został zastosowany w IPA i AS do oznaczenia zestroju akcentowego. Formalnie oznacza on w IPA brak przerwy między wyrazami. W praktyce nie jest to to samo, jednak dwa słowa w zestroju akcentowym zwykle wypowiadane są łącznie.

Wymowa skrótów i skrótowców

Bot ma zaimplementowaną wymowę skrótowców literowych, np. MP3 = em pe trzy. Sytuacja jest jednak znacznie bardziej skomplikowana. Istnieją m.in. w języku polskim:

  • skrótowce głoskowe wymawiane jak jedno słowo (NIP, PESEL)
  • skrótowce mieszane, w których część jest czytana litera po literze, a reszta jak zwykłe słowo (PZKosz)
  • skrótowce wymawiane po angielsku (CIA, DVD)
  • skrótowce wymawiane po angielsku lub po polsku (CD)
  • skrótowce wymawiane po francusku (TGV)
  • skróty i skrótowce zawsze w wymowie rozwijane (np., dr)
  • skróty czytane różnie w zależności od znaczenia (Mt jest wymawiane "em-te" w znaczeniu pierwiastka meitner, "megaton(a)" w znaczeniu jednostki masy, lub "Mateusz", albo "Ewangelia według świętego Mateusza" w znaczeniu skrótu biblijnego)

Wszystkie te sytuacje obsługiwane są ręcznie. Na etapie weryfikacji odpowiednia wymowa zapisana ortograficznie jest wpisywana na listę wyjątków, którą wykorzystuje bot. Każdorazowo staram się oddać rzeczywisty sposób czytania danego skrótu. Jest to praktyka zgodna z wykładnią Słownika Poprawnej Polszczyzny PWN.

Wymowa słów nie do końca spolszczonych

Istnieją słowa (głównie, choć nie tylko, nazwy własne), które zachowując oryginalną pisownię, są powszechnie używane w języku polskim, np. Chicago, pizza, hardware. W praktyce jednak nie jest ściśle stosowana oryginalna wymowa, wraz z obcojęzycznym akcentem, z wyjątkiem osób o bardzo zaawansowanej znajomości danego jęzka obcego. Słowa te są zwykle wymawiane mniej lub bardziej zgodnie z polskimi regułami fonetyki, np. w Polsce w słowie Chicago praktycznie nikt nie wymawia na końcu głoski /u/, obecnej w wymowie angielskiej; taka wymowa brzmiałaby jak obcy wtręt. Postanowiłem więc często używane słowa tego typu zapisywać na liście wyjątków zgodnie z regułami polskiej ortografii, np. szikago, podobnie jak to robią papierowe słowniki języka polskiego. Następnie bot dorzuca je do artykułu w szablonie {{ortograficzny}}. W celu odróżnienia spolszczonej wymowy bot stosuje szablon {{spolszczona}}. Wówczas nie dorzucam zapisu IPA oraz AS, gdyż mógłby być mylący. Natomiast w przypadku słów, które brzmią tak samo po polsku i w oryginale, jednak zachowują obcą ortografię, wprowadzany jest zapis {{ortograficzny}} oraz zapisy IPA oraz AS.

Sylabizacja

Bot, mimo pierwotnych planów, nie zaznacza sylabizacji, gdyż jest ona w znacznym stopniu umowna i zwykle posiada wiele wariantów, w dodatku byłaby mylona z miejscami podziału wyrazu przy przenoszeniu, co nie jest tym samym. Algorytm sylabizacji jest jednak wykorzystywany do ustawienia apostrofu, oznaczającego akcent w IPA.

Odmiana

Efektem ubocznym generacji wymowy stało się generowanie dla niektórych słów również odmiany, ze względu na zasady uzależniające od niej wymowę zbitki -nk- oraz końcówek -nia, -niowy i podobnych. Odmiana była osobno wprowadzana do haseł, a następnie weryfikowana przez człowieka już w hasłach. Szczegóły opisane są tutaj. Bot wygenerował odmianę w 492 hasłach.

Inne prace

  • 2010-01-29 przekonwertowanie słów z szablonem {{język staropolski}} na język polski z kwalifikatorem {{starop}}, po konsultacjach w Barze. Lista przekonwertowanych artykułów jest tutaj.
  • 2010-01-30 dodanie brakujących rzeczowników odczasownikowych (zob. wątek w Barze) z odmianą. Odmiana została następnie przejrzana ręcznie z USJP w celu wyłowienia przypadków z istniejącą liczbą mnogą.
  • 2010-02-01 dodanie przekierowań z form X się do X według listy (zob. wątek w Barze)
  • 2010-02-17 utworzenie przymiotników zakończonych na -języczny według listy Adama i wzorca.
  • 2010-03-13 wspomaganie autora w oszablonowaniu nagłówków sekcji językowych (przykład)
  • 2010-03-13 zmiana nazw pól "wymowa" oraz "transkrypcja" w hasłach staroegipskich według zamówienia Adama
  • 2010-04-13 dodanie szablonów {{język wiersza}} do artykułów o liczbach (np. 0)
  • 2010-04-20 przekonwertowanie przysłów we wszystkich językach na zwykły szablon hasła

...

  • 2014-03-30 przejście ze "związków wyrazów w funkcji" na frazy (opis)

Oprogramowanie

Bot jest napisany w Javie. Do komunikacji z siecią wykorzystuje bibliotekę w:en:User:MER-C/Wiki.java.

Bibliografia

  1. 1,0 1,1 Danuta Ostaszewska, Jolanta Tambor, Fonetyka i fonologia współczesnego języka polskiego, Wydawnictwo Naukowe PWN, wyd. 2, 4 dodruk, sierpień 2009, Warszawa, ISBN 978-83-01-14896-6
  2. Mieczysław Karaś, Maria Madejowa (red.), Słownik wymowy polskiej, PWN, Warszawa, Kraków 1977.
  3. Jolanta Tambor, Fonetyka i fonologia współczesnego języka polskiego – ćwiczenia, Wydawnictwo Naukowe PWN, wyd. 1, 2007, Warszawa, ISBN 978-83-01-15042-6