Testy czytelników bloga

w dniu sierpnia 12, 2015

Z uwagi na to, że w komentarzu pojawił się ciekawy wpis jednego z czytelników zamieszczam go w całości na blogu, bo mógłby umknąć uwadze Państwa.

Komentarz czytelnika
W związku z tym że w rankingu Pana Jurka czołowe miejsca zajmuje Sugar 5.4, postanowiłem na znacznie słabszym sprzęcie (Intel(R) Celeron(R) M CPU 420 @ 1.60GHz z 1,0 GB pamięci) i pod kontrolą WinXP32bit (Microsoft Windows XP Home Edition Dodatek Service Pack 3 (Build 2600) 32 bit ) przetestować go z oficjalnym stockfishem 6. Przeprowadziłem kilka meczy, wg różnej formuły; każdy po 20 partii i czasie 5min+5sek na partię z wykorzystaniem interfejsu Fritz 11 oraz Areny 3.5. Komputer bez antywirusa i innych zamulaczy.

Mecz I
A) Fritz 11, tzw partie Nunna ( „mecz i rewanż”; granych jest 10 różnych pozycji; każda pozycja jest grana przez każdy silnik dwa razy, raz kolorem białym i raz czarnym).
Wynik: Sugar5.4-Stockfish6 11:9 ; Sug wygrał 4 partie, 2 przegrał, 14 zremisował
B) Arena 3.5 (warunki jak wyżej) – Wynik: Sugar5.4-Stocfish6 9:11 ; Stockfish wygrał 5 partii, 3 przegrał, 12 zremisował

Tutaj zaskoczenie: pierwszy raz zdarzyło się w moich testach aby przy różnych interfejsach ale przy zachowaniu identycznych warunków wyłaniał się inny zwycięzca! ( do tej pory zwycięzca zawsze był ten sam , różnica była tylko w rozmiarze zwycięstwa ; we F11 np +2 a w Arenie +3). Dlatego aby rozwiać powstałe wątpliwości przeprowadziłem kolejny mecz; zmienną była książka debiutowa Perfekt 2015;

Mecz II
A) Fritz 11 z perfekt 2015
wynik: Sugar5.4-Stocfish6 9:11 ; Stockfish wygrał 5 partii, 3 przegrał, 12 zremisował
B) Arena 3.5 z Perfekt 2015
Wynik: Sugar5.4-Stocfish6 9.5:10.5 ; Stockfish wygrał 1 partię, pozostałe 19 zremisował

Tutaj zwycięzca jest jeden- stockfish6. Spostrzeżenie: Fritz 11 niejako wymusza granie tego samego otwarcia po zmianie kolorów (np. Jeżeli Sug grał białymi partię hiszpańską to kolejną partię czarnymi też musiał grać hiszpankę itd)- w zasadzie 18 partii przebiegało wg schematu partii Nunna (mecz i rewanż w tym samym debiucie).W Arenie 3.5 panuje „wolna amerykanka” : nie widać żadnego porządku jeżeli chodzi o wybór debiutów: i tak np. Sugar białymi grał dwa razy otwarcie B92 i D46 a St6 dwa razy białymi D43 – mam wątpliwości czy taki przypadkowy (?) dobór debiutowy dawał faktycznie równe szanse każdemu silnikowi...., w każdym bądź razie rodzi to wątpliwości natury metodologicznej; sądzę np że w tzw „berlinie” nawet słabszemu silnikowi łatwiej o remis niż np w „hiszpance”, jeżeli takich „berlinów” w meczu będzie 20%-40% to słabeusz sztucznie zawyży swój ranking a „mocarz” nie będzie taki znowu mocny....

Namnożyło się tych wątpliwości, a uparłem się rozstrzygnąć czy Sug faktycznie jest tak dużo lepszy od St6 jak wychodzi z testów Pana Jerzego ... Kolejny mecz postanowiłem rozegrać od TYLKO JEDNEJ POZYCJI – postanowiłem że będzie to pozycja z partii hiszpańskiej, obrony Czigorina; (FEN: r1b2rk1/2q1bppp/p2p1n2/npp1p3/3PP3/2P2N1P/PPBN1PP1/R1BQR1K1 b - - 2 12 ); pozycja wystarczająco skomplikowana do myślenia, dająca silnikom możliwość zademonstrowania wszystkich swoich walorów bojowych zarówno w grze białymi jak i czarnymi. I nie pomyliłem się!

Mecz III
A) Fritz 11 (partia hiszpańska, obrona Czigorina; 20 partii, gra naprzemienna obydwoma kolorami; 5+5):
Wynik: Sugar5.4-Stocfish6 13.5:6.5 ; Sug wygrał 7 partii, 0 przegrał, 13 zremisował
B) Arena 3.5 (warunki jak wyżej). Wynik: Sugar5.4-Stocfish6 13:7 ; Sug wygrał 8 partii, 2 przegrał, 10 zremisował

Druzgocące zwycięstwo Sugara nad swoim pierwowzorem!!!

Wnioski: wydaje się że na wiarygodny wynik testów szalenie istotny wpływ ma zaplanowanie „identyczności” warunków dla każdego z silników oraz STWORZENIA MOŻLIWOŚCI do „pełnego myślenia” (wynikającego Z POZYCJI na szachownicy a nie z ilości rdzeni w procesorze) a także eliminowania w testach gry z pozycji o których mówi się że gracze będą „walić głową w mur= czyli remis”. Z przeprowadzonych meczy wyłania się obraz Fritza11 jako lepszego interfejsu do organizacji turniejów szachowych; minus dla Areny za wątpliwej jakości klucz doboru debiutów, wg tego klucza - jeden z silników będzie miał po prostu lepsze warunki startowe.

Komentarze

Unknown12 sierpnia 2015 02:39
Brawa dla autora tego tekstu .Dobra robota :) , chciałbym jeszcze coś dodać tyczy tego tematu jeśli chodzi o testy.
W testach niema baz tablebase ,syzygy ,bitbase,itd a nie wszystkie programy grają poprawnie bez tych baz ponieważ
autorzy programów wychodzą z założenia że program będzie korzystał z tablic końcówek to nie wpisują algorytmów
gry końcowej a to się też ---- odbija na wyniku kocowym partii ------- nieprawdaż .jak nie wierzycie to zróbcie taki test grając jedną
tą samą pozycje z obustronnymi kolorami z tablicami końcówek i bez.
P.S Pozdrawiam .
OdpowiedzUsuń
Odpowiedzi
Anonimowy20 września 2015 09:03
Dziękuję za wyróżnienie mego komentarza i wyniesienie go do rangi osobnego wątku. Zachęcony przez Panią Barbarę rozwijam temat.

Absolutnie zgadzam się z uwagami Pani Barbary. Faktem jest że mając do dyspozycji setki i tysiące rozegranych partii można bardziej precyzyjnie określić siłę jednego silnika względem drugiego. Pan Jerzy rozgrywa różne turnieje (kołówki, puchary, szwajcary) w których jeden i ten sam silnik , zajmuje różne miejsca (dobrym przykładem jest ST 6 – w jednym turnieju jest w czołówce a w innym w ogonie tabeli) aby na koniec „wylądować” w ogólnym „worku” dziesiątków i setek rozegranych partii i gdzie po odpowiedniej obróbce ustala się ELO i miejsce rankingowe wśród innych silników. Wyniki tego procesu są publikowane pod postacią JCER na Pani blogu. Ale taki luksus (rozgrywania takiej ilości partii) ma tylko Pan Jerzy (+ niewielka grupa Jemu podobnych). A jak wiarygodnie na własnym sprzęcie i przy ograniczonej ilości partii ustalić siłę jednego silnika względem drugiego? Mój pierwszy wpis pokazuje że rozegranie meczu między silnikami nie jest wcale oczywistym sposobem na rozstrzygnięcie wątpliwości. Postanowiłem podrążyć dalej trochę aspekt meczu od pozycji z partii hiszpańskiej obrony Czigorina i podzielić się kilkoma uwagami.

Główną wątpliwością (na co zwróciła uwagę Pani Barbara) jest: czy pozycja startowa nie preferuje jednej ze stron?
Przeprowadziłem SZEŚCIOGODZINNĄ ANALIZĘ pozycji i na znacznie lepszym sprzęcie (vide: kolejny wpis). Silnikiem analizującym był darmowy Houdini 15a. Czemu on? Bo po kilku godzinach myślenia zaciera się różnica w ocenie pozycji i sugerowanych wariantach między wersją darmową i komercyjną (której zresztą nie mam) ; uważam ponadto że Houd nie ma tendencji do nadmiernie optymistycznej (przeszacowanej) oceny pozycji (np. SugaR w kilkuminutowej analizie potrafi przecenić pozycję -gdy wszystkie figury stoją na swoich wyjściowych polach- na +0.35).
…
OdpowiedzUsuń
Odpowiedzi
Anonimowy20 września 2015 09:06
...
Interfejs: Fritz 11
system: Windows 7 Home Premium Home Edition Service Pack 1 (Build 7601) 64 bit
komputer: Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz z 5,9 GB pamięci (Hash: 3 GB: procesor w technologi Turbo, cały okres analizy taktował z częstotliwością 2.9-3.1 GHz )

Spanish closed
r1b2rk1/2q1bppp/p2p1n2/npp1p3/3PP3/2P2N1P/PPBN1PP1/R1BQR1K1 b - - 0 1
Analysis by Houdini 1.5a x64:

1. = (0.12): 12...We8 13.b3 cxd4 14.cxd4 Sc6 15.Gb2 Gb7 16.Wc1 Hb6 17.Sf1 g6 18.Hd2 exd4 19.Sxd4 Se5 20.Hf4 Wac8 21.Gb1 Sed7
2. = (0.14): 12...cxd4 13.cxd4 We8 14.d5 Gd7 15.Gd3 Sb7 16.Sb3 Sc5 17.Hc2 Wac8 18.Sxc5 dxc5 19.Gd2 c4 20.Gf1 Gc5 21.a4 Hd6 22.Ge3
3. = (0.15): 12...Wd8 13.b3 exd4 14.cxd4 d5 15.e5 Sd7 16.Sf1 c4 17.Gg5 Sb6 18.Gxe7 Hxe7 19.Hd2 Sc6 20.Wac1 Ge6 21.Hf4 h6 22.Gb1
4. = (0.17): 12...g6 13.b3 We8 14.d5 Sb7 15.c4 Sh5 16.Sf1 Sa5 17.Se3 Sf4 18.Gb2 Wb8 19.Hd2 Gd8 20.Gc3
5. = (0.19): 12...Wb8 13.Sf1 Sc4 14.b3 Sb6 15.Sg3 We8 16.Ge3 g6 17.Hd2 Gf8 18.Wab1 Gb7 19.d5 Gg7 20.He2 c4 21.Gxb6
6. = (0.19): 12...Ge6 13.Sf1 exd4 14.cxd4 d5 15.Sg3 dxe4 16.Sxe4 Wad8 17.Sxf6+ Gxf6 18.Gg5 He7 19.Hd3 g6 20.Gxf6 Hxf6 21.Ha3 Sc4 22.Hxc5 Gd5 23.Se5 Sxe5 24.dxe5 Hg5 25.Ge4 Gxe4 26.Wxe4 Wd2
7. = (0.22): 12...h6 13.Sf1 Sc4 14.b3 Sb6 15.Se3 c4 16.Wb1 Wd8 17.He2 Ge6 18.d5 Gd7 19.bxc4 Sh5 20.g3 Sf6 21.Kg2
8. = (0.24): 12...Gd7 13.Sf1 cxd4 14.cxd4 Sc6 15.b3 Wac8 16.Gb2 exd4 17.Sxd4 Sxd4 18.Hxd4 Hc5 19.Hxc5 dxc5 20.Se3 Ge6 21.Sf5 Gxf5 22.exf5 Wfe8 23.Wad1 Kf8 24.Kf1 Wed8
9. = (0.24): 12...Gb7 13.d5 Gc8 14.b3 Gd7 15.Sf1 c4 16.Ga3 Gd8 17.Se3 g6 18.Gb4 Wc8 19.Hc1 Hb6 20.Hd2 Sb7
10. = (0.25): 12...Sc6 13.d5 Sa5 14.b3 Gd7 15.Sf1 c4 16.Ga3 Gd8 17.Se3 g6 18.Gb4 Wc8 19.Hc1 Hb6 20.Hd2 Sb7

JAK WIDAĆ, AŻ DO DZIESIĄTEJ LINII – POZYCJA REMISOWA! Sądzę że nawet znacznie silniejsze silniki niż darmowy Huod i grając szybkie partie (tak do 15'+15”) na znacznie mocniejszych maszynach, gdzie średnio na myślenie przypada 45-90 sekund na posunięcie nie będą w stanie wygenerować bardziej miarodajnej oceny pozycji. Analizowana pozycja wydaję się być idealną pozycją startową do testowania silników: teoretycznie daje wiele możliwości i kierunków rozwoju wydarzeń „na polu boju”, jest dynamiczna (mniejsza szansa na „obustronne walenie głową w mur”), daje spore szanse na rezultatywne batalie, w pozycji ukryty jest duży potencjał do gry kombinacyjnej i pozycyjnej. Uważam że ta pozycja z silnika „wydusi” wszystko co ma najlepszego do zaoferowania bez potrzeby rozgrywania setek partii; szybko (po 20 partiach) można dać odpowiedź czy silnik „A” jest faktycznie lepszy niż silnik „B”... Nie każdy może być przecież Panem Jurkiem i mieć w swej kolekcji tysiące rozegranych partii i zniszczony przez nadmierną eksploatację komputer :)

Dla potwierdzenia powyższego przeprowadziłem turniej i mecz między różnymi wersjami Sugar. Testy odbywały się na wspomnianym w pierwszym wpisie kiepskim komputerze (jednordzeniowiec, 32 bit, XP); interfejs Fritz11(wersja przenośna utworzona przy pomocy specjalnego oprogramowania „cameo”).

1.Wyniki turnieju:
uczestnicy: sug 5.4, sug 5.4a, sug 5.4b; mecz każdy z każdym po 20 partii 5'+5”, partia hiszpańska obrona Czigorina;

wygrał: sug 5.4a – 22/40 (z drugim sug5.4b : 2 wygrane, 1 przegrana; z trzecim sug 5.4: 3 wygrane i remisy); drugi Sug 5.4b 21.5/40 (z sug 5.4: 10 wygranych 6 przegranych, 4 remisy); trzeci Sug 5.4
16.5/40

2. wynik meczu między sugar 5.4a i SugarPRO v1.0 (warunki jw)
wygrał sugar 5.4a 11.5: 8.5 (wygrał 4 partie (2 partie białymi i 2 czarnymi), 1 przegrał, reszta remisy);

Jak widać jest zgodność ze spostrzeżeniami Pana Jerzego: Sugar 5.4a jest najlepszą wersją Sugar. (w chwili testowania nie było jeszcze nowszych wersji Sug).
OdpowiedzUsuń
Odpowiedzi

Dodaj komentarz

Tylko szachy

Szukaj na tym blogu

Testy czytelników bloga

Komentarze

Prześlij komentarz