Stockfish 15010321 wygrał turniej testowy różnych wersji silnika szachowego Stockfish, 2015.08.09 - 2015.08.10
180 games download, Tempo: 3' + 3"
Hardware: Intel(R) Core(TM) i3-3217U CPU @ 1.80GHz z 3,9 GB system: Windows 8.1 64 bit GUI-Arena 3.5
Book: Perfect 2015 Tabela: Scid vs PC
Tym razem przekrój testowanych wersji Stockfisha był duży. Jak się ostatecznie okazało, najlepszą była kompilacja ze stycznia 2015.
Ale wersja najnowsza z 8 sierpnia była tuż, tuż - na drugim miejscu .
W związku z tym że w rankingu Pana Jurka czołowe miejsca zajmuje Sugar 5.4, postanowiłem na znacznie słabszym sprzęcie (Intel(R) Celeron(R) M CPU 420 @ 1.60GHz z 1,0 GB pamięci) i pod kontrolą WinXP32bit (Microsoft Windows XP Home Edition Dodatek Service Pack 3 (Build 2600) 32 bit ) przetestować go z oficjalnym stockfishem 6. Przeprowadziłem kilka meczy, wg różnej formuły; każdy po 20 partii i czasie 5min+5sek na partię z wykorzystaniem interfejsu Fritz 11 oraz Areny 3.5. Komputer bez antywirusa i innych zamulaczy.
OdpowiedzUsuńMecz I
A) Fritz 11, tzw partie Nunna ( „mecz i rewanż”; granych jest 10 różnych pozycji; każda pozycja jest grana przez każdy silnik dwa razy, raz kolorem białym i raz czarnym).
Wynik: Sugar5.4&Stocfish6 11:9 ; Sug wygrał 4 partie, 2 przegrał, 14 zremisował
B) Arena 3.5 (warunki jak wyżej) – Wynik: Sugar5.4&Stocfish6 9:11 ; Stockfish wygrał 5 partii, 3 przegrał, 12 zremisował
Tutaj zaskoczenie: pierwszy raz zdarzyło się w moich testach aby przy różnych interfejsach ale przy zachowaniu identycznych warunków wyłaniał się inny zwycięzca! ( do tej pory zwycięzca zawsze był ten sam , różnica była tylko w rozmiarze zwycięstwa ; we F11 np +2 a w Arenie +3). Dlatego aby rozwiać powstałe wątpliwości przeprowadziłem kolejny mecz; zmienną była książka debiutowa Perfekt 2015;
Mecz II
A) Fritz 11 z perfekt 2015
wynik: Sugar5.4&Stocfish6 9:11 ; Stockfish wygrał 5 partii, 3 przegrał, 12 zremisował
B) Arena 3.5 z Perfekt 2015
Wynik: Sugar5.4&Stocfish6 9.5:10.5 ; Stockfish wygrał 1 partię, pozostałe 19 zremisował
Tutaj zwycięzca jest jeden- stockfish6. Spostrzeżenie: Fritz 11 niejako wymusza granie tego samego otwarcia po zmianie kolorów (np. Jeżeli Sug grał białymi partię hiszpańską to kolejną partię czarnymi też musiał grać hiszpankę itd)- w zasadzie 18 partii przebiegało wg schematu partii Nunna (mecz i rewanż w tym samym debiucie).W Arenie 3.5 panuje „wolna amerykanka” : nie widać żadnego porządku jeżeli chodzi o wybór debiutów: i tak np. Sugar białymi grał dwa razy otwarcie B92 i D46 a St6 dwa razy białymi D43 – mam wątpliwości czy taki przypadkowy (?) dobór debiutowy dawał faktycznie równe szanse każdemu silnikowi...., w każdym bądź razie rodzi to wątpliwości natury metodologicznej; sądzę np że w tzw „berlinie” nawet słabszemu silnikowi łatwiej o remis niż np w „hiszpance”, jeżeli takich „berlinów” w meczu będzie 20%-40% to słabeusz sztucznie zawyży swój ranking a „mocarz” nie będzie taki znowu mocny....
Namnożyło się tych wątpliwości, a uparłem się rozstrzygnąć czy Sug faktycznie jest tak dużo lepszy od St6 jak wychodzi z testów Pana Jerzego ... Kolejny mecz postanowiłem rozegrać od TYLKO JEDNEJ POZYCJI – postanowiłem że będzie to pozycja z partii hiszpańskiej, obrony Czigorina; (FEN: r1b2rk1/2q1bppp/p2p1n2/npp1p3/3PP3/2P2N1P/PPBN1PP1/R1BQR1K1 b - - 2 12 ); pozycja wystarczająco skomplikowana do myślenia, dająca silnikom możliwość zademonstrowania wszystkich swoich walorów bojowych zarówno w grze białymi jak i czarnymi. I nie pomyliłem się!
Mecz III
A) Fritz 11 (partia hiszpańska, obrona Czigorina; 20 partii, gra naprzemienna obydwoma kolorami; 5+5):
Wynik: Sugar5.4&Stocfish6 13.5:6.5 ; Sug wygrał 7 partii, 0 przegrał, 13 zremisował
B) Arena 3.5 (warunki jak wyżej). Wynik: Sugar5.4&Stocfish6 13:7 ; Sug wygrał 8 partii, 2 przegrał, 10 zremisował
Druzgocące zwycięstwo Sugara nad swoim pierwowzorem!!!
Wnioski: wydaje się że na wiarygodny wynik testów szalenie istotny wpływ ma zaplanowanie „identyczności” warunków dla każdego z silników oraz STWORZENIA MOŻLIWOŚCI do „pełnego myślenia” (wynikającego Z POZYCJI na szachownicy a nie z ilości rdzeni w procesorze) a także eliminowania w testach gry z pozycji o których mówi się że gracze będą „walić głową w mur= czyli remis”. Z przeprowadzonych meczy wyłania się obraz Fritza11 jako lepszego interfejsu do organizacji turniejów szachowych; minus dla Areny za wątpliwej jakości klucz doboru debiutów, wg tego klucza - jeden z silników będzie miał po prostu lepsze warunki startowe.
Dziękuję za ciekawy i merytoryczny wpis. Dodam do tego kilka uwag. Osobiście uważamy (oboje z mężem), że najlepszym interfejsem do prowadzenia turniejów szachowych jest Fritz 12, ale taki okrojony - bez multimediów, muzyki itp. Arena jest za to produktem darmowym, łatwym w użytkowaniu. Nie ma problemu, by i w Arenie ustawić, dowolną, początkową pozycję.
UsuńWariant Czigorina wybrany przez Pana - może preferować jeden z silników. Mój mąż w testach bawi się np. takimi abstrakcjami jak np. pozycja początkowa gdzie białe mają na pozycjach wyjściowych wszystkie pionki, króla i hetmana a czarne wszystkie pionki , króla i dwie wieże.
Wyniki są pouczające.
To jest dla Pana minusem (wątpliwej jakości klucz doboru debiutów) jest równocześnie plusem - sprawdzenie silnika w różnych pozycjach w zależności od granego debiutu.
I zgoda, jeden z silników może mieć lepsze warunki startowe, ale tylko w przypadku małej ilości granych partii. Przy rozegraniu np. 1000 gier do oceny rankingowej (a najlepsze silniki na liście JCER po tyle mają) działa rachunek prawdopodobieństwa - silnik ma podobną ilość łatwiejszych, trudniejszych czy remisowych pozycji.
Dlatego mąż podnosi ilość partii do oceny, by silnik znalazł się na liście.
Początkowo było to 20, potem 30 a obecnie jest 50.
Niedługo, może jeszcze w tym roku limit zostanie podniesiony do 100!
Jednak o sile silników tak naprawdę stanowi ich umiejętność analizy (długiej, wielogodzinnej) wybranych pozycji w grze korespondencyjnej. Mąż nie ma teraz czasu, ale jak wiadomo ja trochę :) gram.
Na wysokim poziome (tak od 2300) - 100% szachistów korzysta z silników.
Wybór dobrego otwarcia praktycznie zawsze zapewnia remis w partii i to bez względu czy wykorzystujemy Critter, Houdiniego, Stockfisha czy Rybkę.
Ale jest małe "ale". Silniki nie zastąpią myślenia i wiedzy szachowej. Ja mam większą satysfakcję z oszukania silnika, niż drętwego remisu. Dlatego, zwłaszcza w turniejach niższej rangi, wybieram "lewe" warianty z pułapkami na silniki. Z moich obserwacji wynika, że największe błędy w ocenie robi Komodo. Za to są pozycje, gdzie właśnie Komodo radzi sobie najlepiej. Nie odstawiam też Houdiniego - to bardzo dobry silnik do analizy - ale mój podstawowy to właśnie Sugar!
Jeszcze raz dziękuję i zachęcam do dalszych testów i wpisów. A Pański test zamieszczam na blogu jako informacja czytelnika.
Pozdrawiam serdecznie
Basia
A co w tym towarzystwie robi 5? Miło zobaczyć jak rozwojowe wersje 6 przegrywają z 5. To nie rozwój a regres :)
OdpowiedzUsuńNo właśnie dlatego by można było porównać czy jest postęp czy też regres - do turnieju została dodana wersja Stockfish 5 (jak i kompilacje sprzed kilku miesięcy).
UsuńNiedługo będzie "puszczony" turniej z dłuższym tempem, gdzie będą grały również starsze wersje Stockfisha - zobaczymy jak wypadną
"Milo zobaczyc..."? No gratuluje mentalnosci. Goscie oddaja w nasze rece kawal porzadnego oprpgramowania, a tu jakiemus ... regres sie "podoba".
UsuńJak zakomleksionym trzeba byc zeby takie "madrosci" prezentowac?
Magiel najwidoczniej w szkole miał problemy z wysiłkiem intelektualnym a takowym niewątpliwie jest umiejetność odczytania "co autor miał na myśli?", no cóż, nie każdy musi być "bystrzachą":) . Pytanie: czy rozwojowa wersja 6 która przegrywa z wersją starą jak zeszłoroczny śnieg (5) jest "porządnym oprogramowaniem" czy jednak jest "mniej porządna"? :) pozdrawiam!
UsuńProszę wziąść pod uwagę to że w tych testach pomiędzy silnikami -grane są z reguły debiuty zamknięte.Programiści piszą programy -może bezwiednie-pod aktualną opcje debiutową.Mając to na uwadze ,,niektórzy[ (zaawansowani )] gracze korespondencyjni mają opracowane swoje strategie anty-silnikowe.
OdpowiedzUsuńSilniki zmieniają szachy,zmieniają analizy szachowe, i być może zmienią punktacje szachową.Ciekawy artykuł na ten temat: http://en.chessbase.com/post/correspondence-chess-the-draw-problem
OdpowiedzUsuńEngine Score St St St St St St St St St St St St S-B
OdpowiedzUsuń01: Stockfish_15060415_x64_modern 37.0/66 ······ 0===== ====== 1===1= =====1 1===== ====== 1===1= =====1 1=1=== =0==== ====1= 1205.2
02: Stockfish_15010321_x64_modern 35.5/66 1===== ······ ===1== 1=101= =01010 01===1 =00=1= =10==1 ====== 1===== ==1=== ==0=== 1167.0
03: Stockfish_15032507_x64_modern 34.0/66 ====== ===0== ······ ====== ===0== ====== =1==== 1=1=1= ==0=== ==1==0 ====0= 10=1=1 1114.2
04: Stockfish_15071521_x64_modern 34.0/66 0===0= 0=010= ====== ······ ==1=== 0===0= 1===== =1=1== ====== ==1=1= ====== ===1=1 1106.2
05: Stockfish_15081516_x64_modern 33.5/66 =====0 =10101 ===1== ==0=== ······ 1=0=== ====== ==1010 ==0101 ====== ==1==0 10=011 1101.5
06: Stockfish_15050320_x64_modern 33.5/66 0===== 10===0 ====== 1===1= 0=1=== ······ ====== 0==1== 1===== ====== 0=0=== 1=1=== 1099.5
07: Stockfish_15041123_x64_modern 33.0/66 ====== =11=0= =0==== 0===== ====== ====== ······ ==0=== ====== ====10 ====== ===1=1 1086.2
08: Stockfish_15080818_x64_modern 32.0/66 0===0= =01==0 0=0=0= =0=0== ==0101 1==0== ==1=== ······ 11==1= ====== ===1=1 ====== 1047.0
09: Stockfish_15011815_x64_modern 31.5/66 =====0 ====== ==1=== ====== ==1010 0===== ====== 00==0= ······ ====== ====1= 1=0=== 1042.7
10: Stockfish_15061317_x64_modern 31.5/66 0=0=== 0===== ==0==1 ==0=0= ====== ====== ====01 ====== ====== ······ 1===1= ====== 1035.7
11: Stockfish_15031821_x64_modern 31.0/66 =1==== ==0=== ====1= ====== ==0==1 1=1=== ====== ===0=0 ====0= 0===0= ······ 0==0== 1037.5
12: Stockfish_15012420_x64_modern 29.5/66 ====0= ==1=== 01=0=0 ===0=0 01=100 0=0=== ===0=0 ====== 0=1=== ====== 1==1== ······ 978.50
396 games played / Tournament is finished
Level: Blitz 3/3
Hardware: Intel(R) Core(TM) i7-2760QM CPU @ 2.40GHz with 3.9 GB Memory
Operating system: Windows 7 Professional Professional Service Pack 1 (Build 7601) 64 bit
PGN-File: C:\Program Files (x86)\Arena\Tournaments\Stocktour.pgn
W poprzednim wpisie zamiescilem wyniki turnieju wersji Stockfisha.
OdpowiedzUsuńJesli chodzi o debiuty to grane byly wlasciwie tylko cztery: Partia rosyjska, obrona Philidora, Partia hiszpanska (Berlin),
gambit hetmanski ( nieprzyjety poza dwoma wyjatkami).
To nie interfejs wybiera debiuty (chyba ze sie go odpowiednio skonfiguruje w Arenie np podajac nazwe pliku z zapisanym konkretnym debiutem) tylko silnik.
Dla mnie ciekawe jest to ze zwyciezka wersja przegrala tylko dwie partie, ale wygrala tez tylko 10.
Natomiast wersja z drugiego miejsca (czyli panajurkowy zwyciezca) przegrala az 9 partii wygrywajac 14.