Stockfish 15010321 wygrał turniej testowy różnych wersji silnika szachowego Stockfish, 2015.08.09 - 2015.08.10


180 games download,   Tempo: 3' + 3"
Hardware: Intel(R) Core(TM) i3-3217U CPU @ 1.80GHz z 3,9 GB system: Windows 8.1 64 bit  GUI-Arena 3.5
Book: Perfect 2015  Tabela: Scid vs PC
 



Tym razem przekrój testowanych wersji Stockfisha był duży. Jak się ostatecznie okazało, najlepszą była kompilacja ze stycznia 2015.
Ale wersja najnowsza z 8 sierpnia była tuż, tuż - na drugim miejscu .  

10 komentarzy:

  1. W związku z tym że w rankingu Pana Jurka czołowe miejsca zajmuje Sugar 5.4, postanowiłem na znacznie słabszym sprzęcie (Intel(R) Celeron(R) M CPU 420 @ 1.60GHz z 1,0 GB pamięci) i pod kontrolą WinXP32bit (Microsoft Windows XP Home Edition Dodatek Service Pack 3 (Build 2600) 32 bit ) przetestować go z oficjalnym stockfishem 6. Przeprowadziłem kilka meczy, wg różnej formuły; każdy po 20 partii i czasie 5min+5sek na partię z wykorzystaniem interfejsu Fritz 11 oraz Areny 3.5. Komputer bez antywirusa i innych zamulaczy.

    Mecz I
    A) Fritz 11, tzw partie Nunna ( „mecz i rewanż”; granych jest 10 różnych pozycji; każda pozycja jest grana przez każdy silnik dwa razy, raz kolorem białym i raz czarnym).
    Wynik: Sugar5.4&Stocfish6 11:9 ; Sug wygrał 4 partie, 2 przegrał, 14 zremisował
    B) Arena 3.5 (warunki jak wyżej) – Wynik: Sugar5.4&Stocfish6 9:11 ; Stockfish wygrał 5 partii, 3 przegrał, 12 zremisował

    Tutaj zaskoczenie: pierwszy raz zdarzyło się w moich testach aby przy różnych interfejsach ale przy zachowaniu identycznych warunków wyłaniał się inny zwycięzca! ( do tej pory zwycięzca zawsze był ten sam , różnica była tylko w rozmiarze zwycięstwa ; we F11 np +2 a w Arenie +3). Dlatego aby rozwiać powstałe wątpliwości przeprowadziłem kolejny mecz; zmienną była książka debiutowa Perfekt 2015;

    Mecz II
    A) Fritz 11 z perfekt 2015
    wynik: Sugar5.4&Stocfish6 9:11 ; Stockfish wygrał 5 partii, 3 przegrał, 12 zremisował
    B) Arena 3.5 z Perfekt 2015
    Wynik: Sugar5.4&Stocfish6 9.5:10.5 ; Stockfish wygrał 1 partię, pozostałe 19 zremisował

    Tutaj zwycięzca jest jeden- stockfish6. Spostrzeżenie: Fritz 11 niejako wymusza granie tego samego otwarcia po zmianie kolorów (np. Jeżeli Sug grał białymi partię hiszpańską to kolejną partię czarnymi też musiał grać hiszpankę itd)- w zasadzie 18 partii przebiegało wg schematu partii Nunna (mecz i rewanż w tym samym debiucie).W Arenie 3.5 panuje „wolna amerykanka” : nie widać żadnego porządku jeżeli chodzi o wybór debiutów: i tak np. Sugar białymi grał dwa razy otwarcie B92 i D46 a St6 dwa razy białymi D43 – mam wątpliwości czy taki przypadkowy (?) dobór debiutowy dawał faktycznie równe szanse każdemu silnikowi...., w każdym bądź razie rodzi to wątpliwości natury metodologicznej; sądzę np że w tzw „berlinie” nawet słabszemu silnikowi łatwiej o remis niż np w „hiszpance”, jeżeli takich „berlinów” w meczu będzie 20%-40% to słabeusz sztucznie zawyży swój ranking a „mocarz” nie będzie taki znowu mocny....

    Namnożyło się tych wątpliwości, a uparłem się rozstrzygnąć czy Sug faktycznie jest tak dużo lepszy od St6 jak wychodzi z testów Pana Jerzego ... Kolejny mecz postanowiłem rozegrać od TYLKO JEDNEJ POZYCJI – postanowiłem że będzie to pozycja z partii hiszpańskiej, obrony Czigorina; (FEN: r1b2rk1/2q1bppp/p2p1n2/npp1p3/3PP3/2P2N1P/PPBN1PP1/R1BQR1K1 b - - 2 12 ); pozycja wystarczająco skomplikowana do myślenia, dająca silnikom możliwość zademonstrowania wszystkich swoich walorów bojowych zarówno w grze białymi jak i czarnymi. I nie pomyliłem się!

    Mecz III
    A) Fritz 11 (partia hiszpańska, obrona Czigorina; 20 partii, gra naprzemienna obydwoma kolorami; 5+5):
    Wynik: Sugar5.4&Stocfish6 13.5:6.5 ; Sug wygrał 7 partii, 0 przegrał, 13 zremisował
    B) Arena 3.5 (warunki jak wyżej). Wynik: Sugar5.4&Stocfish6 13:7 ; Sug wygrał 8 partii, 2 przegrał, 10 zremisował

    Druzgocące zwycięstwo Sugara nad swoim pierwowzorem!!!

    Wnioski: wydaje się że na wiarygodny wynik testów szalenie istotny wpływ ma zaplanowanie „identyczności” warunków dla każdego z silników oraz STWORZENIA MOŻLIWOŚCI do „pełnego myślenia” (wynikającego Z POZYCJI na szachownicy a nie z ilości rdzeni w procesorze) a także eliminowania w testach gry z pozycji o których mówi się że gracze będą „walić głową w mur= czyli remis”. Z przeprowadzonych meczy wyłania się obraz Fritza11 jako lepszego interfejsu do organizacji turniejów szachowych; minus dla Areny za wątpliwej jakości klucz doboru debiutów, wg tego klucza - jeden z silników będzie miał po prostu lepsze warunki startowe.

    OdpowiedzUsuń
    Odpowiedzi
    1. Dziękuję za ciekawy i merytoryczny wpis. Dodam do tego kilka uwag. Osobiście uważamy (oboje z mężem), że najlepszym interfejsem do prowadzenia turniejów szachowych jest Fritz 12, ale taki okrojony - bez multimediów, muzyki itp. Arena jest za to produktem darmowym, łatwym w użytkowaniu. Nie ma problemu, by i w Arenie ustawić, dowolną, początkową pozycję.
      Wariant Czigorina wybrany przez Pana - może preferować jeden z silników. Mój mąż w testach bawi się np. takimi abstrakcjami jak np. pozycja początkowa gdzie białe mają na pozycjach wyjściowych wszystkie pionki, króla i hetmana a czarne wszystkie pionki , króla i dwie wieże.
      Wyniki są pouczające.
      To jest dla Pana minusem (wątpliwej jakości klucz doboru debiutów) jest równocześnie plusem - sprawdzenie silnika w różnych pozycjach w zależności od granego debiutu.
      I zgoda, jeden z silników może mieć lepsze warunki startowe, ale tylko w przypadku małej ilości granych partii. Przy rozegraniu np. 1000 gier do oceny rankingowej (a najlepsze silniki na liście JCER po tyle mają) działa rachunek prawdopodobieństwa - silnik ma podobną ilość łatwiejszych, trudniejszych czy remisowych pozycji.
      Dlatego mąż podnosi ilość partii do oceny, by silnik znalazł się na liście.
      Początkowo było to 20, potem 30 a obecnie jest 50.
      Niedługo, może jeszcze w tym roku limit zostanie podniesiony do 100!
      Jednak o sile silników tak naprawdę stanowi ich umiejętność analizy (długiej, wielogodzinnej) wybranych pozycji w grze korespondencyjnej. Mąż nie ma teraz czasu, ale jak wiadomo ja trochę :) gram.
      Na wysokim poziome (tak od 2300) - 100% szachistów korzysta z silników.
      Wybór dobrego otwarcia praktycznie zawsze zapewnia remis w partii i to bez względu czy wykorzystujemy Critter, Houdiniego, Stockfisha czy Rybkę.
      Ale jest małe "ale". Silniki nie zastąpią myślenia i wiedzy szachowej. Ja mam większą satysfakcję z oszukania silnika, niż drętwego remisu. Dlatego, zwłaszcza w turniejach niższej rangi, wybieram "lewe" warianty z pułapkami na silniki. Z moich obserwacji wynika, że największe błędy w ocenie robi Komodo. Za to są pozycje, gdzie właśnie Komodo radzi sobie najlepiej. Nie odstawiam też Houdiniego - to bardzo dobry silnik do analizy - ale mój podstawowy to właśnie Sugar!
      Jeszcze raz dziękuję i zachęcam do dalszych testów i wpisów. A Pański test zamieszczam na blogu jako informacja czytelnika.
      Pozdrawiam serdecznie
      Basia

      Usuń
  2. A co w tym towarzystwie robi 5? Miło zobaczyć jak rozwojowe wersje 6 przegrywają z 5. To nie rozwój a regres :)

    OdpowiedzUsuń
    Odpowiedzi
    1. No właśnie dlatego by można było porównać czy jest postęp czy też regres - do turnieju została dodana wersja Stockfish 5 (jak i kompilacje sprzed kilku miesięcy).
      Niedługo będzie "puszczony" turniej z dłuższym tempem, gdzie będą grały również starsze wersje Stockfisha - zobaczymy jak wypadną

      Usuń
    2. "Milo zobaczyc..."? No gratuluje mentalnosci. Goscie oddaja w nasze rece kawal porzadnego oprpgramowania, a tu jakiemus ... regres sie "podoba".
      Jak zakomleksionym trzeba byc zeby takie "madrosci" prezentowac?

      Usuń
    3. Magiel najwidoczniej w szkole miał problemy z wysiłkiem intelektualnym a takowym niewątpliwie jest umiejetność odczytania "co autor miał na myśli?", no cóż, nie każdy musi być "bystrzachą":) . Pytanie: czy rozwojowa wersja 6 która przegrywa z wersją starą jak zeszłoroczny śnieg (5) jest "porządnym oprogramowaniem" czy jednak jest "mniej porządna"? :) pozdrawiam!

      Usuń
  3. Proszę wziąść pod uwagę to że w tych testach pomiędzy silnikami -grane są z reguły debiuty zamknięte.Programiści piszą programy -może bezwiednie-pod aktualną opcje debiutową.Mając to na uwadze ,,niektórzy[ (zaawansowani )] gracze korespondencyjni mają opracowane swoje strategie anty-silnikowe.

    OdpowiedzUsuń
  4. Silniki zmieniają szachy,zmieniają analizy szachowe, i być może zmienią punktacje szachową.Ciekawy artykuł na ten temat: http://en.chessbase.com/post/correspondence-chess-the-draw-problem

    OdpowiedzUsuń
  5. Engine Score St St St St St St St St St St St St S-B
    01: Stockfish_15060415_x64_modern 37.0/66 ······ 0===== ====== 1===1= =====1 1===== ====== 1===1= =====1 1=1=== =0==== ====1= 1205.2
    02: Stockfish_15010321_x64_modern 35.5/66 1===== ······ ===1== 1=101= =01010 01===1 =00=1= =10==1 ====== 1===== ==1=== ==0=== 1167.0
    03: Stockfish_15032507_x64_modern 34.0/66 ====== ===0== ······ ====== ===0== ====== =1==== 1=1=1= ==0=== ==1==0 ====0= 10=1=1 1114.2
    04: Stockfish_15071521_x64_modern 34.0/66 0===0= 0=010= ====== ······ ==1=== 0===0= 1===== =1=1== ====== ==1=1= ====== ===1=1 1106.2
    05: Stockfish_15081516_x64_modern 33.5/66 =====0 =10101 ===1== ==0=== ······ 1=0=== ====== ==1010 ==0101 ====== ==1==0 10=011 1101.5
    06: Stockfish_15050320_x64_modern 33.5/66 0===== 10===0 ====== 1===1= 0=1=== ······ ====== 0==1== 1===== ====== 0=0=== 1=1=== 1099.5
    07: Stockfish_15041123_x64_modern 33.0/66 ====== =11=0= =0==== 0===== ====== ====== ······ ==0=== ====== ====10 ====== ===1=1 1086.2
    08: Stockfish_15080818_x64_modern 32.0/66 0===0= =01==0 0=0=0= =0=0== ==0101 1==0== ==1=== ······ 11==1= ====== ===1=1 ====== 1047.0
    09: Stockfish_15011815_x64_modern 31.5/66 =====0 ====== ==1=== ====== ==1010 0===== ====== 00==0= ······ ====== ====1= 1=0=== 1042.7
    10: Stockfish_15061317_x64_modern 31.5/66 0=0=== 0===== ==0==1 ==0=0= ====== ====== ====01 ====== ====== ······ 1===1= ====== 1035.7
    11: Stockfish_15031821_x64_modern 31.0/66 =1==== ==0=== ====1= ====== ==0==1 1=1=== ====== ===0=0 ====0= 0===0= ······ 0==0== 1037.5
    12: Stockfish_15012420_x64_modern 29.5/66 ====0= ==1=== 01=0=0 ===0=0 01=100 0=0=== ===0=0 ====== 0=1=== ====== 1==1== ······ 978.50

    396 games played / Tournament is finished

    Level: Blitz 3/3
    Hardware: Intel(R) Core(TM) i7-2760QM CPU @ 2.40GHz with 3.9 GB Memory
    Operating system: Windows 7 Professional Professional Service Pack 1 (Build 7601) 64 bit
    PGN-File: C:\Program Files (x86)\Arena\Tournaments\Stocktour.pgn

    OdpowiedzUsuń
  6. W poprzednim wpisie zamiescilem wyniki turnieju wersji Stockfisha.
    Jesli chodzi o debiuty to grane byly wlasciwie tylko cztery: Partia rosyjska, obrona Philidora, Partia hiszpanska (Berlin),
    gambit hetmanski ( nieprzyjety poza dwoma wyjatkami).
    To nie interfejs wybiera debiuty (chyba ze sie go odpowiednio skonfiguruje w Arenie np podajac nazwe pliku z zapisanym konkretnym debiutem) tylko silnik.
    Dla mnie ciekawe jest to ze zwyciezka wersja przegrala tylko dwie partie, ale wygrala tez tylko 10.
    Natomiast wersja z drugiego miejsca (czyli panajurkowy zwyciezca) przegrala az 9 partii wygrywajac 14.

    OdpowiedzUsuń