Pertanyaan yang diberi tag «game-ai»

Bagaimana cara menangani gerakan yang tidak valid dalam pembelajaran penguatan?
Saya ingin membuat AI yang bisa memainkan lima-dalam-baris / gomoku. Seperti yang saya sebutkan dalam judul, saya ingin menggunakan pembelajaran penguatan untuk ini. Saya menggunakan metode gradien kebijakan , yaitu REINFORCE, dengan baseline. Untuk perkiraan nilai dan fungsi kebijakan, saya menggunakan jaringan saraf . Ini memiliki lapisan convolutional dan sepenuhnya …



Apakah AlphaZero adalah contoh AGI?
Dari makalah penelitian DeepMind di arxiv.org: Dalam tulisan ini, kami menerapkan algoritma yang sama tetapi sepenuhnya generik, yang kami sebut AlphaZero , untuk permainan catur dan shogi serta Go, tanpa pengetahuan domain tambahan selain aturan permainan, menunjukkan bahwa pembelajaran penguatan tujuan umum algoritma dapat mencapai, tabula rasa, kinerja manusia super …

Bagaimana cara melatih jaringan saraf untuk permainan papan berbasis bulat?
Saya bertanya-tanya bagaimana cara melatih jaringan saraf untuk permainan papan berbasis bulat seperti, tic-tac-toe, catur, risiko atau permainan berbasis putaran lainnya. Mendapatkan langkah selanjutnya dengan inferensi tampaknya cukup mudah, dengan memberi makan status permainan sebagai input dan menggunakan output sebagai langkah untuk pemain saat ini. Namun melatih AI untuk tujuan …


Beberapa keraguan tentang penerapan pembelajaran penguatan untuk permainan seperti catur
Saya menemukan permainan papan catur. Saya membangun mesin sehingga bisa bermain secara otonom. Mesin pada dasarnya adalah pohon keputusan. Ini disusun oleh: Fungsi pencarian yang di setiap node menemukan semua langkah hukum yang mungkin Fungsi evaluasi yang memberikan nilai numerik ke posisi dewan (positif berarti pemain pertama unggul, negatif berarti …

Apakah pencarian pohon Monte Carlo memenuhi syarat sebagai pembelajaran mesin?
Untuk yang terbaik dari pemahaman saya, algoritma pencarian pohon Carlo Carlo (MCTS) adalah alternatif untuk minimum untuk mencari pohon node. Ini bekerja dengan memilih langkah (umumnya, yang memiliki peluang tertinggi untuk menjadi yang terbaik), dan kemudian melakukan permainan acak saat bergerak untuk melihat apa hasilnya. Proses ini berlanjut untuk jumlah …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.