Türkiye'deki Matematiksel Etkinlikler
Berkay Anahtarcı
Özyeğin Üniversitesi, Türkiye
This talk explores the mathematical underpinnings of DeepSeek R1, a reinforcement learning model tailored for complex reasoning. Unlike conventional supervised fine-tuning approaches, DeepSeek R1 leverages Group Relative Policy Optimization (GRPO), an innovative technique that refines Proximal Policy Optimization (PPO) by eliminating the need for a critic. GRPO enhances chain-of-thought reasoning by structuring problem-solving into sequential steps. Through an analytical perspective, we will examine the theoretical properties of GRPO.
Akademik biriminizin veya çalışma grubunuzun ülkemizde gerçekleşen etkinliklerini, ilan etmek istediğiniz burs, ödül, akademik iş imkanlarını veya konuk ettiğiniz matematikçileri basit bir veri girişi ile kolayca turkmath.org sitesinde ücretsiz duyurabilirsiniz. Sisteme giriş yapmak için gerekli bilgileri almak ya da görüş ve önerilerinizi bildirmek için iletişime geçmekten çekinmeyiniz. Katkı verenler listesi için tıklayınız.
Özkan Değer ozkandeger@gmail.com
31. Journees Arithmetiques Konferansı Organizasyon Komitesi
Web sitesinin masraflarının karşılanması ve hizmetine devam edebilmesi için siz de bağış yapmak, sponsor olmak veya reklam vermek için lütfen iletişime geçiniz.