turkmath.org

Türkiye'deki Matematiksel Etkinlikler

Gebze Teknik Üniversitesi Matematik Bölümü Genel Seminerleri

07 Mart 2025, Cuma
14:00
Gebze Teknik Üniversitesi İşletme Fakültesi Amfi 2

The Mathematics Behind the DeepSeek Model

Berkay Anahtarcı
Özyeğin Üniversitesi, Türkiye

This talk explores the mathematical underpinnings of DeepSeek R1, a reinforcement learning model tailored for complex reasoning. Unlike conventional supervised fine-tuning approaches, DeepSeek R1 leverages Group Relative Policy Optimization (GRPO), an innovative technique that refines Proximal Policy Optimization (PPO) by eliminating the need for a critic. GRPO enhances chain-of-thought reasoning by structuring problem-solving into sequential steps. Through an analytical perspective, we will examine the theoretical properties of GRPO.

Uygulamalı Matematik
İngilizce
gtumatematik 03.03.2025'te eklendi

İLETİŞİM

Akademik biriminizin veya çalışma grubunuzun ülkemizde gerçekleşen etkinliklerini, ilan etmek istediğiniz burs, ödül, akademik iş imkanlarını veya konuk ettiğiniz matematikçileri basit bir veri girişi ile kolayca turkmath.org sitesinde ücretsiz duyurabilirsiniz. Sisteme giriş yapmak için gerekli bilgileri almak ya da görüş ve önerilerinizi bildirmek için iletişime geçmekten çekinmeyiniz. Katkı verenler listesi için tıklayınız.

Özkan Değer ozkandeger@gmail.com

DESTEK VERENLER

ja2019

31. Journees Arithmetiques Konferansı Organizasyon Komitesi

Web sitesinin masraflarının karşılanması ve hizmetine devam edebilmesi için siz de bağış yapmak, sponsor olmak veya reklam vermek için lütfen iletişime geçiniz.

ONLİNE ZİYARETÇİLER

©2013-2025 turkmath.org
Tüm hakları saklıdır