Gebze Teknik Üniversitesi Matematik Bölümü Genel Seminerleri

07 Mart 2025, Cuma

14:00

Gebze Teknik Üniversitesi İşletme Fakültesi Amfi 2

The Mathematics Behind the DeepSeek Model

Berkay Anahtarcı
Özyeğin Üniversitesi, Türkiye

This talk explores the mathematical underpinnings of DeepSeek R1, a reinforcement learning model tailored for complex reasoning. Unlike conventional supervised fine-tuning approaches, DeepSeek R1 leverages Group Relative Policy Optimization (GRPO), an innovative technique that refines Proximal Policy Optimization (PPO) by eliminating the need for a critic. GRPO enhances chain-of-thought reasoning by structuring problem-solving into sequential steps. Through an analytical perspective, we will examine the theoretical properties of GRPO.

Uygulamalı Matematik

İngilizce

gtumatematik 03.03.2025'te eklendi

İLETİŞİM

Akademik biriminizin veya çalışma grubunuzun ülkemizde gerçekleşen etkinliklerini, ilan etmek istediğiniz burs, ödül, akademik iş imkanlarını veya konuk ettiğiniz matematikçileri basit bir veri girişi ile kolayca turkmath.org sitesinde ücretsiz duyurabilirsiniz. Sisteme giriş yapmak için gerekli bilgileri almak ya da görüş ve önerilerinizi bildirmek için iletişime geçmekten çekinmeyiniz. Katkı verenler listesi için tıklayınız.

Özkan Değer ozkandeger@gmail.com

turkmath.org

Gebze Teknik Üniversitesi Matematik Bölümü Genel Seminerleri

The Mathematics Behind the DeepSeek Model

İLETİŞİM

DESTEK VERENLER

ONLİNE ZİYARETÇİLER