From d389e5368776d112cda0627ab4c3eec5ba3877b1 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 15:59:59 +0300 Subject: [PATCH 01/29] Update README.md --- README.md | 306 +++++++++++++++++++++++++++++++++--------------------- 1 file changed, 185 insertions(+), 121 deletions(-) diff --git a/README.md b/README.md index 318a40c..10d692e 100644 --- a/README.md +++ b/README.md @@ -8,10 +8,10 @@
- Homepage + Ana Sayfa - Chat + Mesaj Hugging Face @@ -26,105 +26,120 @@ Wechat - Twitter Follow + Twitter Takip
- Code License + Kod Lisansı - Model License + Model Lisansı

- Paper Link👁️ + Makale Bağlantısı👁️

-## Table of Contents +## İçindekiler -1. [Introduction](#1-introduction) -2. [Model Summary](#2-model-summary) -3. [Model Downloads](#3-model-downloads) -4. [Evaluation Results](#4-evaluation-results) -5. [Chat Website & API Platform](#5-chat-website--api-platform) -6. [How to Run Locally](#6-how-to-run-locally) -7. [License](#7-license) -8. [Citation](#8-citation) -9. [Contact](#9-contact) +1. [Giriş](#1-introduction) +2. [Model Özeti](#2-model-summary) +3. [Model İndirmeleri](#3-model-downloads) +4. [Değerlendirme sonuçları](#4-evaluation-results) +5. [Sohbet Web Sitesi ve API Platformu](#5-chat-website--api-platform) +6. [Yerel olarak nasıl çalıştırılır](#6-how-to-run-locally) +7. [Lisans](#7-license) +8. [Atıf](#8-citation) +9. [İletişim](#9-contact) -## 1. Introduction +## 1. Giriş + +DeepSeek-V3'ü sunuyoruz: 671 milyar toplam parametreye sahip güçlü bir Mixture-of-Experts (MoE) dil modeli ve her bir token için 37 milyar parametre etkinleştiriliyor. +Verimli çıkarım ve maliyet açısından etkili bir eğitim sağlamak amacıyla DeepSeek-V3, Multi-head Latent Attention (MLA) ve DeepSeekMoE mimarilerini benimser; bu yaklaşımlar DeepSeek-V2'de kapsamlı şekilde doğrulanmıştır. +Bunun yanı sıra, DeepSeek-V3, yük dengeleme için yardımcı kayıpsız (auxiliary-loss-free) bir strateji geliştirerek öncülük eder ve daha güçlü performans için çoklu token tahminine dayalı bir eğitim hedefi belirler. + +DeepSeek-V3, 14.8 trilyon çeşitlendirilmiş ve yüksek kaliteli token üzerinde ön eğitimden geçirilmiş olup, ardından Denetimli İnce Ayar (Supervised Fine-Tuning) ve Takviyeli Öğrenme (Reinforcement Learning) aşamalarından geçirilerek yetenekleri tam anlamıyla optimize edilmiştir. +Kapsamlı değerlendirmeler, DeepSeek-V3'ün diğer açık kaynak modellerini geride bıraktığını ve önde gelen kapalı kaynak modellerle karşılaştırılabilir bir performans sergilediğini göstermektedir. + +Üstün performansına rağmen, DeepSeek-V3'ün tam eğitimi yalnızca **2.788 milyon H800 GPU saati** gerektirmektedir. +Buna ek olarak, eğitim süreci son derece kararlıdır. +Tüm eğitim süreci boyunca **geri döndürülemeyen kayıp artışları yaşanmadı ve herhangi bir geri alma (rollback) işlemi gerçekleştirilmedi**. -We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. -To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. -Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. -We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. -Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. -Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. -In addition, its training process is remarkably stable. -Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks.

-## 2. Model Summary +## 2. Model Özeti --- -**Architecture: Innovative Load Balancing Strategy and Training Objective** +**Mimari: Yenilikçi Yük Dengeleme Stratejisi ve Eğitim Hedefi** -- On top of the efficient architecture of DeepSeek-V2, we pioneer an auxiliary-loss-free strategy for load balancing, which minimizes the performance degradation that arises from encouraging load balancing. -- We investigate a Multi-Token Prediction (MTP) objective and prove it beneficial to model performance. - It can also be used for speculative decoding for inference acceleration. +- DeepSeek-V2'nin verimli mimarisinin üzerine, **yardımcı kayıpsız (auxiliary-loss-free) bir yük dengeleme stratejisi** geliştirerek öncülük ediyoruz. + Bu yaklaşım, yük dengelemenin teşvik edilmesinden kaynaklanan **performans kaybını en aza indirir**. +- **Çoklu Token Tahmini (Multi-Token Prediction - MTP)** hedefini araştırıyor ve bunun model performansı açısından faydalı olduğunu kanıtlıyoruz. + Ayrıca, bu yöntem **çıkarım sürecini hızlandırmak için spekülatif kod çözmede (speculative decoding) de kullanılabilir**. + +--- +**Ön Eğitim: En Üst Düzey Eğitim Verimliliğine Doğru** + +- **FP8 karma hassasiyetli eğitim çerçevesi** tasarladık ve **ilk kez** FP8 eğitiminin **son derece büyük ölçekli bir modelde uygulanabilirliğini ve etkinliğini doğruladık**. +- **Algoritmalar, çerçeveler ve donanımların ortak tasarımı** sayesinde, düğümler arası **MoE eğitimindeki iletişim darboğazını** aştık ve neredeyse **tam hesaplama-iletişim örtüşmesi** sağladık. + Bu, eğitim verimliliğimizi önemli ölçüde artırırken **eğitim maliyetlerini düşürerek** model boyutunu ek maliyet olmadan daha da ölçeklendirmemize olanak tanır. +- **Sadece 2.664 milyon H800 GPU saati** gibi ekonomik bir maliyetle, DeepSeek-V3'ün 14.8 trilyon token üzerinde ön eğitimini tamamladık ve **mevcut en güçlü açık kaynaklı temel modeli ürettik**. + Ön eğitim sonrası aşamalar ise **yalnızca 0.1 milyon GPU saati gerektirir**. --- -**Pre-Training: Towards Ultimate Training Efficiency** +**Son Eğitim: DeepSeek-R1'den Bilgi Aktarımı** -- We design an FP8 mixed precision training framework and, for the first time, validate the feasibility and effectiveness of FP8 training on an extremely large-scale model. -- Through co-design of algorithms, frameworks, and hardware, we overcome the communication bottleneck in cross-node MoE training, nearly achieving full computation-communication overlap. - This significantly enhances our training efficiency and reduces the training costs, enabling us to further scale up the model size without additional overhead. -- At an economical cost of only 2.664M H800 GPU hours, we complete the pre-training of DeepSeek-V3 on 14.8T tokens, producing the currently strongest open-source base model. The subsequent training stages after pre-training require only 0.1M GPU hours. - ---- - -**Post-Training: Knowledge Distillation from DeepSeek-R1** - -- We introduce an innovative methodology to distill reasoning capabilities from the long-Chain-of-Thought (CoT) model, specifically from one of the DeepSeek R1 series models, into standard LLMs, particularly DeepSeek-V3. Our pipeline elegantly incorporates the verification and reflection patterns of R1 into DeepSeek-V3 and notably improves its reasoning performance. Meanwhile, we also maintain a control over the output style and length of DeepSeek-V3. +- **Uzun Zincirleme Düşünme (Chain-of-Thought - CoT) modelinin** akıl yürütme yeteneklerini, özellikle **DeepSeek R1 serisi modellerinden biri üzerinden**, standart büyük dil modellerine (LLM) ve özellikle DeepSeek-V3'e aktarmak için yenilikçi bir yöntem geliştirdik. +- **Doğrulama ve yansıtma (reflection) desenlerini** R1'den DeepSeek-V3'e **şık bir şekilde entegre eden** bu süreç, modelin **akıl yürütme performansını önemli ölçüde artırırken**, **çıktı stilini ve uzunluğunu da kontrol altında tutmamıza** olanak tanır. --- -## 3. Model Downloads +## 3. Model İndirmeleri
-| **Model** | **#Total Params** | **#Activated Params** | **Context Length** | **Download** | +| **Model** | **#Toplam Parametreler** | **#Etkin Parametreler** | **Bağlam uzunluğu** | **İndirme** | | :------------: | :------------: | :------------: | :------------: | :------------: | | DeepSeek-V3-Base | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) | | DeepSeek-V3 | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3) |
-> [!NOTE] -> The total size of DeepSeek-V3 models on Hugging Face is 685B, which includes 671B of the Main Model weights and 14B of the Multi-Token Prediction (MTP) Module weights. +> [!NOTE] +> **Hugging Face üzerindeki DeepSeek-V3 modellerinin toplam boyutu 685B'dir.** +> Bu, **671B Ana Model ağırlıklarını** ve **14B Çoklu Token Tahmini (MTP) Modülü ağırlıklarını** içerir. -To ensure optimal performance and flexibility, we have partnered with open-source communities and hardware vendors to provide multiple ways to run the model locally. For step-by-step guidance, check out Section 6: [How_to Run_Locally](#6-how-to-run-locally). +**Optimum performans ve esneklik sağlamak** için açık kaynak toplulukları ve donanım sağlayıcılarıyla iş birliği yaparak **modeli yerel olarak çalıştırmak için çeşitli yöntemler sunduk**. +Adım adım rehberlik için **Bölüm 6: [Nasıl Yerel Çalıştırılır](#6-how-to-run-locally)** kısmına göz atabilirsiniz. -For developers looking to dive deeper, we recommend exploring [README_WEIGHTS.md](./README_WEIGHTS.md) for details on the Main Model weights and the Multi-Token Prediction (MTP) Modules. Please note that MTP support is currently under active development within the community, and we welcome your contributions and feedback. +**Daha derin teknik ayrıntılarla ilgilenen geliştiriciler için**, +**Ana Model ağırlıkları ve Çoklu Token Tahmini (MTP) Modülleri hakkında detaylı bilgileri** içeren +[README_WEIGHTS.md](./README_WEIGHTS.md) dosyasını incelemenizi öneririz. + +Lütfen unutmayın: **MTP desteği şu anda topluluk tarafından aktif olarak geliştirilmektedir**. +**Katkılarınızı ve geri bildirimlerinizi memnuniyetle karşılıyoruz!** + +--- + +## 4. Değerlendirme Sonuçları +### Temel Model +#### Standart Kıyaslamalar -## 4. Evaluation Results -### Base Model -#### Standard Benchmarks
-| | Benchmark (Metric) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | +| | Performans Değerlendirmesi (Metrik) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | |---|-------------------|----------|--------|-------------|---------------|---------| | | Architecture | - | MoE | Dense | Dense | MoE | | | # Activated Params | - | 21B | 72B | 405B | 37B | @@ -164,22 +179,25 @@ For developers looking to dive deeper, we recommend exploring [README_WEIGHTS.md
-> [!NOTE] -> Best results are shown in bold. Scores with a gap not exceeding 0.3 are considered to be at the same level. DeepSeek-V3 achieves the best performance on most benchmarks, especially on math and code tasks. -> For more evaluation details, please check our paper. +> [!NOTE] +> **En iyi sonuçlar kalın olarak gösterilmiştir.** +> **Aralarındaki fark 0.3'ü geçmeyen skorlar aynı seviyede kabul edilir.** +> **DeepSeek-V3, özellikle matematik ve kodlama görevlerinde olmak üzere, çoğu kıyaslamada en iyi performansı sergilemektedir.** +> **Daha fazla değerlendirme detayı için lütfen makalemize göz atın.** -#### Context Window +#### Bağlam penceresi

-Evaluation results on the ``Needle In A Haystack`` (NIAH) tests. DeepSeek-V3 performs well across all context window lengths up to **128K**. +**"Needle In A Haystack" (NIAH) testlerindeki değerlendirme sonuçları.** +DeepSeek-V3, **128K** bağlam penceresine kadar tüm uzunluklarda iyi performans göstermektedir. -### Chat Model -#### Standard Benchmarks (Models larger than 67B) +### Sohbet Modeli +#### Standart Kıyaslamalar (67B'den büyük modeller)
-| | **Benchmark (Metric)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | +| | **Performans Değerlendirmesi (Metrik)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | |---|---------------------|---------------------|----------------------|---------------------|----------------------|---------------------------|----------------|----------------| | | Architecture | MoE | MoE | Dense | Dense | - | - | MoE | | | # Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | @@ -209,11 +227,12 @@ Evaluation results on the ``Needle In A Haystack`` (NIAH) tests. DeepSeek-V3 pe
-> [!NOTE] -> All models are evaluated in a configuration that limits the output length to 8K. Benchmarks containing fewer than 1000 samples are tested multiple times using varying temperature settings to derive robust final results. DeepSeek-V3 stands as the best-performing open-source model, and also exhibits competitive performance against frontier closed-source models. +> [!NOTE] +> **Tüm modeller, çıktı uzunluğunu 8K ile sınırlayan bir yapılandırmada değerlendirilmiştir.** +> **1000'den az örnek içeren kıyaslamalar, sağlam nihai sonuçlar elde etmek için farklı sıcaklık ayarları kullanılarak birden fazla kez test edilmiştir.** +> **DeepSeek-V3, en iyi performans gösteren açık kaynak model olup, aynı zamanda öncü kapalı kaynak modellerle de rekabetçi bir performans sergilemektedir.** - -#### Open Ended Generation Evaluation +#### Açık Uçlu Üretim Değerlendirmesi
@@ -229,132 +248,171 @@ Evaluation results on the ``Needle In A Haystack`` (NIAH) tests. DeepSeek-V3 pe | DeepSeek-V3 | **85.5** | **70.0** |
+> [!NOTE] +> **İngilizce açık uçlu konuşma değerlendirmeleri.** +> **AlpacaEval 2.0 için, metrik olarak uzunluk kontrollü kazanma oranını kullanıyoruz.** -> [!NOTE] -> English open-ended conversation evaluations. For AlpacaEval 2.0, we use the length-controlled win rate as the metric. +## 5. Sohbet Web Sitesi & API Platformu +DeepSeek-V3 ile sohbet etmek için DeepSeek’in resmi web sitesini ziyaret edebilirsiniz: +[chat.deepseek.com](https://chat.deepseek.com/sign_in) -## 5. Chat Website & API Platform -You can chat with DeepSeek-V3 on DeepSeek's official website: [chat.deepseek.com](https://chat.deepseek.com/sign_in) +Ayrıca, OpenAI uyumlu API’mizi DeepSeek Platformunda sağlıyoruz: +[platform.deepseek.com](https://platform.deepseek.com/) -We also provide OpenAI-Compatible API at DeepSeek Platform: [platform.deepseek.com](https://platform.deepseek.com/) +## 6. Yerel Olarak Nasıl Çalıştırılır -## 6. How to Run Locally +DeepSeek-V3 aşağıdaki donanım ve açık kaynak topluluk yazılımları kullanılarak yerel olarak dağıtılabilir: -DeepSeek-V3 can be deployed locally using the following hardware and open-source community software: +1. **DeepSeek-Infer Demo**: FP8 ve BF16 çıkarımı için basit ve hafif bir demo sağlıyoruz. +2. **SGLang**: DeepSeek-V3 modelini hem BF16 hem de FP8 çıkarım modlarında tamamen destekler, Multi-Token Prediction ise [yakında geliyor](https://github.com/sgl-project/sglang/issues/2591). +3. **LMDeploy**: Yerel ve bulut dağıtımı için verimli FP8 ve BF16 çıkarımına olanak tanır. +4. **TensorRT-LLM**: Şu anda BF16 çıkarımını ve INT4/8 nicemlemeyi destekler, FP8 desteği yakında eklenecektir. +5. **vLLM**: Tensor paralelliği ve ardışık işlem paralelliği için DeepSeek-V3 modelini FP8 ve BF16 modlarında destekler. +6. **AMD GPU**: DeepSeek-V3 modelinin AMD GPU’lar üzerinde SGLang aracılığıyla BF16 ve FP8 modlarında çalıştırılmasını sağlar. +7. **Huawei Ascend NPU**: DeepSeek-V3 modelinin Huawei Ascend cihazlarında çalıştırılmasını destekler. -1. **DeepSeek-Infer Demo**: We provide a simple and lightweight demo for FP8 and BF16 inference. -2. **SGLang**: Fully support the DeepSeek-V3 model in both BF16 and FP8 inference modes, with Multi-Token Prediction [coming soon](https://github.com/sgl-project/sglang/issues/2591). -3. **LMDeploy**: Enables efficient FP8 and BF16 inference for local and cloud deployment. -4. **TensorRT-LLM**: Currently supports BF16 inference and INT4/8 quantization, with FP8 support coming soon. -5. **vLLM**: Support DeepSeek-V3 model with FP8 and BF16 modes for tensor parallelism and pipeline parallelism. -6. **AMD GPU**: Enables running the DeepSeek-V3 model on AMD GPUs via SGLang in both BF16 and FP8 modes. -7. **Huawei Ascend NPU**: Supports running DeepSeek-V3 on Huawei Ascend devices. +FP8 eğitimi çerçevemizde yerel olarak kullanıldığı için, yalnızca FP8 ağırlıklarını sağlıyoruz. +Deneyleriniz için BF16 ağırlıklarına ihtiyacınız varsa, sağlanan dönüştürme betiğini kullanarak dönüşümü gerçekleştirebilirsiniz. -Since FP8 training is natively adopted in our framework, we only provide FP8 weights. If you require BF16 weights for experimentation, you can use the provided conversion script to perform the transformation. - -Here is an example of converting FP8 weights to BF16: +FP8 ağırlıklarını BF16'ya dönüştürme örneği: ```shell cd inference python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights ``` +> [!NOTE] +> Hugging Face'in Transformers kütüphanesi henüz doğrudan desteklenmemektedir. -> [!NOTE] -> Hugging Face's Transformers has not been directly supported yet. +### 6.1 DeepSeek-Infer Demo ile Çıkarım (sadece örnek) -### 6.1 Inference with DeepSeek-Infer Demo (example only) +#### Sistem Gereksinimleri -#### System Requirements +> [!NOTE] +> **Yalnızca Python 3.10 ile Linux desteklenmektedir.** +> **Mac ve Windows desteklenmemektedir.** -> [!NOTE] -> Linux with Python 3.10 only. Mac and Windows are not supported. - -Dependencies: +Bağımlılıklar: ```pip-requirements torch==2.4.1 triton==3.0.0 transformers==4.46.3 safetensors==0.4.5 ``` -#### Model Weights & Demo Code Preparation - -First, clone our DeepSeek-V3 GitHub repository: +#### Model Ağırlıkları ve Demo Kodunun Hazırlanması +Öncelikle, DeepSeek-V3 GitHub deposunu klonlayın: ```shell git clone https://github.com/deepseek-ai/DeepSeek-V3.git ``` -Navigate to the `inference` folder and install dependencies listed in `requirements.txt`. Easiest way is to use a package manager like `conda` or `uv` to create a new virtual environment and install the dependencies. +`inference` klasörüne gidin ve `requirements.txt` dosyasında listelenen bağımlılıkları yükleyin. +En kolay yöntem, `conda` veya `uv` gibi bir paket yöneticisi kullanarak yeni bir sanal ortam oluşturmak ve bağıml + ```shell cd DeepSeek-V3/inference pip install -r requirements.txt ``` -Download the model weights from Hugging Face, and put them into `/path/to/DeepSeek-V3` folder. +Model ağırlıklarını Hugging Face'den indirin ve `/path/to/DeepSeek-V3` klasörüne yerleştirin. -#### Model Weights Conversion +#### Model Ağırlıklarını Dönüştürme -Convert Hugging Face model weights to a specific format: +Hugging Face model ağırlıklarını belirli bir formata dönüştürün: ```shell python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16 ``` -#### Run +#### Çalıştırma -Then you can chat with DeepSeek-V3: +Ardından DeepSeek-V3 ile sohbet edebilirsiniz: ```shell torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200 ``` - -Or batch inference on a given file: +Veya belirli bir dosyada toplu çıkarım: ```shell torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE ``` -### 6.2 Inference with SGLang (recommended) +### 6.2 SGLang ile Çıkarım (Tavsiye Edilir) -[SGLang](https://github.com/sgl-project/sglang) currently supports [MLA optimizations](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations), [DP Attention](https://lmsys.org/blog/2024-12-04-sglang-v0-4/#data-parallelism-attention-for-deepseek-models), FP8 (W8A8), FP8 KV Cache, and Torch Compile, delivering state-of-the-art latency and throughput performance among open-source frameworks. +[SGLang](https://github.com/sgl-project/sglang) şu anda [MLA optimizasyonları](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations), [DP Attention](https://lmsys.org/blog/2024-12-04-sglang-v0-4/#data-parallelism-attention-for-deepseek-models), FP8 (W8A8), FP8 KV Önbelleği ve Torch Compile'ı destekleyerek açık kaynaklı çerçeveler arasında en iyi gecikme süresi ve verimlilik performansını sunmaktadır. -Notably, [SGLang v0.4.1](https://github.com/sgl-project/sglang/releases/tag/v0.4.1) fully supports running DeepSeek-V3 on both **NVIDIA and AMD GPUs**, making it a highly versatile and robust solution. +Özellikle, [SGLang v0.4.1](https://github.com/sgl-project/sglang/releases/tag/v0.4.1), **NVIDIA ve AMD GPU'larda** DeepSeek-V3 çalıştırmayı tamamen destekleyerek onu son derece esnek ve sağlam bir çözüm hâline getirmektedir. -SGLang also supports [multi-node tensor parallelism](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-2-h208), enabling you to run this model on multiple network-connected machines. +SGLang ayrıca [çoklu düğüm tensör paralelliğini](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-2-h208) destekleyerek, bu modeli ağ bağlantılı birden fazla makinede çalıştırmanıza olanak tanır. -Multi-Token Prediction (MTP) is in development, and progress can be tracked in the [optimization plan](https://github.com/sgl-project/sglang/issues/2591). +Çoklu Token Tahmini (MTP) hâlâ geliştirme aşamasında olup ilerlemeyi [optimizasyon planı](https://github.com/sgl-project/sglang/issues/2591) üzerinden takip edebilirsiniz. -Here are the launch instructions from the SGLang team: https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3 +SGLang ekibi tarafından sağlanan başlatma talimatlarına buradan ulaşabilirsiniz: +[🔗 SGLang DeepSeek-V3 Çıkarım Talimatları](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3) -### 6.3 Inference with LMDeploy (recommended) -[LMDeploy](https://github.com/InternLM/lmdeploy), a flexible and high-performance inference and serving framework tailored for large language models, now supports DeepSeek-V3. It offers both offline pipeline processing and online deployment capabilities, seamlessly integrating with PyTorch-based workflows. +--- -For comprehensive step-by-step instructions on running DeepSeek-V3 with LMDeploy, please refer to here: https://github.com/InternLM/lmdeploy/issues/2960 +### 6.3 LMDeploy ile Çıkarım (Tavsiye Edilir) +[LMDeploy](https://github.com/InternLM/lmdeploy), büyük dil modelleri için esnek ve yüksek performanslı bir çıkarım ve sunum çerçevesidir. DeepSeek-V3 desteği sunarak hem çevrimdışı işlem hattı işleme hem de çevrimiçi dağıtım özellikleri sağlar ve PyTorch tabanlı iş akışlarıyla sorunsuz entegrasyon sunar. -### 6.4 Inference with TRT-LLM (recommended) +DeepSeek-V3'ü LMDeploy ile çalıştırma adımları için ayrıntılı kılavuza buradan ulaşabilirsiniz: +[🔗 LMDeploy Çıkarım Talimatları](https://github.com/InternLM/lmdeploy/issues/2960) -[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM) now supports the DeepSeek-V3 model, offering precision options such as BF16 and INT4/INT8 weight-only. Support for FP8 is currently in progress and will be released soon. You can access the custom branch of TRTLLM specifically for DeepSeek-V3 support through the following link to experience the new features directly: https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3. +--- +### 6.4 TRT-LLM ile Çıkarım (Tavsiye Edilir) -### 6.5 Inference with vLLM (recommended) +[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM), DeepSeek-V3 modelini desteklemekte olup **BF16 ve INT4/INT8 ağırlık hassasiyeti** seçenekleri sunmaktadır. FP8 desteği şu anda geliştirilmekte olup yakında yayınlanacaktır. -[vLLM](https://github.com/vllm-project/vllm) v0.6.6 supports DeepSeek-V3 inference for FP8 and BF16 modes on both NVIDIA and AMD GPUs. Aside from standard techniques, vLLM offers _pipeline parallelism_ allowing you to run this model on multiple machines connected by networks. For detailed guidance, please refer to the [vLLM instructions](https://docs.vllm.ai/en/latest/serving/distributed_serving.html). Please feel free to follow [the enhancement plan](https://github.com/vllm-project/vllm/issues/11539) as well. +DeepSeek-V3 için özel olarak oluşturulmuş TRT-LLM dalına buradan erişerek yeni özellikleri doğrudan deneyimleyebilirsiniz: +[🔗 TensorRT-LLM DeepSeek-V3 Desteği](https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3) -### 6.6 Recommended Inference Functionality with AMD GPUs +--- -In collaboration with the AMD team, we have achieved Day-One support for AMD GPUs using SGLang, with full compatibility for both FP8 and BF16 precision. For detailed guidance, please refer to the [SGLang instructions](#63-inference-with-lmdeploy-recommended). +### 6.5 vLLM ile Çıkarım (Tavsiye Edilir) -### 6.7 Recommended Inference Functionality with Huawei Ascend NPUs -The [MindIE](https://www.hiascend.com/en/software/mindie) framework from the Huawei Ascend community has successfully adapted the BF16 version of DeepSeek-V3. For step-by-step guidance on Ascend NPUs, please follow the [instructions here](https://modelers.cn/models/MindIE/deepseekv3). +[vLLM](https://github.com/vllm-project/vllm) v0.6.6, **NVIDIA ve AMD GPU'larında FP8 ve BF16 modlarında** DeepSeek-V3 çıkarımını destekler. Standart tekniklerin yanı sıra, vLLM **boru hattı paralelliği (pipeline parallelism)** de sunarak modeli birden fazla ağa bağlı makinede çalıştırmanıza olanak tanır. +Ayrıntılı rehber için buraya göz atabilirsiniz: +[🔗 vLLM Dağıtılmış Sunum Talimatları](https://docs.vllm.ai/en/latest/serving/distributed_serving.html) -## 7. License -This code repository is licensed under [the MIT License](LICENSE-CODE). The use of DeepSeek-V3 Base/Chat models is subject to [the Model License](LICENSE-MODEL). DeepSeek-V3 series (including Base and Chat) supports commercial use. +Ek olarak, geliştirme sürecini takip etmek için şu bağlantıyı inceleyebilirsiniz: +[🔗 vLLM Geliştirme Planı](https://github.com/vllm-project/vllm/issues/11539) + +--- + +### 6.6 AMD GPU'lar için Tavsiye Edilen Çıkarım İşlevselliği + +AMD ekibiyle yapılan iş birliği sayesinde, DeepSeek-V3 modeli **FP8 ve BF16 hassasiyetiyle** AMD GPU'larda çalıştırılabilmektedir. Bu destek **SGLang** üzerinden sağlanmaktadır. + +Ayrıntılı rehber için buraya göz atabilirsiniz: +[🔗 SGLang AMD GPU Talimatları](#63-inference-with-lmdeploy-recommended) + +--- + +### 6.7 Huawei Ascend NPU’lar için Tavsiye Edilen Çıkarım İşlevselliği + +Huawei Ascend topluluğunun geliştirdiği [MindIE](https://www.hiascend.com/en/software/mindie) çerçevesi, **BF16 versiyonunda DeepSeek-V3** modelini başarıyla adapte etmiştir. + +Huawei Ascend NPU'larda çalıştırma adımları için buraya göz atabilirsiniz: +[🔗 MindIE DeepSeek-V3 Talimatları](https://modelers.cn/models/MindIE/deepseekv3) + +--- + +## 7. Lisans + +Bu kod deposu [MIT Lisansı](LICENSE-CODE) altında lisanslanmıştır. +DeepSeek-V3 Base/Chat modellerinin kullanımı [Model Lisansı](LICENSE-MODEL) hükümlerine tabidir. +DeepSeek-V3 serisi (Base ve Chat dahil) ticari kullanımı desteklemektedir. + +--- + +## 8. Atıf (Citation) + +Bu çalışmayı aşağıdaki gibi atıfta bulunarak referans verebilirsiniz: -## 8. Citation ``` @misc{deepseekai2024deepseekv3technicalreport, title={DeepSeek-V3 Technical Report}, @@ -367,5 +425,11 @@ This code repository is licensed under [the MIT License](LICENSE-CODE). The use } ``` -## 9. Contact -If you have any questions, please raise an issue or contact us at [service@deepseek.com](service@deepseek.com). +Eğer bu modeli veya içindeki teknikleri araştırmanızda kullanıyorsanız, lütfen yukarıdaki referansı ekleyerek atıfta bulunun. + +--- + +## 9. İletişim + +Herhangi bir sorunuz varsa, lütfen bir **issue** açın veya bizimle iletişime geçin: +📧 [service@deepseek.com](service@deepseek.com) From c0511bfa744267b89ee5438589b0357cb96a1860 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:02:37 +0300 Subject: [PATCH 02/29] Update README.md translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. --- README.md | 18 +++++++++--------- 1 file changed, 9 insertions(+), 9 deletions(-) diff --git a/README.md b/README.md index 10d692e..da2b06e 100644 --- a/README.md +++ b/README.md @@ -46,15 +46,15 @@ ## İçindekiler -1. [Giriş](#1-introduction) -2. [Model Özeti](#2-model-summary) -3. [Model İndirmeleri](#3-model-downloads) -4. [Değerlendirme sonuçları](#4-evaluation-results) -5. [Sohbet Web Sitesi ve API Platformu](#5-chat-website--api-platform) -6. [Yerel olarak nasıl çalıştırılır](#6-how-to-run-locally) -7. [Lisans](#7-license) -8. [Atıf](#8-citation) -9. [İletişim](#9-contact) +1. [Giriş](#1-giris) +2. [Model Özeti](#2-model-ozeti) +3. [Model İndirmeleri](#3-model-indirmeleri) +4. [Değerlendirme Sonuçları](#4-degerlendirme-sonuclari) +5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi-ve-api-platformu) +6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasil-calistirilir) +7. [Lisans](#7-lisans) +8. [Atıf](#8-atif) +9. [İletişim](#9-iletisim) ## 1. Giriş From ca2dc670211428d8af3669b2d0e1ff6160face27 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:04:25 +0300 Subject: [PATCH 03/29] Update README.md --- README.md | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/README.md b/README.md index da2b06e..7fcdddd 100644 --- a/README.md +++ b/README.md @@ -46,15 +46,15 @@ ## İçindekiler -1. [Giriş](#1-giris) -2. [Model Özeti](#2-model-ozeti) +1. [Giriş](#1-giriş) +2. [Model Özeti](#2-model-özeti) 3. [Model İndirmeleri](#3-model-indirmeleri) -4. [Değerlendirme Sonuçları](#4-degerlendirme-sonuclari) +4. [Değerlendirme Sonuçları](#4-değerlendirme-sonuçları) 5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi-ve-api-platformu) -6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasil-calistirilir) +6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) 7. [Lisans](#7-lisans) -8. [Atıf](#8-atif) -9. [İletişim](#9-iletisim) +8. [Atıf](#8-atıf) +9. [İletişim](#9-iletişim) ## 1. Giriş From a8f596f9005ff93b393075a3fd016e054096ebcf Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:05:31 +0300 Subject: [PATCH 04/29] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 7fcdddd..964e220 100644 --- a/README.md +++ b/README.md @@ -48,7 +48,7 @@ 1. [Giriş](#1-giriş) 2. [Model Özeti](#2-model-özeti) -3. [Model İndirmeleri](#3-model-indirmeleri) +3. [Model İndirmeleri](#3-model-i̇ndirmeleri) 4. [Değerlendirme Sonuçları](#4-değerlendirme-sonuçları) 5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi-ve-api-platformu) 6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) From 117240e2b823991ee2125a66a989a18884c322a9 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:06:34 +0300 Subject: [PATCH 05/29] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 964e220..14b1c1a 100644 --- a/README.md +++ b/README.md @@ -50,7 +50,7 @@ 2. [Model Özeti](#2-model-özeti) 3. [Model İndirmeleri](#3-model-i̇ndirmeleri) 4. [Değerlendirme Sonuçları](#4-değerlendirme-sonuçları) -5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi-ve-api-platformu) +5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi--api-platformu) 6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) 7. [Lisans](#7-lisans) 8. [Atıf](#8-atıf) From 339e500ec20abda5c5da6c911ed339cc58078494 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:07:58 +0300 Subject: [PATCH 06/29] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 14b1c1a..b40e3cb 100644 --- a/README.md +++ b/README.md @@ -409,7 +409,7 @@ DeepSeek-V3 serisi (Base ve Chat dahil) ticari kullanımı desteklemektedir. --- -## 8. Atıf (Citation) +## 8. Atıf Bu çalışmayı aşağıdaki gibi atıfta bulunarak referans verebilirsiniz: From a68a1814de9e33bd2ee19d3ec79a816865412a21 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:08:31 +0300 Subject: [PATCH 07/29] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index b40e3cb..f5aeeff 100644 --- a/README.md +++ b/README.md @@ -54,7 +54,7 @@ 6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) 7. [Lisans](#7-lisans) 8. [Atıf](#8-atıf) -9. [İletişim](#9-iletişim) +9. [İletişim](#9-i̇letişim) ## 1. Giriş From 6939d4380fdf1f4d66c9b3b2bced3704fe248f33 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:13:21 +0300 Subject: [PATCH 08/29] Update translates TR README_WEIGHTS.md translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. --- README_WEIGHTS.md | 105 ++++++++++++++++++++++++---------------------- 1 file changed, 54 insertions(+), 51 deletions(-) diff --git a/README_WEIGHTS.md b/README_WEIGHTS.md index 5679083..802367b 100644 --- a/README_WEIGHTS.md +++ b/README_WEIGHTS.md @@ -1,69 +1,69 @@ -# DeepSeek-V3 Weight File Documentation +# DeepSeek-V3 Ağırlık Dosyası Dokümantasyonu -## New Fields in `config.json` +## `config.json` İçindeki Yeni Alanlar -- **model_type**: Specifies the model type, which is updated to `deepseek_v3` in this release. -- **num_nextn_predict_layers**: Indicates the number of Multi-Token Prediction (MTP) Modules. The open-sourced V3 weights include **1 MTP Module** . -- **quantization_config**: Describes the configuration for FP8 quantization. +- **model_type**: Model türünü belirtir, bu sürümde `deepseek_v3` olarak güncellenmiştir. +- **num_nextn_predict_layers**: Çoklu Token Tahmin (MTP) Modüllerinin sayısını belirtir. Açık kaynaklı V3 ağırlıkları **1 MTP Modülü** içerir. +- **quantization_config**: FP8 kuantizasyonu için yapılandırmayı tanımlar. --- -## Weight Structure Overview +## Ağırlık Yapısı Genel Bakış -The DeepSeek-V3 weight file consists of two main components: **Main Model Weights** and **MTP Modules**. +DeepSeek-V3 ağırlık dosyası iki ana bileşenden oluşur: **Ana Model Ağırlıkları** ve **MTP Modülleri**. -### 1. Main Model Weights +### 1. Ana Model Ağırlıkları -- **Composition**: - - Input/output embedding layers and a complete set of 61 Transformer hidden layers. -- **Parameter Count**: - - Total parameters: **671B** - - Activation parameters: **36.7B** (including 0.9B for Embedding and 0.9B for the output Head). +- **Bileşenler**: + - Giriş/çıkış gömme katmanları ve toplam 61 Transformer gizli katmanı. +- **Parametre Sayısı**: + - Toplam parametreler: **671B** + - Aktivasyon parametreleri: **36.7B** (0.9B Gömme ve 0.9B Çıkış Kafası dahil). -#### Structural Details +#### Yapısal Detaylar -- **Embedding Layer**: +- **Gömme Katmanı**: - `model.embed_tokens.weight` -- **Transformer Hidden Layers**: - - `model.layers.0` to `model.layers.60`, totaling `num_hidden_layers` layers. -- **Output Layer**: +- **Transformer Gizli Katmanları**: + - `model.layers.0` - `model.layers.60`, toplamda `num_hidden_layers` katman. +- **Çıkış Katmanı**: - `model.norm.weight` - `lm_head.weight` -### 2. Multi-Token Prediction (MTP) Modules +### 2. Çoklu Token Tahmin (MTP) Modülleri -- **Composition**: - - Additional MTP Modules defined by the `num_nextn_predict_layers` field. In this model, the value is set to 1. -- **Parameter Count**: - - Parameters: **11.5B unique parameters**, excluding the shared 0.9B Embedding and 0.9B output Head). - - Activation parameters: **2.4B** (including the shared 0.9B Embedding and 0.9B output Head). +- **Bileşenler**: + - `num_nextn_predict_layers` alanı tarafından tanımlanan ek MTP Modülleri. Bu modelde değer **1** olarak ayarlanmıştır. +- **Parametre Sayısı**: + - **11.5B benzersiz parametre**, (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası hariç). + - Aktivasyon parametreleri: **2.4B** (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası dahil). -#### Structural Details +#### Yapısal Detaylar -- **embed_tokens**: **Shares parameters** with the Embedding layer of the Main Model weights. -- **enorm & hnorm**: RMSNorm parameters required for speculative decoding. -- **eh_proj**: Parameters for dimensionality reduction projection on the norm results. -- **Additional Transformer Hidden Layer**: - - `model.layers.61.self_attn & mlp` (structure identical to the Main Model hidden layers). -- **shared_head**: **Shares parameters** with the output Head of the Main Model weights. +- **embed_tokens**: **Ana Model ağırlıklarının Gömme katmanı ile parametreleri paylaşır**. +- **enorm & hnorm**: Spekülatif kod çözme için gerekli olan RMSNorm parametreleri. +- **eh_proj**: Norm sonuçları üzerinde boyut indirgeme projeksiyon parametreleri. +- **Ek Transformer Gizli Katmanı**: + - `model.layers.61.self_attn & mlp` (Ana Model gizli katmanlarıyla aynı yapıdadır). +- **shared_head**: **Ana Model ağırlıklarının Çıkış Kafası ile parametreleri paylaşır**. --- -### Loading Rules +### Yükleme Kuralları -- **Main Model Weights**: Loaded via the `num_hidden_layers` parameter in `config.json`. -- **MTP Modules**: Loaded via the `num_nextn_predict_layers` parameter, with layer IDs appended immediately after the Main Model hidden layers. For example: - - If `num_hidden_layers = 61` and `num_nextn_predict_layers = 1`, the MTP Module's layer ID is `61`. +- **Ana Model Ağırlıkları**: `config.json` içindeki `num_hidden_layers` parametresi kullanılarak yüklenir. +- **MTP Modülleri**: `num_nextn_predict_layers` parametresi ile yüklenir ve katman kimlikleri Ana Model gizli katmanlarından hemen sonra eklenir. Örneğin: + - Eğer `num_hidden_layers = 61` ve `num_nextn_predict_layers = 1` ise, MTP Modülünün katman kimliği `61` olur. --- -## FP8 Weight Documentation +## FP8 Ağırlık Dokümantasyonu -DeepSeek-V3 natively supports FP8 weight format with 128x128 block scaling. +DeepSeek-V3, 128x128 blok ölçeklendirmesiyle FP8 ağırlık formatını yerel olarak destekler. -### FP8 Configuration +### FP8 Yapılandırması -The FP8 weight file introduces a `quantization_config` field to describe the quantization method. Below is an example configuration: +FP8 ağırlık dosyası, kuantizasyon yöntemini tanımlayan bir `quantization_config` alanı içerir. Örnek yapılandırma aşağıda verilmiştir: ```json "quantization_config": { @@ -74,21 +74,24 @@ The FP8 weight file introduces a `quantization_config` field to describe the qua } ``` -- **Quantization Format**: - - Format type: `fp8` and `e4m3` (corresponding to `torch.float8_e4m3fn`). - - Weight block size: `128x128`. -- **Activation Quantization Scheme**: - - Utilizes dynamic activation quantization (`dynamic`). +- **Kuantizasyon Formatı**: + - Format türü: `fp8` ve `e4m3` (karşılığı `torch.float8_e4m3fn`). + - Ağırlık blok boyutu: `128x128`. +- **Aktivasyon Kuantizasyon Şeması**: + - Dinamik aktivasyon kuantizasyonu kullanır (`dynamic`). -### Dequantization Method +### De-kuantizasyon Yöntemi -The FP8 weight file includes a `weight_scale_inv` field, which stores the dequantization scale for each weight block. +FP8 ağırlık dosyası, her ağırlık bloğu için de-kuantizasyon ölçeğini depolayan `weight_scale_inv` alanını içerir. -- **Storage Format**: `float32 Tensor`, stored alongside the weight data. -- **Dequantization Formula**: - - If the weight block is not aligned to 128, it is zero-padded to 128 before calculating the scale. After quantization, the padded portion is removed. - - The dequantization process is performed as: `(128x128 weight block) * weight_scale_inv`. +- **Depolama Formatı**: `float32 Tensor`, ağırlık verileriyle birlikte saklanır. +- **De-kuantizasyon Formülü**: + - Ağırlık bloğu 128’e hizalanmamışsa, önce 128’e sıfır dolgu yapılır, ardından ölçek hesaplanır. Kuantizasyondan sonra dolgu kısmı kaldırılır. + - De-kuantizasyon işlemi şu şekilde gerçekleştirilir: `(128x128 ağırlık bloğu) * weight_scale_inv`. -Through dequantization of the FP8 weights, runtime operations enable online quantization at a granularity of `per-token-per-128-channel`. +FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemleri **token başına 128 kanal granülerliği** ile çevrimiçi kuantizasyona olanak tanır. --- +``` +Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. +``` From 315dcb7e2070e24971559332b7372d38062c350d Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:14:53 +0300 Subject: [PATCH 09/29] Update translates TR README_WEIGHTS.md translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. --- README_WEIGHTS.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README_WEIGHTS.md b/README_WEIGHTS.md index 802367b..a546f07 100644 --- a/README_WEIGHTS.md +++ b/README_WEIGHTS.md @@ -94,4 +94,5 @@ FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemler --- ``` Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. +@can-deliktas ``` From 9a9554dfe601fc78898ad790dff2dc09583b92c1 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:16:13 +0300 Subject: [PATCH 10/29] Update translates TR README_WEIGHTS.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. Deepseek-V3 AI deposundaki İngilizce açıklamaları Türkçe'ye çevirir. --- README_WEIGHTS.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README_WEIGHTS.md b/README_WEIGHTS.md index a546f07..901b1d7 100644 --- a/README_WEIGHTS.md +++ b/README_WEIGHTS.md @@ -94,5 +94,5 @@ FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemler --- ``` Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. -@can-deliktas +[@can-deliktas](https://github.com/can-deliktas) ``` From 22db85a39aedee58be02bb1e8471af9ee9b35907 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:17:25 +0300 Subject: [PATCH 11/29] Update translates TR README_WEIGHTS.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. Deepseek-V3 AI deposundaki İngilizce açıklamaları Türkçe'ye çevirir. --- README_WEIGHTS.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README_WEIGHTS.md b/README_WEIGHTS.md index 901b1d7..fd8fd98 100644 --- a/README_WEIGHTS.md +++ b/README_WEIGHTS.md @@ -94,5 +94,6 @@ FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemler --- ``` Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. -[@can-deliktas](https://github.com/can-deliktas) +@can-deliktas + ``` From 5342a74995546f849e01733b661c108e74ba5b3c Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:18:36 +0300 Subject: [PATCH 12/29] Update translates TR README.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. Deepseek-V3 AI deposundaki İngilizce açıklamaları Türkçe'ye çevirir. --- README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/README.md b/README.md index f5aeeff..92ad0c4 100644 --- a/README.md +++ b/README.md @@ -433,3 +433,10 @@ Eğer bu modeli veya içindeki teknikleri araştırmanızda kullanıyorsanız, l Herhangi bir sorunuz varsa, lütfen bir **issue** açın veya bizimle iletişime geçin: 📧 [service@deepseek.com](service@deepseek.com) + +``` + +Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. +@can-deliktas + +``` From 2c1de9ff1c6ab3b556efe4e3785bd9ba14b81126 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:20:40 +0300 Subject: [PATCH 13/29] Update translates TR README_WEIGHTS.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. Deepseek-V3 AI deposundaki İngilizce açıklamaları Türkçe'ye çevirir. --- README_WEIGHTS.md | 1 - 1 file changed, 1 deletion(-) diff --git a/README_WEIGHTS.md b/README_WEIGHTS.md index fd8fd98..a546f07 100644 --- a/README_WEIGHTS.md +++ b/README_WEIGHTS.md @@ -95,5 +95,4 @@ FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemler ``` Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. @can-deliktas - ``` From 7f8ae677e4188a3919a20bcd86f8d5367bdd6a35 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:21:30 +0300 Subject: [PATCH 14/29] Update translates TR README.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit translates the English descriptions in the DeepSeek-V3 AI repository into Turkish. Deepseek-V3 AI deposundaki İngilizce açıklamaları Türkçe'ye çevirir. --- README.md | 2 -- 1 file changed, 2 deletions(-) diff --git a/README.md b/README.md index 92ad0c4..6ed00c4 100644 --- a/README.md +++ b/README.md @@ -435,8 +435,6 @@ Herhangi bir sorunuz varsa, lütfen bir **issue** açın veya bizimle iletişime 📧 [service@deepseek.com](service@deepseek.com) ``` - Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. @can-deliktas - ``` From d98f9355450ccf33cb1f7b660d9c201f101c3772 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:28:36 +0300 Subject: [PATCH 15/29] Update README.md --- README.md | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 6ed00c4..ba89a5e 100644 --- a/README.md +++ b/README.md @@ -41,7 +41,11 @@

- Makale Bağlantısı👁️ + Makale Bağlantısı - Türkçe👁️ +

+ +

+ Makale Bağlantısı - Orijinal👁️

## İçindekiler From fed828430906c3df2fab59d5184a98fa67152697 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Tue, 11 Feb 2025 16:32:03 +0300 Subject: [PATCH 16/29] Update README.md --- README.md | 7 +------ 1 file changed, 1 insertion(+), 6 deletions(-) diff --git a/README.md b/README.md index ba89a5e..bd736c4 100644 --- a/README.md +++ b/README.md @@ -39,13 +39,8 @@ -

- Makale Bağlantısı - Türkçe👁️ -

- -

- Makale Bağlantısı - Orijinal👁️ + Makale Bağlantısı👁️

## İçindekiler From 14fddd7cb7d1e051064c50d9ab6b0d0eb4413416 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:07:09 +0300 Subject: [PATCH 17/29] Rename README.md to README_turkish.md --- README.md => README_turkish.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename README.md => README_turkish.md (100%) diff --git a/README.md b/README_turkish.md similarity index 100% rename from README.md rename to README_turkish.md From 085ed177816b2176377096740d7d15b94258d37f Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:07:49 +0300 Subject: [PATCH 18/29] Rename README_WEIGHTS.md to README_WEIGHTS_Turkish.mdmd --- README_WEIGHTS.md => README_WEIGHTS_Turkish.mdmd | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename README_WEIGHTS.md => README_WEIGHTS_Turkish.mdmd (100%) diff --git a/README_WEIGHTS.md b/README_WEIGHTS_Turkish.mdmd similarity index 100% rename from README_WEIGHTS.md rename to README_WEIGHTS_Turkish.mdmd From 76fd958ed4b46b351d426e8ada9f549af0797553 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:08:10 +0300 Subject: [PATCH 19/29] Rename README_turkish.md to README_Turkish.md --- README_turkish.md => README_Turkish.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename README_turkish.md => README_Turkish.md (100%) diff --git a/README_turkish.md b/README_Turkish.md similarity index 100% rename from README_turkish.md rename to README_Turkish.md From 213bbf5ecffd1a6fcb359f237e1649988914327b Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:08:32 +0300 Subject: [PATCH 20/29] Rename README_WEIGHTS_Turkish.mdmd to README_WEIGHTS_Turkish.md --- README_WEIGHTS_Turkish.mdmd => README_WEIGHTS_Turkish.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename README_WEIGHTS_Turkish.mdmd => README_WEIGHTS_Turkish.md (100%) diff --git a/README_WEIGHTS_Turkish.mdmd b/README_WEIGHTS_Turkish.md similarity index 100% rename from README_WEIGHTS_Turkish.mdmd rename to README_WEIGHTS_Turkish.md From 5bb008364bed1d30a45eb4d26b4cd2daae17bd6a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:10:06 +0300 Subject: [PATCH 21/29] Add files via upload --- README.md | 356 ++++++++++++++++++++++++++++++++++++++++++++++ README_WEIGHTS.md | 94 ++++++++++++ 2 files changed, 450 insertions(+) create mode 100644 README.md create mode 100644 README_WEIGHTS.md diff --git a/README.md b/README.md new file mode 100644 index 0000000..9ba2346 --- /dev/null +++ b/README.md @@ -0,0 +1,356 @@ + + + + +
+ DeepSeek-V3 +
+
+
+ Homepage + Chat + Hugging Face +
+ Discord + Wechat + Twitter Follow +
+ Code License + Model License +
+ Paper Link👁️ +
+ +## Table of Contents + +1. [Introduction](#1-introduction) +2. [Model Summary](#2-model-summary) +3. [Model Downloads](#3-model-downloads) +4. [Evaluation Results](#4-evaluation-results) +5. [Chat Website & API Platform](#5-chat-website--api-platform) +6. [How to Run Locally](#6-how-to-run-locally) +7. [License](#7-license) +8. [Citation](#8-citation) +9. [Contact](#9-contact) + + +## 1. Introduction + +We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. +To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. +Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. +We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. +Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. +Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. +In addition, its training process is remarkably stable. +Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks. +

+ +

+ +## 2. Model Summary + +--- + +**Architecture: Innovative Load Balancing Strategy and Training Objective** + +- On top of the efficient architecture of DeepSeek-V2, we pioneer an auxiliary-loss-free strategy for load balancing, which minimizes the performance degradation that arises from encouraging load balancing. +- We investigate a Multi-Token Prediction (MTP) objective and prove it beneficial to model performance. + It can also be used for speculative decoding for inference acceleration. + +--- + +**Pre-Training: Towards Ultimate Training Efficiency** + +- We design an FP8 mixed precision training framework and, for the first time, validate the feasibility and effectiveness of FP8 training on an extremely large-scale model. +- Through co-design of algorithms, frameworks, and hardware, we overcome the communication bottleneck in cross-node MoE training, nearly achieving full computation-communication overlap. + This significantly enhances our training efficiency and reduces the training costs, enabling us to further scale up the model size without additional overhead. +- At an economical cost of only 2.664M H800 GPU hours, we complete the pre-training of DeepSeek-V3 on 14.8T tokens, producing the currently strongest open-source base model. The subsequent training stages after pre-training require only 0.1M GPU hours. + +--- + +**Post-Training: Knowledge Distillation from DeepSeek-R1** + +- We introduce an innovative methodology to distill reasoning capabilities from the long-Chain-of-Thought (CoT) model, specifically from one of the DeepSeek R1 series models, into standard LLMs, particularly DeepSeek-V3. Our pipeline elegantly incorporates the verification and reflection patterns of R1 into DeepSeek-V3 and notably improves its reasoning performance. Meanwhile, we also maintain a control over the output style and length of DeepSeek-V3. + +--- + + +## 3. Model Downloads + +
+ +| **Model** | **#Total Params** | **#Activated Params** | **Context Length** | **Download** | +| :------------: | :------------: | :------------: | :------------: | :------------: | +| DeepSeek-V3-Base | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) | +| DeepSeek-V3 | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3) | + +
+ +> [!NOTE] +> The total size of DeepSeek-V3 models on Hugging Face is 685B, which includes 671B of the Main Model weights and 14B of the Multi-Token Prediction (MTP) Module weights. + +To ensure optimal performance and flexibility, we have partnered with open-source communities and hardware vendors to provide multiple ways to run the model locally. For step-by-step guidance, check out Section 6: [How_to Run_Locally](#6-how-to-run-locally). + +For developers looking to dive deeper, we recommend exploring [README_WEIGHTS.md](./README_WEIGHTS.md) for details on the Main Model weights and the Multi-Token Prediction (MTP) Modules. Please note that MTP support is currently under active development within the community, and we welcome your contributions and feedback. + +## 4. Evaluation Results +### Base Model +#### Standard Benchmarks + +
+ + +| | Benchmark (Metric) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | +|---|-------------------|----------|--------|-------------|---------------|---------| +| | Architecture | - | MoE | Dense | Dense | MoE | +| | # Activated Params | - | 21B | 72B | 405B | 37B | +| | # Total Params | - | 236B | 72B | 405B | 671B | +| English | Pile-test (BPB) | - | 0.606 | 0.638 | **0.542** | 0.548 | +| | BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | **87.5** | +| | MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | **87.1** | +| | MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | **86.2** | +| | MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | **64.4** | +| | DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | **89.0** | +| | ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | **98.9** | +| | ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | **95.3** | **95.3** | +| | HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | **89.2** | 88.9 | +| | PIQA (Acc.) | 0-shot | 83.9 | 82.6 | **85.9** | 84.7 | +| | WinoGrande (Acc.) | 5-shot | **86.3** | 82.3 | 85.2 | 84.9 | +| | RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | **74.2** | 67.1 | +| | RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | **56.8** | 51.3 | +| | TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | **82.9** | +| | NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | **41.5** | 40.0 | +| | AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | **79.6** | +| Code | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | **65.2** | +| | MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | **75.4** | +| | LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | **19.4** | +| | CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | **67.3** | +| | CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | **69.8** | +| Math | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | **89.3** | +| | MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | **61.6** | +| | MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | **79.8** | +| | CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | **90.7** | +| Chinese | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | **83.0** | 82.7 | +| | C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | **90.1** | +| | CMMLU (Acc.) | 5-shot | 84.0 | **89.5** | 73.7 | 88.8 | +| | CMRC (EM) | 1-shot | **77.4** | 75.8 | 76.0 | 76.3 | +| | C3 (Acc.) | 0-shot | 77.4 | 76.7 | **79.7** | 78.6 | +| | CCPM (Acc.) | 0-shot | **93.0** | 88.5 | 78.6 | 92.0 | +| Multilingual | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | **79.4** | + +
+ +> [!NOTE] +> Best results are shown in bold. Scores with a gap not exceeding 0.3 are considered to be at the same level. DeepSeek-V3 achieves the best performance on most benchmarks, especially on math and code tasks. +> For more evaluation details, please check our paper. + +#### Context Window +

+ +

+ +Evaluation results on the ``Needle In A Haystack`` (NIAH) tests. DeepSeek-V3 performs well across all context window lengths up to **128K**. + +### Chat Model +#### Standard Benchmarks (Models larger than 67B) +
+ +| | **Benchmark (Metric)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | +|---|---------------------|---------------------|----------------------|---------------------|----------------------|---------------------------|----------------|----------------| +| | Architecture | MoE | MoE | Dense | Dense | - | - | MoE | +| | # Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | +| | # Total Params | 236B | 236B | 72B | 405B | - | - | 671B | +| English | MMLU (EM) | 78.2 | 80.6 | 85.3 | **88.6** | **88.3** | 87.2 | **88.5** | +| | MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | **88.9** | 88.0 | **89.1** | +| | MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | **78.0** | 72.6 | 75.9 | +| | DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | **91.6** | +| | IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | **86.5** | 84.3 | 86.1 | +| | GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | **65.0** | 49.9 | 59.1 | +| | SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | **38.2** | 24.9 | +| | FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | **80.5** | 73.3 | +| | LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | **48.7** | +| Code | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | **82.6** | +| | LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | **40.5** | +| | LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | **37.6** | +| | Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | **51.6** | +| | SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | **50.8** | 38.8 | 42.0 | +| | Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | **84.2** | 72.9 | 79.7 | +| | Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | **49.6** | +| Math | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 | **39.2** | +| | MATH-500 (EM) | 56.3 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | **90.2** | +| | CNMO 2024 (Pass@1) | 2.8 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | **43.2** | +| Chinese | CLUEWSC (EM) | 89.9 | 90.4 | **91.4** | 84.7 | 85.4 | 87.9 | 90.9 | +| | C-Eval (EM) | 78.6 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | **86.5** | +| | C-SimpleQA (Correct) | 48.5 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 | **64.8** | + +
+ +> [!NOTE] +> All models are evaluated in a configuration that limits the output length to 8K. Benchmarks containing fewer than 1000 samples are tested multiple times using varying temperature settings to derive robust final results. DeepSeek-V3 stands as the best-performing open-source model, and also exhibits competitive performance against frontier closed-source models. + + +#### Open Ended Generation Evaluation + +
+ + + +| Model | Arena-Hard | AlpacaEval 2.0 | +|-------|------------|----------------| +| DeepSeek-V2.5-0905 | 76.2 | 50.5 | +| Qwen2.5-72B-Instruct | 81.2 | 49.1 | +| LLaMA-3.1 405B | 69.3 | 40.5 | +| GPT-4o-0513 | 80.4 | 51.1 | +| Claude-Sonnet-3.5-1022 | 85.2 | 52.0 | +| DeepSeek-V3 | **85.5** | **70.0** | + +
+ +> [!NOTE] +> English open-ended conversation evaluations. For AlpacaEval 2.0, we use the length-controlled win rate as the metric. + + +## 5. Chat Website & API Platform +You can chat with DeepSeek-V3 on DeepSeek's official website: [chat.deepseek.com](https://chat.deepseek.com/sign_in) + +We also provide OpenAI-Compatible API at DeepSeek Platform: [platform.deepseek.com](https://platform.deepseek.com/) + +## 6. How to Run Locally + +DeepSeek-V3 can be deployed locally using the following hardware and open-source community software: + +1. **DeepSeek-Infer Demo**: We provide a simple and lightweight demo for FP8 and BF16 inference. +2. **SGLang**: Fully support the DeepSeek-V3 model in both BF16 and FP8 inference modes, with Multi-Token Prediction [coming soon](https://github.com/sgl-project/sglang/issues/2591). +3. **LMDeploy**: Enables efficient FP8 and BF16 inference for local and cloud deployment. +4. **TensorRT-LLM**: Currently supports BF16 inference and INT4/8 quantization, with FP8 support coming soon. +5. **vLLM**: Support DeepSeek-V3 model with FP8 and BF16 modes for tensor parallelism and pipeline parallelism. +6. **AMD GPU**: Enables running the DeepSeek-V3 model on AMD GPUs via SGLang in both BF16 and FP8 modes. +7. **Huawei Ascend NPU**: Supports running DeepSeek-V3 on Huawei Ascend devices. + +Since FP8 training is natively adopted in our framework, we only provide FP8 weights. If you require BF16 weights for experimentation, you can use the provided conversion script to perform the transformation. + +Here is an example of converting FP8 weights to BF16: + +```shell +cd inference +python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights +``` + +> [!NOTE] +> Hugging Face's Transformers has not been directly supported yet. + +### 6.1 Inference with DeepSeek-Infer Demo (example only) + +#### System Requirements + +> [!NOTE] +> Linux with Python 3.10 only. Mac and Windows are not supported. + +Dependencies: +```pip-requirements +torch==2.4.1 +triton==3.0.0 +transformers==4.46.3 +safetensors==0.4.5 +``` +#### Model Weights & Demo Code Preparation + +First, clone our DeepSeek-V3 GitHub repository: + +```shell +git clone https://github.com/deepseek-ai/DeepSeek-V3.git +``` + +Navigate to the `inference` folder and install dependencies listed in `requirements.txt`. Easiest way is to use a package manager like `conda` or `uv` to create a new virtual environment and install the dependencies. + +```shell +cd DeepSeek-V3/inference +pip install -r requirements.txt +``` + +Download the model weights from Hugging Face, and put them into `/path/to/DeepSeek-V3` folder. + +#### Model Weights Conversion + +Convert Hugging Face model weights to a specific format: + +```shell +python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16 +``` + +#### Run + +Then you can chat with DeepSeek-V3: + +```shell +torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200 +``` + +Or batch inference on a given file: + +```shell +torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE +``` + +### 6.2 Inference with SGLang (recommended) + +[SGLang](https://github.com/sgl-project/sglang) currently supports [MLA optimizations](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations), [DP Attention](https://lmsys.org/blog/2024-12-04-sglang-v0-4/#data-parallelism-attention-for-deepseek-models), FP8 (W8A8), FP8 KV Cache, and Torch Compile, delivering state-of-the-art latency and throughput performance among open-source frameworks. + +Notably, [SGLang v0.4.1](https://github.com/sgl-project/sglang/releases/tag/v0.4.1) fully supports running DeepSeek-V3 on both **NVIDIA and AMD GPUs**, making it a highly versatile and robust solution. + +SGLang also supports [multi-node tensor parallelism](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-2-h208), enabling you to run this model on multiple network-connected machines. + +Multi-Token Prediction (MTP) is in development, and progress can be tracked in the [optimization plan](https://github.com/sgl-project/sglang/issues/2591). + +Here are the launch instructions from the SGLang team: https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3 + +### 6.3 Inference with LMDeploy (recommended) +[LMDeploy](https://github.com/InternLM/lmdeploy), a flexible and high-performance inference and serving framework tailored for large language models, now supports DeepSeek-V3. It offers both offline pipeline processing and online deployment capabilities, seamlessly integrating with PyTorch-based workflows. + +For comprehensive step-by-step instructions on running DeepSeek-V3 with LMDeploy, please refer to here: https://github.com/InternLM/lmdeploy/issues/2960 + + +### 6.4 Inference with TRT-LLM (recommended) + +[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM) now supports the DeepSeek-V3 model, offering precision options such as BF16 and INT4/INT8 weight-only. Support for FP8 is currently in progress and will be released soon. You can access the custom branch of TRTLLM specifically for DeepSeek-V3 support through the following link to experience the new features directly: https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3. + + +### 6.5 Inference with vLLM (recommended) + +[vLLM](https://github.com/vllm-project/vllm) v0.6.6 supports DeepSeek-V3 inference for FP8 and BF16 modes on both NVIDIA and AMD GPUs. Aside from standard techniques, vLLM offers _pipeline parallelism_ allowing you to run this model on multiple machines connected by networks. For detailed guidance, please refer to the [vLLM instructions](https://docs.vllm.ai/en/latest/serving/distributed_serving.html). Please feel free to follow [the enhancement plan](https://github.com/vllm-project/vllm/issues/11539) as well. + +### 6.6 Recommended Inference Functionality with AMD GPUs + +In collaboration with the AMD team, we have achieved Day-One support for AMD GPUs using SGLang, with full compatibility for both FP8 and BF16 precision. For detailed guidance, please refer to the [SGLang instructions](#63-inference-with-lmdeploy-recommended). + +### 6.7 Recommended Inference Functionality with Huawei Ascend NPUs +The [MindIE](https://www.hiascend.com/en/software/mindie) framework from the Huawei Ascend community has successfully adapted the BF16 version of DeepSeek-V3. For step-by-step guidance on Ascend NPUs, please follow the [instructions here](https://modelers.cn/models/MindIE/deepseekv3). + + +## 7. License +This code repository is licensed under [the MIT License](LICENSE-CODE). The use of DeepSeek-V3 Base/Chat models is subject to [the Model License](LICENSE-MODEL). DeepSeek-V3 series (including Base and Chat) supports commercial use. + +## 8. Citation +``` +@misc{deepseekai2024deepseekv3technicalreport, + title={DeepSeek-V3 Technical Report}, + author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan}, + year={2024}, + eprint={2412.19437}, + archivePrefix={arXiv}, + primaryClass={cs.CL}, + url={https://arxiv.org/abs/2412.19437}, +} +``` + +## 9. Contact +If you have any questions, please raise an issue or contact us at [service@deepseek.com](service@deepseek.com). diff --git a/README_WEIGHTS.md b/README_WEIGHTS.md new file mode 100644 index 0000000..5679083 --- /dev/null +++ b/README_WEIGHTS.md @@ -0,0 +1,94 @@ +# DeepSeek-V3 Weight File Documentation + +## New Fields in `config.json` + +- **model_type**: Specifies the model type, which is updated to `deepseek_v3` in this release. +- **num_nextn_predict_layers**: Indicates the number of Multi-Token Prediction (MTP) Modules. The open-sourced V3 weights include **1 MTP Module** . +- **quantization_config**: Describes the configuration for FP8 quantization. + +--- + +## Weight Structure Overview + +The DeepSeek-V3 weight file consists of two main components: **Main Model Weights** and **MTP Modules**. + +### 1. Main Model Weights + +- **Composition**: + - Input/output embedding layers and a complete set of 61 Transformer hidden layers. +- **Parameter Count**: + - Total parameters: **671B** + - Activation parameters: **36.7B** (including 0.9B for Embedding and 0.9B for the output Head). + +#### Structural Details + +- **Embedding Layer**: + - `model.embed_tokens.weight` +- **Transformer Hidden Layers**: + - `model.layers.0` to `model.layers.60`, totaling `num_hidden_layers` layers. +- **Output Layer**: + - `model.norm.weight` + - `lm_head.weight` + +### 2. Multi-Token Prediction (MTP) Modules + +- **Composition**: + - Additional MTP Modules defined by the `num_nextn_predict_layers` field. In this model, the value is set to 1. +- **Parameter Count**: + - Parameters: **11.5B unique parameters**, excluding the shared 0.9B Embedding and 0.9B output Head). + - Activation parameters: **2.4B** (including the shared 0.9B Embedding and 0.9B output Head). + +#### Structural Details + +- **embed_tokens**: **Shares parameters** with the Embedding layer of the Main Model weights. +- **enorm & hnorm**: RMSNorm parameters required for speculative decoding. +- **eh_proj**: Parameters for dimensionality reduction projection on the norm results. +- **Additional Transformer Hidden Layer**: + - `model.layers.61.self_attn & mlp` (structure identical to the Main Model hidden layers). +- **shared_head**: **Shares parameters** with the output Head of the Main Model weights. + +--- + +### Loading Rules + +- **Main Model Weights**: Loaded via the `num_hidden_layers` parameter in `config.json`. +- **MTP Modules**: Loaded via the `num_nextn_predict_layers` parameter, with layer IDs appended immediately after the Main Model hidden layers. For example: + - If `num_hidden_layers = 61` and `num_nextn_predict_layers = 1`, the MTP Module's layer ID is `61`. + +--- + +## FP8 Weight Documentation + +DeepSeek-V3 natively supports FP8 weight format with 128x128 block scaling. + +### FP8 Configuration + +The FP8 weight file introduces a `quantization_config` field to describe the quantization method. Below is an example configuration: + +```json +"quantization_config": { + "activation_scheme": "dynamic", + "fmt": "e4m3", + "quant_method": "fp8", + "weight_block_size": [128, 128] +} +``` + +- **Quantization Format**: + - Format type: `fp8` and `e4m3` (corresponding to `torch.float8_e4m3fn`). + - Weight block size: `128x128`. +- **Activation Quantization Scheme**: + - Utilizes dynamic activation quantization (`dynamic`). + +### Dequantization Method + +The FP8 weight file includes a `weight_scale_inv` field, which stores the dequantization scale for each weight block. + +- **Storage Format**: `float32 Tensor`, stored alongside the weight data. +- **Dequantization Formula**: + - If the weight block is not aligned to 128, it is zero-padded to 128 before calculating the scale. After quantization, the padded portion is removed. + - The dequantization process is performed as: `(128x128 weight block) * weight_scale_inv`. + +Through dequantization of the FP8 weights, runtime operations enable online quantization at a granularity of `per-token-per-128-channel`. + +--- From 4cbd0ab179cc35ab93c034fb86da5f0a1042da62 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:20:24 +0300 Subject: [PATCH 22/29] Create t --- languages /Turkish/t | 1 + 1 file changed, 1 insertion(+) create mode 100644 languages /Turkish/t diff --git a/languages /Turkish/t b/languages /Turkish/t new file mode 100644 index 0000000..8b13789 --- /dev/null +++ b/languages /Turkish/t @@ -0,0 +1 @@ + From 4aca6bd241456ea12c601f2840eaecc186d177df Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:20:45 +0300 Subject: [PATCH 23/29] Delete languages /Turkish directory --- languages /Turkish/t | 1 - 1 file changed, 1 deletion(-) delete mode 100644 languages /Turkish/t diff --git a/languages /Turkish/t b/languages /Turkish/t deleted file mode 100644 index 8b13789..0000000 --- a/languages /Turkish/t +++ /dev/null @@ -1 +0,0 @@ - From 3fa74643460e7a1fa79c06f1c900bbefbc5de52c Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:23:37 +0300 Subject: [PATCH 24/29] README_Turkish --- languages/turkish/README_Turkish.md | 439 ++++++++++++++++++++ languages/turkish/README_WEIGHTS_Turkish.md | 98 +++++ 2 files changed, 537 insertions(+) create mode 100644 languages/turkish/README_Turkish.md create mode 100644 languages/turkish/README_WEIGHTS_Turkish.md diff --git a/languages/turkish/README_Turkish.md b/languages/turkish/README_Turkish.md new file mode 100644 index 0000000..bd736c4 --- /dev/null +++ b/languages/turkish/README_Turkish.md @@ -0,0 +1,439 @@ + + + + +
+ DeepSeek-V3 +
+
+ + + + + + +

+ Makale Bağlantısı👁️ +

+ +## İçindekiler + +1. [Giriş](#1-giriş) +2. [Model Özeti](#2-model-özeti) +3. [Model İndirmeleri](#3-model-i̇ndirmeleri) +4. [Değerlendirme Sonuçları](#4-değerlendirme-sonuçları) +5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi--api-platformu) +6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) +7. [Lisans](#7-lisans) +8. [Atıf](#8-atıf) +9. [İletişim](#9-i̇letişim) + + +## 1. Giriş + +DeepSeek-V3'ü sunuyoruz: 671 milyar toplam parametreye sahip güçlü bir Mixture-of-Experts (MoE) dil modeli ve her bir token için 37 milyar parametre etkinleştiriliyor. +Verimli çıkarım ve maliyet açısından etkili bir eğitim sağlamak amacıyla DeepSeek-V3, Multi-head Latent Attention (MLA) ve DeepSeekMoE mimarilerini benimser; bu yaklaşımlar DeepSeek-V2'de kapsamlı şekilde doğrulanmıştır. +Bunun yanı sıra, DeepSeek-V3, yük dengeleme için yardımcı kayıpsız (auxiliary-loss-free) bir strateji geliştirerek öncülük eder ve daha güçlü performans için çoklu token tahminine dayalı bir eğitim hedefi belirler. + +DeepSeek-V3, 14.8 trilyon çeşitlendirilmiş ve yüksek kaliteli token üzerinde ön eğitimden geçirilmiş olup, ardından Denetimli İnce Ayar (Supervised Fine-Tuning) ve Takviyeli Öğrenme (Reinforcement Learning) aşamalarından geçirilerek yetenekleri tam anlamıyla optimize edilmiştir. +Kapsamlı değerlendirmeler, DeepSeek-V3'ün diğer açık kaynak modellerini geride bıraktığını ve önde gelen kapalı kaynak modellerle karşılaştırılabilir bir performans sergilediğini göstermektedir. + +Üstün performansına rağmen, DeepSeek-V3'ün tam eğitimi yalnızca **2.788 milyon H800 GPU saati** gerektirmektedir. +Buna ek olarak, eğitim süreci son derece kararlıdır. +Tüm eğitim süreci boyunca **geri döndürülemeyen kayıp artışları yaşanmadı ve herhangi bir geri alma (rollback) işlemi gerçekleştirilmedi**. + +

+ +

+ +## 2. Model Özeti + +--- + +**Mimari: Yenilikçi Yük Dengeleme Stratejisi ve Eğitim Hedefi** + +- DeepSeek-V2'nin verimli mimarisinin üzerine, **yardımcı kayıpsız (auxiliary-loss-free) bir yük dengeleme stratejisi** geliştirerek öncülük ediyoruz. + Bu yaklaşım, yük dengelemenin teşvik edilmesinden kaynaklanan **performans kaybını en aza indirir**. +- **Çoklu Token Tahmini (Multi-Token Prediction - MTP)** hedefini araştırıyor ve bunun model performansı açısından faydalı olduğunu kanıtlıyoruz. + Ayrıca, bu yöntem **çıkarım sürecini hızlandırmak için spekülatif kod çözmede (speculative decoding) de kullanılabilir**. + +--- +**Ön Eğitim: En Üst Düzey Eğitim Verimliliğine Doğru** + +- **FP8 karma hassasiyetli eğitim çerçevesi** tasarladık ve **ilk kez** FP8 eğitiminin **son derece büyük ölçekli bir modelde uygulanabilirliğini ve etkinliğini doğruladık**. +- **Algoritmalar, çerçeveler ve donanımların ortak tasarımı** sayesinde, düğümler arası **MoE eğitimindeki iletişim darboğazını** aştık ve neredeyse **tam hesaplama-iletişim örtüşmesi** sağladık. + Bu, eğitim verimliliğimizi önemli ölçüde artırırken **eğitim maliyetlerini düşürerek** model boyutunu ek maliyet olmadan daha da ölçeklendirmemize olanak tanır. +- **Sadece 2.664 milyon H800 GPU saati** gibi ekonomik bir maliyetle, DeepSeek-V3'ün 14.8 trilyon token üzerinde ön eğitimini tamamladık ve **mevcut en güçlü açık kaynaklı temel modeli ürettik**. + Ön eğitim sonrası aşamalar ise **yalnızca 0.1 milyon GPU saati gerektirir**. + +--- + +**Son Eğitim: DeepSeek-R1'den Bilgi Aktarımı** + +- **Uzun Zincirleme Düşünme (Chain-of-Thought - CoT) modelinin** akıl yürütme yeteneklerini, özellikle **DeepSeek R1 serisi modellerinden biri üzerinden**, standart büyük dil modellerine (LLM) ve özellikle DeepSeek-V3'e aktarmak için yenilikçi bir yöntem geliştirdik. +- **Doğrulama ve yansıtma (reflection) desenlerini** R1'den DeepSeek-V3'e **şık bir şekilde entegre eden** bu süreç, modelin **akıl yürütme performansını önemli ölçüde artırırken**, **çıktı stilini ve uzunluğunu da kontrol altında tutmamıza** olanak tanır. + +--- + + +## 3. Model İndirmeleri + +
+ +| **Model** | **#Toplam Parametreler** | **#Etkin Parametreler** | **Bağlam uzunluğu** | **İndirme** | +| :------------: | :------------: | :------------: | :------------: | :------------: | +| DeepSeek-V3-Base | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) | +| DeepSeek-V3 | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3) | + +
+ +> [!NOTE] +> **Hugging Face üzerindeki DeepSeek-V3 modellerinin toplam boyutu 685B'dir.** +> Bu, **671B Ana Model ağırlıklarını** ve **14B Çoklu Token Tahmini (MTP) Modülü ağırlıklarını** içerir. + +**Optimum performans ve esneklik sağlamak** için açık kaynak toplulukları ve donanım sağlayıcılarıyla iş birliği yaparak **modeli yerel olarak çalıştırmak için çeşitli yöntemler sunduk**. +Adım adım rehberlik için **Bölüm 6: [Nasıl Yerel Çalıştırılır](#6-how-to-run-locally)** kısmına göz atabilirsiniz. + +**Daha derin teknik ayrıntılarla ilgilenen geliştiriciler için**, +**Ana Model ağırlıkları ve Çoklu Token Tahmini (MTP) Modülleri hakkında detaylı bilgileri** içeren +[README_WEIGHTS.md](./README_WEIGHTS.md) dosyasını incelemenizi öneririz. + +Lütfen unutmayın: **MTP desteği şu anda topluluk tarafından aktif olarak geliştirilmektedir**. +**Katkılarınızı ve geri bildirimlerinizi memnuniyetle karşılıyoruz!** + +--- + +## 4. Değerlendirme Sonuçları +### Temel Model +#### Standart Kıyaslamalar + + +
+ + +| | Performans Değerlendirmesi (Metrik) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | +|---|-------------------|----------|--------|-------------|---------------|---------| +| | Architecture | - | MoE | Dense | Dense | MoE | +| | # Activated Params | - | 21B | 72B | 405B | 37B | +| | # Total Params | - | 236B | 72B | 405B | 671B | +| English | Pile-test (BPB) | - | 0.606 | 0.638 | **0.542** | 0.548 | +| | BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | **87.5** | +| | MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | **87.1** | +| | MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | **86.2** | +| | MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | **64.4** | +| | DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | **89.0** | +| | ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | **98.9** | +| | ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | **95.3** | **95.3** | +| | HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | **89.2** | 88.9 | +| | PIQA (Acc.) | 0-shot | 83.9 | 82.6 | **85.9** | 84.7 | +| | WinoGrande (Acc.) | 5-shot | **86.3** | 82.3 | 85.2 | 84.9 | +| | RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | **74.2** | 67.1 | +| | RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | **56.8** | 51.3 | +| | TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | **82.9** | +| | NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | **41.5** | 40.0 | +| | AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | **79.6** | +| Code | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | **65.2** | +| | MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | **75.4** | +| | LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | **19.4** | +| | CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | **67.3** | +| | CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | **69.8** | +| Math | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | **89.3** | +| | MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | **61.6** | +| | MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | **79.8** | +| | CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | **90.7** | +| Chinese | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | **83.0** | 82.7 | +| | C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | **90.1** | +| | CMMLU (Acc.) | 5-shot | 84.0 | **89.5** | 73.7 | 88.8 | +| | CMRC (EM) | 1-shot | **77.4** | 75.8 | 76.0 | 76.3 | +| | C3 (Acc.) | 0-shot | 77.4 | 76.7 | **79.7** | 78.6 | +| | CCPM (Acc.) | 0-shot | **93.0** | 88.5 | 78.6 | 92.0 | +| Multilingual | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | **79.4** | + +
+ +> [!NOTE] +> **En iyi sonuçlar kalın olarak gösterilmiştir.** +> **Aralarındaki fark 0.3'ü geçmeyen skorlar aynı seviyede kabul edilir.** +> **DeepSeek-V3, özellikle matematik ve kodlama görevlerinde olmak üzere, çoğu kıyaslamada en iyi performansı sergilemektedir.** +> **Daha fazla değerlendirme detayı için lütfen makalemize göz atın.** + +#### Bağlam penceresi +

+ +

+ +**"Needle In A Haystack" (NIAH) testlerindeki değerlendirme sonuçları.** +DeepSeek-V3, **128K** bağlam penceresine kadar tüm uzunluklarda iyi performans göstermektedir. + +### Sohbet Modeli +#### Standart Kıyaslamalar (67B'den büyük modeller) +
+ +| | **Performans Değerlendirmesi (Metrik)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | +|---|---------------------|---------------------|----------------------|---------------------|----------------------|---------------------------|----------------|----------------| +| | Architecture | MoE | MoE | Dense | Dense | - | - | MoE | +| | # Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | +| | # Total Params | 236B | 236B | 72B | 405B | - | - | 671B | +| English | MMLU (EM) | 78.2 | 80.6 | 85.3 | **88.6** | **88.3** | 87.2 | **88.5** | +| | MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | **88.9** | 88.0 | **89.1** | +| | MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | **78.0** | 72.6 | 75.9 | +| | DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | **91.6** | +| | IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | **86.5** | 84.3 | 86.1 | +| | GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | **65.0** | 49.9 | 59.1 | +| | SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | **38.2** | 24.9 | +| | FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | **80.5** | 73.3 | +| | LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | **48.7** | +| Code | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | **82.6** | +| | LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | **40.5** | +| | LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | **37.6** | +| | Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | **51.6** | +| | SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | **50.8** | 38.8 | 42.0 | +| | Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | **84.2** | 72.9 | 79.7 | +| | Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | **49.6** | +| Math | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 | **39.2** | +| | MATH-500 (EM) | 56.3 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | **90.2** | +| | CNMO 2024 (Pass@1) | 2.8 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | **43.2** | +| Chinese | CLUEWSC (EM) | 89.9 | 90.4 | **91.4** | 84.7 | 85.4 | 87.9 | 90.9 | +| | C-Eval (EM) | 78.6 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | **86.5** | +| | C-SimpleQA (Correct) | 48.5 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 | **64.8** | + +
+ +> [!NOTE] +> **Tüm modeller, çıktı uzunluğunu 8K ile sınırlayan bir yapılandırmada değerlendirilmiştir.** +> **1000'den az örnek içeren kıyaslamalar, sağlam nihai sonuçlar elde etmek için farklı sıcaklık ayarları kullanılarak birden fazla kez test edilmiştir.** +> **DeepSeek-V3, en iyi performans gösteren açık kaynak model olup, aynı zamanda öncü kapalı kaynak modellerle de rekabetçi bir performans sergilemektedir.** + +#### Açık Uçlu Üretim Değerlendirmesi + +
+ + + +| Model | Arena-Hard | AlpacaEval 2.0 | +|-------|------------|----------------| +| DeepSeek-V2.5-0905 | 76.2 | 50.5 | +| Qwen2.5-72B-Instruct | 81.2 | 49.1 | +| LLaMA-3.1 405B | 69.3 | 40.5 | +| GPT-4o-0513 | 80.4 | 51.1 | +| Claude-Sonnet-3.5-1022 | 85.2 | 52.0 | +| DeepSeek-V3 | **85.5** | **70.0** | + +
+> [!NOTE] +> **İngilizce açık uçlu konuşma değerlendirmeleri.** +> **AlpacaEval 2.0 için, metrik olarak uzunluk kontrollü kazanma oranını kullanıyoruz.** + +## 5. Sohbet Web Sitesi & API Platformu + +DeepSeek-V3 ile sohbet etmek için DeepSeek’in resmi web sitesini ziyaret edebilirsiniz: +[chat.deepseek.com](https://chat.deepseek.com/sign_in) + +Ayrıca, OpenAI uyumlu API’mizi DeepSeek Platformunda sağlıyoruz: +[platform.deepseek.com](https://platform.deepseek.com/) + +## 6. Yerel Olarak Nasıl Çalıştırılır + +DeepSeek-V3 aşağıdaki donanım ve açık kaynak topluluk yazılımları kullanılarak yerel olarak dağıtılabilir: + +1. **DeepSeek-Infer Demo**: FP8 ve BF16 çıkarımı için basit ve hafif bir demo sağlıyoruz. +2. **SGLang**: DeepSeek-V3 modelini hem BF16 hem de FP8 çıkarım modlarında tamamen destekler, Multi-Token Prediction ise [yakında geliyor](https://github.com/sgl-project/sglang/issues/2591). +3. **LMDeploy**: Yerel ve bulut dağıtımı için verimli FP8 ve BF16 çıkarımına olanak tanır. +4. **TensorRT-LLM**: Şu anda BF16 çıkarımını ve INT4/8 nicemlemeyi destekler, FP8 desteği yakında eklenecektir. +5. **vLLM**: Tensor paralelliği ve ardışık işlem paralelliği için DeepSeek-V3 modelini FP8 ve BF16 modlarında destekler. +6. **AMD GPU**: DeepSeek-V3 modelinin AMD GPU’lar üzerinde SGLang aracılığıyla BF16 ve FP8 modlarında çalıştırılmasını sağlar. +7. **Huawei Ascend NPU**: DeepSeek-V3 modelinin Huawei Ascend cihazlarında çalıştırılmasını destekler. + +FP8 eğitimi çerçevemizde yerel olarak kullanıldığı için, yalnızca FP8 ağırlıklarını sağlıyoruz. +Deneyleriniz için BF16 ağırlıklarına ihtiyacınız varsa, sağlanan dönüştürme betiğini kullanarak dönüşümü gerçekleştirebilirsiniz. + +FP8 ağırlıklarını BF16'ya dönüştürme örneği: + +```shell +cd inference +python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights +``` +> [!NOTE] +> Hugging Face'in Transformers kütüphanesi henüz doğrudan desteklenmemektedir. + +### 6.1 DeepSeek-Infer Demo ile Çıkarım (sadece örnek) + +#### Sistem Gereksinimleri + +> [!NOTE] +> **Yalnızca Python 3.10 ile Linux desteklenmektedir.** +> **Mac ve Windows desteklenmemektedir.** + +Bağımlılıklar: +```pip-requirements +torch==2.4.1 +triton==3.0.0 +transformers==4.46.3 +safetensors==0.4.5 +``` +#### Model Ağırlıkları ve Demo Kodunun Hazırlanması + +Öncelikle, DeepSeek-V3 GitHub deposunu klonlayın: +```shell +git clone https://github.com/deepseek-ai/DeepSeek-V3.git +``` + +`inference` klasörüne gidin ve `requirements.txt` dosyasında listelenen bağımlılıkları yükleyin. +En kolay yöntem, `conda` veya `uv` gibi bir paket yöneticisi kullanarak yeni bir sanal ortam oluşturmak ve bağıml + + +```shell +cd DeepSeek-V3/inference +pip install -r requirements.txt +``` + +Model ağırlıklarını Hugging Face'den indirin ve `/path/to/DeepSeek-V3` klasörüne yerleştirin. + +#### Model Ağırlıklarını Dönüştürme + +Hugging Face model ağırlıklarını belirli bir formata dönüştürün: + +```shell +python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16 +``` + +#### Çalıştırma + +Ardından DeepSeek-V3 ile sohbet edebilirsiniz: + +```shell +torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200 +``` +Veya belirli bir dosyada toplu çıkarım: + +```shell +torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE +``` + +### 6.2 SGLang ile Çıkarım (Tavsiye Edilir) + +[SGLang](https://github.com/sgl-project/sglang) şu anda [MLA optimizasyonları](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations), [DP Attention](https://lmsys.org/blog/2024-12-04-sglang-v0-4/#data-parallelism-attention-for-deepseek-models), FP8 (W8A8), FP8 KV Önbelleği ve Torch Compile'ı destekleyerek açık kaynaklı çerçeveler arasında en iyi gecikme süresi ve verimlilik performansını sunmaktadır. + +Özellikle, [SGLang v0.4.1](https://github.com/sgl-project/sglang/releases/tag/v0.4.1), **NVIDIA ve AMD GPU'larda** DeepSeek-V3 çalıştırmayı tamamen destekleyerek onu son derece esnek ve sağlam bir çözüm hâline getirmektedir. + +SGLang ayrıca [çoklu düğüm tensör paralelliğini](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-2-h208) destekleyerek, bu modeli ağ bağlantılı birden fazla makinede çalıştırmanıza olanak tanır. + +Çoklu Token Tahmini (MTP) hâlâ geliştirme aşamasında olup ilerlemeyi [optimizasyon planı](https://github.com/sgl-project/sglang/issues/2591) üzerinden takip edebilirsiniz. + +SGLang ekibi tarafından sağlanan başlatma talimatlarına buradan ulaşabilirsiniz: +[🔗 SGLang DeepSeek-V3 Çıkarım Talimatları](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3) + +--- + +### 6.3 LMDeploy ile Çıkarım (Tavsiye Edilir) + +[LMDeploy](https://github.com/InternLM/lmdeploy), büyük dil modelleri için esnek ve yüksek performanslı bir çıkarım ve sunum çerçevesidir. DeepSeek-V3 desteği sunarak hem çevrimdışı işlem hattı işleme hem de çevrimiçi dağıtım özellikleri sağlar ve PyTorch tabanlı iş akışlarıyla sorunsuz entegrasyon sunar. + +DeepSeek-V3'ü LMDeploy ile çalıştırma adımları için ayrıntılı kılavuza buradan ulaşabilirsiniz: +[🔗 LMDeploy Çıkarım Talimatları](https://github.com/InternLM/lmdeploy/issues/2960) + +--- + +### 6.4 TRT-LLM ile Çıkarım (Tavsiye Edilir) + +[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM), DeepSeek-V3 modelini desteklemekte olup **BF16 ve INT4/INT8 ağırlık hassasiyeti** seçenekleri sunmaktadır. FP8 desteği şu anda geliştirilmekte olup yakında yayınlanacaktır. + +DeepSeek-V3 için özel olarak oluşturulmuş TRT-LLM dalına buradan erişerek yeni özellikleri doğrudan deneyimleyebilirsiniz: +[🔗 TensorRT-LLM DeepSeek-V3 Desteği](https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3) + +--- + +### 6.5 vLLM ile Çıkarım (Tavsiye Edilir) + +[vLLM](https://github.com/vllm-project/vllm) v0.6.6, **NVIDIA ve AMD GPU'larında FP8 ve BF16 modlarında** DeepSeek-V3 çıkarımını destekler. Standart tekniklerin yanı sıra, vLLM **boru hattı paralelliği (pipeline parallelism)** de sunarak modeli birden fazla ağa bağlı makinede çalıştırmanıza olanak tanır. + +Ayrıntılı rehber için buraya göz atabilirsiniz: +[🔗 vLLM Dağıtılmış Sunum Talimatları](https://docs.vllm.ai/en/latest/serving/distributed_serving.html) + +Ek olarak, geliştirme sürecini takip etmek için şu bağlantıyı inceleyebilirsiniz: +[🔗 vLLM Geliştirme Planı](https://github.com/vllm-project/vllm/issues/11539) + +--- + +### 6.6 AMD GPU'lar için Tavsiye Edilen Çıkarım İşlevselliği + +AMD ekibiyle yapılan iş birliği sayesinde, DeepSeek-V3 modeli **FP8 ve BF16 hassasiyetiyle** AMD GPU'larda çalıştırılabilmektedir. Bu destek **SGLang** üzerinden sağlanmaktadır. + +Ayrıntılı rehber için buraya göz atabilirsiniz: +[🔗 SGLang AMD GPU Talimatları](#63-inference-with-lmdeploy-recommended) + +--- + +### 6.7 Huawei Ascend NPU’lar için Tavsiye Edilen Çıkarım İşlevselliği + +Huawei Ascend topluluğunun geliştirdiği [MindIE](https://www.hiascend.com/en/software/mindie) çerçevesi, **BF16 versiyonunda DeepSeek-V3** modelini başarıyla adapte etmiştir. + +Huawei Ascend NPU'larda çalıştırma adımları için buraya göz atabilirsiniz: +[🔗 MindIE DeepSeek-V3 Talimatları](https://modelers.cn/models/MindIE/deepseekv3) + +--- + +## 7. Lisans + +Bu kod deposu [MIT Lisansı](LICENSE-CODE) altında lisanslanmıştır. +DeepSeek-V3 Base/Chat modellerinin kullanımı [Model Lisansı](LICENSE-MODEL) hükümlerine tabidir. +DeepSeek-V3 serisi (Base ve Chat dahil) ticari kullanımı desteklemektedir. + +--- + +## 8. Atıf + +Bu çalışmayı aşağıdaki gibi atıfta bulunarak referans verebilirsiniz: + +``` +@misc{deepseekai2024deepseekv3technicalreport, + title={DeepSeek-V3 Technical Report}, + author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan}, + year={2024}, + eprint={2412.19437}, + archivePrefix={arXiv}, + primaryClass={cs.CL}, + url={https://arxiv.org/abs/2412.19437}, +} +``` + +Eğer bu modeli veya içindeki teknikleri araştırmanızda kullanıyorsanız, lütfen yukarıdaki referansı ekleyerek atıfta bulunun. + +--- + +## 9. İletişim + +Herhangi bir sorunuz varsa, lütfen bir **issue** açın veya bizimle iletişime geçin: +📧 [service@deepseek.com](service@deepseek.com) + +``` +Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. +@can-deliktas +``` diff --git a/languages/turkish/README_WEIGHTS_Turkish.md b/languages/turkish/README_WEIGHTS_Turkish.md new file mode 100644 index 0000000..a546f07 --- /dev/null +++ b/languages/turkish/README_WEIGHTS_Turkish.md @@ -0,0 +1,98 @@ +# DeepSeek-V3 Ağırlık Dosyası Dokümantasyonu + +## `config.json` İçindeki Yeni Alanlar + +- **model_type**: Model türünü belirtir, bu sürümde `deepseek_v3` olarak güncellenmiştir. +- **num_nextn_predict_layers**: Çoklu Token Tahmin (MTP) Modüllerinin sayısını belirtir. Açık kaynaklı V3 ağırlıkları **1 MTP Modülü** içerir. +- **quantization_config**: FP8 kuantizasyonu için yapılandırmayı tanımlar. + +--- + +## Ağırlık Yapısı Genel Bakış + +DeepSeek-V3 ağırlık dosyası iki ana bileşenden oluşur: **Ana Model Ağırlıkları** ve **MTP Modülleri**. + +### 1. Ana Model Ağırlıkları + +- **Bileşenler**: + - Giriş/çıkış gömme katmanları ve toplam 61 Transformer gizli katmanı. +- **Parametre Sayısı**: + - Toplam parametreler: **671B** + - Aktivasyon parametreleri: **36.7B** (0.9B Gömme ve 0.9B Çıkış Kafası dahil). + +#### Yapısal Detaylar + +- **Gömme Katmanı**: + - `model.embed_tokens.weight` +- **Transformer Gizli Katmanları**: + - `model.layers.0` - `model.layers.60`, toplamda `num_hidden_layers` katman. +- **Çıkış Katmanı**: + - `model.norm.weight` + - `lm_head.weight` + +### 2. Çoklu Token Tahmin (MTP) Modülleri + +- **Bileşenler**: + - `num_nextn_predict_layers` alanı tarafından tanımlanan ek MTP Modülleri. Bu modelde değer **1** olarak ayarlanmıştır. +- **Parametre Sayısı**: + - **11.5B benzersiz parametre**, (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası hariç). + - Aktivasyon parametreleri: **2.4B** (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası dahil). + +#### Yapısal Detaylar + +- **embed_tokens**: **Ana Model ağırlıklarının Gömme katmanı ile parametreleri paylaşır**. +- **enorm & hnorm**: Spekülatif kod çözme için gerekli olan RMSNorm parametreleri. +- **eh_proj**: Norm sonuçları üzerinde boyut indirgeme projeksiyon parametreleri. +- **Ek Transformer Gizli Katmanı**: + - `model.layers.61.self_attn & mlp` (Ana Model gizli katmanlarıyla aynı yapıdadır). +- **shared_head**: **Ana Model ağırlıklarının Çıkış Kafası ile parametreleri paylaşır**. + +--- + +### Yükleme Kuralları + +- **Ana Model Ağırlıkları**: `config.json` içindeki `num_hidden_layers` parametresi kullanılarak yüklenir. +- **MTP Modülleri**: `num_nextn_predict_layers` parametresi ile yüklenir ve katman kimlikleri Ana Model gizli katmanlarından hemen sonra eklenir. Örneğin: + - Eğer `num_hidden_layers = 61` ve `num_nextn_predict_layers = 1` ise, MTP Modülünün katman kimliği `61` olur. + +--- + +## FP8 Ağırlık Dokümantasyonu + +DeepSeek-V3, 128x128 blok ölçeklendirmesiyle FP8 ağırlık formatını yerel olarak destekler. + +### FP8 Yapılandırması + +FP8 ağırlık dosyası, kuantizasyon yöntemini tanımlayan bir `quantization_config` alanı içerir. Örnek yapılandırma aşağıda verilmiştir: + +```json +"quantization_config": { + "activation_scheme": "dynamic", + "fmt": "e4m3", + "quant_method": "fp8", + "weight_block_size": [128, 128] +} +``` + +- **Kuantizasyon Formatı**: + - Format türü: `fp8` ve `e4m3` (karşılığı `torch.float8_e4m3fn`). + - Ağırlık blok boyutu: `128x128`. +- **Aktivasyon Kuantizasyon Şeması**: + - Dinamik aktivasyon kuantizasyonu kullanır (`dynamic`). + +### De-kuantizasyon Yöntemi + +FP8 ağırlık dosyası, her ağırlık bloğu için de-kuantizasyon ölçeğini depolayan `weight_scale_inv` alanını içerir. + +- **Depolama Formatı**: `float32 Tensor`, ağırlık verileriyle birlikte saklanır. +- **De-kuantizasyon Formülü**: + - Ağırlık bloğu 128’e hizalanmamışsa, önce 128’e sıfır dolgu yapılır, ardından ölçek hesaplanır. Kuantizasyondan sonra dolgu kısmı kaldırılır. + - De-kuantizasyon işlemi şu şekilde gerçekleştirilir: `(128x128 ağırlık bloğu) * weight_scale_inv`. + +FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemleri **token başına 128 kanal granülerliği** ile çevrimiçi kuantizasyona olanak tanır. + +--- +``` +Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. +@can-deliktas +``` From 556c115fff186178cc7ba5d16e76acc30a629530 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:24:07 +0300 Subject: [PATCH 25/29] Delete languages/turkish directory --- languages/turkish/README_Turkish.md | 439 -------------------- languages/turkish/README_WEIGHTS_Turkish.md | 98 ----- 2 files changed, 537 deletions(-) delete mode 100644 languages/turkish/README_Turkish.md delete mode 100644 languages/turkish/README_WEIGHTS_Turkish.md diff --git a/languages/turkish/README_Turkish.md b/languages/turkish/README_Turkish.md deleted file mode 100644 index bd736c4..0000000 --- a/languages/turkish/README_Turkish.md +++ /dev/null @@ -1,439 +0,0 @@ - - - - -
- DeepSeek-V3 -
-
- - - - - - -

- Makale Bağlantısı👁️ -

- -## İçindekiler - -1. [Giriş](#1-giriş) -2. [Model Özeti](#2-model-özeti) -3. [Model İndirmeleri](#3-model-i̇ndirmeleri) -4. [Değerlendirme Sonuçları](#4-değerlendirme-sonuçları) -5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi--api-platformu) -6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) -7. [Lisans](#7-lisans) -8. [Atıf](#8-atıf) -9. [İletişim](#9-i̇letişim) - - -## 1. Giriş - -DeepSeek-V3'ü sunuyoruz: 671 milyar toplam parametreye sahip güçlü bir Mixture-of-Experts (MoE) dil modeli ve her bir token için 37 milyar parametre etkinleştiriliyor. -Verimli çıkarım ve maliyet açısından etkili bir eğitim sağlamak amacıyla DeepSeek-V3, Multi-head Latent Attention (MLA) ve DeepSeekMoE mimarilerini benimser; bu yaklaşımlar DeepSeek-V2'de kapsamlı şekilde doğrulanmıştır. -Bunun yanı sıra, DeepSeek-V3, yük dengeleme için yardımcı kayıpsız (auxiliary-loss-free) bir strateji geliştirerek öncülük eder ve daha güçlü performans için çoklu token tahminine dayalı bir eğitim hedefi belirler. - -DeepSeek-V3, 14.8 trilyon çeşitlendirilmiş ve yüksek kaliteli token üzerinde ön eğitimden geçirilmiş olup, ardından Denetimli İnce Ayar (Supervised Fine-Tuning) ve Takviyeli Öğrenme (Reinforcement Learning) aşamalarından geçirilerek yetenekleri tam anlamıyla optimize edilmiştir. -Kapsamlı değerlendirmeler, DeepSeek-V3'ün diğer açık kaynak modellerini geride bıraktığını ve önde gelen kapalı kaynak modellerle karşılaştırılabilir bir performans sergilediğini göstermektedir. - -Üstün performansına rağmen, DeepSeek-V3'ün tam eğitimi yalnızca **2.788 milyon H800 GPU saati** gerektirmektedir. -Buna ek olarak, eğitim süreci son derece kararlıdır. -Tüm eğitim süreci boyunca **geri döndürülemeyen kayıp artışları yaşanmadı ve herhangi bir geri alma (rollback) işlemi gerçekleştirilmedi**. - -

- -

- -## 2. Model Özeti - ---- - -**Mimari: Yenilikçi Yük Dengeleme Stratejisi ve Eğitim Hedefi** - -- DeepSeek-V2'nin verimli mimarisinin üzerine, **yardımcı kayıpsız (auxiliary-loss-free) bir yük dengeleme stratejisi** geliştirerek öncülük ediyoruz. - Bu yaklaşım, yük dengelemenin teşvik edilmesinden kaynaklanan **performans kaybını en aza indirir**. -- **Çoklu Token Tahmini (Multi-Token Prediction - MTP)** hedefini araştırıyor ve bunun model performansı açısından faydalı olduğunu kanıtlıyoruz. - Ayrıca, bu yöntem **çıkarım sürecini hızlandırmak için spekülatif kod çözmede (speculative decoding) de kullanılabilir**. - ---- -**Ön Eğitim: En Üst Düzey Eğitim Verimliliğine Doğru** - -- **FP8 karma hassasiyetli eğitim çerçevesi** tasarladık ve **ilk kez** FP8 eğitiminin **son derece büyük ölçekli bir modelde uygulanabilirliğini ve etkinliğini doğruladık**. -- **Algoritmalar, çerçeveler ve donanımların ortak tasarımı** sayesinde, düğümler arası **MoE eğitimindeki iletişim darboğazını** aştık ve neredeyse **tam hesaplama-iletişim örtüşmesi** sağladık. - Bu, eğitim verimliliğimizi önemli ölçüde artırırken **eğitim maliyetlerini düşürerek** model boyutunu ek maliyet olmadan daha da ölçeklendirmemize olanak tanır. -- **Sadece 2.664 milyon H800 GPU saati** gibi ekonomik bir maliyetle, DeepSeek-V3'ün 14.8 trilyon token üzerinde ön eğitimini tamamladık ve **mevcut en güçlü açık kaynaklı temel modeli ürettik**. - Ön eğitim sonrası aşamalar ise **yalnızca 0.1 milyon GPU saati gerektirir**. - ---- - -**Son Eğitim: DeepSeek-R1'den Bilgi Aktarımı** - -- **Uzun Zincirleme Düşünme (Chain-of-Thought - CoT) modelinin** akıl yürütme yeteneklerini, özellikle **DeepSeek R1 serisi modellerinden biri üzerinden**, standart büyük dil modellerine (LLM) ve özellikle DeepSeek-V3'e aktarmak için yenilikçi bir yöntem geliştirdik. -- **Doğrulama ve yansıtma (reflection) desenlerini** R1'den DeepSeek-V3'e **şık bir şekilde entegre eden** bu süreç, modelin **akıl yürütme performansını önemli ölçüde artırırken**, **çıktı stilini ve uzunluğunu da kontrol altında tutmamıza** olanak tanır. - ---- - - -## 3. Model İndirmeleri - -
- -| **Model** | **#Toplam Parametreler** | **#Etkin Parametreler** | **Bağlam uzunluğu** | **İndirme** | -| :------------: | :------------: | :------------: | :------------: | :------------: | -| DeepSeek-V3-Base | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) | -| DeepSeek-V3 | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3) | - -
- -> [!NOTE] -> **Hugging Face üzerindeki DeepSeek-V3 modellerinin toplam boyutu 685B'dir.** -> Bu, **671B Ana Model ağırlıklarını** ve **14B Çoklu Token Tahmini (MTP) Modülü ağırlıklarını** içerir. - -**Optimum performans ve esneklik sağlamak** için açık kaynak toplulukları ve donanım sağlayıcılarıyla iş birliği yaparak **modeli yerel olarak çalıştırmak için çeşitli yöntemler sunduk**. -Adım adım rehberlik için **Bölüm 6: [Nasıl Yerel Çalıştırılır](#6-how-to-run-locally)** kısmına göz atabilirsiniz. - -**Daha derin teknik ayrıntılarla ilgilenen geliştiriciler için**, -**Ana Model ağırlıkları ve Çoklu Token Tahmini (MTP) Modülleri hakkında detaylı bilgileri** içeren -[README_WEIGHTS.md](./README_WEIGHTS.md) dosyasını incelemenizi öneririz. - -Lütfen unutmayın: **MTP desteği şu anda topluluk tarafından aktif olarak geliştirilmektedir**. -**Katkılarınızı ve geri bildirimlerinizi memnuniyetle karşılıyoruz!** - ---- - -## 4. Değerlendirme Sonuçları -### Temel Model -#### Standart Kıyaslamalar - - -
- - -| | Performans Değerlendirmesi (Metrik) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | -|---|-------------------|----------|--------|-------------|---------------|---------| -| | Architecture | - | MoE | Dense | Dense | MoE | -| | # Activated Params | - | 21B | 72B | 405B | 37B | -| | # Total Params | - | 236B | 72B | 405B | 671B | -| English | Pile-test (BPB) | - | 0.606 | 0.638 | **0.542** | 0.548 | -| | BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | **87.5** | -| | MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | **87.1** | -| | MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | **86.2** | -| | MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | **64.4** | -| | DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | **89.0** | -| | ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | **98.9** | -| | ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | **95.3** | **95.3** | -| | HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | **89.2** | 88.9 | -| | PIQA (Acc.) | 0-shot | 83.9 | 82.6 | **85.9** | 84.7 | -| | WinoGrande (Acc.) | 5-shot | **86.3** | 82.3 | 85.2 | 84.9 | -| | RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | **74.2** | 67.1 | -| | RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | **56.8** | 51.3 | -| | TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | **82.9** | -| | NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | **41.5** | 40.0 | -| | AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | **79.6** | -| Code | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | **65.2** | -| | MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | **75.4** | -| | LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | **19.4** | -| | CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | **67.3** | -| | CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | **69.8** | -| Math | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | **89.3** | -| | MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | **61.6** | -| | MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | **79.8** | -| | CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | **90.7** | -| Chinese | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | **83.0** | 82.7 | -| | C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | **90.1** | -| | CMMLU (Acc.) | 5-shot | 84.0 | **89.5** | 73.7 | 88.8 | -| | CMRC (EM) | 1-shot | **77.4** | 75.8 | 76.0 | 76.3 | -| | C3 (Acc.) | 0-shot | 77.4 | 76.7 | **79.7** | 78.6 | -| | CCPM (Acc.) | 0-shot | **93.0** | 88.5 | 78.6 | 92.0 | -| Multilingual | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | **79.4** | - -
- -> [!NOTE] -> **En iyi sonuçlar kalın olarak gösterilmiştir.** -> **Aralarındaki fark 0.3'ü geçmeyen skorlar aynı seviyede kabul edilir.** -> **DeepSeek-V3, özellikle matematik ve kodlama görevlerinde olmak üzere, çoğu kıyaslamada en iyi performansı sergilemektedir.** -> **Daha fazla değerlendirme detayı için lütfen makalemize göz atın.** - -#### Bağlam penceresi -

- -

- -**"Needle In A Haystack" (NIAH) testlerindeki değerlendirme sonuçları.** -DeepSeek-V3, **128K** bağlam penceresine kadar tüm uzunluklarda iyi performans göstermektedir. - -### Sohbet Modeli -#### Standart Kıyaslamalar (67B'den büyük modeller) -
- -| | **Performans Değerlendirmesi (Metrik)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | -|---|---------------------|---------------------|----------------------|---------------------|----------------------|---------------------------|----------------|----------------| -| | Architecture | MoE | MoE | Dense | Dense | - | - | MoE | -| | # Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | -| | # Total Params | 236B | 236B | 72B | 405B | - | - | 671B | -| English | MMLU (EM) | 78.2 | 80.6 | 85.3 | **88.6** | **88.3** | 87.2 | **88.5** | -| | MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | **88.9** | 88.0 | **89.1** | -| | MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | **78.0** | 72.6 | 75.9 | -| | DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | **91.6** | -| | IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | **86.5** | 84.3 | 86.1 | -| | GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | **65.0** | 49.9 | 59.1 | -| | SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | **38.2** | 24.9 | -| | FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | **80.5** | 73.3 | -| | LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | **48.7** | -| Code | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | **82.6** | -| | LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | **40.5** | -| | LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | **37.6** | -| | Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | **51.6** | -| | SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | **50.8** | 38.8 | 42.0 | -| | Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | **84.2** | 72.9 | 79.7 | -| | Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | **49.6** | -| Math | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 | **39.2** | -| | MATH-500 (EM) | 56.3 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | **90.2** | -| | CNMO 2024 (Pass@1) | 2.8 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | **43.2** | -| Chinese | CLUEWSC (EM) | 89.9 | 90.4 | **91.4** | 84.7 | 85.4 | 87.9 | 90.9 | -| | C-Eval (EM) | 78.6 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | **86.5** | -| | C-SimpleQA (Correct) | 48.5 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 | **64.8** | - -
- -> [!NOTE] -> **Tüm modeller, çıktı uzunluğunu 8K ile sınırlayan bir yapılandırmada değerlendirilmiştir.** -> **1000'den az örnek içeren kıyaslamalar, sağlam nihai sonuçlar elde etmek için farklı sıcaklık ayarları kullanılarak birden fazla kez test edilmiştir.** -> **DeepSeek-V3, en iyi performans gösteren açık kaynak model olup, aynı zamanda öncü kapalı kaynak modellerle de rekabetçi bir performans sergilemektedir.** - -#### Açık Uçlu Üretim Değerlendirmesi - -
- - - -| Model | Arena-Hard | AlpacaEval 2.0 | -|-------|------------|----------------| -| DeepSeek-V2.5-0905 | 76.2 | 50.5 | -| Qwen2.5-72B-Instruct | 81.2 | 49.1 | -| LLaMA-3.1 405B | 69.3 | 40.5 | -| GPT-4o-0513 | 80.4 | 51.1 | -| Claude-Sonnet-3.5-1022 | 85.2 | 52.0 | -| DeepSeek-V3 | **85.5** | **70.0** | - -
-> [!NOTE] -> **İngilizce açık uçlu konuşma değerlendirmeleri.** -> **AlpacaEval 2.0 için, metrik olarak uzunluk kontrollü kazanma oranını kullanıyoruz.** - -## 5. Sohbet Web Sitesi & API Platformu - -DeepSeek-V3 ile sohbet etmek için DeepSeek’in resmi web sitesini ziyaret edebilirsiniz: -[chat.deepseek.com](https://chat.deepseek.com/sign_in) - -Ayrıca, OpenAI uyumlu API’mizi DeepSeek Platformunda sağlıyoruz: -[platform.deepseek.com](https://platform.deepseek.com/) - -## 6. Yerel Olarak Nasıl Çalıştırılır - -DeepSeek-V3 aşağıdaki donanım ve açık kaynak topluluk yazılımları kullanılarak yerel olarak dağıtılabilir: - -1. **DeepSeek-Infer Demo**: FP8 ve BF16 çıkarımı için basit ve hafif bir demo sağlıyoruz. -2. **SGLang**: DeepSeek-V3 modelini hem BF16 hem de FP8 çıkarım modlarında tamamen destekler, Multi-Token Prediction ise [yakında geliyor](https://github.com/sgl-project/sglang/issues/2591). -3. **LMDeploy**: Yerel ve bulut dağıtımı için verimli FP8 ve BF16 çıkarımına olanak tanır. -4. **TensorRT-LLM**: Şu anda BF16 çıkarımını ve INT4/8 nicemlemeyi destekler, FP8 desteği yakında eklenecektir. -5. **vLLM**: Tensor paralelliği ve ardışık işlem paralelliği için DeepSeek-V3 modelini FP8 ve BF16 modlarında destekler. -6. **AMD GPU**: DeepSeek-V3 modelinin AMD GPU’lar üzerinde SGLang aracılığıyla BF16 ve FP8 modlarında çalıştırılmasını sağlar. -7. **Huawei Ascend NPU**: DeepSeek-V3 modelinin Huawei Ascend cihazlarında çalıştırılmasını destekler. - -FP8 eğitimi çerçevemizde yerel olarak kullanıldığı için, yalnızca FP8 ağırlıklarını sağlıyoruz. -Deneyleriniz için BF16 ağırlıklarına ihtiyacınız varsa, sağlanan dönüştürme betiğini kullanarak dönüşümü gerçekleştirebilirsiniz. - -FP8 ağırlıklarını BF16'ya dönüştürme örneği: - -```shell -cd inference -python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights -``` -> [!NOTE] -> Hugging Face'in Transformers kütüphanesi henüz doğrudan desteklenmemektedir. - -### 6.1 DeepSeek-Infer Demo ile Çıkarım (sadece örnek) - -#### Sistem Gereksinimleri - -> [!NOTE] -> **Yalnızca Python 3.10 ile Linux desteklenmektedir.** -> **Mac ve Windows desteklenmemektedir.** - -Bağımlılıklar: -```pip-requirements -torch==2.4.1 -triton==3.0.0 -transformers==4.46.3 -safetensors==0.4.5 -``` -#### Model Ağırlıkları ve Demo Kodunun Hazırlanması - -Öncelikle, DeepSeek-V3 GitHub deposunu klonlayın: -```shell -git clone https://github.com/deepseek-ai/DeepSeek-V3.git -``` - -`inference` klasörüne gidin ve `requirements.txt` dosyasında listelenen bağımlılıkları yükleyin. -En kolay yöntem, `conda` veya `uv` gibi bir paket yöneticisi kullanarak yeni bir sanal ortam oluşturmak ve bağıml - - -```shell -cd DeepSeek-V3/inference -pip install -r requirements.txt -``` - -Model ağırlıklarını Hugging Face'den indirin ve `/path/to/DeepSeek-V3` klasörüne yerleştirin. - -#### Model Ağırlıklarını Dönüştürme - -Hugging Face model ağırlıklarını belirli bir formata dönüştürün: - -```shell -python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16 -``` - -#### Çalıştırma - -Ardından DeepSeek-V3 ile sohbet edebilirsiniz: - -```shell -torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200 -``` -Veya belirli bir dosyada toplu çıkarım: - -```shell -torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE -``` - -### 6.2 SGLang ile Çıkarım (Tavsiye Edilir) - -[SGLang](https://github.com/sgl-project/sglang) şu anda [MLA optimizasyonları](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations), [DP Attention](https://lmsys.org/blog/2024-12-04-sglang-v0-4/#data-parallelism-attention-for-deepseek-models), FP8 (W8A8), FP8 KV Önbelleği ve Torch Compile'ı destekleyerek açık kaynaklı çerçeveler arasında en iyi gecikme süresi ve verimlilik performansını sunmaktadır. - -Özellikle, [SGLang v0.4.1](https://github.com/sgl-project/sglang/releases/tag/v0.4.1), **NVIDIA ve AMD GPU'larda** DeepSeek-V3 çalıştırmayı tamamen destekleyerek onu son derece esnek ve sağlam bir çözüm hâline getirmektedir. - -SGLang ayrıca [çoklu düğüm tensör paralelliğini](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-2-h208) destekleyerek, bu modeli ağ bağlantılı birden fazla makinede çalıştırmanıza olanak tanır. - -Çoklu Token Tahmini (MTP) hâlâ geliştirme aşamasında olup ilerlemeyi [optimizasyon planı](https://github.com/sgl-project/sglang/issues/2591) üzerinden takip edebilirsiniz. - -SGLang ekibi tarafından sağlanan başlatma talimatlarına buradan ulaşabilirsiniz: -[🔗 SGLang DeepSeek-V3 Çıkarım Talimatları](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3) - ---- - -### 6.3 LMDeploy ile Çıkarım (Tavsiye Edilir) - -[LMDeploy](https://github.com/InternLM/lmdeploy), büyük dil modelleri için esnek ve yüksek performanslı bir çıkarım ve sunum çerçevesidir. DeepSeek-V3 desteği sunarak hem çevrimdışı işlem hattı işleme hem de çevrimiçi dağıtım özellikleri sağlar ve PyTorch tabanlı iş akışlarıyla sorunsuz entegrasyon sunar. - -DeepSeek-V3'ü LMDeploy ile çalıştırma adımları için ayrıntılı kılavuza buradan ulaşabilirsiniz: -[🔗 LMDeploy Çıkarım Talimatları](https://github.com/InternLM/lmdeploy/issues/2960) - ---- - -### 6.4 TRT-LLM ile Çıkarım (Tavsiye Edilir) - -[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM), DeepSeek-V3 modelini desteklemekte olup **BF16 ve INT4/INT8 ağırlık hassasiyeti** seçenekleri sunmaktadır. FP8 desteği şu anda geliştirilmekte olup yakında yayınlanacaktır. - -DeepSeek-V3 için özel olarak oluşturulmuş TRT-LLM dalına buradan erişerek yeni özellikleri doğrudan deneyimleyebilirsiniz: -[🔗 TensorRT-LLM DeepSeek-V3 Desteği](https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3) - ---- - -### 6.5 vLLM ile Çıkarım (Tavsiye Edilir) - -[vLLM](https://github.com/vllm-project/vllm) v0.6.6, **NVIDIA ve AMD GPU'larında FP8 ve BF16 modlarında** DeepSeek-V3 çıkarımını destekler. Standart tekniklerin yanı sıra, vLLM **boru hattı paralelliği (pipeline parallelism)** de sunarak modeli birden fazla ağa bağlı makinede çalıştırmanıza olanak tanır. - -Ayrıntılı rehber için buraya göz atabilirsiniz: -[🔗 vLLM Dağıtılmış Sunum Talimatları](https://docs.vllm.ai/en/latest/serving/distributed_serving.html) - -Ek olarak, geliştirme sürecini takip etmek için şu bağlantıyı inceleyebilirsiniz: -[🔗 vLLM Geliştirme Planı](https://github.com/vllm-project/vllm/issues/11539) - ---- - -### 6.6 AMD GPU'lar için Tavsiye Edilen Çıkarım İşlevselliği - -AMD ekibiyle yapılan iş birliği sayesinde, DeepSeek-V3 modeli **FP8 ve BF16 hassasiyetiyle** AMD GPU'larda çalıştırılabilmektedir. Bu destek **SGLang** üzerinden sağlanmaktadır. - -Ayrıntılı rehber için buraya göz atabilirsiniz: -[🔗 SGLang AMD GPU Talimatları](#63-inference-with-lmdeploy-recommended) - ---- - -### 6.7 Huawei Ascend NPU’lar için Tavsiye Edilen Çıkarım İşlevselliği - -Huawei Ascend topluluğunun geliştirdiği [MindIE](https://www.hiascend.com/en/software/mindie) çerçevesi, **BF16 versiyonunda DeepSeek-V3** modelini başarıyla adapte etmiştir. - -Huawei Ascend NPU'larda çalıştırma adımları için buraya göz atabilirsiniz: -[🔗 MindIE DeepSeek-V3 Talimatları](https://modelers.cn/models/MindIE/deepseekv3) - ---- - -## 7. Lisans - -Bu kod deposu [MIT Lisansı](LICENSE-CODE) altında lisanslanmıştır. -DeepSeek-V3 Base/Chat modellerinin kullanımı [Model Lisansı](LICENSE-MODEL) hükümlerine tabidir. -DeepSeek-V3 serisi (Base ve Chat dahil) ticari kullanımı desteklemektedir. - ---- - -## 8. Atıf - -Bu çalışmayı aşağıdaki gibi atıfta bulunarak referans verebilirsiniz: - -``` -@misc{deepseekai2024deepseekv3technicalreport, - title={DeepSeek-V3 Technical Report}, - author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan}, - year={2024}, - eprint={2412.19437}, - archivePrefix={arXiv}, - primaryClass={cs.CL}, - url={https://arxiv.org/abs/2412.19437}, -} -``` - -Eğer bu modeli veya içindeki teknikleri araştırmanızda kullanıyorsanız, lütfen yukarıdaki referansı ekleyerek atıfta bulunun. - ---- - -## 9. İletişim - -Herhangi bir sorunuz varsa, lütfen bir **issue** açın veya bizimle iletişime geçin: -📧 [service@deepseek.com](service@deepseek.com) - -``` -Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. -@can-deliktas -``` diff --git a/languages/turkish/README_WEIGHTS_Turkish.md b/languages/turkish/README_WEIGHTS_Turkish.md deleted file mode 100644 index a546f07..0000000 --- a/languages/turkish/README_WEIGHTS_Turkish.md +++ /dev/null @@ -1,98 +0,0 @@ -# DeepSeek-V3 Ağırlık Dosyası Dokümantasyonu - -## `config.json` İçindeki Yeni Alanlar - -- **model_type**: Model türünü belirtir, bu sürümde `deepseek_v3` olarak güncellenmiştir. -- **num_nextn_predict_layers**: Çoklu Token Tahmin (MTP) Modüllerinin sayısını belirtir. Açık kaynaklı V3 ağırlıkları **1 MTP Modülü** içerir. -- **quantization_config**: FP8 kuantizasyonu için yapılandırmayı tanımlar. - ---- - -## Ağırlık Yapısı Genel Bakış - -DeepSeek-V3 ağırlık dosyası iki ana bileşenden oluşur: **Ana Model Ağırlıkları** ve **MTP Modülleri**. - -### 1. Ana Model Ağırlıkları - -- **Bileşenler**: - - Giriş/çıkış gömme katmanları ve toplam 61 Transformer gizli katmanı. -- **Parametre Sayısı**: - - Toplam parametreler: **671B** - - Aktivasyon parametreleri: **36.7B** (0.9B Gömme ve 0.9B Çıkış Kafası dahil). - -#### Yapısal Detaylar - -- **Gömme Katmanı**: - - `model.embed_tokens.weight` -- **Transformer Gizli Katmanları**: - - `model.layers.0` - `model.layers.60`, toplamda `num_hidden_layers` katman. -- **Çıkış Katmanı**: - - `model.norm.weight` - - `lm_head.weight` - -### 2. Çoklu Token Tahmin (MTP) Modülleri - -- **Bileşenler**: - - `num_nextn_predict_layers` alanı tarafından tanımlanan ek MTP Modülleri. Bu modelde değer **1** olarak ayarlanmıştır. -- **Parametre Sayısı**: - - **11.5B benzersiz parametre**, (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası hariç). - - Aktivasyon parametreleri: **2.4B** (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası dahil). - -#### Yapısal Detaylar - -- **embed_tokens**: **Ana Model ağırlıklarının Gömme katmanı ile parametreleri paylaşır**. -- **enorm & hnorm**: Spekülatif kod çözme için gerekli olan RMSNorm parametreleri. -- **eh_proj**: Norm sonuçları üzerinde boyut indirgeme projeksiyon parametreleri. -- **Ek Transformer Gizli Katmanı**: - - `model.layers.61.self_attn & mlp` (Ana Model gizli katmanlarıyla aynı yapıdadır). -- **shared_head**: **Ana Model ağırlıklarının Çıkış Kafası ile parametreleri paylaşır**. - ---- - -### Yükleme Kuralları - -- **Ana Model Ağırlıkları**: `config.json` içindeki `num_hidden_layers` parametresi kullanılarak yüklenir. -- **MTP Modülleri**: `num_nextn_predict_layers` parametresi ile yüklenir ve katman kimlikleri Ana Model gizli katmanlarından hemen sonra eklenir. Örneğin: - - Eğer `num_hidden_layers = 61` ve `num_nextn_predict_layers = 1` ise, MTP Modülünün katman kimliği `61` olur. - ---- - -## FP8 Ağırlık Dokümantasyonu - -DeepSeek-V3, 128x128 blok ölçeklendirmesiyle FP8 ağırlık formatını yerel olarak destekler. - -### FP8 Yapılandırması - -FP8 ağırlık dosyası, kuantizasyon yöntemini tanımlayan bir `quantization_config` alanı içerir. Örnek yapılandırma aşağıda verilmiştir: - -```json -"quantization_config": { - "activation_scheme": "dynamic", - "fmt": "e4m3", - "quant_method": "fp8", - "weight_block_size": [128, 128] -} -``` - -- **Kuantizasyon Formatı**: - - Format türü: `fp8` ve `e4m3` (karşılığı `torch.float8_e4m3fn`). - - Ağırlık blok boyutu: `128x128`. -- **Aktivasyon Kuantizasyon Şeması**: - - Dinamik aktivasyon kuantizasyonu kullanır (`dynamic`). - -### De-kuantizasyon Yöntemi - -FP8 ağırlık dosyası, her ağırlık bloğu için de-kuantizasyon ölçeğini depolayan `weight_scale_inv` alanını içerir. - -- **Depolama Formatı**: `float32 Tensor`, ağırlık verileriyle birlikte saklanır. -- **De-kuantizasyon Formülü**: - - Ağırlık bloğu 128’e hizalanmamışsa, önce 128’e sıfır dolgu yapılır, ardından ölçek hesaplanır. Kuantizasyondan sonra dolgu kısmı kaldırılır. - - De-kuantizasyon işlemi şu şekilde gerçekleştirilir: `(128x128 ağırlık bloğu) * weight_scale_inv`. - -FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemleri **token başına 128 kanal granülerliği** ile çevrimiçi kuantizasyona olanak tanır. - ---- -``` -Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. -@can-deliktas -``` From 6b1cd5993a064a4c0eb10154c8f14f4c2671db6d Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:26:21 +0300 Subject: [PATCH 26/29] Create README_Turkish.md --- languages/turkish/README_Turkish.md | 439 ++++++++++++++++++++++++++++ 1 file changed, 439 insertions(+) create mode 100644 languages/turkish/README_Turkish.md diff --git a/languages/turkish/README_Turkish.md b/languages/turkish/README_Turkish.md new file mode 100644 index 0000000..bd736c4 --- /dev/null +++ b/languages/turkish/README_Turkish.md @@ -0,0 +1,439 @@ + + + + +
+ DeepSeek-V3 +
+
+ + + + + + +

+ Makale Bağlantısı👁️ +

+ +## İçindekiler + +1. [Giriş](#1-giriş) +2. [Model Özeti](#2-model-özeti) +3. [Model İndirmeleri](#3-model-i̇ndirmeleri) +4. [Değerlendirme Sonuçları](#4-değerlendirme-sonuçları) +5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi--api-platformu) +6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) +7. [Lisans](#7-lisans) +8. [Atıf](#8-atıf) +9. [İletişim](#9-i̇letişim) + + +## 1. Giriş + +DeepSeek-V3'ü sunuyoruz: 671 milyar toplam parametreye sahip güçlü bir Mixture-of-Experts (MoE) dil modeli ve her bir token için 37 milyar parametre etkinleştiriliyor. +Verimli çıkarım ve maliyet açısından etkili bir eğitim sağlamak amacıyla DeepSeek-V3, Multi-head Latent Attention (MLA) ve DeepSeekMoE mimarilerini benimser; bu yaklaşımlar DeepSeek-V2'de kapsamlı şekilde doğrulanmıştır. +Bunun yanı sıra, DeepSeek-V3, yük dengeleme için yardımcı kayıpsız (auxiliary-loss-free) bir strateji geliştirerek öncülük eder ve daha güçlü performans için çoklu token tahminine dayalı bir eğitim hedefi belirler. + +DeepSeek-V3, 14.8 trilyon çeşitlendirilmiş ve yüksek kaliteli token üzerinde ön eğitimden geçirilmiş olup, ardından Denetimli İnce Ayar (Supervised Fine-Tuning) ve Takviyeli Öğrenme (Reinforcement Learning) aşamalarından geçirilerek yetenekleri tam anlamıyla optimize edilmiştir. +Kapsamlı değerlendirmeler, DeepSeek-V3'ün diğer açık kaynak modellerini geride bıraktığını ve önde gelen kapalı kaynak modellerle karşılaştırılabilir bir performans sergilediğini göstermektedir. + +Üstün performansına rağmen, DeepSeek-V3'ün tam eğitimi yalnızca **2.788 milyon H800 GPU saati** gerektirmektedir. +Buna ek olarak, eğitim süreci son derece kararlıdır. +Tüm eğitim süreci boyunca **geri döndürülemeyen kayıp artışları yaşanmadı ve herhangi bir geri alma (rollback) işlemi gerçekleştirilmedi**. + +

+ +

+ +## 2. Model Özeti + +--- + +**Mimari: Yenilikçi Yük Dengeleme Stratejisi ve Eğitim Hedefi** + +- DeepSeek-V2'nin verimli mimarisinin üzerine, **yardımcı kayıpsız (auxiliary-loss-free) bir yük dengeleme stratejisi** geliştirerek öncülük ediyoruz. + Bu yaklaşım, yük dengelemenin teşvik edilmesinden kaynaklanan **performans kaybını en aza indirir**. +- **Çoklu Token Tahmini (Multi-Token Prediction - MTP)** hedefini araştırıyor ve bunun model performansı açısından faydalı olduğunu kanıtlıyoruz. + Ayrıca, bu yöntem **çıkarım sürecini hızlandırmak için spekülatif kod çözmede (speculative decoding) de kullanılabilir**. + +--- +**Ön Eğitim: En Üst Düzey Eğitim Verimliliğine Doğru** + +- **FP8 karma hassasiyetli eğitim çerçevesi** tasarladık ve **ilk kez** FP8 eğitiminin **son derece büyük ölçekli bir modelde uygulanabilirliğini ve etkinliğini doğruladık**. +- **Algoritmalar, çerçeveler ve donanımların ortak tasarımı** sayesinde, düğümler arası **MoE eğitimindeki iletişim darboğazını** aştık ve neredeyse **tam hesaplama-iletişim örtüşmesi** sağladık. + Bu, eğitim verimliliğimizi önemli ölçüde artırırken **eğitim maliyetlerini düşürerek** model boyutunu ek maliyet olmadan daha da ölçeklendirmemize olanak tanır. +- **Sadece 2.664 milyon H800 GPU saati** gibi ekonomik bir maliyetle, DeepSeek-V3'ün 14.8 trilyon token üzerinde ön eğitimini tamamladık ve **mevcut en güçlü açık kaynaklı temel modeli ürettik**. + Ön eğitim sonrası aşamalar ise **yalnızca 0.1 milyon GPU saati gerektirir**. + +--- + +**Son Eğitim: DeepSeek-R1'den Bilgi Aktarımı** + +- **Uzun Zincirleme Düşünme (Chain-of-Thought - CoT) modelinin** akıl yürütme yeteneklerini, özellikle **DeepSeek R1 serisi modellerinden biri üzerinden**, standart büyük dil modellerine (LLM) ve özellikle DeepSeek-V3'e aktarmak için yenilikçi bir yöntem geliştirdik. +- **Doğrulama ve yansıtma (reflection) desenlerini** R1'den DeepSeek-V3'e **şık bir şekilde entegre eden** bu süreç, modelin **akıl yürütme performansını önemli ölçüde artırırken**, **çıktı stilini ve uzunluğunu da kontrol altında tutmamıza** olanak tanır. + +--- + + +## 3. Model İndirmeleri + +
+ +| **Model** | **#Toplam Parametreler** | **#Etkin Parametreler** | **Bağlam uzunluğu** | **İndirme** | +| :------------: | :------------: | :------------: | :------------: | :------------: | +| DeepSeek-V3-Base | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) | +| DeepSeek-V3 | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3) | + +
+ +> [!NOTE] +> **Hugging Face üzerindeki DeepSeek-V3 modellerinin toplam boyutu 685B'dir.** +> Bu, **671B Ana Model ağırlıklarını** ve **14B Çoklu Token Tahmini (MTP) Modülü ağırlıklarını** içerir. + +**Optimum performans ve esneklik sağlamak** için açık kaynak toplulukları ve donanım sağlayıcılarıyla iş birliği yaparak **modeli yerel olarak çalıştırmak için çeşitli yöntemler sunduk**. +Adım adım rehberlik için **Bölüm 6: [Nasıl Yerel Çalıştırılır](#6-how-to-run-locally)** kısmına göz atabilirsiniz. + +**Daha derin teknik ayrıntılarla ilgilenen geliştiriciler için**, +**Ana Model ağırlıkları ve Çoklu Token Tahmini (MTP) Modülleri hakkında detaylı bilgileri** içeren +[README_WEIGHTS.md](./README_WEIGHTS.md) dosyasını incelemenizi öneririz. + +Lütfen unutmayın: **MTP desteği şu anda topluluk tarafından aktif olarak geliştirilmektedir**. +**Katkılarınızı ve geri bildirimlerinizi memnuniyetle karşılıyoruz!** + +--- + +## 4. Değerlendirme Sonuçları +### Temel Model +#### Standart Kıyaslamalar + + +
+ + +| | Performans Değerlendirmesi (Metrik) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | +|---|-------------------|----------|--------|-------------|---------------|---------| +| | Architecture | - | MoE | Dense | Dense | MoE | +| | # Activated Params | - | 21B | 72B | 405B | 37B | +| | # Total Params | - | 236B | 72B | 405B | 671B | +| English | Pile-test (BPB) | - | 0.606 | 0.638 | **0.542** | 0.548 | +| | BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | **87.5** | +| | MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | **87.1** | +| | MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | **86.2** | +| | MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | **64.4** | +| | DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | **89.0** | +| | ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | **98.9** | +| | ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | **95.3** | **95.3** | +| | HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | **89.2** | 88.9 | +| | PIQA (Acc.) | 0-shot | 83.9 | 82.6 | **85.9** | 84.7 | +| | WinoGrande (Acc.) | 5-shot | **86.3** | 82.3 | 85.2 | 84.9 | +| | RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | **74.2** | 67.1 | +| | RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | **56.8** | 51.3 | +| | TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | **82.9** | +| | NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | **41.5** | 40.0 | +| | AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | **79.6** | +| Code | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | **65.2** | +| | MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | **75.4** | +| | LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | **19.4** | +| | CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | **67.3** | +| | CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | **69.8** | +| Math | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | **89.3** | +| | MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | **61.6** | +| | MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | **79.8** | +| | CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | **90.7** | +| Chinese | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | **83.0** | 82.7 | +| | C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | **90.1** | +| | CMMLU (Acc.) | 5-shot | 84.0 | **89.5** | 73.7 | 88.8 | +| | CMRC (EM) | 1-shot | **77.4** | 75.8 | 76.0 | 76.3 | +| | C3 (Acc.) | 0-shot | 77.4 | 76.7 | **79.7** | 78.6 | +| | CCPM (Acc.) | 0-shot | **93.0** | 88.5 | 78.6 | 92.0 | +| Multilingual | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | **79.4** | + +
+ +> [!NOTE] +> **En iyi sonuçlar kalın olarak gösterilmiştir.** +> **Aralarındaki fark 0.3'ü geçmeyen skorlar aynı seviyede kabul edilir.** +> **DeepSeek-V3, özellikle matematik ve kodlama görevlerinde olmak üzere, çoğu kıyaslamada en iyi performansı sergilemektedir.** +> **Daha fazla değerlendirme detayı için lütfen makalemize göz atın.** + +#### Bağlam penceresi +

+ +

+ +**"Needle In A Haystack" (NIAH) testlerindeki değerlendirme sonuçları.** +DeepSeek-V3, **128K** bağlam penceresine kadar tüm uzunluklarda iyi performans göstermektedir. + +### Sohbet Modeli +#### Standart Kıyaslamalar (67B'den büyük modeller) +
+ +| | **Performans Değerlendirmesi (Metrik)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | +|---|---------------------|---------------------|----------------------|---------------------|----------------------|---------------------------|----------------|----------------| +| | Architecture | MoE | MoE | Dense | Dense | - | - | MoE | +| | # Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | +| | # Total Params | 236B | 236B | 72B | 405B | - | - | 671B | +| English | MMLU (EM) | 78.2 | 80.6 | 85.3 | **88.6** | **88.3** | 87.2 | **88.5** | +| | MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | **88.9** | 88.0 | **89.1** | +| | MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | **78.0** | 72.6 | 75.9 | +| | DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | **91.6** | +| | IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | **86.5** | 84.3 | 86.1 | +| | GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | **65.0** | 49.9 | 59.1 | +| | SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | **38.2** | 24.9 | +| | FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | **80.5** | 73.3 | +| | LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | **48.7** | +| Code | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | **82.6** | +| | LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | **40.5** | +| | LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | **37.6** | +| | Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | **51.6** | +| | SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | **50.8** | 38.8 | 42.0 | +| | Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | **84.2** | 72.9 | 79.7 | +| | Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | **49.6** | +| Math | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 | **39.2** | +| | MATH-500 (EM) | 56.3 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | **90.2** | +| | CNMO 2024 (Pass@1) | 2.8 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | **43.2** | +| Chinese | CLUEWSC (EM) | 89.9 | 90.4 | **91.4** | 84.7 | 85.4 | 87.9 | 90.9 | +| | C-Eval (EM) | 78.6 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | **86.5** | +| | C-SimpleQA (Correct) | 48.5 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 | **64.8** | + +
+ +> [!NOTE] +> **Tüm modeller, çıktı uzunluğunu 8K ile sınırlayan bir yapılandırmada değerlendirilmiştir.** +> **1000'den az örnek içeren kıyaslamalar, sağlam nihai sonuçlar elde etmek için farklı sıcaklık ayarları kullanılarak birden fazla kez test edilmiştir.** +> **DeepSeek-V3, en iyi performans gösteren açık kaynak model olup, aynı zamanda öncü kapalı kaynak modellerle de rekabetçi bir performans sergilemektedir.** + +#### Açık Uçlu Üretim Değerlendirmesi + +
+ + + +| Model | Arena-Hard | AlpacaEval 2.0 | +|-------|------------|----------------| +| DeepSeek-V2.5-0905 | 76.2 | 50.5 | +| Qwen2.5-72B-Instruct | 81.2 | 49.1 | +| LLaMA-3.1 405B | 69.3 | 40.5 | +| GPT-4o-0513 | 80.4 | 51.1 | +| Claude-Sonnet-3.5-1022 | 85.2 | 52.0 | +| DeepSeek-V3 | **85.5** | **70.0** | + +
+> [!NOTE] +> **İngilizce açık uçlu konuşma değerlendirmeleri.** +> **AlpacaEval 2.0 için, metrik olarak uzunluk kontrollü kazanma oranını kullanıyoruz.** + +## 5. Sohbet Web Sitesi & API Platformu + +DeepSeek-V3 ile sohbet etmek için DeepSeek’in resmi web sitesini ziyaret edebilirsiniz: +[chat.deepseek.com](https://chat.deepseek.com/sign_in) + +Ayrıca, OpenAI uyumlu API’mizi DeepSeek Platformunda sağlıyoruz: +[platform.deepseek.com](https://platform.deepseek.com/) + +## 6. Yerel Olarak Nasıl Çalıştırılır + +DeepSeek-V3 aşağıdaki donanım ve açık kaynak topluluk yazılımları kullanılarak yerel olarak dağıtılabilir: + +1. **DeepSeek-Infer Demo**: FP8 ve BF16 çıkarımı için basit ve hafif bir demo sağlıyoruz. +2. **SGLang**: DeepSeek-V3 modelini hem BF16 hem de FP8 çıkarım modlarında tamamen destekler, Multi-Token Prediction ise [yakında geliyor](https://github.com/sgl-project/sglang/issues/2591). +3. **LMDeploy**: Yerel ve bulut dağıtımı için verimli FP8 ve BF16 çıkarımına olanak tanır. +4. **TensorRT-LLM**: Şu anda BF16 çıkarımını ve INT4/8 nicemlemeyi destekler, FP8 desteği yakında eklenecektir. +5. **vLLM**: Tensor paralelliği ve ardışık işlem paralelliği için DeepSeek-V3 modelini FP8 ve BF16 modlarında destekler. +6. **AMD GPU**: DeepSeek-V3 modelinin AMD GPU’lar üzerinde SGLang aracılığıyla BF16 ve FP8 modlarında çalıştırılmasını sağlar. +7. **Huawei Ascend NPU**: DeepSeek-V3 modelinin Huawei Ascend cihazlarında çalıştırılmasını destekler. + +FP8 eğitimi çerçevemizde yerel olarak kullanıldığı için, yalnızca FP8 ağırlıklarını sağlıyoruz. +Deneyleriniz için BF16 ağırlıklarına ihtiyacınız varsa, sağlanan dönüştürme betiğini kullanarak dönüşümü gerçekleştirebilirsiniz. + +FP8 ağırlıklarını BF16'ya dönüştürme örneği: + +```shell +cd inference +python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights +``` +> [!NOTE] +> Hugging Face'in Transformers kütüphanesi henüz doğrudan desteklenmemektedir. + +### 6.1 DeepSeek-Infer Demo ile Çıkarım (sadece örnek) + +#### Sistem Gereksinimleri + +> [!NOTE] +> **Yalnızca Python 3.10 ile Linux desteklenmektedir.** +> **Mac ve Windows desteklenmemektedir.** + +Bağımlılıklar: +```pip-requirements +torch==2.4.1 +triton==3.0.0 +transformers==4.46.3 +safetensors==0.4.5 +``` +#### Model Ağırlıkları ve Demo Kodunun Hazırlanması + +Öncelikle, DeepSeek-V3 GitHub deposunu klonlayın: +```shell +git clone https://github.com/deepseek-ai/DeepSeek-V3.git +``` + +`inference` klasörüne gidin ve `requirements.txt` dosyasında listelenen bağımlılıkları yükleyin. +En kolay yöntem, `conda` veya `uv` gibi bir paket yöneticisi kullanarak yeni bir sanal ortam oluşturmak ve bağıml + + +```shell +cd DeepSeek-V3/inference +pip install -r requirements.txt +``` + +Model ağırlıklarını Hugging Face'den indirin ve `/path/to/DeepSeek-V3` klasörüne yerleştirin. + +#### Model Ağırlıklarını Dönüştürme + +Hugging Face model ağırlıklarını belirli bir formata dönüştürün: + +```shell +python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16 +``` + +#### Çalıştırma + +Ardından DeepSeek-V3 ile sohbet edebilirsiniz: + +```shell +torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200 +``` +Veya belirli bir dosyada toplu çıkarım: + +```shell +torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE +``` + +### 6.2 SGLang ile Çıkarım (Tavsiye Edilir) + +[SGLang](https://github.com/sgl-project/sglang) şu anda [MLA optimizasyonları](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations), [DP Attention](https://lmsys.org/blog/2024-12-04-sglang-v0-4/#data-parallelism-attention-for-deepseek-models), FP8 (W8A8), FP8 KV Önbelleği ve Torch Compile'ı destekleyerek açık kaynaklı çerçeveler arasında en iyi gecikme süresi ve verimlilik performansını sunmaktadır. + +Özellikle, [SGLang v0.4.1](https://github.com/sgl-project/sglang/releases/tag/v0.4.1), **NVIDIA ve AMD GPU'larda** DeepSeek-V3 çalıştırmayı tamamen destekleyerek onu son derece esnek ve sağlam bir çözüm hâline getirmektedir. + +SGLang ayrıca [çoklu düğüm tensör paralelliğini](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-2-h208) destekleyerek, bu modeli ağ bağlantılı birden fazla makinede çalıştırmanıza olanak tanır. + +Çoklu Token Tahmini (MTP) hâlâ geliştirme aşamasında olup ilerlemeyi [optimizasyon planı](https://github.com/sgl-project/sglang/issues/2591) üzerinden takip edebilirsiniz. + +SGLang ekibi tarafından sağlanan başlatma talimatlarına buradan ulaşabilirsiniz: +[🔗 SGLang DeepSeek-V3 Çıkarım Talimatları](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3) + +--- + +### 6.3 LMDeploy ile Çıkarım (Tavsiye Edilir) + +[LMDeploy](https://github.com/InternLM/lmdeploy), büyük dil modelleri için esnek ve yüksek performanslı bir çıkarım ve sunum çerçevesidir. DeepSeek-V3 desteği sunarak hem çevrimdışı işlem hattı işleme hem de çevrimiçi dağıtım özellikleri sağlar ve PyTorch tabanlı iş akışlarıyla sorunsuz entegrasyon sunar. + +DeepSeek-V3'ü LMDeploy ile çalıştırma adımları için ayrıntılı kılavuza buradan ulaşabilirsiniz: +[🔗 LMDeploy Çıkarım Talimatları](https://github.com/InternLM/lmdeploy/issues/2960) + +--- + +### 6.4 TRT-LLM ile Çıkarım (Tavsiye Edilir) + +[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM), DeepSeek-V3 modelini desteklemekte olup **BF16 ve INT4/INT8 ağırlık hassasiyeti** seçenekleri sunmaktadır. FP8 desteği şu anda geliştirilmekte olup yakında yayınlanacaktır. + +DeepSeek-V3 için özel olarak oluşturulmuş TRT-LLM dalına buradan erişerek yeni özellikleri doğrudan deneyimleyebilirsiniz: +[🔗 TensorRT-LLM DeepSeek-V3 Desteği](https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3) + +--- + +### 6.5 vLLM ile Çıkarım (Tavsiye Edilir) + +[vLLM](https://github.com/vllm-project/vllm) v0.6.6, **NVIDIA ve AMD GPU'larında FP8 ve BF16 modlarında** DeepSeek-V3 çıkarımını destekler. Standart tekniklerin yanı sıra, vLLM **boru hattı paralelliği (pipeline parallelism)** de sunarak modeli birden fazla ağa bağlı makinede çalıştırmanıza olanak tanır. + +Ayrıntılı rehber için buraya göz atabilirsiniz: +[🔗 vLLM Dağıtılmış Sunum Talimatları](https://docs.vllm.ai/en/latest/serving/distributed_serving.html) + +Ek olarak, geliştirme sürecini takip etmek için şu bağlantıyı inceleyebilirsiniz: +[🔗 vLLM Geliştirme Planı](https://github.com/vllm-project/vllm/issues/11539) + +--- + +### 6.6 AMD GPU'lar için Tavsiye Edilen Çıkarım İşlevselliği + +AMD ekibiyle yapılan iş birliği sayesinde, DeepSeek-V3 modeli **FP8 ve BF16 hassasiyetiyle** AMD GPU'larda çalıştırılabilmektedir. Bu destek **SGLang** üzerinden sağlanmaktadır. + +Ayrıntılı rehber için buraya göz atabilirsiniz: +[🔗 SGLang AMD GPU Talimatları](#63-inference-with-lmdeploy-recommended) + +--- + +### 6.7 Huawei Ascend NPU’lar için Tavsiye Edilen Çıkarım İşlevselliği + +Huawei Ascend topluluğunun geliştirdiği [MindIE](https://www.hiascend.com/en/software/mindie) çerçevesi, **BF16 versiyonunda DeepSeek-V3** modelini başarıyla adapte etmiştir. + +Huawei Ascend NPU'larda çalıştırma adımları için buraya göz atabilirsiniz: +[🔗 MindIE DeepSeek-V3 Talimatları](https://modelers.cn/models/MindIE/deepseekv3) + +--- + +## 7. Lisans + +Bu kod deposu [MIT Lisansı](LICENSE-CODE) altında lisanslanmıştır. +DeepSeek-V3 Base/Chat modellerinin kullanımı [Model Lisansı](LICENSE-MODEL) hükümlerine tabidir. +DeepSeek-V3 serisi (Base ve Chat dahil) ticari kullanımı desteklemektedir. + +--- + +## 8. Atıf + +Bu çalışmayı aşağıdaki gibi atıfta bulunarak referans verebilirsiniz: + +``` +@misc{deepseekai2024deepseekv3technicalreport, + title={DeepSeek-V3 Technical Report}, + author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan}, + year={2024}, + eprint={2412.19437}, + archivePrefix={arXiv}, + primaryClass={cs.CL}, + url={https://arxiv.org/abs/2412.19437}, +} +``` + +Eğer bu modeli veya içindeki teknikleri araştırmanızda kullanıyorsanız, lütfen yukarıdaki referansı ekleyerek atıfta bulunun. + +--- + +## 9. İletişim + +Herhangi bir sorunuz varsa, lütfen bir **issue** açın veya bizimle iletişime geçin: +📧 [service@deepseek.com](service@deepseek.com) + +``` +Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. +@can-deliktas +``` From 3bca5239dcbe08b462c22eec6c818117aa830a06 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:26:46 +0300 Subject: [PATCH 27/29] Create README_WEIGHTS_Turkish.md --- languages/turkish/README_WEIGHTS_Turkish.md | 98 +++++++++++++++++++++ 1 file changed, 98 insertions(+) create mode 100644 languages/turkish/README_WEIGHTS_Turkish.md diff --git a/languages/turkish/README_WEIGHTS_Turkish.md b/languages/turkish/README_WEIGHTS_Turkish.md new file mode 100644 index 0000000..a546f07 --- /dev/null +++ b/languages/turkish/README_WEIGHTS_Turkish.md @@ -0,0 +1,98 @@ +# DeepSeek-V3 Ağırlık Dosyası Dokümantasyonu + +## `config.json` İçindeki Yeni Alanlar + +- **model_type**: Model türünü belirtir, bu sürümde `deepseek_v3` olarak güncellenmiştir. +- **num_nextn_predict_layers**: Çoklu Token Tahmin (MTP) Modüllerinin sayısını belirtir. Açık kaynaklı V3 ağırlıkları **1 MTP Modülü** içerir. +- **quantization_config**: FP8 kuantizasyonu için yapılandırmayı tanımlar. + +--- + +## Ağırlık Yapısı Genel Bakış + +DeepSeek-V3 ağırlık dosyası iki ana bileşenden oluşur: **Ana Model Ağırlıkları** ve **MTP Modülleri**. + +### 1. Ana Model Ağırlıkları + +- **Bileşenler**: + - Giriş/çıkış gömme katmanları ve toplam 61 Transformer gizli katmanı. +- **Parametre Sayısı**: + - Toplam parametreler: **671B** + - Aktivasyon parametreleri: **36.7B** (0.9B Gömme ve 0.9B Çıkış Kafası dahil). + +#### Yapısal Detaylar + +- **Gömme Katmanı**: + - `model.embed_tokens.weight` +- **Transformer Gizli Katmanları**: + - `model.layers.0` - `model.layers.60`, toplamda `num_hidden_layers` katman. +- **Çıkış Katmanı**: + - `model.norm.weight` + - `lm_head.weight` + +### 2. Çoklu Token Tahmin (MTP) Modülleri + +- **Bileşenler**: + - `num_nextn_predict_layers` alanı tarafından tanımlanan ek MTP Modülleri. Bu modelde değer **1** olarak ayarlanmıştır. +- **Parametre Sayısı**: + - **11.5B benzersiz parametre**, (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası hariç). + - Aktivasyon parametreleri: **2.4B** (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası dahil). + +#### Yapısal Detaylar + +- **embed_tokens**: **Ana Model ağırlıklarının Gömme katmanı ile parametreleri paylaşır**. +- **enorm & hnorm**: Spekülatif kod çözme için gerekli olan RMSNorm parametreleri. +- **eh_proj**: Norm sonuçları üzerinde boyut indirgeme projeksiyon parametreleri. +- **Ek Transformer Gizli Katmanı**: + - `model.layers.61.self_attn & mlp` (Ana Model gizli katmanlarıyla aynı yapıdadır). +- **shared_head**: **Ana Model ağırlıklarının Çıkış Kafası ile parametreleri paylaşır**. + +--- + +### Yükleme Kuralları + +- **Ana Model Ağırlıkları**: `config.json` içindeki `num_hidden_layers` parametresi kullanılarak yüklenir. +- **MTP Modülleri**: `num_nextn_predict_layers` parametresi ile yüklenir ve katman kimlikleri Ana Model gizli katmanlarından hemen sonra eklenir. Örneğin: + - Eğer `num_hidden_layers = 61` ve `num_nextn_predict_layers = 1` ise, MTP Modülünün katman kimliği `61` olur. + +--- + +## FP8 Ağırlık Dokümantasyonu + +DeepSeek-V3, 128x128 blok ölçeklendirmesiyle FP8 ağırlık formatını yerel olarak destekler. + +### FP8 Yapılandırması + +FP8 ağırlık dosyası, kuantizasyon yöntemini tanımlayan bir `quantization_config` alanı içerir. Örnek yapılandırma aşağıda verilmiştir: + +```json +"quantization_config": { + "activation_scheme": "dynamic", + "fmt": "e4m3", + "quant_method": "fp8", + "weight_block_size": [128, 128] +} +``` + +- **Kuantizasyon Formatı**: + - Format türü: `fp8` ve `e4m3` (karşılığı `torch.float8_e4m3fn`). + - Ağırlık blok boyutu: `128x128`. +- **Aktivasyon Kuantizasyon Şeması**: + - Dinamik aktivasyon kuantizasyonu kullanır (`dynamic`). + +### De-kuantizasyon Yöntemi + +FP8 ağırlık dosyası, her ağırlık bloğu için de-kuantizasyon ölçeğini depolayan `weight_scale_inv` alanını içerir. + +- **Depolama Formatı**: `float32 Tensor`, ağırlık verileriyle birlikte saklanır. +- **De-kuantizasyon Formülü**: + - Ağırlık bloğu 128’e hizalanmamışsa, önce 128’e sıfır dolgu yapılır, ardından ölçek hesaplanır. Kuantizasyondan sonra dolgu kısmı kaldırılır. + - De-kuantizasyon işlemi şu şekilde gerçekleştirilir: `(128x128 ağırlık bloğu) * weight_scale_inv`. + +FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemleri **token başına 128 kanal granülerliği** ile çevrimiçi kuantizasyona olanak tanır. + +--- +``` +Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. +@can-deliktas +``` From c909a3b3d58f0d9c6e2e3b4f603e9b3c1c58f1ca Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:28:30 +0300 Subject: [PATCH 28/29] Delete languages/turkish directory --- languages/turkish/README_Turkish.md | 439 -------------------- languages/turkish/README_WEIGHTS_Turkish.md | 98 ----- 2 files changed, 537 deletions(-) delete mode 100644 languages/turkish/README_Turkish.md delete mode 100644 languages/turkish/README_WEIGHTS_Turkish.md diff --git a/languages/turkish/README_Turkish.md b/languages/turkish/README_Turkish.md deleted file mode 100644 index bd736c4..0000000 --- a/languages/turkish/README_Turkish.md +++ /dev/null @@ -1,439 +0,0 @@ - - - - -
- DeepSeek-V3 -
-
- - - - - - -

- Makale Bağlantısı👁️ -

- -## İçindekiler - -1. [Giriş](#1-giriş) -2. [Model Özeti](#2-model-özeti) -3. [Model İndirmeleri](#3-model-i̇ndirmeleri) -4. [Değerlendirme Sonuçları](#4-değerlendirme-sonuçları) -5. [Sohbet Web Sitesi ve API Platformu](#5-sohbet-web-sitesi--api-platformu) -6. [Yerel Olarak Nasıl Çalıştırılır](#6-yerel-olarak-nasıl-çalıştırılır) -7. [Lisans](#7-lisans) -8. [Atıf](#8-atıf) -9. [İletişim](#9-i̇letişim) - - -## 1. Giriş - -DeepSeek-V3'ü sunuyoruz: 671 milyar toplam parametreye sahip güçlü bir Mixture-of-Experts (MoE) dil modeli ve her bir token için 37 milyar parametre etkinleştiriliyor. -Verimli çıkarım ve maliyet açısından etkili bir eğitim sağlamak amacıyla DeepSeek-V3, Multi-head Latent Attention (MLA) ve DeepSeekMoE mimarilerini benimser; bu yaklaşımlar DeepSeek-V2'de kapsamlı şekilde doğrulanmıştır. -Bunun yanı sıra, DeepSeek-V3, yük dengeleme için yardımcı kayıpsız (auxiliary-loss-free) bir strateji geliştirerek öncülük eder ve daha güçlü performans için çoklu token tahminine dayalı bir eğitim hedefi belirler. - -DeepSeek-V3, 14.8 trilyon çeşitlendirilmiş ve yüksek kaliteli token üzerinde ön eğitimden geçirilmiş olup, ardından Denetimli İnce Ayar (Supervised Fine-Tuning) ve Takviyeli Öğrenme (Reinforcement Learning) aşamalarından geçirilerek yetenekleri tam anlamıyla optimize edilmiştir. -Kapsamlı değerlendirmeler, DeepSeek-V3'ün diğer açık kaynak modellerini geride bıraktığını ve önde gelen kapalı kaynak modellerle karşılaştırılabilir bir performans sergilediğini göstermektedir. - -Üstün performansına rağmen, DeepSeek-V3'ün tam eğitimi yalnızca **2.788 milyon H800 GPU saati** gerektirmektedir. -Buna ek olarak, eğitim süreci son derece kararlıdır. -Tüm eğitim süreci boyunca **geri döndürülemeyen kayıp artışları yaşanmadı ve herhangi bir geri alma (rollback) işlemi gerçekleştirilmedi**. - -

- -

- -## 2. Model Özeti - ---- - -**Mimari: Yenilikçi Yük Dengeleme Stratejisi ve Eğitim Hedefi** - -- DeepSeek-V2'nin verimli mimarisinin üzerine, **yardımcı kayıpsız (auxiliary-loss-free) bir yük dengeleme stratejisi** geliştirerek öncülük ediyoruz. - Bu yaklaşım, yük dengelemenin teşvik edilmesinden kaynaklanan **performans kaybını en aza indirir**. -- **Çoklu Token Tahmini (Multi-Token Prediction - MTP)** hedefini araştırıyor ve bunun model performansı açısından faydalı olduğunu kanıtlıyoruz. - Ayrıca, bu yöntem **çıkarım sürecini hızlandırmak için spekülatif kod çözmede (speculative decoding) de kullanılabilir**. - ---- -**Ön Eğitim: En Üst Düzey Eğitim Verimliliğine Doğru** - -- **FP8 karma hassasiyetli eğitim çerçevesi** tasarladık ve **ilk kez** FP8 eğitiminin **son derece büyük ölçekli bir modelde uygulanabilirliğini ve etkinliğini doğruladık**. -- **Algoritmalar, çerçeveler ve donanımların ortak tasarımı** sayesinde, düğümler arası **MoE eğitimindeki iletişim darboğazını** aştık ve neredeyse **tam hesaplama-iletişim örtüşmesi** sağladık. - Bu, eğitim verimliliğimizi önemli ölçüde artırırken **eğitim maliyetlerini düşürerek** model boyutunu ek maliyet olmadan daha da ölçeklendirmemize olanak tanır. -- **Sadece 2.664 milyon H800 GPU saati** gibi ekonomik bir maliyetle, DeepSeek-V3'ün 14.8 trilyon token üzerinde ön eğitimini tamamladık ve **mevcut en güçlü açık kaynaklı temel modeli ürettik**. - Ön eğitim sonrası aşamalar ise **yalnızca 0.1 milyon GPU saati gerektirir**. - ---- - -**Son Eğitim: DeepSeek-R1'den Bilgi Aktarımı** - -- **Uzun Zincirleme Düşünme (Chain-of-Thought - CoT) modelinin** akıl yürütme yeteneklerini, özellikle **DeepSeek R1 serisi modellerinden biri üzerinden**, standart büyük dil modellerine (LLM) ve özellikle DeepSeek-V3'e aktarmak için yenilikçi bir yöntem geliştirdik. -- **Doğrulama ve yansıtma (reflection) desenlerini** R1'den DeepSeek-V3'e **şık bir şekilde entegre eden** bu süreç, modelin **akıl yürütme performansını önemli ölçüde artırırken**, **çıktı stilini ve uzunluğunu da kontrol altında tutmamıza** olanak tanır. - ---- - - -## 3. Model İndirmeleri - -
- -| **Model** | **#Toplam Parametreler** | **#Etkin Parametreler** | **Bağlam uzunluğu** | **İndirme** | -| :------------: | :------------: | :------------: | :------------: | :------------: | -| DeepSeek-V3-Base | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) | -| DeepSeek-V3 | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3) | - -
- -> [!NOTE] -> **Hugging Face üzerindeki DeepSeek-V3 modellerinin toplam boyutu 685B'dir.** -> Bu, **671B Ana Model ağırlıklarını** ve **14B Çoklu Token Tahmini (MTP) Modülü ağırlıklarını** içerir. - -**Optimum performans ve esneklik sağlamak** için açık kaynak toplulukları ve donanım sağlayıcılarıyla iş birliği yaparak **modeli yerel olarak çalıştırmak için çeşitli yöntemler sunduk**. -Adım adım rehberlik için **Bölüm 6: [Nasıl Yerel Çalıştırılır](#6-how-to-run-locally)** kısmına göz atabilirsiniz. - -**Daha derin teknik ayrıntılarla ilgilenen geliştiriciler için**, -**Ana Model ağırlıkları ve Çoklu Token Tahmini (MTP) Modülleri hakkında detaylı bilgileri** içeren -[README_WEIGHTS.md](./README_WEIGHTS.md) dosyasını incelemenizi öneririz. - -Lütfen unutmayın: **MTP desteği şu anda topluluk tarafından aktif olarak geliştirilmektedir**. -**Katkılarınızı ve geri bildirimlerinizi memnuniyetle karşılıyoruz!** - ---- - -## 4. Değerlendirme Sonuçları -### Temel Model -#### Standart Kıyaslamalar - - -
- - -| | Performans Değerlendirmesi (Metrik) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | -|---|-------------------|----------|--------|-------------|---------------|---------| -| | Architecture | - | MoE | Dense | Dense | MoE | -| | # Activated Params | - | 21B | 72B | 405B | 37B | -| | # Total Params | - | 236B | 72B | 405B | 671B | -| English | Pile-test (BPB) | - | 0.606 | 0.638 | **0.542** | 0.548 | -| | BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | **87.5** | -| | MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | **87.1** | -| | MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | **86.2** | -| | MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | **64.4** | -| | DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | **89.0** | -| | ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | **98.9** | -| | ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | **95.3** | **95.3** | -| | HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | **89.2** | 88.9 | -| | PIQA (Acc.) | 0-shot | 83.9 | 82.6 | **85.9** | 84.7 | -| | WinoGrande (Acc.) | 5-shot | **86.3** | 82.3 | 85.2 | 84.9 | -| | RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | **74.2** | 67.1 | -| | RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | **56.8** | 51.3 | -| | TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | **82.9** | -| | NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | **41.5** | 40.0 | -| | AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | **79.6** | -| Code | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | **65.2** | -| | MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | **75.4** | -| | LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | **19.4** | -| | CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | **67.3** | -| | CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | **69.8** | -| Math | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | **89.3** | -| | MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | **61.6** | -| | MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | **79.8** | -| | CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | **90.7** | -| Chinese | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | **83.0** | 82.7 | -| | C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | **90.1** | -| | CMMLU (Acc.) | 5-shot | 84.0 | **89.5** | 73.7 | 88.8 | -| | CMRC (EM) | 1-shot | **77.4** | 75.8 | 76.0 | 76.3 | -| | C3 (Acc.) | 0-shot | 77.4 | 76.7 | **79.7** | 78.6 | -| | CCPM (Acc.) | 0-shot | **93.0** | 88.5 | 78.6 | 92.0 | -| Multilingual | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | **79.4** | - -
- -> [!NOTE] -> **En iyi sonuçlar kalın olarak gösterilmiştir.** -> **Aralarındaki fark 0.3'ü geçmeyen skorlar aynı seviyede kabul edilir.** -> **DeepSeek-V3, özellikle matematik ve kodlama görevlerinde olmak üzere, çoğu kıyaslamada en iyi performansı sergilemektedir.** -> **Daha fazla değerlendirme detayı için lütfen makalemize göz atın.** - -#### Bağlam penceresi -

- -

- -**"Needle In A Haystack" (NIAH) testlerindeki değerlendirme sonuçları.** -DeepSeek-V3, **128K** bağlam penceresine kadar tüm uzunluklarda iyi performans göstermektedir. - -### Sohbet Modeli -#### Standart Kıyaslamalar (67B'den büyük modeller) -
- -| | **Performans Değerlendirmesi (Metrik)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | -|---|---------------------|---------------------|----------------------|---------------------|----------------------|---------------------------|----------------|----------------| -| | Architecture | MoE | MoE | Dense | Dense | - | - | MoE | -| | # Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | -| | # Total Params | 236B | 236B | 72B | 405B | - | - | 671B | -| English | MMLU (EM) | 78.2 | 80.6 | 85.3 | **88.6** | **88.3** | 87.2 | **88.5** | -| | MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | **88.9** | 88.0 | **89.1** | -| | MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | **78.0** | 72.6 | 75.9 | -| | DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | **91.6** | -| | IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | **86.5** | 84.3 | 86.1 | -| | GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | **65.0** | 49.9 | 59.1 | -| | SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | **38.2** | 24.9 | -| | FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | **80.5** | 73.3 | -| | LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | **48.7** | -| Code | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | **82.6** | -| | LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | **40.5** | -| | LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | **37.6** | -| | Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | **51.6** | -| | SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | **50.8** | 38.8 | 42.0 | -| | Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | **84.2** | 72.9 | 79.7 | -| | Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | **49.6** | -| Math | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 | **39.2** | -| | MATH-500 (EM) | 56.3 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | **90.2** | -| | CNMO 2024 (Pass@1) | 2.8 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | **43.2** | -| Chinese | CLUEWSC (EM) | 89.9 | 90.4 | **91.4** | 84.7 | 85.4 | 87.9 | 90.9 | -| | C-Eval (EM) | 78.6 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | **86.5** | -| | C-SimpleQA (Correct) | 48.5 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 | **64.8** | - -
- -> [!NOTE] -> **Tüm modeller, çıktı uzunluğunu 8K ile sınırlayan bir yapılandırmada değerlendirilmiştir.** -> **1000'den az örnek içeren kıyaslamalar, sağlam nihai sonuçlar elde etmek için farklı sıcaklık ayarları kullanılarak birden fazla kez test edilmiştir.** -> **DeepSeek-V3, en iyi performans gösteren açık kaynak model olup, aynı zamanda öncü kapalı kaynak modellerle de rekabetçi bir performans sergilemektedir.** - -#### Açık Uçlu Üretim Değerlendirmesi - -
- - - -| Model | Arena-Hard | AlpacaEval 2.0 | -|-------|------------|----------------| -| DeepSeek-V2.5-0905 | 76.2 | 50.5 | -| Qwen2.5-72B-Instruct | 81.2 | 49.1 | -| LLaMA-3.1 405B | 69.3 | 40.5 | -| GPT-4o-0513 | 80.4 | 51.1 | -| Claude-Sonnet-3.5-1022 | 85.2 | 52.0 | -| DeepSeek-V3 | **85.5** | **70.0** | - -
-> [!NOTE] -> **İngilizce açık uçlu konuşma değerlendirmeleri.** -> **AlpacaEval 2.0 için, metrik olarak uzunluk kontrollü kazanma oranını kullanıyoruz.** - -## 5. Sohbet Web Sitesi & API Platformu - -DeepSeek-V3 ile sohbet etmek için DeepSeek’in resmi web sitesini ziyaret edebilirsiniz: -[chat.deepseek.com](https://chat.deepseek.com/sign_in) - -Ayrıca, OpenAI uyumlu API’mizi DeepSeek Platformunda sağlıyoruz: -[platform.deepseek.com](https://platform.deepseek.com/) - -## 6. Yerel Olarak Nasıl Çalıştırılır - -DeepSeek-V3 aşağıdaki donanım ve açık kaynak topluluk yazılımları kullanılarak yerel olarak dağıtılabilir: - -1. **DeepSeek-Infer Demo**: FP8 ve BF16 çıkarımı için basit ve hafif bir demo sağlıyoruz. -2. **SGLang**: DeepSeek-V3 modelini hem BF16 hem de FP8 çıkarım modlarında tamamen destekler, Multi-Token Prediction ise [yakında geliyor](https://github.com/sgl-project/sglang/issues/2591). -3. **LMDeploy**: Yerel ve bulut dağıtımı için verimli FP8 ve BF16 çıkarımına olanak tanır. -4. **TensorRT-LLM**: Şu anda BF16 çıkarımını ve INT4/8 nicemlemeyi destekler, FP8 desteği yakında eklenecektir. -5. **vLLM**: Tensor paralelliği ve ardışık işlem paralelliği için DeepSeek-V3 modelini FP8 ve BF16 modlarında destekler. -6. **AMD GPU**: DeepSeek-V3 modelinin AMD GPU’lar üzerinde SGLang aracılığıyla BF16 ve FP8 modlarında çalıştırılmasını sağlar. -7. **Huawei Ascend NPU**: DeepSeek-V3 modelinin Huawei Ascend cihazlarında çalıştırılmasını destekler. - -FP8 eğitimi çerçevemizde yerel olarak kullanıldığı için, yalnızca FP8 ağırlıklarını sağlıyoruz. -Deneyleriniz için BF16 ağırlıklarına ihtiyacınız varsa, sağlanan dönüştürme betiğini kullanarak dönüşümü gerçekleştirebilirsiniz. - -FP8 ağırlıklarını BF16'ya dönüştürme örneği: - -```shell -cd inference -python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights -``` -> [!NOTE] -> Hugging Face'in Transformers kütüphanesi henüz doğrudan desteklenmemektedir. - -### 6.1 DeepSeek-Infer Demo ile Çıkarım (sadece örnek) - -#### Sistem Gereksinimleri - -> [!NOTE] -> **Yalnızca Python 3.10 ile Linux desteklenmektedir.** -> **Mac ve Windows desteklenmemektedir.** - -Bağımlılıklar: -```pip-requirements -torch==2.4.1 -triton==3.0.0 -transformers==4.46.3 -safetensors==0.4.5 -``` -#### Model Ağırlıkları ve Demo Kodunun Hazırlanması - -Öncelikle, DeepSeek-V3 GitHub deposunu klonlayın: -```shell -git clone https://github.com/deepseek-ai/DeepSeek-V3.git -``` - -`inference` klasörüne gidin ve `requirements.txt` dosyasında listelenen bağımlılıkları yükleyin. -En kolay yöntem, `conda` veya `uv` gibi bir paket yöneticisi kullanarak yeni bir sanal ortam oluşturmak ve bağıml - - -```shell -cd DeepSeek-V3/inference -pip install -r requirements.txt -``` - -Model ağırlıklarını Hugging Face'den indirin ve `/path/to/DeepSeek-V3` klasörüne yerleştirin. - -#### Model Ağırlıklarını Dönüştürme - -Hugging Face model ağırlıklarını belirli bir formata dönüştürün: - -```shell -python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16 -``` - -#### Çalıştırma - -Ardından DeepSeek-V3 ile sohbet edebilirsiniz: - -```shell -torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200 -``` -Veya belirli bir dosyada toplu çıkarım: - -```shell -torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE -``` - -### 6.2 SGLang ile Çıkarım (Tavsiye Edilir) - -[SGLang](https://github.com/sgl-project/sglang) şu anda [MLA optimizasyonları](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations), [DP Attention](https://lmsys.org/blog/2024-12-04-sglang-v0-4/#data-parallelism-attention-for-deepseek-models), FP8 (W8A8), FP8 KV Önbelleği ve Torch Compile'ı destekleyerek açık kaynaklı çerçeveler arasında en iyi gecikme süresi ve verimlilik performansını sunmaktadır. - -Özellikle, [SGLang v0.4.1](https://github.com/sgl-project/sglang/releases/tag/v0.4.1), **NVIDIA ve AMD GPU'larda** DeepSeek-V3 çalıştırmayı tamamen destekleyerek onu son derece esnek ve sağlam bir çözüm hâline getirmektedir. - -SGLang ayrıca [çoklu düğüm tensör paralelliğini](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-2-h208) destekleyerek, bu modeli ağ bağlantılı birden fazla makinede çalıştırmanıza olanak tanır. - -Çoklu Token Tahmini (MTP) hâlâ geliştirme aşamasında olup ilerlemeyi [optimizasyon planı](https://github.com/sgl-project/sglang/issues/2591) üzerinden takip edebilirsiniz. - -SGLang ekibi tarafından sağlanan başlatma talimatlarına buradan ulaşabilirsiniz: -[🔗 SGLang DeepSeek-V3 Çıkarım Talimatları](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3) - ---- - -### 6.3 LMDeploy ile Çıkarım (Tavsiye Edilir) - -[LMDeploy](https://github.com/InternLM/lmdeploy), büyük dil modelleri için esnek ve yüksek performanslı bir çıkarım ve sunum çerçevesidir. DeepSeek-V3 desteği sunarak hem çevrimdışı işlem hattı işleme hem de çevrimiçi dağıtım özellikleri sağlar ve PyTorch tabanlı iş akışlarıyla sorunsuz entegrasyon sunar. - -DeepSeek-V3'ü LMDeploy ile çalıştırma adımları için ayrıntılı kılavuza buradan ulaşabilirsiniz: -[🔗 LMDeploy Çıkarım Talimatları](https://github.com/InternLM/lmdeploy/issues/2960) - ---- - -### 6.4 TRT-LLM ile Çıkarım (Tavsiye Edilir) - -[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM), DeepSeek-V3 modelini desteklemekte olup **BF16 ve INT4/INT8 ağırlık hassasiyeti** seçenekleri sunmaktadır. FP8 desteği şu anda geliştirilmekte olup yakında yayınlanacaktır. - -DeepSeek-V3 için özel olarak oluşturulmuş TRT-LLM dalına buradan erişerek yeni özellikleri doğrudan deneyimleyebilirsiniz: -[🔗 TensorRT-LLM DeepSeek-V3 Desteği](https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3) - ---- - -### 6.5 vLLM ile Çıkarım (Tavsiye Edilir) - -[vLLM](https://github.com/vllm-project/vllm) v0.6.6, **NVIDIA ve AMD GPU'larında FP8 ve BF16 modlarında** DeepSeek-V3 çıkarımını destekler. Standart tekniklerin yanı sıra, vLLM **boru hattı paralelliği (pipeline parallelism)** de sunarak modeli birden fazla ağa bağlı makinede çalıştırmanıza olanak tanır. - -Ayrıntılı rehber için buraya göz atabilirsiniz: -[🔗 vLLM Dağıtılmış Sunum Talimatları](https://docs.vllm.ai/en/latest/serving/distributed_serving.html) - -Ek olarak, geliştirme sürecini takip etmek için şu bağlantıyı inceleyebilirsiniz: -[🔗 vLLM Geliştirme Planı](https://github.com/vllm-project/vllm/issues/11539) - ---- - -### 6.6 AMD GPU'lar için Tavsiye Edilen Çıkarım İşlevselliği - -AMD ekibiyle yapılan iş birliği sayesinde, DeepSeek-V3 modeli **FP8 ve BF16 hassasiyetiyle** AMD GPU'larda çalıştırılabilmektedir. Bu destek **SGLang** üzerinden sağlanmaktadır. - -Ayrıntılı rehber için buraya göz atabilirsiniz: -[🔗 SGLang AMD GPU Talimatları](#63-inference-with-lmdeploy-recommended) - ---- - -### 6.7 Huawei Ascend NPU’lar için Tavsiye Edilen Çıkarım İşlevselliği - -Huawei Ascend topluluğunun geliştirdiği [MindIE](https://www.hiascend.com/en/software/mindie) çerçevesi, **BF16 versiyonunda DeepSeek-V3** modelini başarıyla adapte etmiştir. - -Huawei Ascend NPU'larda çalıştırma adımları için buraya göz atabilirsiniz: -[🔗 MindIE DeepSeek-V3 Talimatları](https://modelers.cn/models/MindIE/deepseekv3) - ---- - -## 7. Lisans - -Bu kod deposu [MIT Lisansı](LICENSE-CODE) altında lisanslanmıştır. -DeepSeek-V3 Base/Chat modellerinin kullanımı [Model Lisansı](LICENSE-MODEL) hükümlerine tabidir. -DeepSeek-V3 serisi (Base ve Chat dahil) ticari kullanımı desteklemektedir. - ---- - -## 8. Atıf - -Bu çalışmayı aşağıdaki gibi atıfta bulunarak referans verebilirsiniz: - -``` -@misc{deepseekai2024deepseekv3technicalreport, - title={DeepSeek-V3 Technical Report}, - author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan}, - year={2024}, - eprint={2412.19437}, - archivePrefix={arXiv}, - primaryClass={cs.CL}, - url={https://arxiv.org/abs/2412.19437}, -} -``` - -Eğer bu modeli veya içindeki teknikleri araştırmanızda kullanıyorsanız, lütfen yukarıdaki referansı ekleyerek atıfta bulunun. - ---- - -## 9. İletişim - -Herhangi bir sorunuz varsa, lütfen bir **issue** açın veya bizimle iletişime geçin: -📧 [service@deepseek.com](service@deepseek.com) - -``` -Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. -@can-deliktas -``` diff --git a/languages/turkish/README_WEIGHTS_Turkish.md b/languages/turkish/README_WEIGHTS_Turkish.md deleted file mode 100644 index a546f07..0000000 --- a/languages/turkish/README_WEIGHTS_Turkish.md +++ /dev/null @@ -1,98 +0,0 @@ -# DeepSeek-V3 Ağırlık Dosyası Dokümantasyonu - -## `config.json` İçindeki Yeni Alanlar - -- **model_type**: Model türünü belirtir, bu sürümde `deepseek_v3` olarak güncellenmiştir. -- **num_nextn_predict_layers**: Çoklu Token Tahmin (MTP) Modüllerinin sayısını belirtir. Açık kaynaklı V3 ağırlıkları **1 MTP Modülü** içerir. -- **quantization_config**: FP8 kuantizasyonu için yapılandırmayı tanımlar. - ---- - -## Ağırlık Yapısı Genel Bakış - -DeepSeek-V3 ağırlık dosyası iki ana bileşenden oluşur: **Ana Model Ağırlıkları** ve **MTP Modülleri**. - -### 1. Ana Model Ağırlıkları - -- **Bileşenler**: - - Giriş/çıkış gömme katmanları ve toplam 61 Transformer gizli katmanı. -- **Parametre Sayısı**: - - Toplam parametreler: **671B** - - Aktivasyon parametreleri: **36.7B** (0.9B Gömme ve 0.9B Çıkış Kafası dahil). - -#### Yapısal Detaylar - -- **Gömme Katmanı**: - - `model.embed_tokens.weight` -- **Transformer Gizli Katmanları**: - - `model.layers.0` - `model.layers.60`, toplamda `num_hidden_layers` katman. -- **Çıkış Katmanı**: - - `model.norm.weight` - - `lm_head.weight` - -### 2. Çoklu Token Tahmin (MTP) Modülleri - -- **Bileşenler**: - - `num_nextn_predict_layers` alanı tarafından tanımlanan ek MTP Modülleri. Bu modelde değer **1** olarak ayarlanmıştır. -- **Parametre Sayısı**: - - **11.5B benzersiz parametre**, (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası hariç). - - Aktivasyon parametreleri: **2.4B** (paylaşılan 0.9B Gömme ve 0.9B Çıkış Kafası dahil). - -#### Yapısal Detaylar - -- **embed_tokens**: **Ana Model ağırlıklarının Gömme katmanı ile parametreleri paylaşır**. -- **enorm & hnorm**: Spekülatif kod çözme için gerekli olan RMSNorm parametreleri. -- **eh_proj**: Norm sonuçları üzerinde boyut indirgeme projeksiyon parametreleri. -- **Ek Transformer Gizli Katmanı**: - - `model.layers.61.self_attn & mlp` (Ana Model gizli katmanlarıyla aynı yapıdadır). -- **shared_head**: **Ana Model ağırlıklarının Çıkış Kafası ile parametreleri paylaşır**. - ---- - -### Yükleme Kuralları - -- **Ana Model Ağırlıkları**: `config.json` içindeki `num_hidden_layers` parametresi kullanılarak yüklenir. -- **MTP Modülleri**: `num_nextn_predict_layers` parametresi ile yüklenir ve katman kimlikleri Ana Model gizli katmanlarından hemen sonra eklenir. Örneğin: - - Eğer `num_hidden_layers = 61` ve `num_nextn_predict_layers = 1` ise, MTP Modülünün katman kimliği `61` olur. - ---- - -## FP8 Ağırlık Dokümantasyonu - -DeepSeek-V3, 128x128 blok ölçeklendirmesiyle FP8 ağırlık formatını yerel olarak destekler. - -### FP8 Yapılandırması - -FP8 ağırlık dosyası, kuantizasyon yöntemini tanımlayan bir `quantization_config` alanı içerir. Örnek yapılandırma aşağıda verilmiştir: - -```json -"quantization_config": { - "activation_scheme": "dynamic", - "fmt": "e4m3", - "quant_method": "fp8", - "weight_block_size": [128, 128] -} -``` - -- **Kuantizasyon Formatı**: - - Format türü: `fp8` ve `e4m3` (karşılığı `torch.float8_e4m3fn`). - - Ağırlık blok boyutu: `128x128`. -- **Aktivasyon Kuantizasyon Şeması**: - - Dinamik aktivasyon kuantizasyonu kullanır (`dynamic`). - -### De-kuantizasyon Yöntemi - -FP8 ağırlık dosyası, her ağırlık bloğu için de-kuantizasyon ölçeğini depolayan `weight_scale_inv` alanını içerir. - -- **Depolama Formatı**: `float32 Tensor`, ağırlık verileriyle birlikte saklanır. -- **De-kuantizasyon Formülü**: - - Ağırlık bloğu 128’e hizalanmamışsa, önce 128’e sıfır dolgu yapılır, ardından ölçek hesaplanır. Kuantizasyondan sonra dolgu kısmı kaldırılır. - - De-kuantizasyon işlemi şu şekilde gerçekleştirilir: `(128x128 ağırlık bloğu) * weight_scale_inv`. - -FP8 ağırlıklarının de-kuantizasyonu sayesinde, çalışma zamanı işlemleri **token başına 128 kanal granülerliği** ile çevrimiçi kuantizasyona olanak tanır. - ---- -``` -Bu çeviri, hem teknik doğruluğu hem de Markdown uyumluluğunu koruyarak çevrilmiştir. -@can-deliktas -``` From cb8d1f72e6f08da74f42af309ab92a1460c4be70 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Can=20Delikta=C5=9F?= Date: Wed, 19 Feb 2025 18:55:04 +0300 Subject: [PATCH 29/29] Update README_Turkish.md --- README_Turkish.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README_Turkish.md b/README_Turkish.md index bd736c4..9d06d9b 100644 --- a/README_Turkish.md +++ b/README_Turkish.md @@ -123,7 +123,7 @@ Adım adım rehberlik için **Bölüm 6: [Nasıl Yerel Çalıştırılır](#6-ho **Daha derin teknik ayrıntılarla ilgilenen geliştiriciler için**, **Ana Model ağırlıkları ve Çoklu Token Tahmini (MTP) Modülleri hakkında detaylı bilgileri** içeren -[README_WEIGHTS.md](./README_WEIGHTS.md) dosyasını incelemenizi öneririz. +[README_WEIGHTS_Turkish.md](./README_WEIGHTS_Turkish.md) dosyasını incelemenizi öneririz. Lütfen unutmayın: **MTP desteği şu anda topluluk tarafından aktif olarak geliştirilmektedir**. **Katkılarınızı ve geri bildirimlerinizi memnuniyetle karşılıyoruz!**