Czy DeepSeek jest w Github? DeepSeek R-1 to otwartoźródłowy model oparty na uczeniu przez wzmocnienie (RL), który wykazuje zaawansowane zdolności rozumowania. Model ten, jak i jego poprzednik DeepSeek-R1-Zero, są dostępne dla społeczności badawczej, co umożliwia dalszy rozwój i optymalizację modeli AI. W tym wpisie omówimy, gdzie można znaleźć repozytorium DeepSeek R-1 oraz jak pobrać i uruchomić model lokalnie. Jest to rozwinięcie naszego wcześniejszego artykułu o uruchomieniu DeepSeek-a lokalnie za pomocą Ollama.
1. Gdzie znaleźć repozytorium DeepSeek R-1?
Repozytorium modeli z serii DeepSeek-R1, w tym DeepSeek-R1-Zero oraz jego wersje destylowane, można znaleźć na platformie Hugging Face. DeepSeek udostępnił tam zarówno pełne modele, jak i ich mniejsze, zoptymalizowane wersje. Kompletna, aktualizowana lista jest dostępna tutaj, na Deepseek Github.
Oto lista głównych repozytoriów DeepSeek-R1 na Hugging Face:
- DeepSeek-R1-Zero – Pobierz na Hugging Face
- DeepSeek-R1 – Pobierz na Hugging Face
- DeepSeek-R1-Distill-Qwen-1.5B – Pobierz na Hugging Face
- DeepSeek-R1-Distill-Qwen-7B – Pobierz na Hugging Face
- DeepSeek-R1-Distill-Llama-8B – Pobierz na Hugging Face
- DeepSeek-R1-Distill-Qwen-14B – Pobierz na Hugging Face
- DeepSeek-R1-Distill-Qwen-32B – Pobierz na Hugging Face
- DeepSeek-R1-Distill-Llama-70B – Pobierz na Hugging Face
Dodatkowe szczegóły techniczne na temat modelu można znaleźć również w oficjalnym repozytorium DeepSeek-V3, które opisuje architekturę bazową modeli DeepSeek-R1.
2. Jak pobrać i uruchomić DeepSeek-R1 lokalnie?
DeepSeek-R1 oraz jego wersje destylowane można uruchomić lokalnie przy użyciu frameworków takich jak vLLM i SGLang.
Pobieranie modelu i uruchamianie za pomocą vLLM
Aby uruchomić model przy użyciu vLLM, należy wykonać następujące kroki:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Uruchamianie modelu przy użyciu SGLang
Możesz również skorzystać z SGLang, używając następującego polecenia:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Zalecenia dotyczące konfiguracji
Aby osiągnąć optymalną wydajność modeli DeepSeek-R1, warto przestrzegać następujących ustawień:
- Zakres temperatury: 0.5 – 0.7 (zalecana wartość to 0.6) – pozwala uniknąć powtarzania treści lub niespójnych wyników.
- Brak systemowego prompta: Wszystkie instrukcje powinny być zawarte w prompcie użytkownika.
- Problemy matematyczne: Zaleca się dodanie do prompta instrukcji np. „Proszę rozwiązać krok po kroku i umieścić ostateczny wynik w \boxed{}.”
- Benchmarking: Testowanie powinno odbywać się wielokrotnie, a wyniki powinny być uśrednione dla uzyskania bardziej precyzyjnej oceny.
3. Licencja i zastosowanie modeli DeepSeek-R1
Wszystkie modele z serii DeepSeek-R1 są udostępnione na licencji MIT, co oznacza, że można ich używać zarówno do celów badawczych, jak i komercyjnych. Ponadto, modele destylowane, takie jak DeepSeek-R1-Distill-Qwen, są oparte na Qwen-2.5, który został pierwotnie udostępniony na licencji Apache 2.0.
4. Kontakt i dodatkowe zasoby
Jeśli masz pytania dotyczące modeli DeepSeek-R1, możesz:
- Odwiedzić oficjalne repozytorium DeepSeek-R1 na Hugging Face.
- Dołączyć do społeczności AI i śledzić nowości na stronie DeepSeek Platform.
- Skontaktować się z zespołem DeepSeek pod adresem service@deepseek.com.
DeepSeek-R1 to kolejny krok w kierunku bardziej zaawansowanych modeli rozumowania. Dzięki otwartemu dostępowi do kodu źródłowego i możliwościom trenowania własnych modeli na bazie DeepSeek-R1, badacze oraz inżynierowie AI mogą dalej rozwijać potencjał sztucznej inteligencji.