DeepSeek lançou seus modelos de raciocínio de primeira geração, DeepSeek-R1 e DeepSeek-R1-Zero, que prometem rivalizar com o desempenho da OpenAI. O modelo DeepSeek-R1-Zero foi treinado exclusivamente por meio de aprendizado por reforço em larga escala, sem depender de ajuste fino supervisionado, resultando em comportamentos de raciocínio inovadores, como auto-verificação e reflexão. No entanto, ele enfrenta desafios como repetição excessiva e legibilidade limitada.
Para superar essas limitações, o DeepSeek-R1 foi desenvolvido, incorporando dados de pré-treinamento que melhoram suas capacidades de raciocínio. O DeepSeek-R1 demonstrou desempenho comparável ao sistema o1 da OpenAI em tarefas de matemática, codificação e raciocínio geral, solidificando sua posição como um competidor de destaque.
Ambos os modelos foram disponibilizados como código aberto, juntamente com seis modelos menores destilados, que também mostraram resultados excepcionais em benchmarks. O modelo destilado DeepSeek-R1-Distill-Qwen-32B, por exemplo, superou o o1-mini da OpenAI em várias métricas.
Principais Conclusões
O DeepSeek-R1-Zero é o primeiro modelo a validar que as capacidades de raciocínio podem ser incentivadas apenas por aprendizado por reforço.
O DeepSeek-R1 resolve limitações do R1-Zero e alcança desempenho comparável ao da OpenAI.
Modelos destilados, como o DeepSeek-R1-Distill-Qwen-32B, superaram concorrentes em benchmarks específicos.
Avanços em Modelos de Raciocínio
DeepSeek compartilhou detalhes sobre seu rigoroso pipeline de desenvolvimento de modelos de raciocínio, que combina ajuste fino supervisionado e aprendizado por reforço. O processo inclui duas etapas de ajuste fino para estabelecer habilidades de raciocínio e não raciocínio, seguidas por duas etapas de aprendizado por reforço para descobrir padrões avançados de raciocínio.
Importância da Destilação
A destilação, que transfere habilidades de raciocínio de modelos maiores para versões menores, foi destacada como uma estratégia eficaz. Modelos menores, como as versões de 1,5B, 7B e 14B, mostraram desempenho competitivo em aplicações específicas, superando resultados obtidos por treinamento por reforço em modelos de tamanhos semelhantes.
Licenciamento e Acesso
DeepSeek adotou a Licença MIT para seu repositório e pesos, permitindo uso comercial e modificações. No entanto, os usuários devem garantir conformidade com as licenças dos modelos base originais, como Apache 2.0 e Llama3.
Com esses avanços, a DeepSeek não apenas desafia a OpenAI, mas também contribui para o desenvolvimento de modelos de raciocínio mais eficazes e acessíveis na comunidade de código aberto.