top of page

Alibaba Lança Qwen QwQ-32B: Um Marco em Aprendizado por Reforço Escalonado

Foto do escritor: Vinicius GambetaVinicius Gambeta

A equipe Qwen da Alibaba apresentou recentemente o QwQ-32B, um modelo de IA com 32 bilhões de parâmetros que demonstra um desempenho comparável ao do muito maior DeepSeek-R1. Este avanço destaca o potencial do aprendizado por reforço (RL) em modelos de base robustos.

Principais Conclusões

  • O QwQ-32B alcançou desempenho semelhante ao DeepSeek-R1, que possui 671 bilhões de parâmetros.

  • O modelo foi avaliado em diversos benchmarks, incluindo AIME24 e LiveCodeBench, mostrando resultados impressionantes.

  • A abordagem da equipe Qwen envolveu um processo de RL em múltiplas etapas, focando em tarefas matemáticas e de codificação.

  • O QwQ-32B está disponível com pesos abertos na Hugging Face e ModelScope, sob a licença Apache 2.0.

Desempenho do QwQ-32B

O QwQ-32B foi testado em uma variedade de benchmarks, demonstrando sua capacidade em raciocínio matemático, proficiência em codificação e resolução de problemas gerais. Os resultados foram os seguintes:

Benchmark
QwQ-32B
DeepSeek-R1
OpenAI-o1-mini
AIME24
79.5
79.8
63.6
LiveCodeBench
63.4
65.9
53.8
LiveBench
73.1
71.6
57.5
IFEval
83.9
83.3
59.1
BFCL
66.4
62.8
49.3

Esses resultados mostram que o QwQ-32B não só se aproxima do desempenho de modelos muito maiores, mas também supera muitos modelos destilados e concorrentes.

Abordagem de Aprendizado por Reforço

A equipe Qwen utilizou um ponto de verificação inicial e um processo de RL em múltiplas etapas, impulsionado por recompensas baseadas em resultados. A primeira fase concentrou-se em escalar o RL para tarefas matemáticas e de codificação, utilizando verificadores de precisão e servidores de execução de código. A segunda fase expandiu para capacidades gerais, incorporando recompensas de modelos de recompensa gerais e verificadores baseados em regras.

A equipe explicou: "Descobrimos que esta fase de treinamento de RL com um pequeno número de etapas pode aumentar o desempenho de outras capacidades gerais, como seguir instruções e alinhar-se com preferências humanas, sem uma queda significativa no desempenho em matemática e codificação."

Acesso e Futuro do QwQ-32B

O QwQ-32B é de código aberto e pode ser acessado na Hugging Face e ModelScope, além de estar disponível via Qwen Chat. A equipe Qwen vê isso como um passo inicial para escalar o RL e melhorar as capacidades de raciocínio, com planos de explorar mais a integração de agentes com RL para raciocínio de longo prazo.

"À medida que trabalhamos para desenvolver a próxima geração do Qwen, estamos confiantes de que a combinação de modelos de base mais fortes com RL, impulsionados por recursos computacionais escalonados, nos levará mais perto de alcançar a Inteligência Geral Artificial (AGI)," afirmou a equipe.

 
 
bottom of page