A equipe Qwen da Alibaba apresentou recentemente o QwQ-32B, um modelo de IA com 32 bilhões de parâmetros que demonstra um desempenho comparável ao do muito maior DeepSeek-R1. Este avanço destaca o potencial do aprendizado por reforço (RL) em modelos de base robustos.
Principais Conclusões
O QwQ-32B alcançou desempenho semelhante ao DeepSeek-R1, que possui 671 bilhões de parâmetros.
O modelo foi avaliado em diversos benchmarks, incluindo AIME24 e LiveCodeBench, mostrando resultados impressionantes.
A abordagem da equipe Qwen envolveu um processo de RL em múltiplas etapas, focando em tarefas matemáticas e de codificação.
O QwQ-32B está disponível com pesos abertos na Hugging Face e ModelScope, sob a licença Apache 2.0.
Desempenho do QwQ-32B
O QwQ-32B foi testado em uma variedade de benchmarks, demonstrando sua capacidade em raciocínio matemático, proficiência em codificação e resolução de problemas gerais. Os resultados foram os seguintes:
Benchmark | QwQ-32B | DeepSeek-R1 | OpenAI-o1-mini |
---|---|---|---|
AIME24 | 79.5 | 79.8 | 63.6 |
LiveCodeBench | 63.4 | 65.9 | 53.8 |
LiveBench | 73.1 | 71.6 | 57.5 |
IFEval | 83.9 | 83.3 | 59.1 |
BFCL | 66.4 | 62.8 | 49.3 |
Esses resultados mostram que o QwQ-32B não só se aproxima do desempenho de modelos muito maiores, mas também supera muitos modelos destilados e concorrentes.
Abordagem de Aprendizado por Reforço
A equipe Qwen utilizou um ponto de verificação inicial e um processo de RL em múltiplas etapas, impulsionado por recompensas baseadas em resultados. A primeira fase concentrou-se em escalar o RL para tarefas matemáticas e de codificação, utilizando verificadores de precisão e servidores de execução de código. A segunda fase expandiu para capacidades gerais, incorporando recompensas de modelos de recompensa gerais e verificadores baseados em regras.
A equipe explicou: "Descobrimos que esta fase de treinamento de RL com um pequeno número de etapas pode aumentar o desempenho de outras capacidades gerais, como seguir instruções e alinhar-se com preferências humanas, sem uma queda significativa no desempenho em matemática e codificação."
Acesso e Futuro do QwQ-32B
O QwQ-32B é de código aberto e pode ser acessado na Hugging Face e ModelScope, além de estar disponível via Qwen Chat. A equipe Qwen vê isso como um passo inicial para escalar o RL e melhorar as capacidades de raciocínio, com planos de explorar mais a integração de agentes com RL para raciocínio de longo prazo.
"À medida que trabalhamos para desenvolver a próxima geração do Qwen, estamos confiantes de que a combinação de modelos de base mais fortes com RL, impulsionados por recursos computacionais escalonados, nos levará mais perto de alcançar a Inteligência Geral Artificial (AGI)," afirmou a equipe.