Mãos humanas e robótica tocam as pontas dos dedos
Shutterstock

A startup de inteligência artificial Mistral AI, com sede em Paris, que recentemente obteve uma avaliação de US$ 2 bilhões, lançou o Mixtral. Trata-se de um modelo aberto de Large Language Model (LLM) que, segundo ela, supera o ChatGPT 3.5 da OpenAI em vários benchmarks (ou marcas de referência).

A Mistral obteve um investimento substancial da Série A da Andreessen Horowitz (a16z), uma empresa de capital de risco conhecida pelos seus investimentos estratégicos em setores tecnológicos transformadores, especialmente em IA. Outros gigantes da tecnologia como Nvidia e Salesforce também participaram da rodada de financiamento.

Publicidade

“Mistral está no centro de uma comunidade pequena, mas apaixonada, de desenvolvedores que cresce em torno da IA ​​de código aberto”, disse a Andreessen Horowitz quando anunciou sua participação no  financiamento.

“Os modelos ajustados pela comunidade agora dominam rotineiramente as tabelas de classificação de código aberto (e até superam os modelos de código fechado em algumas tarefas)”, acrescentou.

A Mixtral usa uma técnica chamada Mistura de especialistas (MoE, na sigla em inglês), que, segundo a empresa, torna o modelo mais poderoso e eficiente do que seu antecessor.

MoE é uma técnica de aprendizado de máquina na qual os desenvolvedores treinam ou configuram vários modelos de especialistas virtuais para resolver problemas complexos. Cada modelo especialista é treinado em um tópico ou campo específico.

Publicidade

Quando confrontado com um problema, o modelo escolhe um grupo de especialistas de um conjunto de agentes, e esses especialistas usam a sua formação para decidir qual o resultado que melhor se adapta aos seus conhecimentos.

O MoE pode melhorar a capacidade, eficiência e precisão do modelo para modelos de aprendizagem profunda — o molho secreto que diferencia o Mixtral dos demais, capaz de competir contra um modelo treinado em 70 bilhões de parâmetros usando um modelo 10 vezes menor.

“Mixtral tem 46,7B de parâmetros totais, mas usa apenas 12,9B de parâmetros por token”, disse a Mistral AI. “Ele, portanto, processa entrada e gera saída na mesma velocidade e pelo mesmo custo que um modelo de 12,9B”.

“O Mixtral supera o Llama 2 70B na maioria dos benchmarks com inferência 6x mais rápida e corresponde ou supera o [Chat] GPT 3.5 na maioria dos benchmarks padrão”, disse a empresa em seu blog oficial.

Publicidade
Fonte: Mistral AI

Polêmica sobre Open Source

O Mixtral também está licenciado sob a licença permissiva Apache 2.0. Isso permite que os desenvolvedores inspecionem, executem, modifiquem e até criem soluções personalizadas livremente com base no modelo.

Há um debate, no entanto, sobre se o Mixtral é 100% open source ou não, já que a Mistral diz que lançou apenas “open weights”, e a licença do modelo principal impede seu uso para competir com a Mistral AI.

A startup também não forneceu o conjunto de dados de treinamento e o código usado para criar o modelo, o que seria o caso de um projeto de código aberto.

A empresa afirma que o Mixtral foi ajustado para funcionar excepcionalmente bem em línguas estrangeiras além do inglês. “Mixtral 8x7B domina francês, alemão, espanhol, italiano e inglês”, com pontuação alta em benchmarks multilíngues padronizados, disse Mistral AI.

Uma versão chamada Mixtral 8x7B Instruct também foi lançada para um acompanhamento cuidadoso das instruções, alcançando uma pontuação máxima de 8,3 no benchmark MT-Bench. Isso o torna o melhor modelo de código aberto atual no benchmark.

Publicidade

O novo modelo da Mistral promete uma arquitetura revolucionária de MoE, boas capacidades multilíngues e acesso aberto completo. E considerando que isso aconteceu poucos meses após sua criação, a comunidade open source está passando por uma era emocionante e interessante.

Mixtral está disponível para download via Hugging Face, mas os usuários também podem usar a versão online.

*Traduzido com autorização do Decrypt.

VOCÊ PODE GOSTAR
CEO do JPMorgan, Jamie Dimon, é fotografado

CEO do JPMorgan se gaba de banco ser um dos maiores usuários “reais” de blockchain

Jamie Dimon disse que seu banco é um dos “maiores” usuários do blockchain, mas ele ainda odeia o Bitcoin
Sheik das criptomoedas Francisley Valdevino

Ex-Corinthians, Jucilei perdeu R$ 45 milhões na pirâmide do ‘Sheik das Criptomoedas’

“CEO” da empresa que enganou o ex-jogador é na verdade um ator uruguaio contratado por Francisley Valdevino, o Sheik, revelou o Fantástico
Trump compra hamburgueres com BTC em Nova York no Pubkey

Trump compra hambúrgueres com Bitcoin em sua 1ª transação com a moeda

Donald Trump usou Bitcoin para pagar hambúrgueres no bar PubKey em Nova York, ao mesmo tempo em que pedia aos fãs do BTC para votarem em novembro
ilustração mostra vários gráficos DeFi

Mercados DeFi podem se recuperar com corte de juros pelo Fed, diz Bernstein

Para os analistas da empresa de pesquisa, os rendimentos das finanças descentralizadas podem se recuperar com corte de pelo menos 25 pontos percentuais