DeepSeek: startup que sacudiu o Vale do Silício e abriu novos caminhos para os países em desenvolvimento, por Glauco Arbix
Com avanços inovadores e custos reduzidos, a DeepSeek abala o Vale do Silício, evidencia limites das restrições dos EUA contra a China e aponta novos caminhos para o desenvolvimento da inteligência artificial

Empresas gigantes que dominam o universo da IA ficaram assustadas com os avanços da IA generativa promovidos por uma startup chinesa, a DeepSeek, de propriedade de um fundo de hedge chinês chamado High Flyer. Segundo seus patrocinadores, os modelos da startup chinesa alcançaram praticamente os mesmos padrões das principais empresas americanas, a exemplo do GPT-4o, do Claude-3.5 e do Llama3.1. E, em algumas dimensões, mostraram-se até mesmo mais eficientes, apesar de operarem com menor poder computacional, sem chips de última geração e com um custo quase dez vezes menor do que grandes modelos de linguagem disponíveis no mercado. Mais ainda, os modelos da DeepSeek são praticamente de código aberto, ou seja, trabalham sem as limitações dos códigos proprietários ao oferecerem acesso – e oportunidades – para um grande número de desenvolvedores do mundo todo.
O anúncio dos sistemas da DeepSeek praticamente ofuscou a coletiva de imprensa chamada pelo presidente dos Estados Unidos, Donald Trump, para anunciar um plano multibilionário chamado Stargate, acompanhado pelo diretor-geral da OpenAI (a mesma que controla o ChatGPT), do Soft Bank (um dos mais importantes fundos de investimento japonês) e da NVIDIA (líder mundial em chips de alto desempenho, especializados em IA). Após a exposição da DeepSeek, as big techs americanas perderam trilhões de dólares na bolsa, sendo que somente a NVIDIA viu seu valor de mercado cair cerca de US$ 600 bilhões em um único dia.
Por suas características inovadoras, a startup chinesa passou a frequentar o noticiário de jornais, TVs e diferentes mídias digitais, assustando investidores e governos do mundo todo, que viam sempre nas grandes corporações americanas lideranças inquestionáveis. Não foi o que o mundo assistiu.
Mas a DeepSeek não é a única capaz de sacudir o mundo da IA. Com inovações semelhantes, a Alibaba, que domina o comércio eletrônico na China, anunciou seu modelo Qwen 2.5, seguida pela TikTok, com seu modelo GoKu AI, ainda em versão Beta, mas com a capacidade de gerar vídeos e imagens altamente realistas. Na verdade, o período recente mostrou uma onda de startups que floresceram em Hangzhou, a capital da província de Zhejiang, chamada de “Vale do Silício chinês”. Na esteira da DeepSeek, um grupo altamente inovador ficou conhecido como os “Seis Pequenos Dragões”, incluindo a Unitree, a DeepRobotics, a BrainCo, a Game Science e a 3D. Há também plataformas de código aberto como a Metaso.ai e a Kimi.ia, que operam somente em chinês e seguiram caminhos diferentes das americanas para expandir a IA.
A atuação dessas empresas deixa claro que o mundo digital americano, dominado por poucas e grandes corporações, tinha certeza de que o único caminho possível para desenvolver a IA seria aumentar o poder dos computadores e utilizar de modo crescente um volume maior de dados, apresentados como o único meio para produzir máquinas capazes de se equipararem aos humanos. As inovações que vieram da China abriram um novo capítulo na trajetória da IA.
Claro que a polêmica está apenas começando, pois nem todos os especialistas concordam com a precisão dos indicadores de eficiência e de custo anunciados pela DeepSeek. Há pesquisadores que alegam que a startup chinesa teve acesso a muito mais chips da NVIDIA de última geração do que o declarado. Outros, como Sam Altman, diretor da OpenAI, sugerem que a empresa chinesa se apropriou de dados para treinar seu modelo de forma ilegal – o que não deixa de ser irônico, já que a OpenAI utilizou intensamente dados de grandes jornais, do YouTube e de inúmeros bancos de dados para treinar seus modelos; por isso, chegou a ser processada pelo New York Times e, mais importante, enfrentou a ampla mobilização dos roteiristas e escritores da indústria audiovisual e do cinema na Califórnia.
Há, no entanto, estudos de eficiência já divulgados por empresas que testam e comparam o desempenho dos modelos, como a Wiz, a Palo Alto Networks e a Enkrypt, que destrincharam os modelos da DeepSeek e mostraram que eles não são totalmente transparentes, principalmente no que se refere aos dados utilizados para treinamento; que há falhas em seus sistemas de segurança; e que o baixo custo anunciado pela DeepSeek pode não ser tão baixo. Porém, não deixaram de registrar uma série de inovações reais, que mostram os avanços da startup chinesa.
De fato, os modelos da DeepSeek operam de forma mais concisa, encurtam caminhos e reduzem fases que marcam o modo como os modelos de IA generativa das grandes empresas americanas costumam operar. O avanço mais poderoso da DeepSeek está contido em seus recursos de meta-aprendizado. Ao contrário dos modelos tradicionais de IA, que dependem fortemente de conjuntos de dados predefinidos, o novo modelo chinês possui a capacidade de aprender com outros sistemas de IA, o que permite uma forma de evolução autodirigida. Em três passos, o modelo chinês se caracteriza por:
- Evolução contínua, que permite assimilar conhecimento de diversas fontes e manter uma aprendizagem permanente sem intervenção humana;
- Flexibilidade cognitiva, com maior facilidade de adaptação a novos cenários e espaços de forma dinâmica, sem necessidade de reformatação;
- Inteligência descentralizada, de modo a absorver insights e dados de vários sistemas de IA, o que abre espaço para um sistema capaz de autoaperfeiçoamento.
Primeiras lições
O primeiro ensinamento diz respeito à baixa eficácia das restrições que os EUA definiram para conter o avanço da China. As barreiras à transferência de conhecimento, a contenção do intercâmbio na pesquisa e as restrições à comercialização de produtos críticos para a IA – como chips, computadores e impressoras – iniciadas no primeiro governo Trump e ampliadas no mandato de Joe Biden, mostraram-se no mínimo extremamente limitadas em seu alcance.
O segundo ponto deixa claro que os verdadeiros processos de inovação precisam seguir caminhos diferentes dos dominantes. Antes do ChatGPT (lançado publicamente em novembro de 2022), antes mesmo dos grandes modelos de linguagem e da tecnologia Transformer (2017), o investimento era farto na busca de diferentes tipos de design, redes neurais e algoritmos para tentar melhorar a eficiência dos modelos de IA em diferentes tarefas.
O terceiro sugere que o peso avassalador dos investimentos públicos e privados em gigantescos data centers funcionou como uma barreira para a livre imaginação científica.
A quarta lição indica que a atuação autoritária e impositiva de Trump pode empurrar aliados históricos, como o Brasil, para uma amizade mais profunda com a China, o que seria um enorme tiro no pé dos EUA.
Para onde vai a IA?
O próximo período é de incerteza. O avanço de startups como a DeepSeek não indica que a IA será chinesa no futuro imediato. O terreno está em disputa. O que é certo é que a China se aproximou ainda mais da liderança dos EUA.
A DeepSeek deu seu recado para o Vale do Silício – e também para os países em desenvolvimento como o Brasil: é possível fazer muito mais com menos. É um alerta para o Plano Brasileiro de IA, que ainda não olha com atenção para a carência de computadores avançados e acessíveis nas universidades e centros de pesquisa do país.
Se os países em desenvolvimento conseguirem acelerar sua capacitação em IA, o panorama global pode sofrer uma rápida diversificação, com avanços vindos não apenas da China, mas também da Europa, da Ásia e do Sul Global. É o que esperamos do Brasil. E a USP pode ser peça-chave nesse avanço.
Glauco Arbix é professor da Faculdade de Filosofia, Letras e Ciências Humanas e pesquisador do Center for Artificial Intelligence (C4AI) da USP