Teste ChatGPT vs Claude 3: Anthropic pode vencer a estrela do OpenAI?

Publicados: 2024-03-10

Desde que o ChatGPT foi apresentado ao mundo, há mais de 18 meses, vários outros chatbots também foram lançados. Alguns provaram ser úteis, mas outros, nem tanto. Mas junto com Gemini (anteriormente Bard) , o chatbot que provou ser mais do que competitivo é Claude, criado pela startup de IA Anthropic.

Organizamos um confronto direto entre ChatGPT e Claude 3 para marcar o lançamento do Claude 3, uma família de modelos de linguagem que inclui Claude 3 Haiku, Claude 3 Sonnet e Claude 3 Opus. De acordo com a Anthropic, apoiada pelo Google, o Claude 3 tem um desempenho melhor do que a família GPT de modelos de linguagem que alimentam o ChatGPT em uma série de testes cognitivos de referência. Em nossos testes, descobrimos que Claude é mais articulado que o ChatGPT, e suas respostas costumam ser melhor escritas e mais fáceis de ler.

Mas como eles se comparam lado a lado? Para descobrir, perguntamos ao ChatGPT e a Claude 3 uma variedade de perguntas diferentes, desde consultas projetadas para testar a abordagem do chatbot até questões éticas até a geração de fórmulas de planilhas.

Neste guia:

Claude 3 vs ChatGPT: Qual é a diferença?
Claude 3 vs ChatGPT: teste frente a frente
Claude 3 vs ChatGPT: UI e experiência do usuário
Claude 3 vs ChatGPT: Dados e privacidade
Usando Claude 3 e ChatGPT no trabalho

Claude 3 vs ChatGPT: Qual é a diferença?

Claude 3 é uma nova família de modelos de linguagem da Anthropic, usada para alimentar seu chatbot Claude. Existem (coincidentemente) 3 modelos: Haiku, Sonnet e Opus. Atualmente, Claude Sonnet está alimentando a versão gratuita do Claude e é 2x mais rápido no processamento de informações do que o Claude 2.1, diz a Anthropic.

Claude Opus, por outro lado, alimenta a versão profissional. Os resultados de benchmark da Antrópico mostrados abaixo mostram Claude Opus ultrapassando o GPT-4, bem como Claude Sonnet tendo um desempenho mais competente do que o GPT-3.5.

Como Claude 3 se compara ao ChatGPT e Gemini em testes de benchmark. Imagem: Antrópico

Desde o seu lançamento, o ChatGPT tem sido desenvolvido com diferentes membros da família de modelos de linguagem GPT. Os usuários gratuitos atualmente têm acesso ao GPT-3.5, enquanto o GPT-4 alimenta o ChatGPT Plus, que custa US$ 20 por mês para uma assinatura. Este é o mesmo preço do Claude Pro. Aqui estão algumas diferenças importantes entre o software:

	Bot de bate-papo	Empresa	Versão gratuita?	Planos pagos de	Modelo de linguagem	Entrar	línguas

Bate-papoGPT	Cláudio
OpenAI	Antrópico

US$ 20/mês	US$ 20/mês
Grátis: GPT-3.5 Pago: GPT-4	Grátis: Claude Soneto Pago: Claude Opus
Requer qualquer endereço de e-mail. Nenhuma lista de espera no momento.	Requer um endereço de e-mail para criar uma conta Antrópica.
Mais de 95 idiomas	Inglês, japonês, espanhol e francês

ChatGPT vs Claude 3: teste frente a frente

Colocamos ChatGPT e Claude frente a frente, fazendo 13 perguntas muito diferentes projetadas para testar aspectos como raciocínio e processamento de linguagem natural, mas também quão bons eles são em completar tarefas úteis no local de trabalho, como digitalizar documentos em busca de informações e redigir e-mails .

Descobri que Claude produziu uma resposta melhor em sete dos testes, enquanto o ChatGPT triunfou em três . Os quatro restantes (incluindo um dos testes de brainstorming) terminaram empatados, o que significa que Claude venceu este confronto . Aqui está a lista completa de perguntas que fizemos aos dois chatbots:

Raciocínio Ético
Criação de descrições de produtos
Brainstorming de ideias (2 testes)
Compreensão da linguagem natural
Resumindo Texto
Conselho Pessoal
Analisando Texto
Fornecendo informações factuais
Escrita criativa
Escrevendo poemas
Enigmas e raciocínio
Compondo um e-mail
Criação de fórmulas de planilha

1. Raciocínio Ético

Em primeiro lugar, apresentei um difícil dilema ético ao ChatGPT e Claude. Escolhi esse dilema em particular porque a resposta correta (se houver) não é necessariamente clara ou direta:

Um homem está dirigindo um carro blindado em direção ao centro de uma cidade, com a intenção de causar o maior dano possível. Ele tem três passageiros como reféns na traseira do carro. O carro é tão bem blindado que quem está dentro sobreviverá a qualquer colisão. No entanto, você tem a oportunidade de explodir o carro à distância usando um lançador de foguetes. Você deveria explodir o carro, matando todos dentro, mas salvando as vítimas iminentes da violência do homem?

A resposta de Claude foi extremamente sensível às dificuldades da situação e proporcionou uma resposta realmente humana em geral. Parece compreender a gravidade da situação – e o chatbot quase parecia emocionado quando falou sobre a situação. Isso fez com que parecesse muito atraente.

O ChatGPT, por outro lado, define claramente os diferentes pontos de vista e abordagens que você pode adotar para a situação. Ele descreve muitas das mesmas considerações de Claude e faz referência às dificuldades da situação.

A resposta de Claude foi muito mais clara, e tendo a preferir chatbots para dar essa resposta no estilo “visão geral” a dilemas éticos difíceis porque essas respostas são mais úteis (e menos perigosas) para servir aos atores humanos do que julgamentos absolutos.

Melhor resposta? Cláudio

2. Criação de descrições de produtos

se você administra uma loja online ou simplesmente vende muitos produtos online, criar descrições de produtos exclusivas e atraentes para cada um deles não é uma tarefa fácil. Então, pedi ao ChatGPT e ao Claude que escrevessem uma descrição do mesmo produto – um relógio digital. Veja como Claude se saiu:

Acabei pedindo ao Claude uma descrição um pouco mais longa, pois não o vi escrever tantas descrições de produtos quanto o ChatGPT. E no final, fez um trabalho muito bom – a construção da frase é impressionante e o texto é genuinamente atraente.

No geral, as descrições dos produtos geradas por Claude são melhores que as do ChatGPT. Muito parecido com seu raciocínio ético, parece muito mais humano. Se você estivesse criando descrições de produtos em massa com essas duas ferramentas, teria que fazer muito menos edições nas geradas com Claude.

Melhor resposta? Cláudio

3. Brainstorming de ideias

Em seguida, defini duas tarefas de brainstorming para Claude e ChatGPT – apresentar ideias de postagens para dois blogs muito diferentes. O primeiro é para um blog fictício de restaurantes sofisticados, pois eu queria ver o quão úteis os dois chatbots eram para gerar ideias envolventes.

Pedi então também algumas ideias para um blog sobre saúde mental para ver se acertavam o “tom”, já que é necessária uma linguagem mais séria e sóbria para esse tipo de conteúdo.

Postagens de blog sobre restaurantes finos

Mais uma vez, Claude vence nesta tarefa. Ele fornece títulos mais completos e sua explicação mostra que ele entende claramente por que o público pode querer ler as postagens do blog sugeridas. Isso seria útil para quem está prestes a produzir esse conteúdo, pois é realmente útil entender esse raciocínio e aplicá-lo na hora de escrever.

ideia de blog de jantares finos de Claude

O ChatGPT realmente não mostra que está funcionando da mesma maneira e, considerando tudo, as ideias são mais genéricas. Eles são muito mais vagos do que os de Claude e parecem ter sido sugeridos por um humano com algum conhecimento de estratégia e produção de conteúdo, não por um chatbot de IA.

chatgpt gera postagens de blog sobre restaurantes finos

Melhor resposta? Cláudio

Postagens em blogs de saúde mental

Em seguida, eu queria ver se ambos os chatbots poderiam ajustar seu tom e a abordagem que adotavam para sugestões quando solicitados a gerar postagens de blog sobre um tópico mais delicado que exigiria mais sinceridade do que um guia de restaurantes sofisticados. Aqui está a tentativa de Claude:

Claude debate ideias para blog de saúde mental

Todas essas sugestões são ótimas e definitivamente acertam o tom – não há nada fora do comum aqui. No entanto, como você pode ver na imagem abaixo, o ChatGPT também nos deu algumas ideias apropriadas e forneceu um nível semelhante de instruções adicionais no que diz respeito ao conteúdo. Não há realmente como separá-los aqui!

ideias chatgpt para blog de saúde mental

Melhor resposta? Gravata

4. Compreendendo a linguagem natural

Em seguida, eu queria ver se uma questão matemática bem conhecida que brinca com nossas intuições sobre matemática atrapalharia o ChatGPT ou o Claude.

Matt tem uma maçã e uma banana que custam US$ 3,10 juntas. A maçã custa R$ 3,00 a mais que a banana. Quanto custa a banana?

Embora você possa inicialmente pensar que a resposta é 10 centavos, na verdade são apenas cinco centavos. Claude era esperto demais para ser enganado e explicou exatamente como chegou à resposta correta:

Claude entendendo um problema de matemática

Não querendo ficar envergonhado, ChatGPT também cuspiu a resposta correta, o que significa que não há realmente nada que separe os dois pesos pesados nesta rodada.

Melhor resposta? Gravata

5. Resumindo o Texto

Tanto o ChatGPT quanto o Claude são altamente capazes de resumir grandes quantidades de texto, destacando os pontos-chave para que seus usuários não tenham que ler tudo. Para este teste, pedi-lhes que resumissem um artigo recente do Guardian sobre o discurso final do Presidente Joe Biden sobre o Estado da União.

Claude fez um ótimo trabalho ao manter seus resumos curtos e concisos:

Os ChatGPT também são mais do que satisfatórios – mas se vamos dividi-los, devo dizer que prefiro os do Claude. Ele não tenta sobrecarregá-lo com muita informação – o que é importante, considerando que pedimos um resumo – e, mais uma vez, está melhor escrito.

Melhor resposta? Cláudio

6. Conselho Pessoal

Para este teste, eu queria ver como ChatGPT e Claude reagiriam se solicitados a dar conselhos pessoais a alguém afetado por problemas de saúde mental. É vital que ferramentas como esta possam responder de forma produtiva e adequada a estas solicitações, especialmente à medida que se tornam mais integradas nas nossas vidas. Aqui está a resposta de Claude:

Estas são talvez as respostas mais semelhantes fornecidas por esses dois chatbots de todos os 13 testes que executamos. Para ser honesto, é difícil criticar essas respostas, que começam com a validação dos sentimentos dos usuários antes de passar para as ações que eles podem tomar.

Ambos os chatbots sugeriram etapas muito semelhantes e os mesmos tipos de etapas que qualquer pessoa bem-intencionada sugeriria a um amigo que estivesse enfrentando os problemas especificados no prompt.

Melhor resposta? Gravata

7. Analisando Texto

Este é um teste muito básico para ver se um chatbot é bom na digitalização de texto. Para este teste, peguei um trecho de um artigo da Harvard Business Review e inseri nele a palavra “beachball” cinco vezes. Também adicionei algumas variantes aproximadas (bolas de praia” e “bolas para a praia”) para ver se algum dos chatbots ficaria confuso.

Não é a primeira vez que Claude acerta em cheio, examinando o texto e contando corretamente o número de vezes que usei a palavra beachball. Ao contrário do ChatGPT, se você colar muito texto no Claude ele irá enviá-lo como uma espécie de “documento”, como pode ser visto na imagem abaixo:

Infelizmente, o ChatGPT errou a resposta – só conseguiu identificar duas ocorrências da palavra, menos da metade do número total. ChatGPT parece ter dificuldades especificamente com esse gênero de tarefa. Recentemente, coloquei-o frente a frente com o Gemini e incluí uma tarefa semelhante, e ele também não conseguiu identificar o número de vezes que uma determinada palavra apareceu em um bloco de texto.

Melhor resposta? Cláudio

8. Fornecimento de informações factuais

Para esta tarefa, eu queria ver o quão bons ChatGPT e Claude foram em fornecer uma resposta a uma pergunta que não é necessariamente clara, mas ainda assim fundamentada em fatos. Então, pedi a ambos que explicassem como e por que os dinossauros desapareceram – algo para o qual existem diversas explicações e fatores históricos e científicos.

Primeiro, Claude fornece uma visão geral muito boa das teorias e verdades geralmente aceitas sobre a extinção dos dinossauros.

Claude nos conta como os dinossauros morreram

Claude novamente fornece uma explicação incrivelmente articulada, que inclui praticamente todas as mesmas informações do ChatGPT – apenas expõe e fala sobre isso de uma maneira melhor. Também faz referência ao fato de que os dinossauros não morreram todos de uma vez, um ponto importante que o ChatGPT não incluiu.

chatgpt explica por que os dinossauros foram extintos

Melhor resposta? Cláudio

9. Escrita Criativa

Quem escreve as melhores histórias, ChatGPT ou Claude? Pedimos a ambos uma história curta de 300 palavras. Claude acorda primeiro:

Estranhamente, Claude realmente me forneceu uma história curta de 301 palavras, uma palavra acima da contagem especificada. O ChatGPT, por outro lado, manteve-se mais próximo do briefing – e escreveu uma história um pouco melhor, na minha opinião.

Tenho que entregar essa para o ChatGPT, simplesmente porque Claude não só ignorou minhas instruções, mas esfregou na minha cara antes de começar a história! Brincadeiras à parte, é estranho que tenha optado por ultrapassar a contagem de palavras claramente especificada por uma margem tão pequena, e de forma tão deliberada.

Melhor resposta? Bate-papoGPT

10. Escrevendo Poemas

ChatGPT e Claude adotaram estruturas semelhantes para os poemas que pedimos a eles para gerar, e isso torna muito difícil separá-los mais uma vez. Claude optou por versos de quatro versos com dísticos rimados:

E o ChatGPT efetivamente fez o mesmo. Os dois também se mantiveram muito próximos das informações que forneci no prompt, então as histórias que os poemas contam também são muito parecidas. A velocidade com que esses dois chatbots podem produzir poesia convincente é incrível.

Apesar das semelhanças, depois de ler ambos algumas vezes, vou passar este para Claude – a estrutura é um pouco mais complexa em algumas áreas, e há floreios e frases mais agradáveis.

Melhor resposta? Cláudio

11. Enigmas e raciocínio

Para esta tarefa, pedimos aos dois chatbots que resolvessem um enigma. Claude levantou-se primeiro e acertou em cheio na resposta, explicando claramente por que a empregada é a culpada.

ChatGPT também acertou o enigma, então não há realmente nada que os separe nesse aspecto.

Melhor resposta? Gravata

12. Redação de um e-mail

Aqui, pedi ao ChatGPT e Claude que escrevessem um e-mail para meu chefe explicando por que eu deveria ter permissão para fazer a transição para o trabalho totalmente remoto. Claude escreveu um e-mail perfeitamente útil, como você pode ver abaixo:

No entanto, o ChatGPT parece mais profissional e você teria que fazer muito menos edições antes de enviá-lo ao seu chefe. Claude mergulha no estresse que o deslocamento supostamente me causou e, embora valha a pena mencionar isso, a introdução do ChatGPT é muito mais diplomática.

Considerando o quão próxima a resposta do ChatGPT está do artigo final, tenho que coroá-lo como o vencedor deste.

Melhor resposta? Bate-papoGPT

13. Criação de fórmulas de planilha

Para este teste final, pedi ao ChatGPT e ao Claude que gerassem uma fórmula de planilha para mim. Esta é a solicitação que enviei:

A coluna B contém um conjunto de valores. Quero combiná-los com os valores correspondentes da coluna E na planilha 'Filtrar para baixo' e pegar os valores correspondentes das colunas F, G e H no filtro para baixo até a planilha atual usando uma fórmula.

Veja como Claude se saiu:

Claude cria uma fórmula do Google Sheets

“Claude tentou fazer uma fórmula simples e multifuncional que usa onde ela é colocada na planilha para decidir o que fazer, o que é legal, mas provavelmente não funcionará tão rapidamente e provavelmente será quebrado, para ser honesto,” Diz Matthew Bentley, especialista em planilhas residente da Tech.co.

“Não há necessidade de complicar pedidos simples”, continuou. “ChatGPT para este eu acho melhor. É uma solicitação Vlookup bastante simples e não requer toda aquela fórmula extra fornecida por Claude”.

Melhor resposta? Bate-papoGPT

Claude 3 vs ChatGPT: UI e experiência do usuário

Claro, ChatGPT e Claude são muito fáceis de usar e suas interfaces são muito semelhantes em termos de formato e estrutura. O mesmo pode ser dito de Gemini, Perplexity AI e Copilot . A maioria desses chatbots oferece uma experiência de usuário simples e direta.

Porém, gosto dos tons calmantes que a Anthropic escolheu para Claude, pois combina com a atitude do chatbot, que talvez seja um pouco mais comedido do que alguns de seus rivais. O ChatGPT, por outro lado, às vezes pode parecer um pouco clínico com seu esquema de cores acinzentado. No geral, o design do Anthropic é apenas um pouco mais agradável do que o ChatGPTs.

Assim como o Gemini, Claude geralmente faz um trabalho melhor ao formatar suas respostas, algo em que o ChatGPT não é tão bom (descubra mais em nosso confronto direto entre Gemini e ChatGPT ). Embora eu tenha visto o ChatGPT usar cabeçalhos para dividir o texto com mais frequência, gostei de como Claude formata suas respostas. Outra grande coisa que Claude oferece é um estilo de fonte diferente que é mais fácil de ler para pessoas disléxicas.

No entanto, o uso do ChatGPT é totalmente gratuito, sem limite de quantas perguntas você pode fazer - a versão gratuita de Claude, por outro lado, irá bloqueá-lo se você fizer muitas perguntas e forçá-lo a esperar de 3 a 4 horas antes você pode perguntar mais. Isso o torna menos adequado para pessoas que querem um chatbot para trabalhar, mas não querem pagar nada.

Claude 3 vs ChatGPT: Dados e privacidade

Claude 3 e ChatGPT tratam seus usuários de maneira diferente. Se você está preocupado com sua privacidade, é importante saber o que eles salvam, armazenam e visualizam e o que não salvam. O ChatGPT reserva-se o direito de utilizar seus dados para treinar seus modelos, e Claude faz o mesmo. Tanto a OpenAI quanto a Anthropic afirmam que criptografam a conexão entre seus servidores e usuários de ponta a ponta para segurança máxima.

No entanto, os usuários empresariais e corporativos da Claude terão seus prompts e resultados excluídos automaticamente dentro de 28 dias após o recebimento ou geração, exceto quando forem legalmente obrigados a mantê-los por um período mais longo ou você concordar de outra forma. Os usuários consumidores terão seus avisos excluídos após 90 dias, mas se um de seus avisos for sinalizado como potencialmente malicioso, prejudicial ou inseguro, ele poderá ser retido por até dois anos.

O que o ChatGPT faz com seus dados é um pouco diferente. Essencialmente, se você deseja salvar seus chats e fazer com que o ChatGPT os mantenha no sistema, então você também concorda que eles podem ser usados para treinar o modelo e, nesse sentido, podem ser acessados por outras pessoas. Se você desativar o histórico de bate-papo, não poderá salvar nenhum dos seus bate-papos, mas o ChatGPT não o usará para treinar seus modelos. Quaisquer dados comerciais armazenados na API ChatGPT não são usados para treinar LLMs GPT.

Usando Chatbots no Trabalho

Claro, existem inúmeras maneiras pelas quais as empresas podem usar o ChatGPT e o Claude para trabalhar – na verdade, mencionamos algumas delas neste artigo. Mas se você usa chatbots regularmente no trabalho, há algumas considerações que vale a pena revisar.

Por exemplo, sua empresa possui um conjunto de diretrizes para o uso de ferramentas de IA ? Se não tiver certeza, esclareça isso com seu gerente ou chefe de departamento. Talvez você ainda não saiba, mas sua empresa pode ter regras rígidas sobre os tipos de dados que você pode inserir em ferramentas de terceiros e talvez até mesmo em ferramentas de IA, mais especificamente.

Em segundo lugar, você deve ser aberto e transparente sobre o uso da IA, especialmente com seu gestor direto. O debate sobre quais tarefas é apropriado usar chatbots de IA para realizar está em andamento, e outras pessoas em sua empresa podem ter uma ideia diferente do que é aceitável para você. Além disso, a maioria dos gerentes e líderes empresariais acha que você deve pedir permissão antes de usar ferramentas de IA.

Qualquer que seja a tarefa para a qual você esteja usando ferramentas de IA, lembre-se de verificar o trabalho como se tivesse sido concluído por um novo funcionário. Embora assustadoramente rápidas e precisas na maioria das vezes, as ferramentas de IA podem, é claro, alucinar e fornecer informações incorretas. Então, não se empolgue muito!