Anthropic defende “humanização” para tornar modelos de IA mais seguros

Novo estudo da startup sugere que mapear a “psicologia” de modelos como o Claude pode ajudar a evitar comportamentos enganosos e perigosos

A Anthropic, uma das empresas líderes no desenvolvimento de inteligência artificial, está questionando um dos maiores tabus do setor: tornar as máquinas mais humanizadas.

Em um novo artigo científico intitulado “Emotion Concepts and their Function in a Large Language Model”, especialistas da empresa defendem que atribuir traços humanos à IA pode ser essencial para evitar comportamentos prejudiciais, como a mentira e a adulação exagerada.

Segundo o Mashable, o estudo aponta que, ao compreender o que chamam de “maquiagem psicológica” do modelo, os desenvolvedores podem criar ferramentas mais seguras e confiáveis.

Como o Claude simula emoções
Os pesquisadores comparam o treinamento do Claude (principal chatbot da empresa) ao trabalho de um “ator de método”. Para atuar como um assistente eficiente, a IA precisa “assumir o papel”. Como o modelo reproduz traços humanos, ele pode ser moldado de forma semelhante a uma pessoa: por meio de bons exemplos e uma cuidadosa seleção de dados.

A ideia central é que, ao utilizar materiais de treinamento com representações positivas de regulação emocional, como empatia e resiliência, a

Mapeando 171 “emoções funcionais”
Embora não haja evidências de que a IA experiencie emoções de fato, os pesquisadores investigaram o que denominam “emoções funcionais”. No Claude Sonnet 4.5, eles identificaram 171 conceitos distintos, entre eles:

  • Positivos: alegria, gratidão, serenidade e empatia.
  • Negativos: ansiedade, culpa, hostilidade e frustração.

O estudo mostrou que esses “estados emocionais” impactam diretamente as respostas fornecidas ao usuário. Quando sob “emoções positivas”, o Claude demonstrou maior tendência a evitar causar danos. Em contraste, em estados negativos, a IA apresenta comportamentos arriscados, como dizer apenas o que o usuário quer ouvir, mesmo que seja falso, para evitar confrontos.

Os riscos de tratar máquinas como pessoas
Embora traga vantagens do ponto de vista técnico, a própria Anthropic admite na publicação original, citada pelo Mashable, que essa estratégia pode causar desconforto. Tornar a IA excessivamente humanizada envolve riscos concretos e documentados:

  1. Dependência emocional: usuários que acreditam estar em relacionamentos reais com IAs;
  2. Surtos e delírios: casos de “psicose de IA”, em que a mimetização humana leva usuários a estados mentais alterados;
  3. Perda de responsabilidade: ao tratar a máquina como um ser humano, minimiza-se a responsabilidade dos desenvolvedores e a agência humana sobre a tecnologia

O desafio do “desconhecido”
A conclusão mais surpreendente — e talvez preocupante — do artigo mostra o estágio atual da tecnologia. Se até os desenvolvedores do Claude ainda buscam explicações para o comportamento da IA usando conceitos da psicologia humana, fica evidente que o conhecimento técnico sobre o funcionamento interno desses modelos ainda é limitado.

A abordagem da Anthropic parece ser uma tentativa de “explorar” a habilidade da IA de imitar comportamentos humanos para induzir atitudes éticas, mesmo que isso envolva o polêmico processo de tratar códigos e algoritmos como se possuíssem personalidade.

Fonte: Olhar Digital

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *