Falar com o ChatGPT? O novo recurso que pode mudar tudo

OpenAI lançou uma versão renovada de seu chatbot, o ChatGPT, que pode conversar com os usuários.

Falar com o ChatGPT agora é real. E isso pode revolucionar a forma como interagimos com a inteligência artificial (IA).

A OpenAI lançou uma nova versão do seu chatbot que pode conversar com as pessoas. Além disso, o ChatGPT agora tem a capacidade de “ver, ouvir e falar”. O bot pode entender a linguagem falada, responder usando uma voz sintética e analisar imagens.

“Interagir com chatbots de IA usando palavras faladas promove um senso de comunicação natural. Ou seja, atende à nossa preferência humana inata pela troca verbal”, disse o líder de IA da Proto Inc. , Raffi Kryszek. “Esse modo de interação não é apenas mais rápido do que a digitação. Em suma, também aumenta a conveniência, especialmente em dispositivos ou em ambientes onde a digitação não é viável”.

Conversando com seu bot

A nova atualização do chatbot, a maior da OpenAI desde GPT-4, permite que os usuários possam falar com o ChatGPT no aplicativo para celulares. Os usuários podem escolher entre cinco vozes diferentes para usar.

Além disso, eles também podem mostrar fotos ao ChatGPT. Esse recurso é chamado de GPT-4-Vision. Nele, você pode apontar áreas específicas para observar ou discutir com a IA.

“Tire uma foto de um ponto de referência enquanto viaja e converse ao vivo sobre o que há de interessante nele”, escreveu a empresa em seu site.

“Quando estiver em casa, tire fotos da sua geladeira e da despensa para descobrir o que fazer para o jantar. Depois do jantar, ajude seu filho com um problema de matemática fazendo um foto, circulando o conjunto de problemas e compartilhando dicas com vocês dois.”

Processamento de voz

Com a capacidade de processar voz, o ChatGPT pode imitar vozes e produzir fala. Em suma, isso pode ser feito após ouvir apenas um breve trecho de alguém falando.

A função de voz atualizada do ChatGPT pode contar histórias antes de dormir, ajudar a resolver discussões à mesa de jantar e ler verbalmente o texto digitado pelos usuários.

Riscos

A OpenAI reconheceu o risco de esse recurso ser usado para falsificação de identidade ou atividades fraudulentas. Apesar dessas preocupações, a empresa afirmou que o ChatGPT utilizará apenas vozes já existentes no sistema.

Lançamento

A versão atualizada do ChatGPT será lançada para usuários Plus e Enterprise. Ela estará disponível em plataformas móveis nas próximas duas semanas. Além disso, terá acesso subsequente para desenvolvedores e outros usuários “em breve”.

O recurso de voz do ChatGPT pode ser útil para crianças, sugeriu Callison-Burch. Ele disse que seus filhos usam o Amazon Alexa para pesquisar na internet.

Callison-Burch disse que teve acesso antecipado ao GPT-4-Vision e o achou “incrivelmente impressionante”.

“Usei-o para descrever fotografias, figuras em artigos científicos e até pinturas de belas artes”, acrescentou. “Suas descrições são excepcionalmente boas, e você pode conversar com ele sobre as imagens, fazendo perguntas e pedindo que ele as responda.”

O futuro da IA?

Os recursos multimodais aprimorados do ChatGPT seguem de perto o lançamento do DALL-E 3. Esse é o mais recente e sofisticado sistema de geração de imagens da OpenAI.

A OpenAI afirma que o DALL-E 3 também incorpora processamento de linguagem natural. Em suma, permite que os usuários se comuniquem com o modelo para refinar os resultados e coordenar com o ChatGPT para auxiliar na geração de prompts de imagem.

Num futuro não tão distante, os chatbots de IA ativados por voz serão capazes de compreender diversos sotaques e idiomas. Por fim, isso tornará a tecnologia mais inclusiva e universal, disse Kryszek.

“Essa evolução será associada à capacidade de sentir emoções a partir dos sinais sutis de nossa voz, criando assistentes digitais mais empáticos”, acrescentou.

“Esses avanços estão preparados para permear todas as facetas de nossas vidas, desde wearables até veículos, sustentados por uma robusta biometria de voz que garante a máxima segurança. E à medida que esses sistemas amadurecem, testemunharemos uma mistura de voz, recursos visuais e feedback tátil, inaugurando uma nova era de interações digitais imersivas e multidimensionais.”

você pode gostar também