OpenAI lança GPT-Realtime-2 e modelos de voz para tradução e transcrição em tempo real
A OpenAI lançou nesta quinta-feira (7) três modelos de áudio em sua API para o desenvolvimento de aplicativos. O GPT-Realtime-2, o GPT-Realtime-Translate e o GPT-Realtime-Whisper chegam para possibilitar o processamento de pedidos, a tradução de conversas e a transcrição de áudio com redução de latência.
O primeiro deles se trata do GPT-Realtime-2, com raciocínio de classe GPT-5. O sistema gerencia interrupções, correções e mudanças de contexto em tempo real, com foco em conversas ao vivo. A ferramenta ainda permite o uso de preâmbulos de voz enquanto executa ações em segundo plano, por meio de chamadas paralelas de ferramentas.
A janela de contexto do modelo permite conversas longas e com coerência, ao passar de 32 mil para 128 mil tokens. Os desenvolvedores também possuem a opção de definir níveis de raciocínio entre as escalas de mínimo e máximo, conforme a demanda da tarefa.
Clique aqui para ler mais
What did you think of this news? Leave a comment below and/or share it on your social media. This way, we can inform more people about the hottest things in technology, science, innovation, and gaming!
This news was originally published in:
Original source
