A OpenAI revelou hoje uma nova ferramenta de inteligência artificial (IA) chamada Operator, projetada para executar tarefas na web de forma independente. Esta ferramenta utiliza seu próprio navegador para interagir com páginas da web através de digitação, cliques e rolagem. Como uma prévia de pesquisa, o Operator tem algumas limitações, mas evoluirá com base no feedback dos usuários.
O Operator pode gerenciar uma variedade de tarefas repetitivas no navegador, incluindo preenchimento de formulários, pedidos de supermercado e criação de memes. Esta ferramenta expande a funcionalidade da IA usando as mesmas interfaces e ferramentas com as quais os humanos interagem diariamente, economizando tempo das pessoas em tarefas rotineiras e proporcionando novas oportunidades para as empresas.
Para um lançamento seguro e iterativo, o Operator está inicialmente disponível para usuários Pro nos EUA em operator.chatgpt.com. Este lançamento inicial ajudará a coletar feedback dos usuários e do ecossistema mais amplo, permitindo melhorias ao longo do tempo. O plano é eventualmente estender o acesso aos usuários Plus, Team e Enterprise e integrar essas capacidades ao ChatGPT no futuro.
O Operator é alimentado por um novo modelo chamado Computer-Using Agent (CUA), que combina as capacidades de visão do GPT-4o com raciocínio avançado através de aprendizado por reforço. O CUA é projetado para interagir com interfaces gráficas de usuário (GUIs) como botões, menus e campos de texto. O Operator pode ver e interagir com um navegador, permitindo que ele atue na web sem necessidade de integrações de API personalizadas.
Em caso de desafios ou erros, o Operator pode usar suas capacidades de raciocínio para se autocorrigir. Se encontrar uma tarefa que não pode completar, ele devolve o controle ao usuário, garantindo uma experiência suave e colaborativa.
Apesar de estar em seus estágios iniciais, o CUA alcançou novos resultados de referência no WebArena e WebVoyager, dois importantes benchmarks de uso de navegador.
Para usar o Operator, os usuários simplesmente precisam descrever a tarefa que gostariam de realizar. Os usuários podem assumir o controle do navegador remoto a qualquer momento, e o Operator é projetado para pedir ao usuário que assuma o controle para tarefas que exigem login, detalhes de pagamento ou ao resolver CAPTCHAs.
Os usuários podem personalizar seus fluxos de trabalho no Operator adicionando instruções personalizadas para todos os sites ou sites específicos. O Operator também permite que os usuários salvem prompts para acesso rápido na página inicial, ideal para tarefas repetidas. Os usuários podem fazer com que o Operator execute várias tarefas simultaneamente criando novas conversas.
O Operator transforma a IA de uma ferramenta passiva em um participante ativo no ecossistema digital. Ele visa simplificar tarefas para os usuários e oferecer benefícios às empresas que buscam experiências inovadoras para os clientes e taxas de conversão mais altas. Colaborações com empresas como DoorDash (NASDAQ:), Instacart (NASDAQ:), OpenTable, Priceline, StubHub, Thumbtack, Uber (NYSE:) e outras estão em andamento para garantir que o Operator atenda às necessidades do mundo real, respeitando as normas estabelecidas. Também estão sendo feitos esforços para melhorar a acessibilidade e eficiência de certos fluxos de trabalho, particularmente em aplicações do setor público, trabalhando com organizações como a Cidade de Stockton para simplificar a inscrição em serviços e programas da cidade.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.