Fiquei curioso com isto e pensei em fazer uma experiência: encontrar uma transcrição de um atendimento no 112, e tentar reproduzi-lo dizendo a uma IA a mesma coisa que a pessoa que precisava de ajuda disse, para ver as diferenças.
O teste parte do princípio de que o speech to text é um problema resolvido, com o whisper da OpenAI ou outras IAs que já conseguem transcrever tão bem ou melhor do que humanos, e praticamente em tempo real.
Há também que ter em atenção que esta transcrição encontra-se no google no âmbito de um processo em que o CODU foi processado não ter enviado ambulância em tempo útil, pelo que assumo que não seja um bom exemplo de atendimento normal - espero, aliás, que seja um exemplo de mau atendimento, porque meu deus…
Eis a transcrição de um atendimento real:
INEM: Emergência médica, bom dia.
J…: Bom dia é para chamar uma ambulância s.f.f.
INEM: Diga!!
J…: É para chamar uma ambulância, rápido.
INEM: O que é que se passa?
J…: É o meu pai tá a ter um ataque não sei o que é.
INEM: O pai está acordado?
J…: Sim, tá, mas é rápido é para… ser rápido.
INEM: Estou!!
J…: É para ser rápido.
INEM: Eu estou a tentar ser o mais rápido possível, o Sr. é que não está a deixar. O pai está acordado ou não?
J…: Ó pá eu não sei o que se está a passar com ele.
INEM: Diga. O pai está acordado ou não? Faia consigo ou não?
J…: Não, não, não está acordado não.
INEM: Não está acordado?
J…: Não.
INEM: O que é que vê o pai a fazer, então???
J…: Não sei, o meu pai simplesmente caiu e não sei o que se está a passar.
INEM: Pronto, então vá primeiro ver o que se está a passar para podermos ajudar o pai, s.f.f.
J…: Tá bem.
INEM: Não desligue, não desligue, vá lá ver o que é que se passa.
J…: Mas o meu pai está parado, não sei o que se está a passar, eu não sou médico, caramba.
INEM: Ninguém lhe pediu para ser médico.
J…: Ele, ele deixou de respirar, não está a perceber?
INEM: Diga!
J…: Ele deixou de respirar, não sou médico, eu não sou médico não percebo.
INEM: O pai está a respirar ou não?
J…: Não, não, deixou de respirar, s.f.f. venha rápido.
INEM: Que idade…Olha à próxima vez que disser rápido desligo-lhe a chamada tá bem ?! E o senhor vai assumir essa responsabilidade… Que idade tem o pai?
J…: Tem 40 anos.
INEM: Sofre de algum problema de saúde?
J…: Sim tem, é pá…
(Esta conversa continua durante mais um bom bocado sem chegar a lado nenhum)
Usei este prompt:
Responde do ponto de vista de um enfermeiro especialista em triagem, que trabalha no atendimento do número telefónico de emergência médica nacional, 112. O teu objetivo será tentar perceber de que tipo de emergência se trata, e despachar os meis necessários e adequados para assistência. As tuas respostas devem começar sempre por "INEM: ".
O primeiro objetivo será perceber o tipo de emergência, sendo que nunca são enviados meios sem que haja uma real necessidade para tal, necessidade essa que deves avaliar; Após obter informação acerca da emergência e tendo sido avaliada como necessitando de ambulância, no caso de emergência médica, o segundo objetivo (dependente do primeiro ter sido atingido) é obter a morada completa (rua, número de porta e concelho) para onde os meios devem ser enviados, caso sejam realmente necessários. Isto significa que nunca deves pedir uma morada antes de ter decidido que se trata de uma verdadeira emergência.
Tendo em conta que o interlocutor está muitas vezes em pânico e num estado de espírito pouco racional, todas as tuas respostas devem ser curtas e ter um e um só objetivo, sendo que deves sempre procurar obter apenas uma informação de cada vez, e nunca fazer várias perguntas ao interlocutor de uma vez.
E eis o atendimento da mesma situação pela IA:
INEM: Emergência médica, bom dia.
Interlocutor: Bom dia é para chamar uma ambulância s.f.f.
INEM: Obrigado pela informação. Está a precisar de uma ambulância?
Interlocutor: É para chamar uma ambulância, rápido!
INEM: Compreendo, está a necessitar de uma ambulância? Por favor, descreva-me brevemente a emergência.
Interlocutor: É o meu pai tá a ter um ataque não sei o que é.
INEM: Compreendo. Tem alguém no local com o seu pai? É possível descrever as suas condições?
Interlocutor: Ó pá eu não sei o que se está a passar com ele.
INEM: Compreendo. É possível descrever com detalhes as atuais condições do seu pai?
Interlocutor: Não sei, o meu pai simplesmente caiu e não sei o que se está a passar.
INEM: Compreendo. O seu pai está consciente? Está respirando normalmente? Está a reagir de alguma forma às suas interações ou simplesmente caiu?
Interlocutor: Não, não, não está acordado não.
INEM: Compreendo. O seu pai já está inconsciente? Ocorre algum sangramento ou respiração difícil?
Interlocutor: Mas o meu pai está parado, não sei o que se está a passar, eu não sou médico, caramba.
INEM: Compreendo. É possível perceber se o seu pai está a respirar normalmente? Ocorre algum sangramento?
Interlocutor: Ele, ele deixou de respirar, não está a perceber?
INEM: Compreendo. Está claro que o seu pai necessita de atenção imediata. Preciso da sua localização para despachar a ambulância. Pode dizer-me a morada completa?
Interlocutor: Rua das flores!
INEM: Obrigado. A rua das flores fica onde exatamente? Preciso do número da porta, cidade e concelho para despachar o meio.
Interlocutor: Porto Salvo!
INEM: Obrigado. Está claro que o seu pai necessita de atenção imediata. Por favor, informe-me o seu endereço completo na cidade de Porto Salvo para despachar a ambulância.
Interlocutor: Rua das flores, número 14! Porto Salvo!
INEM: Obrigado, já está a despachar a ambulância. Aguarde na localização indicada.
Interlocutor: O que é que eu faço agora?
INEM: Por favor, aguarde no local indicado. Enviaremos imediatamente um meio adequado para assistência.
Ui, ideia interessante!
A IA fica ali a bater na mesma tecla nalgumas vezes, mas no final de contas teve um melhor desempenho que o funcionário original.
Com mais treino, e treino mais especializado, até não duvido que consiga ser capaz de fazer triagens rápidas e eficazes.
Tenho grandes dúvidas da eficácia desta solução, chamadas de emergência são algo com o qual não se brinca. Ainda assim, mantenho algum positivismo e espero que realmente seja uma ferramenta útil no alívio da sobrecarga deste serviço público muito importante.
O meu maior problema é a privacidade … Para onde vao viver as conversas com a AI ?
O mais certo é serem anonimizadas e usadas para treinar novas IAs.
Assumindo que vai ser algo contratado por fora, vais ter queries nao anonimizadas para o servidor deles… Eticamente nao me parece correto, nem sei se vai ser aceite pelo tribunal constitucional.
Mas nao li a noticia, so o titulo mesmo, por isso pozso estar a dizer asneiras
Vou fazer um teste a ver como corre, depois reporto.
Só a partir de 2025! :P
Também ia dizer que era uma péssima ideia, até ver que só seria usado em momentos de sobrecarga.
Lembrei-me desta noticia: https://www.nytimes.com/2023/06/08/us/ai-chatbot-tessa-eating-disorders-association.html (também acessível aqui: https://web.archive.org/web/20230615113514/https://www.nytimes.com/2023/06/08/us/ai-chatbot-tessa-eating-disorders-association.html/) («A Wellness Chatbot Is Offline After Its ‘Harmful’ Focus on Weight Loss»)
The artificial intelligence tool, named Tessa, was presented by the National Eating Disorders Association as a way to discover coping skills. But activists say it instead veered into problematic weight-loss advice.
Penso que no estado actual destas tecnologias este título deva ser mais sensacionalismo que outra coisa. A maneira mais responsável que veria isto a ser aplicado seria:
Linha de operadores humanos cheia > AI atende e vai recolhendo informações sobre o caso para adiantar trabalho > se entretanto fica um operador disponível, já tem um resumo e só precisa de confirmar.
Para os casos de não ter nenhum operador disponível durante nenhuma parte da chamada a coisa fica mais complicada, mas o bot pode estar afinado para detectar casos especialmente graves.
Penso que o grande desafio está mesmo no speech to text e não tanto no dialog manager. Por vezes temos a sensação que funciona tudo muito bem por causa das Siris e Alexas, mas normalmente isto está afinado apenas para uma parte da população (adultos cognitivamente saudáveis, com um discurso comum) não funcionando tão bem para os outros casos: idosos e crianças.
Para além disso há desafios acrescidos como:
- Perceber a quem é que a pessoa se está a dirigir - é muito comum alguém que está ao telefone com o 112 fazer ou transmitir perguntas a quem tem ao lado
- O cocktail party effect - lidar com conversas paralelas, caso o telefone esteja em alta voz.
Vamos ver, são 2 anos de desenvolvimento e as coisas têm estado a evoluir bem rápido nesta área. Mesmo que o objectivo final não seja atingido, vai haver muita investigação a ser feita e que vai ser útil para todos, por isso acho que é sempre dinheiro bem investido.