O Arquivo.pt apresenta-se como solução para que ferramentas baseadas em Inteligência Artificial (IA) tenham uma melhor performance em língua portuguesa. Este serviço digital da Fundação para a Ciência e a Tecnologia, desenvolvido através da FCCN, assume-se como o maior conjunto de dados textuais em língua portuguesa em Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de processamento da linguagem natural (PLN).  

A necessidade da IA interpretar as complexidades da língua portuguesa

A Inteligência Artificial abrange várias áreas do conhecimento, como a linguística e a informática, e está presente nas novas tecnologias utilizadas diariamente por todos, a nível mundial. Quando procuramos informação na Internet, por exemplo, e é gerada uma resposta, num determinado idioma, tal processo recorre a IA.  

O processamento da linguagem natural é o que permite às máquinas aperfeiçoarem o algoritmo que gera estas respostas adaptadas aos utilizadores, sendo esta a vertente da inteligência artificial que ajuda computadores a entender, interpretar e manipular a linguagem humana. No entanto, estes modelos têm sido desenvolvidos, maioritariamente, para a língua inglesa e não tanto para outras, como o português. 

A verdade é que quanto mais os PLN forem treinados numa língua, mais capazes serão de interpretar as suas complexidades. No entanto, tal só é possível se recorrerem a dados de qualidade e é precisamente nesse sentido que o Arquivo.pt, serviço digital da Fundação para a Ciência e a Tecnologia, surge como solução.  

Arquivo.pt: o maior conjunto de dados textuais em língua portuguesa

O Arquivo.pt apresenta-se aqui como o maior conjunto de dados textuais em língua portuguesa e em Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de processamento da linguagem natural. 

Com mais de 1 Petabyte de conteúdos preservados desde os anos 90, incluindo tudo o que pode ser encontrado nas páginas Web, o Arquivo.pt não disponibiliza apenas texto, mas também imagens, ficheiros áudio, vídeo e metadados diversos, entre outras tipologias de conteúdo em português. 

Os conteúdos são acessíveis através da interface de pesquisa e das APIs do Arquivo.pt. 

GlórIA, um modelo para a língua portuguesa 

Um dos projetos que utilizou o Arquivo.pt para obter grandes quantidades de texto chama-se GlórIA, um modelo linguístico de grande escala (LLM) focado na língua portuguesa europeia. 

“Apesar da abundância de LLMs para muitas línguas de alto recurso, a disponibilidade de tais modelos permanece limitada para o português europeu”, como explicam Ricardo Lopes, João Magalhães e David Semedo, autores do projeto e investigadores da Faculdade de Ciências e Tecnologia da Universidade NOVA de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese

O modelo utilizou 35 milhões de tokens ou expressões que as máquinas podem processar, provenientes de várias fontes, sendo que o Arquivo.pt contribuiu com uma coleção de 1,4 milhões de notícias e periódicos arquivados em português. 

Últimos artigos