Conheça a opinião de António Branco, Professor da Faculdade de Ciência de Lisboa e Diretor Geral da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, sobre o projeto Albertina PT-*.

Os avanços da Inteligência Artificial têm sido impressionantes, sobretudo na sua aplicação à Tecnologia da Língua. Este progresso é baseado na aprendizagem automática com os chamados Grandes Modelos de Linguagem, como o GPT-3 ou o ChatGPT, de que tanto se tem falado recentemente.

Estas redes são gigantescas — o GPT-3, por exemplo, tem 175 mil milhões de ligações entre neurónios. Captam regularidades linguísticas quando treinadas em processos computacionais massivos, sobre volumes colossais de dados linguísticos, texto ou áudio. No caso do GPT-3, foram usadas 500 mil milhões de palavras no treino.

Uma vez treinados, estes modelos podem ser usados em outras tarefas linguísticas com um nível inédito de qualidade, como por exemplo tradução, conversação, transcrição de fala e legendagem, geração de texto e fala, análise do conteúdo e extração de informação, etc. Quando integrados em sistemas mais vastos, estão a transformar os diagnósticos e cuidados de saúde, os serviços financeiros e jurídicos, os jogos e o entretenimento, o ensino, a criatividade e a cultura, etc.

Devido ao tamanho dos modelos, estas tarefas de processamento estão disponíveis remotamente como serviços online, como é o caso dos motores de busca, e não como os corretores ortográficos de instalação local nos nossos dispositivos. Devido à dimensão dos recursos para a aprendizagem, no imediato, esses serviços são disponibilizados pelo oligopólio das bigtechs, que se contam pelos dedos de uma mão, com capacidade de acesso aos colossais volumes de computação e dados necessários para o treino.

Em consequência, na era digital, a utilização da linguagem — com outros seres humanos, organizações, serviços ou dispositivos artificiais — não voltará a ser feita sem esta intermediação tecnológica pervasiva e profunda, que processa os atos de comunicação e acede ao seu significado.

Temos suficiente experiência com os motores de busca de informação, por exemplo, e com os seus pressupostos e impactos, para intuir as consequências desta intermediação tecnológica na utilização quotidiana da própria linguagem. Intermediação tecnológica, em geral, gera um rasto digital de dados pessoais fora do nosso controlo. Intermediação tecnológica incessante da linguagem e comunicação humanas, em particular, afunilada num pequeno oligopólio mundial, gera riscos alarmantes para as soberanias individuais e coletivas.

Impactos indesejáveis de tecnologias emergentes mitigam-se com mais e melhor tecnologia, não com menos. A dispersão do fornecimento destes serviços é crucial para debelar a ameaça que a sua concentração constitui. A resposta encontra-se assim na promoção de um ecossistema de inovação que, em alternativa, permita atempadamente banalizar o acesso aos recursos necessários para a apropriação e exploração da Tecnologia da Linguagem pelo maior número possível de indivíduos e organizações, privadas e públicas, pequenas e grandes, nacionais e internacionais.

A este respeito, a RNCA já está a desempenhar um papel da maior relevância, nomeadamente através do Concurso de Projetos de Computação Avançada: Inteligência Artificial em Cloud.

Coordeno um dos projetos financiados pela primeira edição deste concurso em que procuramos contribuir para a IA aberta e para a preparação tecnológica da língua portuguesa. Um dos resultados desse projeto, de que aqui dou notícia, é o Albertina PT-*. Trata-se de um modelo fundacional desenvolvido especificamente para a língua portuguesa, tanto para a variante europeia, falada em Portugal, como para a variante americana falada no Brasil.

Tanto quanto nos é dado a conhecer, com os seus 900 milhões de parâmetros e o seu nível de desempenho, constitui o atual estado da arte no que diz respeito a grandes modelos de linguagem fundacionais da classe encoder para esta língua que estão publicamente disponíveis em código aberto, gratuitamente e com licença sem restrições. Uma apresentação exaustiva das suas características e implementação encontra-se no artigo aceite para publicação nas atas da EPIA2023, a conferência anual da Associação Portuguesa para a Inteligência Artificial.

Este é apenas um primeiro passo em direção à democratização desta tecnologia, que é chave para o futuro, e na promoção da IA generativa aberta, para a qual a RNCA, estou certo, continuará a dar uma contribuição inestimável.

___

Comunicado sobre o Albertina PT-*

Outros artigos relacionados

João Nuno Ferreira: “Com o Deucalion deu-se um grande salto na capacidade HPC em Portugal”

O coordenador geral da FCCN falou sobre a temática da computação avançada e o investimento feito a nível nacional.

Ler artigo

Deucalion: um marco na Computação Avançada em Portugal

O professor Rui Oliveira, Diretor do Centro Operacional onde está instalado o Deucalion, deu a conhecer o melhor supercomputador português gerido pela FCCN.

Ler artigo

“O que mais me marcou foi conhecer e dialogar com colegas das mais diversas áreas”

Pedro Fernandes, da Faculdade de Ciências da Universidade do Porto, foi um dos participantes do Encontro de Computação Avançada em 2023. Partilhou o seu testemunho sobre a iniciativa.

Ler artigo

Encontro de Computação Avançada: a experiência de Margarida Prozil

Em 2023, Margarida Prozil, Head of Data do Data CoLAB, participou pela primeira vez no Encontro Nacional de Computação Avançada. Eis o seu testemunho.

Ler artigo

Serviços de computação avançada da FCT permitem a investigadores desafiar leis clássicas da física estatística

Luís Oliveira e Silva, Thales Silva e Pablo Bilbao descobriram propriedades em plasmas, que viajam quase à velocidade da luz quando expostos a campos magnéticos ultra-intensos.

Ler notícia

Supercomputação ao Alcance de startups e PMEs: FCT Lança Vouchers de Inovação InovIA

A FCT lança novo programa de computação avançada que visa democratizar o acesso a supercomputadores de última geração.

Ler notícia

Deucalion marca presença no EuroHPC Summit 2025

O evento contou com duas apresentações sobre as capacidades do supercomputador português.

Ler notícia

Convite aberto para adesão ao Centro Nacional de Computação Avançada

Abertura da manifestação de interesse para todas as entidades que desejem integrar esta rede. como associado.

Ler notícia

5.º Encontro de Computação Avançada vai até Aveiro em outubro

É nos dias 22 e 23 de outubro que a comunidade desta área se reúne no edifício da Reitoria da Universidade de Aveiro.

Mais informação

EuroHPC User Day 2024 abre Inscrições

Estão abertas as inscrições para o EuroHPC User Day 2024, que acontece nos dias 22 e 23 de outubro de 2024, no icónico Eye Museum, em Amesterdão, na Holanda.

Mais informação

FCT coorganiza a 22 de maio um Dia Aberto ao Conhecimento

“O papel dos supercomputadores na transição digital e na competitividade das organizações e das empresas” é o mote da iniciativa, que se realiza a 22 de maio, com início às 14h00, na Universidade do Minho.

Mais informação

Inauguração do supercomputador MareNostrum 5: Barcelona é o novo polo europeu de inovação

A inauguração do MareNostrum 5 vem reforçar o papel da Europa na vanguarda da inovação tecnológica global. Barcelona é o novo polo europeu de inovação

Mais informação