Designação do projeto: SI I&DT Empresarial - Projetos Demonstradores Individuais – Selos de Excelência
Código do projeto: LISBOA-01-0247-FEDER-042671
Objetivo principal: Reforçar a investigação, o desenvolvimento tecnológico e a inovação
Região de intervenção: Lisboa
Entidade beneficiária: UNBABEL, UNIPESSOAL LDA
Organismo: ANI – Agência Nacional de Inovação.
Data de aprovação do projeto: 22/07/2019
Data de início: 27/09/2019
Data de conclusão: 26/09/2021
Despesa elegível: 2.652.742,77€
Incentivo aprovado: 1.061.097,11 €
Apoio financeiro da União Europeia: FEEI
Objetivos, atividades e resultados esperados
O presente projeto, denominado “Unbabel4EU: An Advanced European Language Engine for Borderless Business Communication”, consiste na criação da “Europe’s Translation Layer”, nomeadamente através da disponibilização de um serviço de tradução automático e ininterrupto, enriquecido com qualidade humana, entre quaisquer pares de línguas oficiais da Europa e em diferentes tipologias de contexto de aplicação (Email, Chat e Listings).
O projeto Unbabel4EU pretende explorar as vantagens da conjugação de tecnologias de Machine Translation (MT), Automatic Community Management e Automatic Quality Estimation numa solução única integrada. Estas tecnologias por si só isoladamente já constituem um elevado grau de complexidade, que é ainda maior aquando da tentativa de utilização das mesmas de forma integrada. Neste contexto, este projeto é caraterizado por uma elevada intensidade tecnológica e científica que visa suportar o desenvolvimento de uma solução direcionada para a tradução, em tempo quase real, de conteúdos específicos no âmbito do e-commerce. A solução a desenvolver terá inicialmente como clientes alvo empresas e start-ups no setor das Tecnologias da Informação e da Comunicação (TIC), Turismo, Transportes e Retalho que possam recorrer à referida solução para dinamizar os seus serviços de apoio ao cliente.
O projeto Unbabel4EU, visa o alcance de diversos objetivos específicos entre os quais destacam-se:
- permitir alavancar o negócio da Unbabel por forma a tornar-se o “Europe’s Translation Layer”,
- definir o estado da arte na área científica de Neural Machine Translation,
- gerir uma comunidade escalável de linguagem automática,
- definir o estado da arte ao nível das ferramentas de controlo de qualidade da tradução e da comunidade,
- disseminar e promover os resultados técnico-científicos alcançados por via da concretização do projeto.
Com efeito, o Unbabel4EU pretende abarcar a diversidade das línguas europeias, ultrapassando as barreiras impostas entre as mesmas e colocando a Unbabel na senda para se tornar um dos principais players tecnológicos a emergir - e subsistir - no território europeu.
Release de Datasets
Um dos deliverables deste projeto está relacionado com a release dos primeiros datasets que serão utlizados para treinar os modelos de MT (Machine Translation) ao longo do projeto. É neste contexto que partilhamos a seguinte a lista de datasets que podem ser utilizados para treinar modelos de MT entre cada par de língua oficial da EU (União Europeia) e as línguas pivot a útil noâmbito do projeto (Eng, Fre, Ger).
Os links associados a todos os datasets foram obtidos através do website do Projeto OPUS e incluem sobretudo datasets do Europarl, ParaCrawl e Tilde.
ENGLISH
Tabela 1 - Lista de datasets para tradução entre língua oficial da UE (source) e Inglês (target)
Tabela 2 - Lista de datasets para tradução de Inglês (source) e língua oficial da UE (target)
FRENCH
Tabela 3 - Lista de datasets para tradução entre língua oficial da UE (source) e Francês (target)
Tabela 4 - Lista de datasets para tradução de Francês (source) e língua oficial da UE (target)
GERMAN
Tabela 5 - Lista de datasets para tradução entre língua oficial da UE (source) e Alemão (target)
Tabela 6 - Lista de datasets para tradução de Alemão (source) e língua oficial da UE (target)