Unbabel Unbabel API Chat FAQs Tickets Video Facebook Instagram LinkedIn Twitter YouTube
Lisboa 2020, Portugal 2020, União Europeia: Fundo Europeu de Desenvolvimento Regional

Designação do projeto: SI I&DT Empresarial - Projetos Demonstradores Individuais – Selos de Excelência
Código do projeto: LISBOA-01-0247-FEDER-042671
Objetivo principal: Reforçar a investigação, o desenvolvimento tecnológico e a inovação
Região de intervenção: Lisboa
Entidade beneficiária: UNBABEL, UNIPESSOAL LDA
Organismo: ANI – Agência Nacional de Inovação.
Data de aprovação do projeto: 22/07/2019
Data de início: 27/09/2019
Data de conclusão: 26/09/2021
Despesa elegível: 2.652.742,77€
Incentivo aprovado: 1.061.097,11 €
Apoio financeiro da União Europeia: FEEI

Objetivos, atividades e resultados esperados

O presente projeto, denominado “Unbabel4EU: An Advanced European Language Engine for Borderless Business Communication”, consiste na criação da “Europe’s Translation Layer”, nomeadamente através da disponibilização de um serviço de tradução automático e ininterrupto, enriquecido com qualidade humana, entre quaisquer pares de línguas oficiais da Europa e em diferentes tipologias de contexto de aplicação (Email, Chat e Listings).

O projeto Unbabel4EU pretende explorar as vantagens da conjugação de tecnologias de Machine Translation (MT), Automatic Community Management e Automatic Quality Estimation numa solução única integrada. Estas tecnologias por si só isoladamente já constituem um elevado grau de complexidade, que é ainda maior aquando da tentativa de utilização das mesmas de forma integrada. Neste contexto, este projeto é caraterizado por uma elevada intensidade tecnológica e científica que visa suportar o desenvolvimento de uma solução direcionada para a tradução, em tempo quase real, de conteúdos específicos no âmbito do e-commerce. A solução a desenvolver terá inicialmente como clientes alvo empresas e start-ups no setor das Tecnologias da Informação e da Comunicação (TIC), Turismo, Transportes e Retalho que possam recorrer à referida solução para dinamizar os seus serviços de apoio ao cliente.

O projeto Unbabel4EU, visa o alcance de diversos objetivos específicos entre os quais destacam-se:

  • permitir alavancar o negócio da Unbabel por forma a tornar-se o “Europe’s Translation Layer”,
  • definir o estado da arte na área científica de Neural Machine Translation,
  • gerir uma comunidade escalável de linguagem automática,
  • definir o estado da arte ao nível das ferramentas de controlo de qualidade da tradução e da comunidade,
  • disseminar e promover os resultados técnico-científicos alcançados por via da concretização do projeto.

Com efeito, o Unbabel4EU pretende abarcar a diversidade das línguas europeias, ultrapassando as barreiras impostas entre as mesmas e colocando a Unbabel na senda para se tornar um dos principais players tecnológicos a emergir - e subsistir - no território europeu.

Release de Datasets

Um dos deliverables deste projeto está relacionado com a release dos primeiros datasets que serão utlizados para treinar os modelos de MT (Machine Translation) ao longo do projeto. É neste contexto que partilhamos a seguinte a lista de datasets que podem ser utilizados para treinar modelos de MT entre cada par de língua oficial da EU (União Europeia) e as línguas pivot a útil noâmbito do projeto (Eng, Fre, Ger).

Os links associados a todos os datasets foram obtidos através do website do Projeto OPUS e incluem sobretudo datasets do Europarl, ParaCrawl e Tilde.

ENGLISH

Source Dataset Target
Bulgarian http://statmt.org/europarl/v7/bg-en.tgz ENG
Czech http://statmt.org/europarl/v7/cs-en.tgz ENG
Danish http://statmt.org/europarl/v7/da-en.tgz ENG
Dutch http://statmt.org/europarl/v7/nl-en.tgz ENG
Finnish http://statmt.org/europarl/v7/fi-en.tgz ENG
French http://statmt.org/europarl/v7/fr-en.tgz ENG
German http://statmt.org/europarl/v7/de-en.tgz ENG
Greek http://statmt.org/europarl/v7/el-en.tgz ENG
Hungarian http://statmt.org/europarl/v7/hu-en.tgz ENG
Italian http://statmt.org/europarl/v7/it-en.tgz ENG
Norwegian https://object.pouta.csc.fi/OPUS-TildeMODEL/v2018/tmx/en-no.tmx.gz ENG
Polish http://statmt.org/europarl/v7/pl-en.tgz ENG
Portuguese http://statmt.org/europarl/v7/pt-en.tgz ENG
Spanish http://statmt.org/europarl/v7/es-en.tgz ENG
Swedish http://statmt.org/europarl/v7/sv-en.tgz ENG
Maltese http://opus.nlpl.eu/download.php?f=ParaCrawl/v5/xml/en-mt.xml.gz ENG
Croatian https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-hr.tmx.gz ENG
Romanian http://statmt.org/europarl/v7/ro-en.tgz ENG
Irish http://opus.nlpl.eu/download.php?f=ParaCrawl/v5/xml/en-ga.xml.gz ENG
Slovak http://statmt.org/europarl/v7/sk-en.tgz ENG
Slovenian http://statmt.org/europarl/v7/sl-en.tgz ENG
Estonian http://statmt.org/europarl/v7/et-en.tgz ENG
Latvian http://statmt.org/europarl/v7/lv-en.tgz ENG
Lithuanian http://statmt.org/europarl/v7/lt-en.tgz ENG

Tabela 1 - Lista de datasets para tradução entre língua oficial da UE (source) e Inglês (target)



Source Dataset Target
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/bg-en.tmx.gz Bulgarian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/cs-en.tmx.gz Czech
ENG http://opus.nlpl.eu/download.php?f=ParaCrawl/v5/xml/da-en.xml.gz Danish
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-nl.tmx.gz Dutch
ENG https://object.pouta.csc.fi/OPUS-Europarl/v8/tmx/en-fi.tmx.gz Finnish
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-fr.tmx.gz French
ENG http://opus.nlpl.eu/download.php?f=ParaCrawl/v5/xml/de-en.xml.gz German
ENG https://object.pouta.csc.fi/OPUS-Europarl/v8/tmx/el-en.tmx.gz Greek
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-hu.tmx.gz Hungarian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-it.tmx.gz Italian
ENG https://object.pouta.csc.fi/OPUS-TildeMODEL/v2018/tmx/en-no.tmx.gz Norwegian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-pl.tmx.gz Polish
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-pt.tmx.gz Portuguese
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-es.tmx.gz Spanish
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-sv.tmx.gz Swedish
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-mt.tmx.gz Maltese
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-hr.tmx.gz Croatian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-ro.tmx.gz Romanian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-ga.tmx.gz Irish
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-sk.tmx.gz Slovak
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-sl.tmx.gz Slovenian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-et.tmx.gz Estonian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-lv.tmx.gz Latvian
ENG https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-lt.tmx.gz Lithuanian

Tabela 2 - Lista de datasets para tradução de Inglês (source) e língua oficial da UE (target)



FRENCH

Source Dataset Target
Bulgarian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/bg-fr.tmx.gz FRE
Czech https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/cs-fr.tmx.gz FRE
Danish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/da-fr.tmx.gz FRE
Dutch https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-nl.tmx.gz FRE
Finnish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fi-fr.tmx.gz FRE
English https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-fr.tmx.gz FRE
German https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-fr.tmx.gz FRE
Greek https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/el-fr.tmx.gz FRE
Hungarian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-hu.tmx.gz FRE
Italian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-it.tmx.gz FRE
Norwegian https://object.pouta.csc.fi/OPUS-TildeMODEL/v2018/tmx/fr-no.tmx.gz FRE
Polish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-pl.tmx.gz FRE
Portuguese https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-pt.tmx.gz FRE
Spanish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/es-fr.tmx.gz FRE
Swedish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-sv.tmx.gz FRE
Maltese https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-mt.tmx.gz FRE
Croatian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-hr.tmx.gz FRE
Romanian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-ro.tmx.gz FRE
Irish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-ga.tmx.gz FRE
Slovak https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-sk.tmx.gz FRE
Slovenian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-sl.tmx.gz FRE
Estonian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/et-fr.tmx.gz FRE
Latvian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-lv.tmx.gz FRE
Lithuanian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-lt.tmx.gz FRE

Tabela 3 - Lista de datasets para tradução entre língua oficial da UE (source) e Francês (target)



Source Dataset Target
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/bg-fr.tmx.gz Bulgarian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/cs-fr.tmx.gz Czech
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/da-fr.tmx.gz Danish
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-nl.tmx.gz Dutch
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fi-fr.tmx.gz Finnish
FRE https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/en-fr.tmx.gz English
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-fr.tmx.gz German
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/el-fr.tmx.gz Greek
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-hu.tmx.gz Hungarian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-it.tmx.gz Italian
FRE https://object.pouta.csc.fi/OPUS-TildeMODEL/v2018/tmx/fr-no.tmx.gz Norwegian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-pl.tmx.gz Polish
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-pt.tmx.gz Portuguese
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/es-fr.tmx.gz Spanish
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-sv.tmx.gz Swedish
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-mt.tmx.gz Maltese
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-hr.tmx.gz Croatian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-ro.tmx.gz Romanian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-ga.tmx.gz Irish
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-sk.tmx.gz Slovak
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-sl.tmx.gz Slovenian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/et-fr.tmx.gz Estonian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-lv.tmx.gz Latvian
FRE https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/fr-lt.tmx.gz Lithuanian

Tabela 4 - Lista de datasets para tradução de Francês (source) e língua oficial da UE (target)



GERMAN

Source Dataset Target
Bulgarian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/bg-de.tmx.gz GER
Czech https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/cs-de.tmx.gz GER
Danish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/da-de.tmx.gz GER
Dutch https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-nl.tmx.gz GER
Finnish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-fi.tmx.gz GER
English https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/de-en.tmx.gz GER
French https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-fr.tmx.gz GER
Greek https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-el.tmx.gz GER
Hungarian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-hu.tmx.gz GER
Italian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-it.tmx.gz GER
Norwegian https://object.pouta.csc.fi/OPUS-TildeMODEL/v2018/tmx/de-no.tmx.gz GER
Polish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-pl.tmx.gz GER
Portuguese https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-pt.tmx.gz GER
Spanish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-es.tmx.gz GER
Swedish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-sv.tmx.gz GER
Maltese https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-mt.tmx.gz GER
Croatian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-hr.tmx.gz GER
Romanian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-ro.tmx.gz GER
Irish https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-ga.tmx.gz GER
Slovak https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-sk.tmx.gz GER
Slovenian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-sl.tmx.gz GER
Estonian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-et.tmx.gz GER
Latvian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-lv.tmx.gz GER
Lithuanian https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-lt.tmx.gz GER

Tabela 5 - Lista de datasets para tradução entre língua oficial da UE (source) e Alemão (target)



Source Dataset Target
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/bg-de.tmx.gz Bulgarian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/cs-de.tmx.gz Czech
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/da-de.tmx.gz Danish
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-nl.tmx.gz Dutch
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-fi.tmx.gz Finnish
GER https://object.pouta.csc.fi/OPUS-ParaCrawl/v5/tmx/de-en.tmx.gz English
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-fr.tmx.gz French
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-el.tmx.gz Greek
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-hu.tmx.gz Hungarian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-it.tmx.gz Italian
GER https://object.pouta.csc.fi/OPUS-TildeMODEL/v2018/tmx/de-no.tmx.gz Norwegian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-pl.tmx.gz Polish
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-pt.tmx.gz Portuguese
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-es.tmx.gz Spanish
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-sv.tmx.gz Swedish
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-mt.tmx.gz Maltese
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-hr.tmx.gz Croatian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-ro.tmx.gz Romanian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-ga.tmx.gz Irish
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-sk.tmx.gz Slovak
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-sl.tmx.gz Slovenian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-et.tmx.gz Estonian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-lv.tmx.gz Latvian
GER https://object.pouta.csc.fi/OPUS-MultiParaCrawl/v5/tmx/de-lt.tmx.gz Lithuanian

Tabela 6 - Lista de datasets para tradução de Alemão (source) e língua oficial da UE (target)