Unia pomoże w tłumaczeniu maszynowym

Komisja Europejska zdecydowała się na udostępnienie ponad 19 mln zdań przetłumaczonych na 22 języki, używane w krajach należących do wspólnoty. Mają pomóc m.in. w tworzeniu wszelkiego rodzaju aplikacji tłumaczących, systemów syntezy mowy oraz tezaurusów. Zwroty zostały odpowiednio oznaczone, co dodatkowo ułatwi pracę programistom.

Komisja Europejska udostępniła swoistą bazę danych jeszcze w zeszłym roku. Zbiór zawiera m.in. krótkie zdania lub ich fragmenty, przypisane do odpowiedników zapisanych w pozostałych 21 językach. Udostępniony zbiór zawiera tłumaczenia na wszystkie 231 kombinacji par językowych. Pod względem liczby zdań (1,052 mln), zbiór wyrażeń w języku polskim zajmuje 7. miejsce. Na pierwszym jest oczywiście angielski (2,188 mln).

Zdania pochodzą z dokumentu prawnego Acquis Communautaire. Określa on dorobek prawny Unii Europejskiej i obejmuje wszystkie traktaty, umowy i przepisy wydawane przez unijne organy prawne. Dzięki temu cały zbiór zawiera również wiele specjalistycznych zwrotów, m.in. z zakresu informatyki, telekomunikacji, prawa pracy, czy rolnictwa. Równie istotny jest prawny charakter udostępnionych zasobów.

Zobacz również:

Przedstawiciele KE mają nadzieję, że udostępniona bezpłatnie baza słów przyczyni się do stworzenia bardziej efektywnego i tańszego oprogramowania tłumaczącego. To z kolei ułatwi promowanie kultur poszczególnych krajów i poprawi dostęp do informacji osobom władającym mniej popularnymi językami. Do tej pory twórcy systemów tłumaczenia maszynowego opierali się na zasobach Internetu lub na mocy odpowiednich licencji korzystali z komercyjnych słowników komputerowych. W pierwszym przypadku stworzony zbiór był jednak dość ograniczony. W sieci łatwo dostępne są jedynie tłumaczenia dokumentów na najpopularniejsze języki, a więc angielski, niemiecki i francuski. Z kolei korzystanie z komercyjnych baz słownikowych wiąże się z poniesieniem znacznych kosztów.

Podstawa działania popularnych systemów tłumaczących opiera się na analizie matematycznej posiadanej bazy danych. W ten sposób dobierany jest kontekst lub odmiana poszczególnych wyrazów. Do tej pory praktycznie jedynym, podobnym zbiorem słów był zgromadzony przez naukowców z Uniwersytetu w Edynburgu, zapis wystąpień przedstawicieli poszczególnych państw podczas obrad Parlamentu Europejskiego. Zawierał jednak tylko 11 języków. Nie było też wśród nich języka polskiego.

Według informacji UE, nad tłumaczeniem dokumentów czuwa zespół 1750 tłumaczy. Rocznie tłumaczą oni treści o długości ok. 3 mld znaków.

Więcej informacji na stronie Komisji Europejskiej.


TOP 200