Тіларалық аударма - Interlingual machine translation

Сурет 1. а-ны пайдаланып аудару процесінде қолданылатын тілдерді көрсету көпір тіл.

Тіларалық аударма классикалық тәсілдердің бірі болып табылады машиналық аударма. Бұл тәсілде бастапқы тіл, яғни аударылатын мәтін тіларалық, яғни дерексіз тілден тәуелсіз көрініске айналады. Содан кейін аударма тілінен тілдік тіл жасалады. Ережеге негізделген машиналық аударма парадигмасы шеңберінде тіларалық тәсіл тікелей тәсіл және трансферттік тәсіл.

Тікелей тәсілде сөздер қосымша көріністен өтпей-ақ тікелей аударылады. Тасымалдау тәсілінде бастапқы тіл дерексіз, тілге тән емес көрініске айналады. Тілдік жұпқа тән лингвистикалық ережелер бастапқы тілдік бейнелеуді абстрактілі мақсатты тілдік бейнелеуге айналдырады және осыдан мақсатты сөйлем жасалады.

Машиналық аудармаға тіларалық қатынастың артықшылықтары мен кемшіліктері бар. Артықшылықтары мынада, бұл әрбір бастапқы тілді әр аударма тілімен байланыстыру үшін азырақ компоненттерді қажет етеді, жаңа тілді қосу үшін азырақ компоненттер қажет, бастапқы тілдегі енгізудің парафразаларын қолдайды, бұл анализаторларға да, генераторларға да мүмкіндік береді. бір тілді жүйені әзірлеушілер жазған және ол бір-бірінен мүлдем өзгеше тілдерді қолданады (мысалы, ағылшын және араб тілдері)[1]). Айқын кемшілігі - интерлингваның анықтамасы кеңірек домен үшін қиын және мүмкін емес. Тіларалық машиналық аударма үшін өте қолайлы контекст - бұл нақты домендегі көп тілді машиналық аударма.

Тарих

Тіларалық машиналық аударма туралы алғашқы идеялар 17 ғасырда пайда болды Декарт және Лейбниц, әмбебап сандық кодтарды қолданып сөздіктер жасау туралы теорияларды кім ұсынды. Басқалары, мысалы Үңгір Бек, Афанасий Кирхер және Иоганн Йоахим Бехер қағидаттарына негізделген бір мағыналы әмбебап тілді дамыту бойынша жұмыс жасады логика және иконографтар. 1668 жылы, Джон Уилкинс өзінің тілдік қарым-қатынасын өзінің «Нағыз сипат пен философиялық тілге арналған очеркінде» сипаттады. 18-19 ғасырларда «әмбебап» халықаралық тілдер бойынша көптеген ұсыныстар жасалды, олардың бәріне белгілі болды Эсперанто.

Айтуынша, машиналық аудармаға әмбебап тіл идеясын қолдану алғашқы маңызды тәсілдердің ешқайсысында кездескен жоқ. Оның орнына жұп тілдер бойынша жұмыс басталды. Алайда, 1950-60 жылдары зерттеушілер Кембридж басқарады Маргарет Мастерман, жылы Ленинград басқарады Николай Андреев және Милан арқылы Сильвио Чеккато осы бағыттағы жұмысты бастады. Бұл идеяны израильдік философ кеңінен талқылады Ехошуа Бар-Хилл 1969 ж.

1970 жылдардың ішінде назар аударарлық зерттеулер жүргізілді Гренобль зерттеушілер физика мен математикалық мәтіндерді аударуға тырысады Орыс дейін Француз және Техас ұқсас жоба (METAL) орыс тілінде де жүріп жатты Ағылшын. Ертедегі тіларалық MT жүйелері де салынған Стэнфорд 1970 жж Роджер Шанк және Йорик Уилкс; біріншісі ақша аударымының коммерциялық жүйесінің негізі болды, ал соңғысының коды сақталды Компьютер мұражайы кезінде Бостон алғашқы тіларалық машиналық аударма жүйесі ретінде.

1980 ж. Жалпы машиналық аударманың тіларалық және білімге негізделген тәсілдеріне жаңартылған өзектілік берілді, бұл салада көптеген зерттеулер жүргізілді. Бұл зерттеудің біріктіруші факторы - сапалы аударма мәтінді толық түсінуді қажет ететін идеядан бас тартуды талап етті. Оның орнына аударма лингвистикалық білімге және жүйе қолданылатын нақты доменге негізделуі керек. Осы дәуірдің ең маңызды зерттеулері жасалған таратылған тілдік аударма (DLT) Утрехт, модификацияланған нұсқасымен жұмыс істеді Эсперанто, және Жапониядағы Фудзитсу жүйесі.

Контур

Сурет 2. а) Тікелей немесе үшін қажет аударма графигі трансферге негізделген машиналық аударма (12 сөздік қажет); б) Көпір тілін қолданған кезде аударма графигі қажет (тек 8 аударма модулі қажет).

Аударманың бұл әдісінде тіл аралықты а-да жазылған мәтінді талдауды сипаттайтын тәсіл деп қарастыруға болады бастапқы тіл оның морфологиялық, синтаксистік, семантикалық (және тіпті прагматикалық) сипаттамаларын, яғни «мағынасын» айналдыруға болатындай етіп мақсатты тіл. Бұл тіларалық қатынас бір тілден екінші тілге аударудың орнына барлық аударылатын барлық сипаттамаларды сипаттай алады.

3-сурет: екі интерлингваның көмегімен аударма графигі.

Кейде аудармада екі интерлингуа қолданылады. Мүмкін, екеуінің біреуі бастапқы тілдің сипаттамаларын көбірек қамтиды, ал екіншісінде аударма тілінің сипаттамалары көбірек болуы мүмкін. Содан кейін аударма бірінші кезеңдегі сөйлемдерді екі кезең арқылы мақсатты тілге жақын сөйлемдерге айналдыру арқылы жүреді. Сондай-ақ, жүйе екінші тілдер арасында неғұрлым нақты немесе аударма тіліне сәйкес келетін неғұрлым нақты сөздік қорды қолданатын етіп орнатылуы мүмкін және бұл аударма сапасын жақсарта алады.

Жоғарыда аталған жүйе тек бір түпнұсқа тілдегі мәтіннен көптеген басқа құрылымдық ұқсас тілдерге аударма сапасын жақсарту үшін лингвистикалық жақындығын пайдалану идеясына негізделген. Бұл принцип сонымен бірге қолданылады автоматты аударма, қайда а табиғи тіл тағы екі алыс тілдің арасындағы «көпір» ретінде қолданылады. Мысалы, аудару жағдайында Ағылшын бастап Украин қолдану Орыс аралық тіл ретінде.[2]

Аударма процесі

Тіларалық машиналық аударма жүйелерінде екі тілді компоненттер бар: талдау тілдік және тілдік, және ұрпақ тілдер мен аударма тілінің. Тек синтаксистік әдістерді қолдана отырып, тіларалық жүйелерді (мысалы, 1970 жылдары Гренобль мен Техас университеттерінде жасалған жүйелер) және оларға негізделген жүйелерді ажырату қажет. жасанды интеллект (1987 жылдан бастап Жапонияда және Оңтүстік Калифорния мен Карнеги Меллон университеттеріндегі зерттеулер). Жүйенің бірінші типі 1-суретте көрсетілгенге сәйкес келеді, ал қалған түрлері 4-суреттегі диаграмма бойынша жуықтайды.

Тіларалық аударма жүйесіне келесі ресурстар қажет:

Сурет 4. Білімге негізделген жүйеде машиналық аударма.
  • Талдауға және жасауға арналған сөздіктер (немесе лексикалар) домен және қатысатын тілдер).
  • Тұжырымдамалық лексика (доменге тән), ол білім базасы доменде белгілі оқиғалар мен нысандар туралы.
  • Проекциялау ережелерінің жиынтығы (доменге және тілдерге тән).
  • Қатысқан тілдерді талдауға және қалыптастыруға арналған грамматика.

Машиналарға аударма жасаудың білімге негізделген жүйелерінің проблемаларының бірі - нақты аймақтардан үлкен домендер үшін мәліметтер базасын құру мүмкін болмай қалады. Тағы біреуі - бұл мәліметтер базасын өңдеу өте қымбатқа түседі.

Тиімділік

Бұл стратегияның басты артықшылықтарының бірі - көп тілді аударма жүйелерін құрудың үнемді әдісін ұсынады. Интерлингвада жүйеде әр жұп тілдер арасында аударма жұпын жасау қажет болмайды. Сондықтан жасаудың орнына тілдік жұптар, қайда жүйеде тілдердің саны, оны жасау қажет арасындағы жұптар тілдер мен тілдер.

Бұл стратегияның басты кемшілігі - барабар тілдік қатынасты жасаудың қиындығы. Ол дерексіз және түпнұсқа тілге және аударма тілдеріне тәуелсіз болуы керек. Аударма жүйесіне қаншалықты көп тілдер қосылса және олар қаншалықты өзгеше болса, барлық мүмкін болатын аударма бағыттарын білдіруге тіларалық тілдер соғұрлым күшті болуы керек. Тағы бір мәселе, түпнұсқа тілдердегі мәтіндерден аралық бейнелеуді құру үшін мағынаны шығару қиын.

Қолданыстағы тіларалық машиналық аудару жүйелері

Сондай-ақ қараңыз

Ескертулер

  1. ^ Абдель Монем, А., Шаалан, К., Рафеа, А., Барака, Х., Көптілді «Сөйлеу-сөйлеу» машиналық аударма шеңберінде араб мәтінін жасау, Machine Translation, Springer, Нидерланды, 20 (4): 205–258, желтоқсан 2008.
  2. ^ Богдан Бэбич, Энтони Хартли және Серж Шароф (2007) «Ресурстар жеткіліксіз тілдерден аудару: тікелей аударуды негізгі аудармамен салыстыру ". MT Summit XI материалдары, 10-14 қыркүйек 2007 ж., Копенгаген, Дания. 29—35 бб

Сыртқы сілтемелер