IETF тілінің тегі - Википедия - IETF language tag

Ан IETF BCP 47 тіл тегі Бұл код анықтау адам тілдері. Мысалы, тег kk білдіреді Ағылшын; es-419 үшін Латын Америкасы испан; rm-сурсилв үшін Сурсилван; gsw-u-sd-chzh үшін Цюрих немісі; nan-Hant-TW үшін Мин Нан Қытай айтылғандай Тайваньда қолдану дәстүрлі ханз таңбалары. Тілдік нұсқаларын ажырату үшін елдер, аймақтар, жазу жүйелері т.б., IETF тілінің тегтері басқа стандарттардың субтегтерін біріктіреді, мысалы ISO 639, ISO 15924, ISO 3166-1, және БҰҰ М.49. Тег құрылымы стандартталған Internet Engineering Task Force (IETF) жылы Үздік қазіргі тәжірибе (BCP) 47; ішкі тегтер ЯНА Тіл субтегінің тізілімі.[1][2][3] IETF тілінің тегтері есептеу стандарттары сияқты қолданылады HTTP,[4] HTML,[5] XML,[6] және PNG.[7]

Тарих

IETF тілінің тегтері алдымен анықталды RFC 1766, өңделген Харальд Твейт Альвестран 1995 жылы наурызда басылған. Тегтерде ISO 639 екі әріптен тұратын тіл кодтары және ISO 3166 екі әріптен тұратын ел кодтары қолданылды, және үш-сегіз әріптен тұратын вариантты немесе сценарий субтегтерін қамтитын тұтас тегтерді тіркеуге мүмкіндік берді.

2001 жылдың қаңтарында бұл жаңартылды RFC 3066 ISO 639-2 үш әріптік кодтарын қолдануды қосқан, цифрлармен субтегтерге рұқсат берді және тілдік тегтерді сәйкестендіруге көмектесетін HTTP / 1.1-ден бастап тіл ауқымының тұжырымдамасын қабылдады.

Техникалық сипаттаманың келесі қайта қаралуы 2006 жылдың қыркүйегінде жарияланғаннан кейін болды RFC 4646 (сипаттаманың негізгі бөлігі), Аддисон Филиппс редакциялаған және Марк Дэвис және RFC 4647 (сәйкес келу тәртібімен айналысады). RFC 4646 тілдік тегтерге арналған құрылымдық форматты енгізді, ISO 15924 төрт әріптік сценарий кодтарын және UN M.49 үш таңбалы географиялық аймақ кодтарын қолдануды қосты және ескі белгілер тізілімін субтегтердің жаңа тізілімімен алмастырды. Жаңа құрылымға сәйкес келмеген, бұрын анықталған тегтердің аз саны RFC 3066-мен үйлесімділікті сақтау үшін берілген.

Техникалық сипаттаманың қазіргі нұсқасы, RFC 5646, 2009 жылдың қыркүйегінде жарық көрді. Бұл қайта қараудың басты мақсаты ISO 639-3 және BCP 47 арасындағы өзара әрекеттесуді арттыру үшін ISO 639-3 және 639-5 стандарттарының үш әріптен тұратын кодтарын Тіл субтегтерінің тізіліміне енгізу болды.[8]

Тілдік белгілердің синтаксисі

Әрбір тілдік белгі дефис (-) арқылы бөлінген бір немесе бірнеше «субтегтерден» тұрады. Әр субтег негізгі латын әріптерінен немесе цифрлардан тұрады.

-Дан басталатын жеке пайдаланылатын тіл тегтерін қоспағанда х- префикс және аталық тіл тегтері (соның ішінде мен- префиксі және бұрынғы Тегтер тізілімінде бұрын тіркелгендер), субтегтер келесі тәртіпте болады:

  • Жалғыз негізгі тіл субтегі бастап екі әріптен тұратын тілдік код негізінде ISO 639-1 (2002) немесе үш әріптен тұратын код ISO 639-2 (1998), ISO 639-3 (2007) немесе ISO 639-5 (2008), немесе BCP 47 процесінде тіркелген және бес-сегіз әріптен тұрады;
  • Үшке дейін қосымша кеңейтілген тіл субтегтері әрқайсысы үш әріптен тұрады, сызықшамен бөлінген; (Қазіргі уақытта Тіл субтегінің тізілімінде баламалы және артықшылықты негізгі тіл субтегісіз тіркелген кеңейтілген субтег жоқ. Тіл тегтерінің бұл компоненті кері үйлесімділік үшін сақталады және ISO 639 стандартының болашақ бөліктеріне мүмкіндік береді.)
  • Қосымша сценарий қосымшасы, бастап төрт әріптен тұратын сценарий кодына негізделген ISO 15924 (әдетте Іс тақырыбы );
  • Қосымша аймақ субтегі бастап екі әріптен тұратын ел коды негізінде ISO 3166-1 альфа-2 (әдетте бас әріппен жазылады) немесе үш таңбалы код БҰҰ М.49 географиялық аймақтар үшін;
  • Қосымша нұсқа субтегтері, дефис арқылы бөлінген, әрқайсысы бес-сегіз әріптен немесе цифрдан басталатын төрт таңбадан тұрады; (Вариантты субтегтер IANA-да тіркелген және кез-келген сыртқы стандартпен байланысты емес.)
  • Қосымша кеңейту субтегтері, әріптен басқа, әрқайсысы бір таңбадан тұратын сызықшалармен бөлінген хжәне дефис, содан кейін әрқайсысы екіден сегізге дейінгі таңбадан тұратын бір немесе бірнеше субтегтер, сызықшалармен бөлінген;
  • Қосымша жеке пайдалануға арналған субтег, хаттан тұрады х және дефис, содан кейін әрқайсысы бір-сегіз таңбадан тұратын субтигтермен бөлініп, сызықшалармен бөлінеді.

Қосымша белгілер жоқ регистрге сезгіш, бірақ спецификация облыстың субтегтері орналасқан тілдік субтегтер тізіліміндегі жағдайларды қолдануды ұсынады ЖОҒАРЫ, сценарий субтегтері Іс тақырыбы және барлық басқа субтегтер кіші әріп. Бұл капиталдау негізгі ИСО стандарттарының ұсыныстарына сәйкес келеді.

Қосымша сценарий мен аймақ субтегтері тіл тегіне айырмашылықты ақпарат қоспаған кезде оларды алып тастаған жөн. Мысалға, es артықшылық беріледі эс-Латн, өйткені испан тілі латын графикасында толық жазылады деп күтілуде; ja артықшылық беріледі ja-JP, жапондық ретінде Жапонияда қолданылғандай басқа жерде қолданылғандай жапон тілінен айтарлықтай ерекшеленбейді.

Барлық тілдік аймақтарды аймақ субтегімен ұсынуға болмайды: негізгі тілдің субұлттық аймақтық диалектілері вариантты субтегтер ретінде тіркеледі. Мысалы, валенсия үшін нұсқа субтегі Валенсия диалектісі Каталон префиксімен бірге тіл субтегінің тізілімінде тіркелген шамамен. Бұл диалект тек Испанияда ғана айтылатындықтан, аймақ субтегі ES әдетте алынып тасталуы мүмкін.

IETF тілінің тегтері ретінде қолданылды жергілікті көптеген қосымшалардағы идентификаторлар. Егер RFC 4647-де сипатталған стратегия жеткіліксіз болса, осы қосымшаларға локалды анықтау, кодтау және сәйкестендірудің өзіндік стратегиясын құру қажет болуы мүмкін.

IETF тілінің тегтерін қолдану, түсіндіру және сәйкестендіру қазіргі уақытта RFC 5646 және RFC 4647 стандарттарында анықталған. Тіл субтегінің тізілімі қазіргі уақытта қолданыстағы барлық субтегтерді тізімдейді. Жеке пайдалануға арналған субтегтер тізілімге енгізілмеген, өйткені олар іске асыруға байланысты және оларды пайдаланатын үшінші тұлғалар арасындағы жеке келісімдерге байланысты. Бұл жеке келісімдер BCP 47 шеңберінен тыс.

Басқа стандарттарға қатысы

Ішкі тегтердің кейбір түрлері алынғанымен ISO немесе БҰҰ негізгі стандарттар, олар бұл стандарттарға мүлдем сәйкес келмейді, өйткені бұл уақыт өте келе тіл тегтерінің өзгеруіне әкелуі мүмкін. Атап айтқанда, тағайындалған кодтан алынған субтег ISO 639, ISO 15924, ISO 3166, немесе БҰҰ М.49 код тиісті стандарттан алынған болса да, жарамды (ескірген болса да) субтег болып қалады. Егер стандарт кейінірек алынған кодқа жаңа мағына берсе, сәйкес субтег бұрынғы мағынасын сақтайды.

Бұл тұрақтылық енгізілді RFC 4646.

ISO 639-3 және ISO 639-1

RFC 4646 «кеңейтілген тіл субтегінің» тұжырымдамасын анықтады (кейде осылай аталады) кеңейту), бірақ сол уақытта мұндай субтегтер тіркелмеген.[9][тексеру сәтсіз аяқталды ][10][тексеру сәтсіз аяқталды ]

RFC 5645 және RFC 5646 сәйкес негізгі тіл субтегтерін қосты ISO 639-3 Тізілімде болмаған барлық тілдерге арналған кодтар. Сонымен қатар, кейбір макро тілдермен қамтылған тілдерге арналған кодтар кеңейтілген тіл субтегтері ретінде тіркелді. Ым тілдері де префиксі бар кеңейтілген сөздер ретінде тіркелді сгн. Бұл тілдерді тек қамтуға болатын тіл үшін субтегпен ұсынуға болады (смн Мандарин үшін) немесе тілдік тіркестің тіркесімімен (ж-смн). Бірінші нұсқа көптеген мақсаттар үшін қолайлы. Екінші нұсқа «кеңейтілген форма» деп аталады және ол жаңа болып табылады RFC 5646.

Дейін тіркелген барлық тегтер RFC 4646 және қазір «аталық» немесе «артық» деп жіктеледі (олардың жаңа синтаксиске сәйкес келуіне байланысты), егер олар бар болса, сәйкесінше ISO 639-3 негізіндегі тіл субтегінің пайдасына есептен шығарылады. Бірнеше мысал келтіру үшін нан артықшылық беріледі ж-мин-нан үшін Мин Нан Қытай; хак артықшылық беріледі мен-хак және ж-хакка үшін Хакка қытай; және асе артықшылық беріледі сгн-АҚШ үшін Американдық ымдау тілі.

ISO 639-5 және ISO 639-2

ISO 639-5 альфа-3 кодтары бар тілдік жинақтарды ISO 639-2-де бастапқыда кодталғаннан басқаша анықтайды (оның ішінде ISO 639-1-де бар бір кодты қоса). Нақтырақ айтсақ, тілдік жинақ қазірдің өзінде ISO 639-5 стандартында анықталған, олардың кейбіреулері тек қана анықталмаған. Бұл дегеніміз, тіл жинақтары бұрынғыға қарағанда кеңірек, кейбір жағдайларда олар ISO 639-2 шеңберінде бөлек кодталған тілдерді қамтуы мүмкін болған жағдайларды білдіреді.

Мысалы, ISO 639-2 коды афа бұрын «Афро-Азиалық (Басқа)» атауымен байланысты болды, бұған араб тілі сияқты өзіндік коды болған тілдерді қоспағанда. ISO 639-5-те бұл жинақ «Афро-Азия тілдері» деп аталды және барлық осындай тілдерді қамтиды. ISO 639-2 2009 жылы эксклюзивті атауларды ISO 639-5 атауларымен сәйкестендіру үшін өзгертті.[11]

Осы коллекциялардың бұрынғы (айрықша) анықтамасына байланысты болуы мүмкін бұзушылықтарды болдырмау үшін ISO 639-5 ISO 639-2-де кодталған барлық коллекциялар үшін топтау түрінің төлсипатын анықтайды (мұндай топтау түрі жаңа үшін анықталмаған) тек ISO 639-5 стандартына қосылған коллекциялар).

BCP 47 тілдік жинақ үшін субтегтерді анықтауға арналған «Scope» қасиетін анықтайды. Алайда, ол кез-келген коллекцияны инклюзивті немесе эксклюзивті деп анықтамайды және ISO 639-5 топтастыру түрінің төлсипатын қолданбайды, дегенмен бұл субтегтерге арналған тіл субтегінің тізіліміндегі сипаттама өрістері ISO 639-5 (қоса алғанда) аттарына сәйкес келеді. Нәтижесінде коллекцияға негізгі тілдік қосымшаны қамтитын BCP 47 тілдік белгілері жинақтың инклюзивті немесе эксклюзивті болуын көздейтіндігіне қатысты екіұшты болуы мүмкін.

ISO 639-5 осы жинақтарға қай тілдердің мүшелері екенін дәл анықтамайды; тек осы коллекциялардың инклюзивті анықтамасын қолдана отырып, коллекциялардың иерархиялық жіктемесі анықталған. Бұл үшін, RFC 5646 көптеген қосымшалар үшін тілдік жинақ үшін субтегтерді қолдануды ұсынбайды, дегенмен олар «бірнеше тілдер» және «анықталмаған» сияқты мағынасы тіпті аз субтегтерге қарағанда артықшылық береді.

Керісінше, жеке тілдерді олардың макро тілдері бойынша жіктеу ISO 639-3 және Тіл субтегінің тізілімінде стандартталған.

ISO 15924, ISO / IEC 10646 және Unicode

Сценарий қосымшалары алдымен тіл субтегінің тізіліміне қашан қосылды RFC 4646 жарияланған кодтар тізімінен жарияланды ISO 15924. Олар тілдік тегте негізгі және кеңейтілген тіл субтегтерінен кейін, бірақ субтегтің басқа түрлерінің алдында, оның ішінде аймақтық және варианттық субтегтермен кодталады.

Кейбір негізгі тілдік қосымшалар «Скрипт-сценарий» деп аталатын қасиетпен анықталады, бұл әдетте басқа сценариймен жазылуы мүмкін болса да, тіл үшін бір сценарийді әдетте қабылдауға болатын жағдайларды көрсетеді. Мұндай жағдайда сценарийдің субтегінен бас тарту, сәтті сәйкестендіру ықтималдығын жақсарту керек. Қажет болған жағдайда айырмашылықты анықтау үшін басқа сценарий субтегін қосуға болады. Мысалға, Ии артықшылық беріледі yi-Hebr көп жағдайда, өйткені иврит сценарийі үшін субтег қабылданады Идиш тіл.

Тағы бір мысал ретінде, zh-Hans-SG балама деп санауға болады zh-Hans, өйткені аймақ коды маңызды емес шығар; Сингапурда қолданылатын қытай тілінің жазбаша түрі қытай жазуы жазылған басқа елдердегідей қытай таңбаларын қолданады. Алайда, сценарийдің субтегі сақталады, өйткені ол маңызды.

ISO 15924 сценарий нұсқаларына арналған кейбір кодтарды қамтитынын ескеріңіз (мысалы, Ханс және Хант ішінде бірыңғайланған қытай таңбаларының жеңілдетілген және дәстүрлі формалары үшін) Юникод және ISO / IEC 10646. Бұл сценарий нұсқалары көбінесе библиографиялық мақсатта кодталады, бірақ лингвистикалық тұрғыдан маңызды бола бермейді (мысалы, Латф және Латг латын графикасының Fraktur және Gaelic нұсқаларына арналған сценарий кодтары, олар көбінесе Unicode және ISO / IEC 10646 стандартты латын әріптерімен кодталған). Олар кейде әріптердің, диакритиктердің және диграфтардың / триграфтардың әдепкі графикалық кластерлері немесе әріптермен қоршау ережелеріндегі айырмашылықтарды талдаумен, орфоэпиялық немесе семантикалық айырмашылықтарды ашуда тілдік белгілерде пайдалы болуы мүмкін.

ISO 3166-1 және UN M.49

Екі әріптен тұратын аймақ субтегтері берілген кодтарға негізделген немесе «ерекше қорғалған», ISO 3166-1. Егер ISO 3166 техникалық қызмет көрсету агенттігі басқа елге бұрын берілген кодты қайта тағайындауы керек болса, сол кодқа сәйкес қолданыстағы BCP 47 қосалқы белгісі өз мағынасын сақтап қалады және жаңа аймақ субтагі БҰҰ М.49 жаңа елге тіркелген болар еді. UN M.49 географиялық аймақтар үшін сандық субтегтердің көзі болып табылады, мысалы 005 Оңтүстік Америка үшін.

Аймақ подтегтері белгілі бір аймақта «қолданылатындай» тілдің әртүрлілігін көрсету үшін қолданылады. Олар әртүрлілік табиғаты жағынан аймақтық болған кезде сәйкес келеді және оларды бөлу кезінде сияқты елдерді анықтау арқылы жеткілікті түрде алуға болады. Британдық ағылшын (EN-GB) бастап Американдық ағылшын (АҚШ). Айырмашылық сценарийлердің немесе сценарийлердің бір түріне байланысты болған кезде жеңілдетілген қарсы дәстүрлі Қытай таңбалары, оны аймақ субтегінің орнына сценарий субтегімен көрсету керек; осы мысалда, zh-Hans және zh-Hant орнына қолданылуы керек zh-CN және zh-HK.

Аймақтық әртүрлілік деп санауға болатын тіл үшін ерекше тіл субтегі болған кезде, көбінесе тіл-аймақ тіркесімінің орнына нақтырақ субтегті қолданған жөн. Мысалға, ar-DZ (Араб ретінде қолданылған Алжир ) ретінде өрнектелуі мүмкін арк үшін Алжир тіліндегі арабша.

Кеңейтімдер

Қосымша субтегтер (шатастыруға болмайды кеңейтілген тіл субтегтері) міндетті түрде тілді анықтауға қызмет етпейтін тіл тегіне қосымша ақпарат қосуға мүмкіндік береді. Кеңейтудің бір әдісі күнтізбе және валюта сияқты жергілікті ақпаратты кодтау болып табылады.

Кеңейту қосымшалары бір таңбадан басталатын бірнеше сызықшамен бөлінген таңбалар жолдарынан тұрады ( х), а деп аталады синглтон. Әрбір кеңейту өздігінен сипатталған IETF RFC, ол кеңейтуге арналған деректерді басқару үшін Тіркеуді анықтайды. ЯНА синглеттерді бөлуге жауап береді.

Екі кеңейту 2014 жылдың қаңтар айына тағайындалды.

T кеңейтімі (өзгертілген мазмұн)

T кеңейтімі тіл тегіне тегтелген деректердің транслитерацияланған, транскрипцияланған немесе басқаша түрлендірілгені туралы ақпаратты қосуға мүмкіндік береді. Мысалы, тег en-t-jp түпнұсқа жапон тілінен аударылған ағылшын тіліндегі мазмұн үшін қолданыла алады. Қосымша жолдар аударманың механикалық түрде немесе жарияланған стандартқа сәйкес жасалғанын көрсете алады.

T кеңейтуі сипатталған RFC 6497, 2012 жылдың ақпанында жарияланған. Тіркеу органы - Юникод консорциумы.

U кеңейтімі (Unicode локалы)

U кеңейтімі жергілікті атрибуттардың әр алуан түріне мүмкіндік береді Орналасқан жердің жалпы дерек қоры (CLDR) тілдік тегтерге енгізілуі керек. Бұл атрибуттарға елдің бөлімшелері, күнтізбе және уақыт белдеуі туралы мәліметтер, салыстыру тәртібі, валюта, санау жүйесі және пернетақтаны сәйкестендіру кіреді.

Кейбір мысалдарға мыналар кіреді:

U кеңейтімі сипатталған RFC 6067, 2010 жылдың желтоқсанында жарық көрді. Тіркеу органы - Юникод консорциумы.

Сондай-ақ қараңыз

Әдебиеттер тізімі

  1. ^ «Тіл субтегінің тізілімі». iana.org. Интернеттегі нөмірлерді басқару. Алынған 2018-12-05.
  2. ^ «Тілдік тегтерді кеңейту тізілімі». iana.org. Интернеттегі нөмірлерді басқару. Алынған 2018-12-06.
  3. ^ «IANA - Хаттамалар тізілімдері». iana.org. Алынған 28 шілде 2015.
  4. ^ Филдинг, Рой Т .; Решке, Джулиан Ф., редакция. (Маусым 2014). «Тілдік тегтер». Гипермәтінді жіберу хаттамасы (HTTP / 1.1): семантика және мазмұн. сек. 3.1.3.1. дои:10.17487 / RFC7231. RFC 7231.
  5. ^ «Тілдік ақпарат және мәтін бағыты». w3.org. Алынған 28 шілде 2015.
  6. ^ «Кеңейтілетін түзету тілі (XML) 1.0 (Бесінші басылым)». w3.org. Алынған 28 шілде 2015.
  7. ^ «Портативті желілік графиканың (PNG) сипаттамасы (екінші басылым)». w3.org. Алынған 28 шілде 2015.
  8. ^ Тілдер тізілімін жаңарту туралы жарғы Мұрағатталды 2007-02-10 Wayback Machine
  9. ^ Аддисон Филлипс, Марк Дэвис (2008). «Тілдерді анықтауға арналған тегтер (RFC 4646 қайта қарауға арналған ескі жоба, қазір ескірген және жақын арада жоғалып кетуі мүмкін)». IETF WG LTRU. Алынған 2008-06-23.
  10. ^ Даг Эуэлл (2008). «Тіл субтегтерінің тізілімін жаңарту (RFC 4645 қайта қарауға арналған ескі жоба, қазір ескірген және жақын арада жоғалып кетуі мүмкін)» (1МБ). IETF WG LTRU. Алынған 2008-06-23.
  11. ^ «ISO 639-2 тілдік кодтар тізімі - тілдердің атауларын көрсетуге арналған кодтар (Конгресс кітапханасы)». loc.gov. Алынған 28 шілде 2015.

Сыртқы сілтемелер