Қолмен аннотацияланған субкорпус - Википедия - Manually Annotated Sub-Corpus

MASC бұл 500K сөзден тұратын теңдестірілген жиынтық және жазбаша мәтіндер мен транскрипцияланған сөйлеу, негізінен ашықтан алынған Американдық ұлттық корпорация (OANC). OANC - бұл 1990 жылдан бастап шығарылған 15 миллион сөзден тұратын (өсіп келе жатқан) американдық ағылшын корпусы, олардың барлығы қоғамдық меншікте немесе басқаша түрде пайдалану мен қайта бөлуге шектеулерсіз.

Барлық MASC логикалық құрылымға (тақырыптар, бөлімдер, абзацтар және т.б.), сөйлем шекараларына, сөйлеу белгілерінің байланысты бөлігімен үш түрлі токенге, таяз талдауға (зат есім мен етістіктің бөлшектеріне), атаулы тұлғаларға (адам, орналасқан жер, ұйымдастыру, күні мен уақыты), және Penn Treebank синтаксис. Қосымша қолмен жасалған немесе тексерілген аннотацияларды MASC жобасы суб-корпустың бөліктері үшін жасады, соның ішінде толық мәтінді аннотация FrameNet кадр элементтері және 100K + сөйлемдер корпусы WordNet 3.1 сезім белгілері, олардың оннан бір бөлігі де түсініктеме береді FrameNet жақтау элементтері. Барлық басқа тілдік құбылыстарға суб-корпустың барлық бөліктеріне немесе бөліктеріне аннотация басқа жобалар, соның ішінде PropBank, TimeBank, MPQA пікірі, және тағы басқалары. Барлық MASC корпусының қосалқы аннотациялары мен тармақ шекараларын 2016 жылдың соңына дейін шығару жоспарланған.

114 сөзден тұратын WordNet мағыналық аннотациясы MASC дистрибутивіне де енгізілген FrameNet 114 сөздің әрқайсысының 50-100 кездесуіне аннотация. Сөйлемдері WordNet және FrameNet аннотация сонымен қатар MASC Sentence Corpus.

Жанрлар

Лингвистикалық аннотацияларды қоса алғанда, еркін қол жетімді корпорациялардан айырмашылығы, MASC жанрлардың кең ауқымындағы теңдестірілген мәтіндерді ұсынады:

ЖанрФайлдар жоқСөз жоқPct корпусы
Сот хаттамасы2300526%
Пікірсайыстың стенограммасы2323256%
Электрондық пошта78276426%
Эссе7255905%
Көркем әдебиет5315186%
Мемлекеттік емес құжаттар5245785%
Журнал10256355%
Хаттар40233255%
Газет41235455%
Көркем емес4251825%
Ауызекі11257835%
Техникалық8278956%
Саяхатшылар7267085%
Twitter2241805%
Блог21281996%
Фликлет5262995%
Фильм сценарийі2282406%
Спам110234905%
Әзілдер16265825%
БАРЛЫҒЫ376506768

Аннотация

Қазіргі уақытта MASC лингвистикалық аннотацияның он жеті түрін қамтиды (* = өндірісте; ** қазіргі уақытта тек түпнұсқа форматта қол жетімді):

Аннотация түріСөз жоқ
Логикалық506768
Төкен506768
Сөйлем506768
POS / лемма (GATE)506768
POS (Penn Treebank)506768
POS (FrameNet)506768
Зат есім506768
Етістік бөліктері506768
Атаулы нысандар (адам, ұйым, мекен-жайы, күні)506768
Penn Treebank синтаксисі506768
Негізгі анықтама*506768
Тармақ шекаралары, ядро ​​/ спутниктік айырмашылықтар, дискурс маркерлері*506768
FrameNet жақтаулары / кадр элементтері39160
PropBank**88530
Пікір51243
TimeBank*55599
Берілген сенім4614
Іс-шара4614
Тәуелділік ағашы**5434
Лексикалық ауыстыру**35,547

Барлық MASC аннотациялары, өздері енгізген немесе өздері шығарған, ISO TC37 SC4’s Linguistic Annotation Framework (LAF) анықтаған Графикалық Аннотация Пішіміне (GrAF) көшіріледі. ANC2Go MASC-дің барлығына немесе бөліктеріне аннотацияны кез-келген басқа форматқа, соның ішінде CONLL IOB форматы мен форматтарында қолдануға болады. UIMA және Мәтіндік инженерияға арналған жалпы сәулет.

Тарату

MASC - кез-келген адам кез-келген мақсатта қолдана алатын ашық мәліметтер қоры. Сонымен бірге, бұл аннотациялар мен туынды деректердің қоғамдастық үлесімен қамтамасыз етілетін бірлескен қауымдастық ресурсы. Оны мына жерден жүктеуге болады MASC жүктеу парағы немесе арқылы Лингвистикалық мәліметтер консорциумы.

MASC сонымен бірге сөйлеу бөлігі ретінде белгіленген түрінде таратылады Табиғи тілдер құралы.

Сондай-ақ қараңыз

Әдебиеттер тізімі

Сыртқы сілтемелер