Бөлгішпен бөлінген мәндер - Delimiter-separated values

Қолданылатын форматтар бөлгішпен бөлінген мәндер (сонымен қатар DSV)[1]:113 әр жолдағы мәндерді спецификасымен бөлу арқылы екі өлшемді мәліметтер массивтерін сақтау бөлгіш кейіпкерлер. Көпшілігі дерекқор және электрондық кесте бағдарламалар бөлінген форматта деректерді оқи алады немесе сақтай алады. Кең қолдаудың арқасында DSV файлдарын пайдалануға болады мәліметтермен алмасу көптеген қосымшалар арасында.

A бөлінген мәтіндік файл Бұл мәтіндік файл әр жол жеке кітапты, фирманы немесе басқа затты бейнелейтін мәліметтерді сақтау үшін қолданылады және әр жолда бөлгішпен бөлінген өрістер болады.[2]Түрімен салыстырғанда тегіс файл әрбір өрісті бірдей енге мәжбүрлеу үшін бос орындарды қолданатын, а бөлінген файл кез-келген ұзындықтағы өріс мәндеріне рұқсат берудің артықшылығы бар.[3]

Бөлінген форматтар

Мәндерді бөлу үшін кез-келген таңбаны пайдалануға болады, бірақ ең көп таралған бөлгіштер болып табылады үтір, қойынды, және тоқ ішек.[1]:113[4] The тік жолақ (деп те аталады) құбыр) және ғарыш кейде қолданылады.[1]:113 Ішінде үтірмен бөлінген мәндер (CSV) файл деректер элементтері бөлгіш ретінде үтірлер арқылы бөлінеді, ал а қойындымен бөлінген мәндер (TSV) файлы, деректер элементтері бөлгіш ретінде қойындыларды пайдалану арқылы бөлінеді. Баған тақырыптары кейде бірінші жол ретінде қосылады, ал әрбір келесі жол - бұл мәліметтер қатары. Жолдар бөлінеді жаңа жолдар.

Мысалы, әр жазбадағы келесі өрістер үтірмен, ал әрбір жазба жаңа жолдармен бөлінген:

«Дата», «Оқушы», «Сынып» «25 мамыр», «Блогтар, Фред», «С» «25 мамыр», «Доу, Джейн», «Б» «15 шілде», «Блогтар, Фред», «А» «15 сәуір», «Муниз, Элвин» «Хэнк» «», «А»

Пайдалануды ескеріңіз қос тырнақша әр өрісті қосу. Бұл өрістің нақты мәніндегі үтірдің (Bloggs, Fred; Doe, Джейн және т.б.) өрісті бөлгіш ретінде түсінуіне жол бермейді. Бұл «жолын қажет етедіқашу «өрістің қаптамасының өзі, бұл жағдайда екі дәйексөз; өрісте шынымен бар қос тырнақшаны» Хэнк «төңірегіндегідей екі есеге көбейту әдетке айналды. Осылайша, кез келген ASCII өрістерде жаңа жолдармен бірге мәтін болуы мүмкін.

ASCII бірнеше кіреді таңбаларды басқару бөлгіштер ретінде пайдалануға арналған. Олар: 28 файлды бөлгішке арналған, 29 топ бөлгіш үшін, Рекорд бөлгішке арналған 30, және 31 бөлгіш үшін. Осы таңбаларды қолдану кең қолданысқа ие болған жоқ; кейбір жүйелер өздерінің басқару қасиеттерін неғұрлым қабылданған басқару элементтерімен ауыстырды CR / LF және TAB.[дәйексөз қажет ]

Қолданулар мен қосымшалар

Кеңінен қолданудың арқасында үтірмен және қойындылармен бөлінген мәтіндік файлдарды бірнеше қосымшалар, соның ішінде көпшілігі ашады электрондық кесте бағдарламалар және статистикалық пакеттер, кейде тіпті қандай бөлгіш қолданылғанын қолданушы белгілемесе де болады.[5][6] Осыған қарамастан, бұл қосымшалардың әрқайсысының өздері бар мәліметтер базасын жобалау және өзінің файл пішімі (мысалы, accdb немесе xlsx), олардың барлығы DSV файлындағы өрістерді өздері бойынша салыстыра алады деректер моделі және формат.[дәйексөз қажет ]

Әдетте бөлінген файл форматы спецификациямен көрсетіледі. Кейбір ерекшеліктер болдырмауға арналған конвенцияларды ұсынады бөлгіш соқтығысу, басқалары жоқ. Бөлгіштің соқтығысуы - бұл деректер бөлігі ретінде таңба орнына бөлгіш ретінде түсіндірілгенде пайда болатын проблема. Үтір мен кеңістіктен бөлінген форматтар көбінесе бұл проблемадан зардап шегеді, өйткені көптеген контексттерде бұл таңбалар деректер өрісінің заңды бөліктері болып табылады.

Мұндай файлдардың көпшілігі бөлгіштердің соқтығысуынан барлық деректер өрістерін екі тырнақшамен қоршау арқылы немесе тек бөлгіштің таңбасын қамтитын деректер өрістеріне сілтеме жасау арқылы жол бермейді. Қойындылармен бөлінген мәтіндік файлдардың бір проблемасы - қойындыларды бос орындардан ажырату қиын; сондықтан адамдар файлдарды қолмен өңдеуге тырысқанда, кейде бүлінген файлдармен қиындықтар туындайды. Мәселелердің тағы бір жиынтығы файл құрылымындағы қателіктерге байланысты, әдетте файлды а-ға импорттау кезінде орын алады дерекқор (жоғарыдағы мысалда мұндай қате оқушының аты-жөні жоқ болуы мүмкін).

Деректердің өзіне байланысты, бөлгіштер ретінде tilde (~) сияқты стандартты емес таңбаларды қолдану тиімді болуы мүмкін. Деректер базасында код үзінділерін сақтайтын веб-сайттардың және басқа қосымшалардың кең таралуына байланысты, кез-келген гипершилтемеде және кескін көзінің тегінде кездесетін «жай ғана соқтығысудың бұл түрін болдырмау үшін жеткіліксіз. (;), құбырлар (|) және басқа да көптеген таңбалар қолданылады, басқа жерде қолданылмайтын кейіпкерді табу өте қиын болуы мүмкін.

Сондай-ақ қараңыз

Ескертпелер мен сілтемелер

  1. ^ а б c DSV білдіреді Бөлгіштің бөлінген мәні Раймонд, Эрик (2004). Unix бағдарламалау өнері. Бостон: Аддисон-Уэсли. ISBN  0-13-142901-9.
  2. ^ Стивен Р. Вестман.«Деректер қорымен қамтамасыз етілген кітапхананың веб-беттерін құру: ашық қайнар көз құралдарын пайдалану».2006. «Құрылымдалған мәтіндік файлдар» бөлімі. 15.
  3. ^ Ричард Петерсен.«Пайдаланушыларға арналған командалық жолдың Unix».2006 б. 356.
  4. ^ UNIX шеңберінде қос нүкте бос кеңістікті қамтуы мүмкін мәндер үшін ең кең таралған DSV бөлгіш болып табылады. Сол жерде.
  5. ^ Найт, Эндрю (2000). Matlab негіздері және басқалары. Бока Ратон: Чэпмен және Холл / CRC. ISBN  0-8493-2039-9.
  6. ^ Роббинс, Арнольд (2005). Классикалық сценарийлер. Себастополь: О'Рейли. ISBN  0-596-00595-4.

Әрі қарай оқу