Сөзді тоқтату - Stop word

Жылы есептеу, сөздерді тоқтату дейін немесе кейін сүзілген сөздер табиғи тілді өңдеу деректер (мәтін).[1] Әдетте «тоқтату сөздер» тілдегі ең көп кездесетін сөздерге сілтеме жасағанымен, барлығы қолданатын тоқтату сөздердің бірыңғай әмбебап тізімі жоқ табиғи тілді өңдеу құралдар, және шынымен де барлық құралдар мұндай тізімді қолданбайды. Кейбір құралдар бұл тоқтату сөздерді қолдау үшін алып тастайды фразалық іздеу.

Сөздердің кез-келген тобын берілген мақсат үшін тоқтайтын сөздер ретінде таңдауға болады. Кейбіреулер үшін іздеу жүйелері, бұл ең көп таралған, қысқа функционалды сөздер, сияқты The, болып табылады, кезінде, қайсысы, және қосулы. Бұл жағдайда сөздерді тоқтату, оларды қамтитын сөз тіркестерін іздеу кезінде қиындықтар тудыруы мүмкін, атап айтқанда «ДДҰ ", "The «, немесе»Мұны алыңыз «. Басқа іздеу жүйелері кейбір кең таралған сөздерді алып тастайды, соның ішінде лексикалық сөздер мысалы, «қалау» - өнімділікті жақсарту мақсатында сұрау салудан.[2]

Ханс Питер Лун, пионерлердің бірі ақпаратты іздеу, сөз тіркесін құрап, тұжырымдаманы қолданған деп есептеледі.[3] Лунның 1959 жылғы презентациясында жоқ «тоқтау сөз» тіркесі және онымен байланысты «тоқтату тізімі» мен «аялдама тізімі» әдебиетте көп ұзамай пайда болады.[4]

Кейбіреулерін құруда алдыңғы тұжырымдама қолданылды келісу. Мысалы, алғашқы еврей үндестігі, Me’ir nativ, индекстелмеген сөздердің бір беттік тізімін қамтыды, қазіргі заманғы тоқтау сөздерге ұқсас мәнді емес предлогтар мен жалғаулар бар.[5]

Жылы SEO терминология, тоқтату сөздер - бұл іздеу жүйелерінің көбісі кең көлемді деректерді өңдеу кезінде кеңістік пен уақытты үнемдеу мақсатында аулақ болатын кең таралған сөздер. жорғалау немесе индекстеу. Бұл іздеу жүйелеріне дерекқордағы орынды үнемдеуге көмектеседі.[6]

Сондай-ақ қараңыз

Әдебиеттер тізімі

  1. ^ Раджараман, А .; Ульман, Дж. Д. (2011). «Деректерді өндіру» (PDF). Массивті деректерді өндіру. 1-17 бет. дои:10.1017 / CBO9781139058452.002. ISBN  9781139058452.
  2. ^ Stackoverflow: «» Байланысты сұрақтарға «арналған біздің өнімділігімізді оңтайландырудың бірі - бұл SQL Server 2008 толық мәтіндік жүйесіне сұранысты жібермес бұрын ең көп таралған ағылшын сөздіктерінің (Google іздеуі бойынша анықталған) алғашқы 100 сөзін алып тастау. Ағылшын сөздігінің 10к сөзін алып тастағаннан кейін көптеген посттардың сол жағында. Бұл қайтарылған нәтижелерді шектеуге және тарылтуға көмектеседі, бұл сұранысты тездетеді ».
  3. ^ Лун, Х.П. (1959). «Техникалық әдебиеттер үшін контексттегі кілттер индексі (KWIC индексі)». Американдық құжаттама. Yorktown Heights, NY: International Business Machines Corp. 11 (4): 288–295. дои:10.1002 / asi.5090110403.
  4. ^ Тасқын, Барбара Дж. (1999). «Тарихи жазба: биологиялық рефераттардағы аялдамалардың тізімі». Американдық ақпараттық ғылымдар қоғамының журналы. 50 (12): 1066. дои:10.1002 / (SICI) 1097-4571 (1999) 50:12 <1066 :: AID-ASI5> 3.0.CO; 2-A.
  5. ^ Вайнберг, Белла Хасс (2004). «Дін саласындағы ғылыми индекстеу құрылымдарының предшественники» (PDF). Ғылыми-техникалық ақпараттық жүйелердің тарихы мен мұрасы бойынша екінші конференция: 126–134. Алынған 17 ақпан 2016.
  6. ^ «Сөздерді тоқтату және SEO-ға әсер ету - іздеу жүйесі Nation». Іздеу жүйесі Nation. 2018-04-24. Алынған 2018-05-24.

Сыртқы сілтемелер