Бұлыңғыр іздеу - Fuzzy retrieval

Бұлыңғыр іздеу әдістері негізделген Логикалық кеңейтілген үлгі және Бұлыңғыр жиынтық теория. Екі классикалық анықталмаған модельдер бар: аралас Min және Max (MMM) және Paice моделі. Екі модельде сұраныстың салмағын бағалау әдісі ұсынылмаған, алайда оны деп санайды P-нормалары алгоритм.

Аралас Min және Max моделі (MMM)

Бұлыңғыр жиын теориясында элементтің әр түрлі мүшелік дәрежесі болады, дейді г._A, берілген жиынтыққа A дәстүрлі мүшелік таңдаудың орнына (бұл элемент / элемент емес).
MMM-де^[1] әр индекс терминінің онымен байланысты бұлыңғыр жиынтығы бар. Индекс мерзіміне қатысты құжаттың салмағы A байланысты анықталмаған жиынтыққа құжаттың мүшелік дәрежесі болып саналады A. Біріктіру және қиылысу үшін мүшелік дәрежесі бұлыңғыр жиындар теориясында келесідей анықталған:

{ displaystyle d_ {A cap B} = min (d_ {A}, d_ {B})}

{ displaystyle d_ {A cup B} = max (d_ {A}, d_ {B})}

Осыған сәйкес формаға сұрау салу үшін алынуы керек құжаттар A немесе B, екі жиынтықтың бірігуімен байланысты бұлыңғыр жиынтықта болуы керек A және B. Сол сияқты, формаға сұраныс алу үшін алынатын құжаттар A және B, екі жиынның қиылысуымен байланысты бұлыңғыр жиынтықта болуы керек. Демек, құжаттың келесіге ұқсастығын анықтауға болады немесе сұрау макс (д.)_A, г._B) және құжаттың ұқсастығы және сұрау мин (г._A, г._B). MMM моделі логикалық операторларды жұмсартуға тырысады, сұрау-құжат ұқсастығын сызықтық комбинация деп санау мин және макс құжат салмақтары.

Құжат берілген Д. индекстік салмақпен г._A1, г._A2, ..., г._Ан шарттар үшін A₁, A₂, ..., A_nжәне сұрақтар:

Q_немесе = (A₁ немесе A₂ немесе ... немесе А._n)
Q_және = (A₁ және А₂ және ... және А._n)

MMM үлгісіндегі сұрау-құжат ұқсастығы келесідей есептеледі:

SlM (Q_немесе, D) = C_{немесе1} * макс (г._A1, г._A2, ..., г._Ан) + C_{немесе2} * мин (г._A1, г._A2, ..., г._Ан)
SlM (Q_және, D) = C_және1 * мин (г._A1, г._A2, ..., г._Ан) + C_және2 * макс (г._A1, г._A2 ..., г._Ан)

қайда C_{немесе1}, C_{немесе2} үшін «жұмсақтық» коэффициенттері болып табылады немесе оператор, және C_және1, C_және2 үшін жұмсақтық коэффициенттері болып табылады және оператор. Құжаттың максимумы маңыздылығын ескере отырып, маңыздылығын бергіміз келеді немесе сұрау және мин. маңыздылығын ескере отырып және сұрау, әдетте бізде бар C_{немесе1} > C_{немесе2} және C_және1 > C_және2. Қарапайымдылық үшін, әдетте, деп болжанады C_{немесе1} = 1 - C_{немесе2} және C_және1 = 1 - C_және2.

Ли мен Фокс^[2] тәжірибелер көрсеткендей, ең жақсы өнімділік әдетте пайда болады C_және1 [0,5, 0,8] аралығында және C_{немесе1} > 0,2. Жалпы алғанда, МММ есептеу құны төмен, ал іздеу тиімділігі онымен салыстырғанда әлдеқайда жақсы Логикалық стандартты модель.

Пейс моделі

The Пейс модель^[3] MMM моделінің жалпы кеңеюі болып табылады. Индекс шарттары үшін минималды және максималды салмақтарды ғана қарастыратын MMM моделімен салыстырғанда, Paice моделі ұқсастықты есептеу кезінде барлық салмақтық терминдерді қосады:

{ displaystyle S (D, Q) = sum _ {i = 1} ^ {n} { frac {r ^ {i-1} * w_ {di}} { sum _ {j = 1} ^ { n} r ^ {j-1}}}}

қайда р тұрақты коэффициент болып табылады және w_ди өсу ретімен орналастырылған және сұраулар және төмендеу реті немесе сұраулар. N = 2 болған кезде Paice моделі MMM моделіндегідей мінез-құлықты көрсетеді.

Ли мен Фокстың тәжірибелері^[2] орнатқанын көрсетті р 1,0 дейін және сұраныстар және 0,7 немесе сұраулар іздеудің тиімділігін береді. Бұл модель үшін есептеу құны MMM моделіне қарағанда жоғары. Себебі MMM моделі тек шешімді қажет етеді мин немесе макс әр уақытта термиялық салмақтың жиынтығы және немесе немесе тармақ қарастырылған, оны жасауға болады O (n). Paice моделі салмақтың терминін an-ге байланысты өсу немесе кему ретімен сұрыптауды талап етеді және тармақ немесе ан немесе тармақ қарастырылуда. Бұл үшін кем дегенде бір 0 (n log n) сұрыптау алгоритмі. Жылжымалы нүктені есептеу үшін де жақсы келісім қажет.

Логикалық стандартты моделін жақсарту

Ли мен Фокс^[2] Standard Boolean моделін MMI және Paice модельдерімен үш сынақ топтамасымен, CISI, CACM және INSPEC салыстырды. Дәлдікті орташа жақсарту бойынша есеп берілген нәтижелер:

	CISI	CACM	INSPEC
МММ	68%	109%	195%
Пейс	77%	104%	206%

Бұл Стандартты модельге қатысты өте жақсы жетілдірулер. MMM Paice пен P-norm нәтижелеріне өте жақын, бұл оның өте жақсы әдістеме болатындығын және үшеуінің ішіндегі ең тиімдісі болып табылады.

Соңғы жұмыс

Жақында Канг т.б..^[4] тұжырымдаманы сәйкестендіру арқылы индекстелген анық емес іздеу жүйесін ойлап тапты.

Егер біз құжаттарды таза түрде қарастыратын болсақ Tf-idf тәсіл, тіпті тоқтату сөздерді алып тастау, құжат тақырыбына басқаларға қарағанда көбірек сәйкес келетін сөздер болады және олардың салмағы бірдей болады, өйткені олардың жиілігі бірдей. Егер біз пайдаланушының сұрау ниетін ескеретін болсақ, құжат шарттарын салмақтай аламыз. Әрбір терминді белгілі бір лексикалық тізбектегі тұжырымдама ретінде анықтауға болады, ол сол тұжырымдаманың сол құжат үшін маңыздылығын аударады.
Олар Paice пен P-norm-тың орташа дәлдігі бойынша жақсартулар туралы хабарлайды және Top-5 алынған құжаттарды еске түсіреді.

Задрозный^[5] анық емес ақпаратты іздеу моделін қайта қарады. Ол бұлдыр моделін әрі қарай кеңейтеді:

лингвистикалық терминдерді құжаттардағы кілт сөздердің маңыздылығы ретінде қарастыру
құжаттар мен сұраныстардың ұсынылуына қатысты белгісіздікті ескеру
құжаттар мен сұраныстарды ұсынудағы лингвистикалық терминдерді, сондай-ақ олардың Заденің түсініксіз логикасы тұрғысынан сәйкестендірілуін түсіндіру (лингвистикалық мәлімдемелер есебі)
ұсынылған модельдің кейбір прагматикалық аспектілерін, атап айтқанда құжаттар мен сұраныстарды индекстеу әдістерін қарастыру

Ұсынылған модель мәтіндік ақпаратты ұсынуға және іздеуге қатысты анықсыздықты да, белгісіздікті де түсінуге мүмкіндік береді.

Сондай-ақ қараңыз

Ақпаратты іздеу

Әрі қарай оқу

Фокс, Е .; С.Бетрабет; М.Коушик; Ли Ли (1992), Ақпаратты іздеу: Алгоритмдер және мәліметтер құрылымы; Логикалық кеңейтілген үлгі, Prentice-Hall, Inc.

Әдебиеттер тізімі

^ Фокс, Э. А .; С.Шарат (1986), Ақпаратты іздеуде логикалық жұмсақ түсіндірудің екі әдісін салыстыру, Техникалық есеп TR-86-1, Вирджиния Техникасы, Информатика бөлімі
^ ^а ^б ^c Ли, В.С .; E. A. Fox (1988), Бульдік сұраныстарды түсіндіру схемаларын эксперименттік салыстыру
^ Paice, C. D. (1984), Ақпараттық іздеу жүйелерінде логикалық сұраныстарды жұмсақ бағалау, Ақпараттық технологиялар, Рез. Dev. Өтініштер, 3 (1), 33-42
^ Кан, Бо-Ён; Дэ-Вон Ким; Ха-Джунг Ким (2005), «Тұжырымдаманы сәйкестендіру арқылы индекстелген бұлыңғыр ақпаратты іздеу», Мәтін, сөйлеу және диалог, Информатикадағы дәрістер, 3658, Springer Berlin / Heidelberg, 179–186 бб., дои:10.1007/11551874_23, ISBN 978-3-540-28789-6
^ Задрозный, Славомир; Nowacka, Katarzyna (2009), «бұлдыр ақпарат іздеу моделі қайта қаралды», Бұлыңғыр жиынтықтар мен жүйелер, Elsevier North-Holland, Inc., 160 (15): 2173–2191, дои:10.1016 / j.fss.2009.02.012

[1] Фокс, Э. А .; С.Шарат (1986), Ақпаратты іздеуде логикалық жұмсақ түсіндірудің екі әдісін салыстыру, Техникалық есеп TR-86-1, Вирджиния Техникасы, Информатика бөлімі

[leefox-2] а ^б ^c Ли, В.С .; E. A. Fox (1988), Бульдік сұраныстарды түсіндіру схемаларын эксперименттік салыстыру

[3] Paice, C. D. (1984), Ақпараттық іздеу жүйелерінде логикалық сұраныстарды жұмсақ бағалау, Ақпараттық технологиялар, Рез. Dev. Өтініштер, 3 (1), 33-42

[4] Кан, Бо-Ён; Дэ-Вон Ким; Ха-Джунг Ким (2005), «Тұжырымдаманы сәйкестендіру арқылы индекстелген бұлыңғыр ақпаратты іздеу», Мәтін, сөйлеу және диалог, Информатикадағы дәрістер, 3658, Springer Berlin / Heidelberg, 179–186 бб., дои:10.1007/11551874_23, ISBN 978-3-540-28789-6

[5] Задрозный, Славомир; Nowacka, Katarzyna (2009), «бұлдыр ақпарат іздеу моделі қайта қаралды», Бұлыңғыр жиынтықтар мен жүйелер, Elsevier North-Holland, Inc., 160 (15): 2173–2191, дои:10.1016 / j.fss.2009.02.012

[1]

[2]

[3]

[4]

[5]