Пирсон корреляция коэффициенті - Pearson correlation coefficient

Жылы статистика, Пирсон корреляция коэффициенті (PCC, айтылды /ˈбɪәрсең/), сондай-ақ деп аталады Пирсондікі р, Пирсон өнім-момент корреляция коэффициенті (PPMCC) немесе екі мәнді корреляция,[1] сызықты өлшейтін статистика болып табылады корреляция екі айнымалы арасындағы X және Y. Оның мәні +1 мен −1 аралығында. +1 мәні толық оң сызықтық корреляция, 0 сызықтық корреляция емес, ал −1 жалпы теріс сызықтық корреляция.[a]

Корреляция коэффициентінің (ρ) әр түрлі мәндерімен шашырау диаграммаларының мысалдары
Бірнеше жиынтығы (хж) корреляция коэффициентімен х және ж әр жиынтық үшін. Корреляция сызықтық қатынастың күші мен бағытын (жоғарғы қатар) бейнелейтініне назар аударыңыз, бірақ бұл қатынастың көлбеуі емес (орта), сонымен қатар сызықтық емес қатынастардың көптеген аспектілері (төменгі). Н.Б .: центрдегі фигура 0-ге тең, бірақ бұл жағдайда корреляция коэффициенті анықталмаған, себебі Y нөлге тең.

Атауы және тарихы

Ол әзірледі Карл Пирсон енгізген байланысты идеядан Фрэнсис Галтон 1880 жж. және ол үшін математикалық формула шығарылды және жарияланды Огюст Бравайс 1844 жылы.[b][5][6][7][8] Коэффициенттің аталуы осылайша мысал бола алады Стиглер заңы.

Анықтама

Пирсонның корреляция коэффициенті болып табылады коварианс екі айнымалының олардың көбейтіндісіне бөлінуі стандартты ауытқулар. Анықтама формасы «өнімнің сәтін», яғни орташа мәнді (бірінші) қамтиды сәт орташа түзетілген кездейсоқ шамалардың көбейтіндісінің шығу тегі туралы); модификатор өнім моменті атымен.

Халыққа арналған

А қолданған кезде Пирсонның корреляция коэффициенті халық, әдетте грек әрпімен ұсынылған ρ (rho) және деп аталуы мүмкін халықтың корреляция коэффициенті немесе Пирсон корреляция коэффициенті.[9] Кездейсоқ шамалардың жұбы берілген , формуласы ρ[10] бұл:[11]

 

 

 

 

(Теңдеу)

қайда:

болып табылады коварианс
болып табылады стандартты ауытқу туралы
стандартты ауытқуы болып табылады

Формуласы орташа және күтуге байланысты білдірілуі мүмкін. Бастап

[10]

формуласы ретінде жазылуы мүмкін

 

 

 

 

(Теңдеу)

қайда:

және жоғарыда көрсетілгендей анықталған
болып табылады білдіреді туралы
болып табылады білдіреді туралы
болып табылады күту.

Формуласы центрленбеген сәттер арқылы көрсетілуі мүмкін. Бастап

формуласы ретінде жазылуы мүмкін

Үлгі үшін

А қолданған кезде Пирсонның корреляция коэффициенті үлгі, әдетте ұсынылады және деп аталуы мүмкін үлгі корреляция коэффициенті немесе үлгісі Пирсон корреляция коэффициенті.[9] Формуласын ала аламыз а-ға негізделген ковариациялар мен дисперсиялардың бағаларын ауыстыру арқылы үлгі жоғарыдағы формулаға. Жұпталған деректер берілген тұратын жұп, ретінде анықталады:

 

 

 

 

(Экв.3)

қайда:

бұл үлгінің мөлшері
индекстелген жеке таңдау нүктелері болып табылады мен
(үлгі) білдіреді ); және ұқсас

Қайта құру бізге мына формуланы береді :

қайда жоғарыда көрсетілгендей анықталған.

Бұл формула үлгі корреляциясын есептеудің ыңғайлы бір реттік алгоритмін ұсынады, дегенмен қатысатын сандарға байланысты ол кейде болуы мүмкін сан жағынан тұрақсыз.

Қайта құру бізге осыны береді[10] формуласы :

қайда жоғарыда көрсетілгендей анықталған.

Эквивалентті өрнек формуласын береді өнімнің орташа мәні ретінде стандартты ұпайлар келесідей:

қайда

жоғарыда анықталған, және төменде анықталған
болып табылады стандартты балл (және стандартты балл үшін ұқсас )

Үшін балама формулалар қол жетімді. Мысалға. келесі формуланы қолдануға болады :

қайда:

жоғарыда көрсетілген және:
(үлгі) стандартты ауытқу ); және ұқсас

Тәжірибелік мәселелер

Ауыр шу жағдайында стохастикалық айнымалылардың екі жиынтығы арасындағы корреляция коэффициентін бөліп алу ерекше емес, атап айтқанда Canonical Correlation Analysis есептерінде қатты шу үлестерінің әсерінен корреляция мәндері нашарлаған. Тәсілді жалпылау басқа жерде келтірілген.[12]

Деректер жетіспейтін жағдайда, Гаррен алынған максималды ықтималдығы бағалаушы.[13]

Математикалық қасиеттері

Пирсон корреляциясы коэффициенттерінің іріктемесі мен популяциясының абсолюттік мәндері 0 мен 1-ге тең немесе +1 немесе −1-ге тең корреляциялар дәл сызықта жатқан мәліметтер нүктелеріне сәйкес келеді (үлгі корреляциясы жағдайында) немесе екі бағытты бөлу сызық бойынша толығымен қолданады (популяция корреляциясы жағдайында). Пирсон корреляция коэффициенті симметриялы: корр (X,Y) = корр (Y,X).

Пирсон корреляция коэффициентінің негізгі математикалық қасиеті - ол өзгермейтін екі айнымалының орналасуы мен масштабының бөлек өзгерістері кезінде. Яғни, біз өзгере аламыз X дейін а + bX және түрлендіру Y дейін c + dY, қайда а, б, c, және г. тұрақтылары болып табылады б, г. > 0, корреляция коэффициентін өзгертпестен. (Бұл Пирсонның корреляция коэффициенттерінің жиынтығы үшін де, мысалы үшін де қажет.) Жалпы сызықтық түрлендірулер корреляцияны өзгертетінін ескеріңіз: қараңыз § кездейсоқ шаманың декорациясы мұны қолдану үшін.

Түсіндіру

Корреляция коэффициенті −1-ден 1-ге дейін. 1 мәні сызықтық теңдеу арасындағы байланысты сипаттайтындығын білдіреді X және Y а, орналасқан барлық деректер нүктелерімен тамаша түзу ол үшін Y ретінде өседі X артады. −1 мәні барлық деректер нүктелері сол жолда тұрғанын білдіреді Y ретінде азаяды X артады. 0 мәні айнымалылар арасында сызықтық корреляция жоқ екенін білдіреді.[14]

Жалпы, (Xмен − X)(Yмен − Y) оң және егер болса ғана Xмен және Yмен тиісті құралдарының бір жағында жату. Сонымен, корреляция коэффициенті оң болады, егер Xмен және Yмен бір мезгілде олардың тиісті құралдарынан үлкен немесе бір уақытта аз болуға бейім. Корреляция коэффициенті теріс (корреляцияға қарсы ) егер Xмен және Yмен сәйкес құралдарының екі жағында жатуға бейім. Сонымен қатар, тенденция неғұрлым күшті болса, соғұрлым үлкен болады абсолютті мән корреляция коэффициенті.

Роджерс пен Ницвандер[15] корреляцияны түсіндірудің он үш әдісі каталогталған:

  • Шикі баллдар мен құралдардың қызметі
  • Стандартталған ковариация
  • Регрессия сызығының стандартталған көлбеуі
  • Екі регрессия көлбеуінің геометриялық орташа мәні
  • Екі дисперсияның арақатынасының квадрат түбірі
  • Стандартталған айнымалылардың кросс-туындысы
  • Екі стандартталған регрессия сызығының арасындағы бұрыштың қызметі
  • Екі айнымалы вектор арасындағы бұрыштың қызметі
  • Стандартталған ұпайлар арасындағы айырмашылықтың дискаирленген дисперсиясы
  • Әуе шарының ережесі бойынша бағаланады
  • Изоконцентрацияның екі айнымалы эллипстеріне байланысты
  • Жобаланған тәжірибелерден алынған тест статистикасының қызметі
  • Екі құралдың арақатынасы

Геометриялық интерпретация

Үшін регрессия сызықтары ж = жX(х) [қызыл] және х = жY(ж) [көк]

Орталықтандырылмаған деректер үшін корреляция коэффициенті мен бұрышы арасындағы байланыс бар φ екі регрессия сызығының арасында, ж = жX(х) және х = жY(ж), регресс арқылы алынған ж қосулы х және х қосулы ж сәйкесінше. (Мұнда, φ сызықтардың қиылысу нүктесінің айналасында пайда болған бірінші квадрант ішінде сағат тіліне қарсы өлшенеді, егер р > 0, немесе егер төртіншіден екінші квадрантқа қарсы бағытта болса р < 0.) Көрсетуге болады[16] егер стандартты ауытқулар тең болса, онда р = сек φ - тотығу φ, мұнда секунд және тотығу тригонометриялық функциялар.

Орталықтандырылған деректер үшін (яғни, әр айнымалының орташа мәні нөлге тең болатындай етіп, олардың айнымалыларының таңдамалы тәсілдері арқылы жылжытылған деректер), корреляция коэффициенті де косинус туралы бұрыш θ арасында байқалады векторлар жылы N-өлшемдік кеңістік (үшін N әр айнымалының бақылаулары)[17]

Деректер жиынтығы үшін орталықтандырылмаған (Пирсонға сәйкес келмейтін) және центрленген корреляция коэффициенттерінің екеуін де анықтауға болады. Мысал ретінде, бес елде сәйкесінше 1, 2, 3, 5 және 8 миллиард долларлық жалпы ұлттық өнім табылды делік. Дәл осы бес елде (дәл осындай тәртіппен) 11%, 12%, 13%, 15% және 18% кедейлік табылды делік. Содан кейін рұқсат етіңіз х және ж жоғарыда келтірілген мәліметтерден тұратын 5 элементті векторларға тапсырыс беріңіз: х = (1, 2, 3, 5, 8) және ж = (0.11, 0.12, 0.13, 0.15, 0.18).

Бұрышты табудың әдеттегі процедурасы бойынша θ екі вектор арасында (қараңыз. қараңыз) нүктелік өнім ), орталықтандырылмаған корреляция коэффициенті:

Бұл орталықтандырылмаған корреляция коэффициенті косинустың ұқсастығы.Жоғарыда келтірілген мәліметтер әдейі өзара байланыста болу үшін таңдалғанын ескеріңіз: ж = 0.10 + 0.01 х. Сондықтан Пирсон корреляция коэффициенті дәл бір болуы керек. Деректерді орталықтандыру (ауысу х арқылы ℰ (х) = 3.8 және ж арқылы ℰ (ж) = 0.138) өнімділік х = (−2.8, −1.8, −0.8, 1.2, 4.2) және ж = (−0.028, −0.018, −0.008, 0.012, 0.042), одан

күткендей.

Корреляция мөлшерін түсіндіру

Бұл сурет Пирсон корреляциясының мәндерді болжау үшін пайдалылығы оның шамасына қарай қалай өзгеретінін көрсетеді. Бірлескен қалыпты X, Y корреляциямен ρ, (функциясы ретінде мұнда кескінделген ρ) берілген фактор болжау аралығы үшін Y сәйкес мәнін ескере отырып азайтылуы мүмкін X. Мысалы, егер ρ = 0,5, онда 95% болжау аралығы Y|X болжамның 95% аралығынан шамамен 13% -ға аз болады Y.

Бірнеше авторлар корреляция коэффициентін түсіндіруге арналған нұсқаулар ұсынды.[18][19] Алайда, мұндай критерийлердің барлығы белгілі бір жолмен ерікті болып табылады.[19] Корреляция коэффициентін түсіндіру контекст пен мақсатқа байланысты. Егер физикалық заңдылықты жоғары сапалы құралдарды қолдана отырып тексеретін болса, онда 0,8 корреляциясы өте төмен болуы мүмкін, бірақ әлеуметтік ғылымдарда өте жоғары деп саналуы мүмкін, мұнда күрделі факторлардың үлесі көп болуы мүмкін.

Қорытынды

Пирсонның корреляция коэффициентіне негізделген статистикалық қорытынды көбінесе келесі екі мақсаттың біріне бағытталған:

  • Бір мақсат - тестілеу нөлдік гипотеза нақты корреляция коэффициенті ρ таңдалған корреляция коэффициентінің мәніне негізделген 0-ге тең р.
  • Басқа мақсат - а сенімділік аралығы қайталанған іріктеу кезінде берілген ықтималдығы бар ρ.

Төменде біз осы мақсаттардың біреуіне немесе екеуіне қол жеткізу әдістерін талқылаймыз.

Орын ауыстыру тестін қолдану

Рұқсат беру сынақтары гипотеза тесттерін орындауға және сенімділік аралықтарын құруға тікелей көзқарасты ұсынады. Пирсонның корреляция коэффициентіне арналған ауыстыру сынағы келесі екі кезеңді қамтиды:

  1. Жұптастырылған түпнұсқа деректерді пайдалану (хменжмен), жаңа мәліметтер жиынтығын құру үшін жұптарды кездейсоқ қайта анықтаңыз (хменжмен ′), онда мен ′ {1, ..., жиынының орнын ауыстыру болып табыладыn}. Орын ауыстыру мен ′ барлығына бірдей ықтималдықтар қойылған кездейсоқ таңдалады n! мүмкін ауыстырулар. Бұл сурет салуға тең мен ′ {1, ..., жиынтығынан ауыстырусыз кездейсоқ n}. Жылы жүктеу, тығыз байланысты тәсіл мен және мен ′ тең және {1, ..., ауыстырумен сызылған n};
  2. Корреляция коэффициентін құрыңыз р рандомизацияланған мәліметтерден.

Орын ауыстыру тестін орындау үшін (1) және (2) қадамдарын көп рет қайталаңыз. The p мәні ауыстыру тесті үшін пропорциясы р бастапқы деректер бойынша есептелген Пирсон корреляция коэффициентінен үлкен (2) қадамда жасалған мәндер. Мұндағы «үлкен» дегеніміз a мәні шамасына қарай үлкен, немесе a мәніне тәуелді таңбалы мәнге қарағанда үлкен деген сөз екі жақты немесе біржақты тест қажет.

Жүктеуді пайдалану

The жүктеу Пирсонның корреляция коэффициентіне сенімділік аралықтарын құру үшін қолдануға болады. «Параметрлік емес» жүктеу страсында, n жұптар (хменжмен) байқалған жиынтықтан «ауыстырумен» қайта жинақталады n және корреляция коэффициенті р қайта есептелген мәліметтер негізінде есептеледі. Бұл процесс бірнеше рет қайталанады және эмпирикалық таралу қайта оралады р мәндері жуықтау үшін қолданылады сынамаларды бөлу статистикалық мәліметтер. 95% сенімділік аралығы үшін ρ 2,5-тен 97,5-ке дейінгі аралық ретінде анықталуы мүмкін пайыздық қайта іріктелген р құндылықтар.

Студенттің көмегімен тестілеу т- тарату

Пирсонның корреляция коэффициентінің критикалық мәндері, оны 0,05 деңгейінде нөлдік емес деп санау керек.

Байланысты емес жұптар үшін екі өлшемді қалыпты үлестіру, сынамаларды бөлу Пирсонның корреляция коэффициентінің белгілі бір функциясына сәйкес келеді Студенттікі т- тарату еркіндік дәрежесімен n - 2. Нақты айтқанда, егер негізгі айнымалылар ақ түсті болса және екі жақты нормаль үлестірімге ие болса, айнымалы

студенттікі бар т-бөлшектегі үлестіру (нөлдік корреляция).[20] Бұл шамамен қалыпты емес бақыланатын мәндер болған жағдайда, егер іріктеу өлшемдері жеткілікті үлкен болса.[21] Үшін критикалық мәндерді анықтау үшін р кері функция қажет:

Сонымен қатар, үлкен үлгі, асимптотикалық тәсілдерді қолдануға болады.

Тағы бір ерте қағаз[22] -дің жалпы мәндеріне арналған графиктер мен кестелер ұсынады ρ, шағын өлшемдер үшін және есептеу тәсілдерін талқылайды.

Егер негізгі айнымалылар ақ түсте болмаса, Пирсонның корреляция коэффициентінің іріктелу үлестірімі Студенттікіне сәйкес келеді. т-бөлу, бірақ еркіндік дәрежелері төмендейді.[23]

Нақты үлестіруді қолдану

Келесі деректер үшін а екі өлшемді қалыпты үлестіру, дәл тығыздық функциясы f(р) үлгі корреляция коэффициенті үшін р қалыпты бивариаттың[24][25][26]

қайда болып табылады гамма функциясы және болып табылады Гаусстық гиперггеометриялық функция.

Ерекше жағдайда , дәл тығыздық функциясы f(р) келесі түрде жазылуы мүмкін:

қайда болып табылады бета-функция, бұл жоғарыда көрсетілгендей Студенттің t үлестірімінің тығыздығын жазудың бір әдісі.

Фишер трансформациясын қолдану

Тәжірибеде, сенімділік аралықтары және гипотеза тестілері ρ-қа қатысты, әдетте, көмегімен жүзеге асырылады Балықшының трансформациясы, :

F(р) шамамен a қалыпты таралу бірге

және стандартты қате

қайда n - іріктеме мөлшері. Үлгінің үлкен мөлшері үшін жуықтау қателігі ең төменгі болып табылады және кішкентай және ал басқаша өседі.

Жақындауды пайдаланып, а z-балл болып табылады

астында нөлдік гипотеза бұл , үлгі жұптары деген болжамды ескере отырып тәуелсіз және бірдей бөлінген және а екі өлшемді қалыпты үлестіру. Осылайша шамамен p мәні ықтималдықтар кестесінен алуға болады. Мысалы, егер з = 2.2 байқалады және нөлдік гипотезаны тексеру үшін екі жақты p мәні қажет , p-мәні 2 · Φ (−2.2) = 0.028, мұндағы the - стандартты норма жинақталған үлестіру функциясы.

Ρ үшін сенімділік интервалын алу үшін алдымен үшін сенімділік аралығын есептейміз F():

Кері Фишер трансформациясы аралықты корреляция шкаласына қайтарады.

Мысалы, біз байқадық дейік р = 0,3 үлгі өлшемімен n= 50, және біз ρ үшін 95% сенімділік интервалын алғымыз келеді. Трансформацияланған мән arctanh (р) = 0.30952, демек түрлендірілген масштабтағы сенімділік аралығы 0,30952 ± 1,96 / құрайды.47, немесе (0.023624, 0.595415). Корреляция шкаласына қайта оралсақ, кірістілік пайда болады (0,024, 0,534).

Кем дегенде квадраттардың регрессиялық талдауы

Үлгі корреляция коэффициентінің квадраты әдетте белгіленеді р2 және бұл ерекше жағдай анықтау коэффициенті. Бұл жағдайда, ол дисперсияның бөлігін Y деп түсіндіріледі X ішінде қарапайым сызықтық регрессия. Егер бізде мәліметтер жиынтығы болса және орнатылған деректер жиынтығы содан кейін бастапқы нүкте ретінде Yмен олардың орташа мәні келесідей бөлінуі мүмкін

қайда регрессиялық талдаудан алынған мәндер. Мұны беру үшін қайта реттеуге болады

Жоғарыдағы екі қосылыс - дисперсияның бөлшегі Y деп түсіндіріледі X (оң жақта) және бұл түсіндірілмеген X (сол).

Әрі қарай, біз квадраттық регрессияның ең кіші квадраттық модельдерінің қасиетін қолданамыз, олардың арасында үлгі ковариациясы болады және нөлге тең. Осылайша, регрессияда бақыланатын және орнатылған жауап мәндерінің арасындағы корреляция коэффициентінің үлгісін жазуға болады (есептеу күтуде, Гаусс статистикасын қабылдайды)

Осылайша


қайда

- дисперсияның үлесі Y сызықтық функциясымен түсіндіріледі X.

Жоғарыда келтірілген туындыда

-ның ішінара туындыларын байқай отырып дәлелдеуге болады квадраттардың қалдық қосындысы (RSS) аяқталды β0 және β1 ең кіші квадраттар моделінде 0-ге тең, мұндағы

.

Соңында теңдеуді келесі түрде жазуға болады:

қайда

Таңба квадраттардың регрессиялық қосындысы деп аталады, сонымен қатар шаршылардың қосындысын түсіндірді, және болып табылады квадраттардың жалпы сомасы (пропорционалды дисперсия деректер).

Мәліметтерді таратуға сезімталдық

Бар болу

Пирсонның популяциялық корреляция коэффициенті анықталады сәттер, сондықтан кез-келген екі вариант үшін бар ықтималдықтың таралуы ол үшін халық коварианс анықталады және шекті популяциялардың дисперсиялары анықталған және нөлге тең емес. Сияқты кейбір ықтималдық үлестірімдері Кошидің таралуы анықталмаған дисперсиясы бар, сондықтан ρ анықталмайды, егер X немесе Y осындай үлестірілімге сәйкес келеді. Кейбір практикалық қосымшаларда, мысалы, а ауыр құйрықты таралу, бұл маңызды мәселе. Алайда, корреляция коэффициентінің болуы әдетте алаңдаушылық туғызбайды; мысалы, егер таралу ауқымы шектелген болса, ρ әрқашан анықталады.

Үлгі мөлшері

  • Егер іріктеме мөлшері орташа немесе үлкен болса және популяция қалыпты болса, онда екі вариантты жағдайда қалыпты таралу, үлгі корреляция коэффициенті болып табылады ықтималдықтың максималды бағасы халықтың корреляция коэффициентінің және асимптотикалық түрде объективті емес және нәтижелі, бұл шамамен корреляция коэффициентіне қарағанда дәл бағалауды құру мүмкін емес дегенді білдіреді.
  • Егер іріктеу мөлшері үлкен болса және олардың саны қалыпты болмаса, онда іріктелген корреляция коэффициенті шамамен объективті болып қалады, бірақ тиімді болмауы мүмкін.
  • Егер іріктеме мөлшері үлкен болса, онда үлгінің корреляция коэффициенті а дәйекті бағалаушы популяциялық корреляция коэффициентінің таңдалған құралдары, дисперсиялары мен ковариациясы сәйкес болғанша (егер бұл үлкен сандар заңы қолдануға болады).
  • Егер іріктеме мөлшері аз болса, онда үлгінің корреляция коэффициенті р деген объективті емес ρ.[10] Оның орнына түзетілген корреляция коэффициентін пайдалану керек: анықтаманы осы мақаланың басқа жерлерінен қараңыз.
  • Теңгерімсіздік үшін корреляция әр түрлі болуы мүмкін дихотомиялық үлгідегі дисперсиялық қате болған кездегі мәліметтер.[27]

Төзімділік

Көптеген жиі қолданылатын статистика сияқты, үлгі статистика р емес берік,[28] сондықтан оның мәні жаңылыстыруы мүмкін, егер шегерушілер қатысады.[29][30] Нақтырақ айтқанда, PMCC дистрибутивті емес,[дәйексөз қажет ] төзімді емес[28] (қараңыз Қатты статистика # Анықтама ). Инспекциясы шашырау арасында X және Y әдетте тұрақтылықтың жетіспеушілігі туындауы мүмкін жағдайды анықтайды және мұндай жағдайларда сенімді ассоциация қолданған жөн болар еді. Алайда қауымдастықтың сенімді бағалаушылары өлшейтінін ескеріңіз статистикалық тәуелділік қандай-да бір жолмен, олар әдетте Пирсон корреляция коэффициентімен бірдей масштабта түсіндірілмейді.

Пирсонның корреляция коэффициентіне статистикалық қорытынды мәліметтерді таратуға сезімтал. Нақты тесттер, және негізіндегі асимптотикалық тесттер Балықшының трансформациясы деректер шамамен қалыпты түрде таратылған жағдайда қолданылуы мүмкін, бірақ басқаша жаңылыстыруы мүмкін. Кейбір жағдайларда жүктеу сенімділік аралықтарын құру үшін қолдануға болады, және алмастыру сынақтары гипотеза сынақтарын өткізу үшін қолдануға болады. Мыналар параметрлік емес тәсілдер екі вариантты қалыптылықты сақтамайтын кейбір жағдайларда айтарлықтай нәтиже беруі мүмкін. Алайда бұл тәсілдердің стандартты нұсқаларына сүйенеді айырбастау мәліметтердің мәні, яғни корреляциялық бағалаудың мінез-құлқына әсер етуі мүмкін талданатын деректер жұптарының реті немесе топтастырылуы жоқ.

Қабатталған талдау - бұл екі өлшемді қалыптылықтың жетіспеушілігін қамтамасыз етудің немесе басқа факторды бақылау кезінде бір фактордан туындайтын корреляцияны оқшаулаудың бір әдісі. Егер W кластер мүшелігін немесе бақылауды қажет ететін басқа факторды білдіреді, біз мәнге негізделген деректерді стратификациялай аламыз W, содан кейін әрбір қабат шегінде корреляция коэффициентін есептеңіз. Содан кейін қабат деңгейінің бағаларын бақылау кезінде жалпы корреляцияны бағалау үшін біріктіруге болады W.[31]

Нұсқалар

Корреляция коэффициентінің вариацияларын әр түрлі мақсаттар үшін есептеуге болады. Міне бірнеше мысалдар.

Түзетілген корреляция коэффициенті

Үлгі корреляция коэффициенті р деген объективті емес ρ. Келесі деректер үшін а екі өлшемді қалыпты үлестіру, күту E [р] үлгі корреляция коэффициенті үшін р қалыпты бивариаттың[32]

сондықтан р болып табылады

Бірегей минималды дисперсияны объективті бағалаушы рadj арқылы беріледі[33]

қайда:

жоғарыда көрсетілгендей,
болып табылады Гаусстық гиперггеометриялық функция.

Шамамен бағалаушы рadj алуға болады[дәйексөз қажет ] қысқарту арқылы E [р] және осы қысқартылған теңдеуді шешу:

Шамамен шешім[дәйексөз қажет ] (2) теңдеуге мынаған тең:

қайда (3):

жоғарыда көрсетілгендей,
рadj - оңтайлы емес бағалаушы,[дәйексөз қажет ][түсіндіру қажет ]
рadj сонымен қатар журналды үлкейту арқылы алуға болады (f(р)),
рadj үлкен мәндері үшін минималды дисперсияға ие n,
рadj тәртіптің біржақтылығы бар1(n − 1).

Басқа ұсыныс[10] түзетілген корреляция коэффициенті:[дәйексөз қажет ]

Ескертіп қой рadjр үлкен мәндері үшінn.

Салмақтық корреляция коэффициенті

Өзара байланысты болатын бақылаулар салмақ векторымен көрсетуге болатын әр түрлі маңыздылық дәрежеге ие делік w. Векторлар арасындағы корреляцияны есептеу үшін х және ж салмақ векторымен w (барлық ұзындықn),[34][35]

  • Салмағы орташа:
  • Салмақтық ковариация
  • Салмақтық корреляция

Рефлексивті корреляция коэффициенті

Рефлекторлы корреляция - бұл деректер орташа мәндерінің айналасында шоғырланбаған Пирсон корреляциясының нұсқасы.[дәйексөз қажет ] Популяцияның рефлексиялық корреляциясы

Шағылысатын корреляция симметриялы, бірақ аударма кезінде инвариантты емес:

Үлгілік шағылысатын корреляция эквивалентті косинустың ұқсастығы:

Үлгінің шағылған корреляциясының салмақталған нұсқасы болып табылады

Масштабты корреляция коэффициенті

Масштабты корреляция - бұл Пирсон корреляциясының нұсқасы, мұнда мәліметтер диапазоны әдейі және басқарылатын түрде шектеліп, жылдамдық құрамындағы жылдам компоненттер арасындағы байланысты анықтайды.[36] Масштабты корреляция мәліметтердің қысқа сегменттері бойынша орташа корреляция ретінде анықталады.

Келіңіздер сигналдың жалпы ұзындығына сәйкес келетін сегменттер саны берілген шкала үшін :

Барлық сигналдар бойынша масштабталған корреляция ретінде есептеледі

қайда бұл сегмент үшін Пирсонның корреляция коэффициенті .

Параметрді таңдау арқылы , мәндер диапазоны азаяды және ұзақ уақыт шкаласындағы корреляциялар сүзіледі, тек қысқа уақыт шкалаларындағы корреляциялар анықталады. Осылайша, баяу компоненттердің үлестері алынып тасталады және жылдам компоненттердің үлесі сақталады.

Пирсонның қашықтығы

Ретінде белгілі X және Y екі айнымалыларының арақашықтық көрсеткіші Пирсонның қашықтығы ретінде олардың корреляция коэффициентінен анықтауға болады[37]

Пирсон корреляция коэффициенті [−1, +1] аралығында түсетіндігін ескерсек, Пирсон арақашықтық [0, 2] -де жатыр. Пирсон қашықтығы қолданылды кластерлік талдау және белгісіз пайда мен ығысумен байланыс және сақтау үшін деректерді анықтау[38]

Дөңгелек корреляция коэффициенті

Айнымалылар үшін X = {х1,...,хn} және Y = {ж1,...,жn} олар бірлік шеңберінде анықталған [0, 2π), а анықтауға болады дөңгелек Пирсон коэффициентінің аналогы.[39] Бұл X және Y мәліметтер нүктелерін а-ға түрлендіру арқылы жасалады синус корреляция коэффициенті келесідей болатындай функция:

қайда және болып табылады дөңгелек құралдар туралы X жәнеY. Бұл шара деректердің бұрыштық бағыты маңызды метеорология сияқты салаларда пайдалы болуы мүмкін.

Ішінара корреляция

Егер жиынтық немесе мәліметтер жиыны екіден көп айнымалымен сипатталса, а ішінара корреляция коэффициент басқа айнымалылардың таңдалған ішкі жиынтығындағы вариацияларға жауап ретінде өзгеретін жолмен есепке алынбайтын айнымалылар жұбы арасындағы тәуелділіктің күшін өлшейді.

Декорациясы n кездейсоқ шамалар

Кез-келген кездейсоқ шамалардың ерікті санының барлық жұптары арасындағы корреляцияны әрқашан, егер айнымалылар арасындағы байланыс сызықтық болмаса да, деректерді түрлендіруді қолдану арқылы жоюға болады. Бұл нәтиженің популяцияны тарату үшін презентациясын Cox & Hinkley ұсынады.[40]

Сәйкес нәтиже үлгінің корреляциясын нөлге дейін төмендетуге арналған. Векторын алайық n кездейсоқ шамалар байқалады м рет. Келіңіздер X матрица болыңыз болып табылады jбақылаудың айнымалысы мен. Келіңіздер болуы м арқылы м әр элементі бар квадрат матрица 1. Содан кейін Д. - бұл түрлендірілген мәліметтер, сондықтан кез-келген кездейсоқ шаманың мәні нөлге тең болады, және Т - бұл өзгертілген деректер, сондықтан барлық айнымалылардың нөлдік орташа мәні және нөлдік барлық басқа айнымалылармен корреляциясы бар - таңдама корреляциялық матрица туралы Т сәйкестендіру матрицасы болады. Бірліктің дисперсиясын алу үшін оны стандартты ауытқумен бөлуге тура келеді. Трансформацияланған айнымалылар олармен байланыссыз болады, бірақ олар мүмкін емес тәуелсіз.

мұндағы көрсеткіш 12 білдіреді матрицалық квадрат түбір туралы кері матрицаның Корреляциялық матрицасы Т сәйкестендіру матрицасы болады. Егер деректерді бақылау жаңа болса х болып табылады n элементтері болса, сол түрлендіруге қатысты болады х түрлендірілген векторларды алу үшін г. және т:

Бұл декорация байланысты негізгі компоненттерді талдау көп айнымалы деректер үшін.

Бағдарламалық жасақтама

  • R Статистикалық базалық пакет тесті жүзеге асырады cor.test (x, y, method = «pearson») оның «статистика» бумасында (сонымен қатар) cor (x, y, method = «pearson») жұмыс істейді, бірақ p-мәнін қайтармай). Персон әдепкі болып табылатындықтан, әдіс аргументі де алынып тасталуы мүмкін.
  • Python Статистикалық функциялар модулі тестті жүзеге асырады pearsonr (x, y) өзінің «scipy.stats» модулінде r және p-мән корреляция коэффициентін (r, p-мән) ретінде қайтарады.

Сондай-ақ қараңыз

Сілтемелер

  1. ^ Мәні due1 мен +1 аралығында орналасады Коши-Шварц теңсіздігі.
  2. ^ 1877 жылдың өзінде Галтон «реверсия» терминін және «р«не үшін» регресс «болады.[2][3][4]

Әдебиеттер тізімі

  1. ^ «SPSS оқулықтары: Пирсон корреляциясы». Алынған 14 мамыр 2017.
  2. ^ Galton, F. (5–19 April 1877). "Typical laws of heredity". Табиғат. 15 (388, 389, 390): 492–495, 512–514, 532–533. Бибкод:1877Natur..15..492.. дои:10.1038/015492a0. S2CID  4136393. In the "Appendix" on page 532, Galton uses the term "reversion" and the symbol р.
  3. ^ Galton, F. (24 September 1885). "The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section". Табиғат. 32 (830): 507–510.
  4. ^ Галтон, Ф. (1886). «Тұқым қуалайтын ортадағы ортаға деген регрессия». Ұлыбритания және Ирландия антропологиялық институтының журналы. 15: 246–263. дои:10.2307/2841583. JSTOR  2841583.
  5. ^ Pearson, Karl (20 June 1895). "Notes on regression and inheritance in the case of two parents". Лондон Корольдік Қоғамының еңбектері. 58: 240–242. Бибкод:1895RSPS...58..240P.
  6. ^ Stigler, Stephen M. (1989). "Francis Galton's account of the invention of correlation". Статистикалық ғылым. 4 (2): 73–79. дои:10.1214 / ss / 1177012580. JSTOR  2245329.
  7. ^ "Analyse mathematique sur les probabilités des erreurs de situation d'un point". Mem. Акад. Рой. Ғылыми. Инст. Франция. Ғылыми. Math, et Phys. (француз тілінде). 9: 255–332. 1844 – via Google Books.
  8. ^ Wright, S. (1921). «Корреляция және себептілік». Ауылшаруашылық зерттеулер журналы. 20 (7): 557–585.
  9. ^ а б «Ықтималдықтар мен статистика белгілерінің тізімі». Математикалық қойма. 26 сәуір 2020. Алынған 22 тамыз 2020.
  10. ^ а б c г. e Real Statistics Using Excel: Correlation: Basic Concepts, retrieved 22 February 2015
  11. ^ Вайсштейн, Эрик В. "Statistical Correlation". mathworld.wolfram.com. Алынған 22 тамыз 2020.
  12. ^ Moriya, N. (2008). "Noise-related multivariate optimal joint-analysis in longitudinal stochastic processes". In Yang, Fengshan (ed.). Progress in Applied Mathematical Modeling. Nova Science Publishers, Inc. pp. 223–260. ISBN  978-1-60021-976-4.
  13. ^ Garren, Steven T. (15 June 1998). "Maximum likelihood estimation of the correlation coefficient in a bivariate normal model, with missing data". Статистика және ықтималдық туралы хаттар. 38 (3): 281–288. дои:10.1016/S0167-7152(98)00035-2.
  14. ^ "Introductory Business Statistics: The Correlation Coefficient r". opentextbc.ca. Алынған 21 тамыз 2020.
  15. ^ Rodgers; Nicewander (1988). "Thirteen ways to look at the correlation coefficient" (PDF). Американдық статист. 42 (1): 59–66. дои:10.2307/2685263. JSTOR  2685263.
  16. ^ Schmid, John, Jr. (December 1947). "The relationship between the coefficient of correlation and the angle included between regression lines". Білім беруді зерттеу журналы. 41 (4): 311–313. дои:10.1080/00220671.1947.10881608. JSTOR  27528906.
  17. ^ Rummel, R.J. (1976). "Understanding Correlation". ш. 5 (as illustrated for a special case in the next paragraph).
  18. ^ Buda, Andrzej; Jarynowski, Andrzej (December 2010). Life Time of Correlations and its Applications. Wydawnictwo Niezależne. 5-21 бет. ISBN  9788391527290.
  19. ^ а б Cohen, J. (1988). Мінез-құлық ғылымдары үшін статистикалық қуатты талдау (2-ші басылым).
  20. ^ Rahman, N. A. (1968) A Course in Theoretical Statistics, Charles Griffin and Company, 1968
  21. ^ Kendall, M. G., Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Гриффин. ISBN  0-85264-215-6 (Section 31.19)
  22. ^ Soper, H.E.; Young, A.W.; Cave, B.M.; Ли, А .; Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R.A. Fisher. A co-operative study". Биометрика. 11 (4): 328–413. дои:10.1093/biomet/11.4.328.
  23. ^ Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (January 2013). "Filtering induces correlation in fMRI resting state data". NeuroImage. 64: 728–740. дои:10.1016/j.neuroimage.2012.08.022. hdl:11343/44035. PMID  22939874. S2CID  207184701.
  24. ^ Hotelling, Harold (1953). "New Light on the Correlation Coefficient and its Transforms". Journal of the Royal Statistical Society. Series B (Methodological). 15 (2): 193–232. дои:10.1111/j.2517-6161.1953.tb00135.x. JSTOR  2983768.
  25. ^ Kenney, J.F.; Keeping, E.S. (1951). Статистика математикасы. 2-бөлім (2-ші басылым). Princeton, NJ: Van Nostrand.
  26. ^ Вайсштейн, Эрик В. "Correlation Coefficient—Bivariate Normal Distribution". mathworld.wolfram.com.
  27. ^ Лай, Чун Сун; Дао, Иньшан; Xu, Fangyuan; Ng, Wing W.Y.; Цзя, Ювэй; Yuan, Haoliang; Хуанг, Чао; Лай, Лой Лей; Сю, Чжао; Locatelli, Giorgio (January 2019). "A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty" (PDF). Ақпараттық ғылымдар. 470: 58–77. дои:10.1016/j.ins.2018.08.017.
  28. ^ а б Wilcox, Rand R. (2005). Introduction to robust estimation and hypothesis testing. Академиялық баспасөз.
  29. ^ Девлин, Сюзан Дж.; Гнанадесайкан, Р .; Kettenring J.R. (1975). "Robust estimation and outlier detection with correlation coefficients". Биометрика. 62 (3): 531–545. дои:10.1093 / биометр / 62.3.531. JSTOR  2335508.
  30. ^ Huber, Peter. J. (2004). Қатты статистика. Вили.[бет қажет ]
  31. ^ Katz., Mitchell H. (2006) Multivariable Analysis – A Practical Guide for Clinicians. 2-шығарылым. Кембридж университетінің баспасы. ISBN  978-0-521-54985-1. ISBN  0-521-54985-X дои:10.2277/052154985X
  32. ^ Hotelling, H. (1953). "New Light on the Correlation Coefficient and its Transforms". Корольдік статистикалық қоғамның журналы. B сериясы (Әдістемелік). 15 (2): 193–232. дои:10.1111/j.2517-6161.1953.tb00135.x. JSTOR  2983768.
  33. ^ Olkin, Ingram; Pratt,John W. (March 1958). "Unbiased Estimation of Certain Correlation Coefficients". Математикалық статистиканың жылнамасы. 29 (1): 201–211. дои:10.1214/aoms/1177706717. JSTOR  2237306..
  34. ^ "Re: Compute a weighted correlation". sci.tech-archive.net.
  35. ^ "Weighted Correlation Matrix – File Exchange – MATLAB Central".
  36. ^ Николич, Д; Муресан, ТК; Фэн, В; Singer, W (2012). "Scaled correlation analysis: a better way to compute a cross-correlogram" (PDF). Еуропалық неврология журналы. 35 (5): 1–21. дои:10.1111 / j.1460-9568.2011.07987.x. PMID  22324876. S2CID  4694570.
  37. ^ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN  1-4020-8879-5
  38. ^ Immink, K. Schouhamer; Weber, J. (October 2010). "Minimum Pearson distance detection for multilevel channels with gain and / or offset mismatch". Ақпараттық теория бойынша IEEE транзакциялары. 60 (10): 5966–5974. CiteSeerX  10.1.1.642.9971. дои:10.1109/tit.2014.2342744. S2CID  1027502. Алынған 11 ақпан 2018.
  39. ^ Jammalamadaka, S. Rao; SenGupta, A. (2001). Дөңгелек статистикадағы тақырыптар. Нью-Джерси: Әлемдік ғылыми. б. 176. ISBN  978-981-02-3778-3. Алынған 21 қыркүйек 2016.
  40. ^ Cox, D.R.; Хинкли, Д.В. (1974). Теориялық статистика. Чэпмен және Холл. 3-қосымша. ISBN  0-412-12420-3.

Сыртқы сілтемелер