Breve teoria

A correlação de classificação é um método de análise de correlação que reflete as relações de variáveis ​​ordenadas por valor crescente.

As classificações são os números de série das unidades agregadas em uma série classificada. Se classificarmos uma população de acordo com duas características, cuja relação está sendo estudada, então a coincidência completa de classificações significa a conexão direta mais próxima possível, e o completo oposto de classificações significa o feedback mais próximo possível. É necessário classificar ambas as características na mesma ordem: dos valores menores da característica para os maiores, ou vice-versa.

Para fins práticos, o uso da correlação de classificação é muito útil. Por exemplo, se for estabelecida uma correlação de alto nível entre duas características qualitativas dos produtos, basta controlar os produtos apenas por uma das características, o que reduz o custo e agiliza o controle.

O coeficiente de correlação de classificação, proposto por K. Spearman, refere-se a uma medida não paramétrica da relação entre variáveis ​​medidas em uma escala de classificação. Ao calcular este coeficiente, não são necessárias suposições sobre a natureza das distribuições das características na população. Este coeficiente determina o grau de proximidade entre as características ordinais, que neste caso representam as classificações das quantidades comparadas.

O valor do coeficiente de correlação de Spearman está na faixa de +1 e -1. Pode ser positivo ou negativo, caracterizando a direção da relação entre duas características medidas em uma escala de classificação.

O coeficiente de correlação de classificação de Spearman é calculado usando a fórmula:

Diferença entre classificações em duas variáveis

número de pares combinados

O primeiro passo no cálculo do coeficiente de correlação de classificação é classificar a série de variáveis. O procedimento de classificação começa organizando as variáveis ​​em ordem crescente de seus valores. Diferentes valores recebem classificações, indicadas por números naturais. Se houver diversas variáveis ​​de igual valor, será atribuída a elas uma classificação média.

A vantagem do coeficiente de correlação de classificação de Spearman é que é possível classificar de acordo com características que não podem ser expressas numericamente: é possível classificar os candidatos a um determinado cargo por nível profissional, por capacidade de liderar uma equipe, por charme pessoal, etc. Com as avaliações de peritos é possível classificar as avaliações de diferentes peritos e encontrar as suas correlações entre si, para depois excluir da consideração as avaliações dos peritos que estão fracamente correlacionadas com as avaliações de outros peritos. O coeficiente de correlação de classificação de Spearman é usado para avaliar a estabilidade da tendência. A desvantagem do coeficiente de correlação de classificação é que as mesmas diferenças nas classificações podem corresponder a diferenças completamente diferentes nos valores das características (no caso de características quantitativas). Portanto, para este último, a correlação de postos deve ser considerada uma medida aproximada da proximidade da ligação, que é menos informativa que o coeficiente de correlação dos valores numéricos das características.

Exemplo de solução de problema

A tarefa

Uma pesquisa com 10 estudantes selecionados aleatoriamente que moram em um dormitório universitário revela a relação entre a pontuação média da sessão anterior e o número de horas por semana gastas pelo estudante em estudo independente.

Determine a força do relacionamento usando o coeficiente de correlação de classificação de Spearman.

Caso você tenha dificuldade para resolver problemas, o site oferece ajuda online aos alunos em estatística com testes ou exames caseiros.

A solução do problema

Vamos calcular o coeficiente de correlação de classificação.

Variando Comparação de classificação Diferença de classificação 1 26 4.7 8 1 3.1 1 8 10 -2 4 2 22 4.4 10 2 3.6 2 7 9 -2 4 3 8 3.8 12 3 3.7 3 1 4 -3 9 4 12 3.7 15 4 3.8 4 3 3 0 0 5 15 4.2 17 5 3.9 5 4 7 -3 9 6 30 4.3 20 6 4 6 9 8 1 1 7 20 3.6 22 7 4.2 7 6 2 4 16 8 31 4 26 8 4.3 8 10 6 4 16 9 10 3.1 30 9 4.4 9 2 1 1 1 10 17 3.9 31 10 4.7 10 5 5 0 0 Soma 60

Coeficiente de correlação de classificação de Spearman:

Substituindo valores numéricos, obtemos:

Conclusão para o problema

A relação entre o GPA da sessão anterior e o número de horas semanais gastas pelo aluno em estudo independente é moderadamente forte.

Se o tempo para realizar um teste estiver acabando, você sempre pode solicitar uma solução urgente para problemas de estatística no site.

Média o custo para resolver um teste é de 700 a 1.200 rublos (mas não menos que 300 rublos para todo o pedido). O preço é muito influenciado pela urgência da decisão (de um dia a várias horas). O custo da ajuda online para um exame/teste é de 1.000 rublos. para resolver o ticket.

Poderá deixar um pedido diretamente no chat, tendo previamente enviado as condições das tarefas e informado os prazos para a solução que necessita. O tempo de resposta é de alguns minutos.

Exemplos de problemas relacionados

Razão de Fechner
Uma breve teoria é dada e um exemplo de solução do problema de cálculo do coeficiente de correlação do sinal de Fechner é considerado.

Coeficientes de contingência mútua de Chuprov e Pearson
A página contém informações sobre métodos para estudar as relações entre características qualitativas usando os coeficientes de contingência mútua de Chuprov e Pearson.

37. Coeficiente de correlação de postos de Spearman.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

O coeficiente de correlação de postos de Spearman é usado nos casos em que:
- variáveis ​​​​têm escala de classificação Medidas;
- a distribuição dos dados é muito diferente da normal ou não é conhecido;
- as amostras têm um volume pequeno (N< 30).

A interpretação do coeficiente de correlação de postos de Spearman não é diferente do coeficiente de Pearson, mas seu significado é um pouco diferente. Para entender a diferença entre esses métodos e justificar logicamente suas áreas de aplicação, vamos comparar suas fórmulas.

Coeficiente de correlação de Pearson:

Coeficiente de correlação de Spearman:

Como você pode ver, as fórmulas diferem significativamente. Vamos comparar as fórmulas

A fórmula de correlação de Pearson utiliza a média aritmética e o desvio padrão das séries correlacionadas, mas a fórmula de Spearman não. Assim, para obter um resultado adequado pela fórmula de Pearson, é necessário que as séries correlacionadas estejam próximas da distribuição normal (a média e o desvio padrão são parâmetros de distribuição normal). Isto não é relevante para a fórmula de Spearman.

Um elemento da fórmula de Pearson é a padronização de cada série em escala z.

Como você pode ver, a conversão das variáveis ​​para a escala Z está presente na fórmula do coeficiente de correlação de Pearson. Assim, para o coeficiente de Pearson, a escala dos dados não importa em nada: por exemplo, podemos correlacionar duas variáveis, uma das quais tem um mínimo. = 0 e máx. = 1, e o segundo min. = 100 e máx. = 1000. Não importa quão diferente seja o intervalo de valores, todos eles serão convertidos em valores z padrão que são iguais em escala.

Tal normalização não ocorre no coeficiente de Spearman, portanto

CONDIÇÃO OBRIGATÓRIA PARA A UTILIZAÇÃO DO COEFICIENTE SPEARMAN É A IGUALDADE DA FAIXA DAS DUAS VARIÁVEIS.

Antes de utilizar o coeficiente de Spearman para séries de dados com diferentes intervalos, é necessário classificação. A classificação resulta nos valores dessas séries adquirindo o mesmo mínimo = 1 (classificação mínima) e um máximo igual ao número de valores (máximo, última classificação = N, ou seja, o número máximo de casos na amostra) .

Em que casos você pode ficar sem classificação?

São casos em que os dados são inicialmente escala de classificação. Por exemplo, o teste de orientações de valor de Rokeach.

Além disso, são casos em que o número de opções de valor é pequeno e a amostra contém um mínimo e um máximo fixos. Por exemplo, em um diferencial semântico, mínimo = 1, máximo = 7.

Exemplo de cálculo do coeficiente de correlação de classificação de Spearman

O teste de orientação de valores de Rokeach foi realizado em duas amostras X e Y. Objetivo: descobrir quão próximas são as hierarquias de valores dessas amostras (literalmente, quão semelhantes elas são).

O valor resultante r=0,747 é verificado por tabela de valores críticos. Conforme tabela, com N=18, o valor obtido é significativo ao nível p<=0,005

Coeficientes de correlação de classificação de Spearman e Kendal

Para variáveis ​​pertencentes a uma escala ordinal ou para variáveis ​​não sujeitas a uma distribuição normal, bem como para variáveis ​​pertencentes a uma escala intervalar, calcula-se a correlação de postos de Spearman em vez do coeficiente de Pearson. Para fazer isso, valores de variáveis ​​individuais recebem classificações, que são posteriormente processadas usando fórmulas apropriadas. Para detectar correlação de classificação, desmarque a caixa de seleção Correlação de Pearson padrão na caixa de diálogo Correlações Bivariadas.... Em vez disso, ative o cálculo de correlação de Spearman. Este cálculo dará os seguintes resultados. Os coeficientes de correlação de classificação estão muito próximos dos valores correspondentes dos coeficientes de Pearson (as variáveis ​​originais têm uma distribuição normal).

titkova-matmetody.pdf p. 45

O método de correlação de classificação de Spearman permite determinar a rigidez (força) e a direção

correlação entre dois sinais ou dois perfis (hierarquias) sinais.

Para calcular a correlação de classificação, é necessário ter duas linhas de valores,

que pode ser classificado. Essa série de valores poderia ser:

1) dois sinais medido no mesmo grupo assuntos;

2) duas hierarquias individuais de características, identificado em dois sujeitos usando o mesmo

conjunto de recursos;

3) dois hierarquias de características de grupo,

4) individual e em grupo hierarquia de recursos.

Primeiro, os indicadores são classificados separadamente para cada uma das características.

Como regra, uma classificação inferior é atribuída a um valor de atributo inferior.

No primeiro caso (duas características), os valores individuais são classificados de acordo com o primeiro

característica obtida por diferentes sujeitos e, em seguida, valores individuais para o segundo

sinal.

Se duas características estão positivamente relacionadas, então os indivíduos com classificações baixas

um deles terá classificações baixas no outro, e os sujeitos que têm classificações altas no

uma das características também terá classificações altas para a outra característica. Para calcular rs

diferenças precisam ser determinadas (d) entre as classificações obtidas por um determinado sujeito em ambos

sinais. Então esses indicadores d são transformados de uma certa maneira e subtraídos de 1. Então

Quanto menor a diferença entre as classificações, maior será o rs e mais próximo estará de +1.

Se não houver correlação, então todas as classificações serão misturadas e não haverá

nenhuma correspondência. A fórmula foi projetada para que, neste caso, rs esteja próximo de 0.

Em caso de correlação negativa classificações baixas de assuntos em uma base

altos escalões em outra base corresponderão e vice-versa. Quanto maior a discrepância

entre as classificações dos sujeitos em duas variáveis, mais próximo rs está de -1.

No segundo caso (dois perfis individuais), os individuais são classificados

valores obtidos por cada um dos 2 sujeitos de acordo com um determinado (o mesmo para eles

ambos) conjunto de recursos. A primeira classificação será dada ao recurso de menor valor; segunda posição -

um sinal com um valor mais alto, etc. Obviamente, todas as características devem ser medidas em

as mesmas unidades, caso contrário a classificação será impossível. Por exemplo, é impossível

classificar os indicadores do Inventário de Personalidade Cattell (16PF), se forem expressos em

pontos “brutos”, pois as faixas de valores são diferentes para diferentes fatores: de 0 a 13, de 0 a

20 e de 0 a 26. Não podemos dizer qual fator ficará em primeiro lugar

expressão até trazermos todos os valores para uma única escala (na maioria das vezes esta é a escala de parede).

Se as hierarquias individuais de dois assuntos estão positivamente relacionadas, então os sinais

ter classificações baixas em um deles terá classificações baixas no outro e vice-versa.

Por exemplo, se o fator E (dominância) de um sujeito tiver a classificação mais baixa, então

outra cobaia, ela deverá ter uma classificação baixa se uma cobaia tiver fator C

(estabilidade emocional) tem a classificação mais alta, então o outro sujeito também deve ter

este fator tem uma classificação elevada, etc.

No terceiro caso (dois perfis de grupo), os valores médios do grupo são classificados,

obtido em 2 grupos de sujeitos de acordo com um conjunto específico, idêntico para ambos os grupos

sinais. A seguir, a linha de raciocínio é a mesma dos dois casos anteriores.

No caso 4 (perfis individuais e de grupo), são classificados separadamente

valores individuais do sujeito e valores médios do grupo para o mesmo conjunto

sinais que são obtidos, via de regra, pela exclusão deste sujeito individual - ele

não participa do perfil médio do grupo com o qual seu perfil individual será comparado

perfil. A correlação de classificação permitirá verificar quão consistente é o indivíduo e

perfis de grupo.

Em todos os quatro casos, a significância do coeficiente de correlação resultante é determinada

pelo número de valores classificados N. No primeiro caso, esta quantidade coincidirá com

tamanho da amostra No segundo caso, o número de observações será o número de características,

compondo a hierarquia. No terceiro e quarto casos, N também é o número de comparações

características, e não o número de sujeitos em grupos. Explicações detalhadas são fornecidas nos exemplos. Se

o valor absoluto de rs atinge ou excede um valor crítico, correlação

confiável.

Hipóteses.

Existem duas hipóteses possíveis. O primeiro aplica-se ao caso 1, o segundo aos outros três

Primeira versão de hipóteses

H0: A correlação entre as variáveis ​​A e B não é diferente de zero.

H2: A correlação entre as variáveis ​​A e B é significativamente diferente de zero.

Segunda versão das hipóteses

H0: A correlação entre as hierarquias A e B não é diferente de zero.

H2: A correlação entre as hierarquias A e B é significativamente diferente de zero.

Limitações do coeficiente de correlação de classificação

1. Para cada variável deverão ser apresentadas pelo menos 5 observações. Superior

o limite de amostragem é determinado pelas tabelas disponíveis de valores críticos .

2. O coeficiente de correlação de classificação de Spearman rs para um grande número de idênticos

as classificações para uma ou ambas as variáveis ​​comparadas fornecem valores aproximados. Idealmente

ambas as séries correlacionadas devem representar duas sequências de divergentes

valores. Se esta condição não for atendida, uma alteração deverá ser feita

mesmas fileiras.

O coeficiente de correlação de classificação de Spearman é calculado usando a fórmula:

Se ambas as séries de classificação comparadas contiverem grupos das mesmas classificações,

antes de calcular o coeficiente de correlação de classificação, é necessário fazer correções para o mesmo

Classificações Ta e TV:

Ta = Σ (a3 – a)/12,

Тв = Σ (в3 – в)/12,

Onde A - o volume de cada grupo de classificações idênticas na linha de classificação A, em volume de cada

grupos de classificações idênticas na série de classificação B.

Para calcular o valor empírico de rs, use a fórmula:

38. Coeficiente de correlação ponto-bisserial.

Sobre correlação em geral, veja a pergunta nº 36 Com. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Deixe a variável X ser medida em uma escala forte e a variável Y em uma escala dicotômica. O coeficiente de correlação bisserial pontual rpb é calculado usando a fórmula:

Aqui x 1 é o valor médio sobre X objetos com valor “um” sobre Y;

x 0 – valor médio sobre X objetos com valor “zero” sobre Y;

s x – desvio padrão de todos os valores ao longo de X;

n 1 – número de objetos “um” em Y, n 0 – número de objetos “zero” em Y;

n = n 1 + n 0 – tamanho da amostra.

O coeficiente de correlação ponto-bisserial também pode ser calculado usando outras expressões equivalentes:

Aqui x– valor médio geral da variável X.

Coeficiente de correlação bisserial pontual rpb varia de –1 a +1. Seu valor é zero se variáveis ​​com um S tem uma média S, igual à média das variáveis ​​com zero acima S.

Exame hipóteses de significância coeficiente de correlação bisserial pontual é verificar hipótese nulah 0 sobre a igualdade do coeficiente de correlação geral a zero: ρ = 0, que é realizado através do teste t de Student. Significado empírico

comparado com valores críticos t a (df) para o número de graus de liberdade df = n– 2

Se a condição | t| ≤ (df), a hipótese nula ρ = 0 não é rejeitada. O coeficiente de correlação bisserial pontual difere significativamente de zero se o valor empírico | t| cai na região crítica, ou seja, se a condição | t| > (n– 2). Confiabilidade da relação calculada usando o coeficiente de correlação ponto-bisserial rpb, também pode ser determinado usando o critério χ 2 para o número de graus de liberdade df= 2.

Correlação ponto-bisserial

A modificação subsequente do coeficiente de correlação do produto dos momentos foi refletida no ponto biserial R. Esta estatística. mostra a relação entre duas variáveis, uma das quais é supostamente contínua e normalmente distribuída, e a outra é discreta no sentido estrito da palavra. O coeficiente de correlação ponto-bisserial é denotado por R pbis Desde em R pbis dicotomia reflete a verdadeira natureza da variável discreta, e não sendo artificial, como no caso R bis, seu sinal é determinado arbitrariamente. Portanto, para todos os efeitos práticos. metas R pbis considerado na faixa de 0,00 a +1,00.

Há também o caso em que duas variáveis ​​são consideradas contínuas e normalmente distribuídas, mas ambas são dicotomizadas artificialmente, como no caso da correlação bisserial. Para avaliar a relação entre tais variáveis, utiliza-se o coeficiente de correlação tetracórica R tete, que também foi criado por Pearson. Básico Fórmulas e procedimentos (exatos) para cálculo R tete bem complexo. Portanto, com práticas Este método usa aproximações R tete,obtido com base em procedimentos e tabelas abreviados.

/on-line/dictionary/dictionary.php?term=511

COEFICIENTE PONTO BISERIALé o coeficiente de correlação entre duas variáveis, uma medida em escala dicotômica e outra em escala intervalar. É usado em testes clássicos e modernos como um indicador da qualidade de uma tarefa de teste - confiabilidade e consistência com a pontuação geral do teste.

Para correlacionar variáveis ​​medidas em escala dicotômica e intervalar usar coeficiente de correlação ponto-bisserial.
O coeficiente de correlação ponto-bisserial é um método de análise de correlação da relação de variáveis, uma das quais é medida em uma escala de nomes e assume apenas 2 valores (por exemplo, homens/mulheres, resposta correta/resposta falsa, recurso presente/não presente), e o segundo em uma escala de proporções ou escala de intervalo. Fórmula para calcular o coeficiente de correlação ponto-bisserial:

Onde:
m1 e m0 são os valores médios de X com valor 1 ou 0 em Y.
σx – desvio padrão de todos os valores por X
n1,n0 – número de valores X de 1 ou 0 a Y.
n – número total de pares de valores

Na maioria das vezes, esse tipo de coeficiente de correlação é usado para calcular a relação entre os itens do teste e a escala total. Este é um tipo de verificação de validade.

39. Coeficiente de correlação posto-bisserial.

Sobre correlação em geral, veja a pergunta nº 36 Com. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

Coeficiente de correlação rank biserial, utilizado nos casos em que uma das variáveis ​​( X) é apresentado em escala ordinal, e o outro ( S) – dicotômica, calculada pela fórmula

.

Aqui está a classificação média de objetos tendo um em S; – classificação média de objetos com zero a S, n– tamanho da amostra.

Exame hipóteses de significância O coeficiente de correlação posto-bisserial é realizado de forma semelhante ao coeficiente de correlação ponto bisserial usando o teste de Student com substituição nas fórmulas Rpb sobre Rrb.

Nos casos em que uma variável é medida em uma escala dicotômica (variável X), e o outro na escala de postos (variável Y), utiliza-se o coeficiente de correlação posto-bisserial. Lembramos que a variável X, medido em escala dicotômica, assume apenas dois valores (códigos) 0 e 1. Ressaltamos especialmente: apesar de este coeficiente variar na faixa de –1 a +1, seu sinal não importa para a interpretação do resultados. Esta é outra exceção à regra geral.

Este coeficiente é calculado usando a fórmula:

onde ` X 1 classificação média para esses elementos da variável S, que corresponde ao código (sinal) 1 na variável X;

`X 0 – classificação média para esses elementos da variável Sim, que corresponde ao código (sinal) 0 na variável X\

N- número total de elementos na variável X.

Para aplicar o coeficiente de correlação posto-bisserial, as seguintes condições devem ser atendidas:

1. As variáveis ​​comparadas devem ser medidas em escalas diferentes: uma X- numa escala dicotómica; outro S– em uma escala de classificação.

2. Número de características variáveis ​​nas variáveis ​​comparadas X E S deveria ser o mesmo.

3. Para avaliar o nível de confiabilidade do coeficiente de correlação posto-bisserial, deve-se usar a fórmula (11.9) e a tabela de valores críticos para o critério de Student k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Casos em que uma das variáveis ​​é representada em escala dicotômica, e o outro em classificação (ordinal), requer aplicação coeficiente de correlação posto-bisserial:

rpb=2 / n * (m1 - m0)

Onde:
n – número de objetos de medição
m1 e m0 - a classificação média dos objetos com 1 ou 0 na segunda variável.
Este coeficiente também é utilizado na verificação da validade dos testes.

40. Coeficiente de correlação linear.

Para correlação em geral (e correlação linear em particular), consulte a pergunta nº 36 Com. 56 (64) 063.JPG

COEFICIENTE DO Sr. PEARSON

R-Pearson (Pearson R) é usado para estudar a relação entre duas métricasdiferentes variáveis ​​medidas na mesma amostra. Existem muitas situações em que seu uso é apropriado. A inteligência afeta o desempenho acadêmico nos últimos anos da universidade? O tamanho do salário de um funcionário está relacionado à sua simpatia para com os colegas? O humor de um aluno afeta o sucesso na resolução de um problema aritmético complexo? Para responder a tais questões, o pesquisador deve medir dois indicadores de interesse para cada membro da amostra. Os dados para estudar o relacionamento são então tabulados, como no exemplo abaixo.

EXEMPLO 6.1

A tabela mostra um exemplo de dados iniciais para medir dois indicadores de inteligência (verbal e não verbal) para 20 alunos da 8ª série.

A relação entre estas variáveis ​​pode ser representada através de um gráfico de dispersão (ver Figura 6.3). O diagrama mostra que existe alguma relação entre os indicadores medidos: quanto maior o valor da inteligência verbal, maior (principalmente) maior o valor da inteligência não-verbal.

Antes de fornecer a fórmula do coeficiente de correlação, tentemos traçar a lógica de sua ocorrência usando os dados do exemplo 6.1. A posição de cada ponto / (sujeito com número /) no diagrama de dispersão em relação aos outros pontos (Fig. 6.3) pode ser especificada pelos valores e sinais de desvios dos valores das variáveis ​​​​correspondentes de seus valores médios : (xj - MJ E (mente no ). Se os sinais desses desvios coincidirem, isso indica uma relação positiva (valores maiores para X grandes valores correspondem a no ou valores inferiores X valores menores correspondem a e).

Para a disciplina nº 1, desvio da média X e por no positivo, e para o sujeito nº 3 ambos os desvios são negativos. Consequentemente, os dados de ambos indicam uma relação positiva entre as características estudadas. Pelo contrário, se os sinais de desvios da média X e por no diferem, isso indicará uma relação negativa entre as características. Assim, para a disciplina nº 4, o desvio da média Xé negativo, por você- positivo, e para a disciplina nº 9 - vice-versa.

Assim, se o produto dos desvios (x,- M X ) X (mente no ) positivo, então os dados do sujeito / indicam um relacionamento direto (positivo) e, se negativo, então um relacionamento reverso (negativo). Assim, se Xcei, ei geralmente estão relacionados em proporção direta, então a maioria dos produtos dos desvios será positiva e, se estiverem relacionados por uma relação inversa, a maioria dos produtos será negativa. Portanto, um indicador geral da força e direção do relacionamento pode ser a soma de todos os produtos dos desvios para uma determinada amostra:

Com uma relação diretamente proporcional entre as variáveis, esse valor é grande e positivo - para a maioria dos sujeitos, os desvios coincidem em sinal (grandes valores de uma variável correspondem a grandes valores de outra variável e vice-versa). Se X E no tiver feedback, então para a maioria dos sujeitos valores maiores de uma variável corresponderão a valores menores de outra variável, ou seja, os sinais dos produtos serão negativos e a soma dos produtos como um todo também será grande em valor absoluto, mas com sinal negativo. Se não houver uma conexão sistemática entre as variáveis, então os termos positivos (produtos dos desvios) serão equilibrados por termos negativos, e a soma de todos os produtos dos desvios será próxima de zero.

Para garantir que a soma dos produtos não depende do tamanho da amostra, basta fazer a média. Mas estamos interessados ​​na medida da interconexão não como um parâmetro geral, mas como uma estimativa calculada dela – estatísticas. Portanto, quanto à fórmula de dispersão, neste caso faremos o mesmo, dividiremos a soma dos produtos dos desvios não por N, e na TV - 1. Isso resulta em uma medida de conexão, amplamente utilizada na física e nas ciências técnicas, que é chamada covariância (Covahance):


EM Na psicologia, ao contrário da física, a maioria das variáveis ​​são medidas em escalas arbitrárias, uma vez que os psicólogos não estão interessados ​​no valor absoluto de um signo, mas na posição relativa dos sujeitos num grupo. Além disso, a covariância é muito sensível à escala da escala (variância) na qual as características são medidas. Para tornar a medida de ligação independente das unidades de medida de ambas as características, basta dividir a covariância nos desvios padrão correspondentes. Assim foi obtido para-Mula do coeficiente de correlação de K. Pearson:

ou, depois de substituir as expressões por o x e


Se os valores de ambas as variáveis ​​​​fossem convertidos em valores r usando a fórmula


então a fórmula para o coeficiente de correlação r-Pearson parece mais simples (071.JPG):

/dict/sociologia/artigo/soc/soc-0525.htm

CORRELAÇÃO LINEAR- relação estatística linear de natureza não causal entre duas variáveis ​​quantitativas X E no. Medido usando o "coeficiente K.L". Pearson, que é o resultado da divisão da covariância pelos desvios padrão de ambas as variáveis:

,

Onde é xy- covariância entre variáveis X E no;

é x , é sim- desvios padrão para variáveis X E no;

x eu , sim eu- valores variáveis X E no para objeto com número eu;

x, sim- médias aritméticas para variáveis X E no.

Coeficiente de Pearson R pode assumir valores do intervalo [-1; +1]. Significado r = 0 significa que não há relação linear entre as variáveis X E no(mas não exclui uma relação estatística não linear). Valores de coeficiente positivo ( R> 0) indica uma conexão linear direta; quanto mais próximo o seu valor estiver de +1, mais forte será a relação entre a linha estatística. Valores de coeficiente negativo ( R < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения R= ±1 significa a presença de uma conexão linear completa, direta ou reversa. No caso de conexão completa, todos os pontos com coordenadas ( x eu , sim eu) mentir em linha reta sim = a + bx.

"Coeficiente K.L." Pearson também é usado para medir a força da conexão em um modelo de regressão linear de pares.

41. Matriz de correlação e gráfico de correlação.

Sobre correlação em geral, veja a pergunta nº 36 Com. 56 (64) 063.JPG

Matriz de correlação. Freqüentemente, a análise de correlação inclui o estudo das relações entre não duas, mas muitas variáveis ​​medidas em uma escala quantitativa em uma amostra. Neste caso, são calculadas correlações para cada par deste conjunto de variáveis. Os cálculos geralmente são realizados em um computador e o resultado é uma matriz de correlação.

Matriz de correlação(Correlação Matriz) é o resultado do cálculo de correlações de um tipo para cada par do conjunto R variáveis ​​medidas em escala quantitativa em uma amostra.

EXEMPLO

Suponha que estamos estudando relações entre 5 variáveis ​​(vl, v2,..., v5; P= 5), medido em uma amostra de N=30 Humano. Abaixo está uma tabela de dados de origem e uma matriz de correlação.

E
dados semelhantes:

Matriz de correlação:

É fácil perceber que a matriz de correlação é quadrada, simétrica em relação à diagonal principal (takkak,y = /) y), com unidades na diagonal principal (já que G E = Gu = 1).

A matriz de correlação é quadrado: o número de linhas e colunas é igual ao número de variáveis. Ela simétrico em relação à diagonal principal, uma vez que a correlação X Com no igual à correlação no Com X. As unidades estão localizadas em sua diagonal principal, pois a correlação do traço consigo mesmo é igual a um. Consequentemente, nem todos os elementos da matriz de correlações são passíveis de análise, mas sim aqueles que se situam acima ou abaixo da diagonal principal.

Número de coeficientes de correlação, Pcaracterísticas a serem analisadas no estudo dos relacionamentos são determinadas pela fórmula: P(P- 1)/2. No exemplo acima, o número desses coeficientes de correlação é 5(5 - 1)/2 = 10.

A principal tarefa de analisar a matriz de correlação é identificar a estrutura de relacionamentos entre muitos recursos. Neste caso, a análise visual é possível galáxias de correlação- imagem gráfica estruturas estatisticamenteconexões significativas, se não houver muitas dessas conexões (até 10-15). Outra forma é utilizar métodos multivariados: regressão múltipla, análise fatorial ou análise de cluster (ver seção “Métodos multivariados...”). Utilizando análise fatorial ou de cluster, é possível identificar agrupamentos de variáveis ​​que estão mais relacionadas entre si do que com outras variáveis. Uma combinação destes métodos também é muito eficaz, por exemplo, se houver muitos sinais e eles não forem homogêneos.

Comparação de correlações - uma tarefa adicional de análise da matriz de correlação, que possui duas opções. Caso seja necessário comparar correlações em uma das linhas da matriz de correlações (para uma das variáveis), utiliza-se o método de comparação para amostras dependentes (p. 148-149). Ao comparar correlações de mesmo nome calculadas para amostras diferentes, é utilizado o método de comparação para amostras independentes (p. 147-148).

Métodos de comparação correlações em diagonais matriz de correlação (para avaliar a estacionariedade de um processo aleatório) e comparação diversos matrizes de correlação obtidas para diferentes amostras (por sua homogeneidade) são trabalhosas e estão além do escopo deste livro. Você pode conhecer esses métodos no livro de G.V. Sukhodolsky 1.

O problema da significância estatística das correlações. O problema é que o procedimento para teste de hipótese estatística pressupõe um-múltiplo teste realizado em uma amostra. Se o mesmo método for aplicado repetidamente, mesmo que em relação a diferentes variáveis, a probabilidade de obter um resultado puramente por acaso aumenta. Em geral, se repetirmos o mesmo método de teste de hipótese uma vez em relação a diferentes variáveis ​​​​ou amostras, então com o valor estabelecido a temos a garantia de receber a confirmação da hipótese em ahk Número de casos.

Suponha que uma matriz de correlação seja analisada para 15 variáveis, ou seja, são calculados 15(15-1)/2 = 105 coeficientes de correlação. Para testar hipóteses, é definido o nível a = 0,05. Ao verificar a hipótese 105 vezes, receberemos a confirmação dela cinco vezes (!), independentemente de a conexão realmente existir. Sabendo isto e tendo, digamos, 15 coeficientes de correlação “estatisticamente significativos”, podemos dizer quais foram obtidos por acaso e quais refletem uma relação real?

A rigor, para tomar uma decisão estatística é necessário reduzir o nível a tantas vezes quanto o número de hipóteses testadas. Mas isto dificilmente é aconselhável, uma vez que a probabilidade de ignorar uma ligação realmente existente (cometer um erro Tipo II) aumenta de forma imprevisível.

A matriz de correlação por si só não é uma base suficientepara conclusões estatísticas sobre os coeficientes individuais nele incluídoscorrelações!

Só existe uma maneira verdadeiramente convincente de resolver este problema: dividir a amostra aleatoriamente em duas partes e levar em consideração apenas as correlações que são estatisticamente significativas em ambas as partes da amostra. Uma alternativa pode ser a utilização de métodos multivariados (análise fatorial, de cluster ou de regressão múltipla) para identificar e posteriormente interpretar grupos de variáveis ​​estatisticamente relacionadas de forma significativa.

Problema de valores ausentes. Se houver valores ausentes nos dados, duas opções são possíveis para calcular a matriz de correlação: a) remoção de valores linha por linha (Excluircasoslista); b) exclusão de valores em pares (Excluircasosemparelhados). No exclusão linha por linha observações com valores faltantes, toda a linha de um objeto (assunto) que possui pelo menos um valor faltante para uma das variáveis ​​é excluída. Este método leva a uma matriz de correlação “correta” no sentido de que todos os coeficientes são calculados a partir do mesmo conjunto de objetos. No entanto, se os valores ausentes forem distribuídos aleatoriamente nas variáveis, esse método pode levar ao fato de que não resta um único objeto no conjunto de dados em consideração (haverá pelo menos um valor ausente em cada linha) . Para evitar esta situação, use outro método chamado remoção aos pares. Este método considera apenas lacunas em cada par coluna-variável selecionado e ignora lacunas em outras variáveis. A correlação para um par de variáveis ​​é calculada para aqueles objetos onde não há lacunas. Em muitas situações, especialmente quando o número de lacunas é relativamente pequeno, digamos 10%, e as lacunas são distribuídas de forma bastante aleatória, este método não conduz a erros graves. No entanto, às vezes não é esse o caso. Por exemplo, um viés sistemático (mudança) na avaliação pode “ocultar” um arranjo sistemático de omissões, razão pela qual a diferença nos coeficientes de correlação construídos para diferentes subconjuntos (por exemplo, para diferentes subgrupos de objetos). Outro problema associado à matriz de correlação calculada com emparelhados a remoção de lacunas ocorre ao usar esta matriz em outros tipos de análise (por exemplo, em regressão múltipla ou análise fatorial). Eles assumem que a matriz de correlação “correta” é usada com um certo nível de consistência e “conformidade” de vários coeficientes. Usar uma matriz com estimativas “ruins” (enviesadas) leva ao fato de o programa ser incapaz de analisar tal matriz ou os resultados serão errôneos. Portanto, se for utilizado o método pareado de exclusão de dados faltantes, é necessário verificar se existem padrões sistemáticos na distribuição dos dados faltantes.

Se a exclusão aos pares de dados faltantes não levar a qualquer mudança sistemática nas médias e variâncias (desvios padrão), então essas estatísticas serão semelhantes àquelas calculadas usando o método linha por linha de exclusão de dados faltantes. Se for observada uma diferença significativa, então há razões para supor que há uma mudança nas estimativas. Por exemplo, se a média (ou desvio padrão) dos valores de uma variável A, que foi utilizado no cálculo de sua correlação com a variável EM, muito menos que a média (ou desvio padrão) dos mesmos valores da variável A, que foram usadas no cálculo de sua correlação com a variável C, então há todos os motivos para esperar que essas duas correlações (ABnós) com base em diferentes subconjuntos de dados. Haverá um viés nas correlações causado pela colocação não aleatória de lacunas nos valores das variáveis.

Análise de galáxias de correlação. Depois de resolver o problema de significância estatística dos elementos da matriz de correlação, as correlações estatisticamente significativas podem ser representadas graficamente na forma de uma galáxia ou galáxia de correlação. Galáxia de correlação - Esta é uma figura que consiste em vértices e linhas que os conectam. Os vértices correspondem às características e geralmente são designados por números - números variáveis. As linhas correspondem a conexões estatisticamente significativas e expressam graficamente o sinal e às vezes o nível j de significância da conexão.

A galáxia de correlação pode refletir Todos conexões estatisticamente significativas da matriz de correlação (às vezes chamadas gráfico de correlação ) ou apenas sua parte significativamente selecionada (por exemplo, correspondente a um fator de acordo com os resultados da análise fatorial).

EXEMPLO DE CONSTRUÇÃO DE UMA PLÉIADE DE CORRELAÇÃO


Preparação para a certificação estadual (final) dos graduados: formação da base de dados do Exame Estadual Unificado (lista geral de participantes do Exame Estadual Unificado de todas as categorias, indicando disciplinas) - levando em consideração dias de reserva no caso das mesmas disciplinas;

  • Plano de trabalho (27)

    Solução

    2. Atividades da instituição de ensino para melhorar o conteúdo e avaliar a qualidade nas disciplinas de educação científica e matemática Instituição educacional municipal escola secundária nº 4, Litvinovskaya, Chapaevskaya,

  • A disciplina “matemática superior” causa rejeição entre alguns, pois na verdade nem todos conseguem entendê-la. Mas aqueles que têm a sorte de estudar esse assunto e resolver problemas usando várias equações e coeficientes podem se orgulhar de ter um conhecimento quase completo dele. Na ciência psicológica, não existe apenas um enfoque humanitário, mas também certas fórmulas e métodos para verificação matemática das hipóteses apresentadas durante a pesquisa. Vários coeficientes são usados ​​para isso.

    Coeficiente de correlação de Spearman

    Esta é uma medida comum para determinar a força do relacionamento entre quaisquer duas características. O coeficiente também é chamado de método não paramétrico. Mostra estatísticas de comunicação. Ou seja, sabemos, por exemplo, que em uma criança a agressividade e a irritabilidade estão interligadas, e o coeficiente de correlação de postos de Spearman mostra a relação matemática estatística entre essas duas características.

    Como o coeficiente de classificação é calculado?

    Naturalmente, todas as definições matemáticas ou quantidades têm suas próprias fórmulas pelas quais são calculadas. O coeficiente de correlação de Spearman também possui isso. Sua fórmula é a seguinte:

    À primeira vista, a fórmula não é totalmente clara, mas se você olhar, tudo é muito fácil de calcular:

    • n é o número de recursos ou indicadores classificados.
    • d é a diferença entre certas duas classificações correspondentes a duas variáveis ​​específicas para cada assunto.
    • ∑d 2 - a soma de todas as diferenças quadradas entre as classificações de um recurso, cujos quadrados são calculados separadamente para cada classificação.

    Âmbito de aplicação da medida matemática de conexão

    Para aplicar o coeficiente de classificação é necessário que os dados quantitativos do atributo sejam ordenados, ou seja, é atribuído a eles um determinado número dependendo do local onde o atributo está localizado e do seu valor. Está provado que duas séries de características expressas em forma numérica são um tanto paralelas entre si. O coeficiente de correlação de postos de Spearman determina o grau desse paralelismo, a proximidade da conexão entre as características.

    Para a operação matemática de cálculo e determinação da relação de características usando o coeficiente especificado, é necessário realizar algumas ações:

    1. Cada valor de qualquer assunto ou fenômeno recebe um número em ordem - uma classificação. Pode corresponder ao valor de um fenômeno em ordem crescente ou decrescente.
    2. A seguir, são comparadas as classificações dos valores das características de duas séries quantitativas para determinar a diferença entre elas.
    3. Para cada diferença obtida, seu quadrado é escrito em uma coluna separada da tabela, e os resultados são resumidos a seguir.
    4. Após essas etapas, aplica-se uma fórmula para calcular o coeficiente de correlação de Spearman.

    Propriedades do coeficiente de correlação

    As principais propriedades do coeficiente de Spearman incluem o seguinte:

    • Medindo valores entre -1 e 1.
    • Não há sinal do coeficiente de interpretação.
    • A estanqueidade da ligação é determinada pelo princípio: quanto maior o valor, mais próxima é a ligação.

    Como verificar o valor recebido?

    Para verificar a relação entre os sinais, você precisa realizar algumas ações:

    1. É apresentada uma hipótese nula (H0), que também é a principal, e então formulada outra alternativa à primeira (H 1). A primeira hipótese será que o coeficiente de correlação de Spearman seja 0 – isso significa que não haverá relação. A segunda, ao contrário, diz que o coeficiente não é igual a 0, então há uma ligação.
    2. O próximo passo é encontrar o valor observado do critério. É encontrado usando a fórmula básica do coeficiente de Spearman.
    3. A seguir, são encontrados os valores críticos do critério dado. Isso só pode ser feito por meio de uma tabela especial, que exibe vários valores para determinados indicadores: o nível de significância (l) e o número definidor (n).
    4. Agora você precisa comparar os dois valores obtidos: o observável estabelecido e também o crítico. Para isso, é necessário construir uma região crítica. É necessário traçar uma linha reta, marcar nela os pontos do valor crítico do coeficiente com o sinal “-” e com o sinal “+”. À esquerda e à direita dos valores críticos, as áreas críticas são traçadas em semicírculos a partir dos pontos. No meio, combinando dois valores, está marcado com um semicírculo de OPG.
    5. Depois disso, conclui-se sobre a estreita relação entre as duas características.

    Qual é o melhor lugar para usar esse valor?

    A primeira ciência onde esse coeficiente foi usado ativamente foi a psicologia. Afinal, esta é uma ciência que não se baseia em números, mas para comprovar quaisquer hipóteses importantes sobre o desenvolvimento dos relacionamentos, traços de caráter das pessoas e conhecimento dos alunos, é necessária a confirmação estatística das conclusões. Também é utilizado em economia, em particular em transações cambiais. Aqui os recursos são avaliados sem estatísticas. O coeficiente de correlação de postos de Spearman é muito conveniente nesta área de aplicação, pois a avaliação é feita independentemente da distribuição das variáveis, uma vez que são substituídas por um número de posto. O coeficiente de Spearman é usado ativamente no setor bancário. A sociologia, a ciência política, a demografia e outras ciências também o utilizam em suas pesquisas. Os resultados são obtidos com a maior rapidez e precisão possível.

    É conveniente e rápido usar o coeficiente de correlação de Spearman no Excel. Existem funções especiais aqui que ajudam você a obter rapidamente os valores necessários.

    Que outros coeficientes de correlação existem?

    Além do que aprendemos sobre o coeficiente de correlação de Spearman, existem também vários coeficientes de correlação que nos permitem medir e avaliar as características qualitativas, a relação entre as características quantitativas e a proximidade da ligação entre elas, apresentadas numa escala de classificação. Estes são coeficientes como bisserial, posto-bisserial, contingência, associação e assim por diante. O coeficiente de Spearman mostra com muita precisão a proximidade da relação, ao contrário de todos os outros métodos de sua determinação matemática.

    Coeficiente de correlação de Pearson

    Coeficiente r- Pearson é usado para estudar a relação entre duas variáveis ​​métricas medidas na mesma amostra. Existem muitas situações em que seu uso é apropriado. A inteligência afeta o desempenho acadêmico nos últimos anos da universidade? O valor do salário de um funcionário está relacionado à sua simpatia para com os colegas? O humor de um aluno afeta o sucesso na resolução de um problema aritmético complexo? Para responder a tais questões, o pesquisador deve medir dois indicadores de interesse para cada membro da amostra.

    O valor do coeficiente de correlação não é afetado pelas unidades de medida em que as características são apresentadas. Conseqüentemente, quaisquer transformações lineares de características (multiplicação por uma constante, adição de uma constante) não alteram o valor do coeficiente de correlação. Uma exceção é a multiplicação de um dos sinais por uma constante negativa: o coeficiente de correlação muda seu sinal para o oposto.

    Aplicação da correlação de Spearman e Pearson.

    A correlação de Pearson é uma medida da relação linear entre duas variáveis. Ele permite determinar quão proporcional é a variabilidade de duas variáveis. Se as variáveis ​​forem proporcionais entre si, então a relação entre elas pode ser representada graficamente como uma linha reta com inclinação positiva (proporção direta) ou negativa (proporção inversa).

    Na prática, a relação entre duas variáveis, se houver, é probabilística e graficamente se parece com uma nuvem de dispersão elipsoidal. Este elipsóide, entretanto, pode ser representado (aproximado) como uma linha reta ou linha de regressão. Uma linha de regressão é uma linha reta construída usando o método dos mínimos quadrados: a soma das distâncias quadradas (calculadas ao longo do eixo Y) de cada ponto no gráfico de dispersão até a linha reta é o mínimo.

    De particular importância para avaliar a precisão da previsão é a variância das estimativas da variável dependente. Essencialmente, a variância das estimativas de uma variável dependente Y é aquela parte de sua variância total que se deve à influência da variável independente X. Em outras palavras, a razão entre a variância das estimativas da variável dependente e sua variância verdadeira é igual ao quadrado do coeficiente de correlação.

    O quadrado do coeficiente de correlação entre as variáveis ​​dependentes e independentes representa a proporção da variância da variável dependente que se deve à influência da variável independente e é denominado coeficiente de determinação. O coeficiente de determinação mostra assim até que ponto a variabilidade de uma variável é causada (determinada) pela influência de outra variável.

    O coeficiente de determinação tem uma vantagem importante sobre o coeficiente de correlação. A correlação não é uma função linear da relação entre duas variáveis. Portanto, a média aritmética dos coeficientes de correlação para diversas amostras não coincide com a correlação calculada imediatamente para todos os sujeitos dessas amostras (ou seja, o coeficiente de correlação não é aditivo). Pelo contrário, o coeficiente de determinação reflecte a relação linearmente e é, portanto, aditivo: pode ser calculada a média de várias amostras.

    Informações adicionais sobre a força da conexão são fornecidas pelo valor do coeficiente de correlação ao quadrado - o coeficiente de determinação: é a parte da variância de uma variável que pode ser explicada pela influência de outra variável. Ao contrário do coeficiente de correlação, o coeficiente de determinação aumenta linearmente com o aumento da resistência da ligação.

    Coeficientes de correlação de Spearman e τ - Kendall ( correlações de classificação )

    Se ambas as variáveis ​​​​entre as quais a relação está sendo estudada forem apresentadas em escala ordinal, ou uma delas estiver em escala ordinal e a outra em escala métrica, serão utilizados coeficientes de correlação de classificação: Spearman ou τ - Kendela. Ambos os coeficientes requerem uma classificação preliminar de ambas as variáveis ​​para a sua aplicação.

    O coeficiente de correlação de postos de Spearman é um método não paramétrico utilizado com o propósito de estudar estatisticamente a relação entre os fenômenos. Neste caso, determina-se o grau real de paralelismo entre as duas séries quantitativas das características estudadas e avalia-se a proximidade da ligação estabelecida através de um coeficiente expresso quantitativamente.

    Se os membros de um grupo de tamanho foram classificados primeiro na variável x e depois na variável y, então a correlação entre as variáveis ​​x e y pode ser obtida simplesmente calculando o coeficiente de Pearson para as duas séries de classificações. Desde que não haja relações de classificação (ou seja, nenhuma classificação repetida) para qualquer uma das variáveis, a fórmula de Pearson pode ser bastante simplificada computacionalmente e convertida no que é conhecido como fórmula de Spearman.

    O poder do coeficiente de correlação de classificação de Spearman é um pouco inferior ao poder do coeficiente de correlação paramétrica.

    É aconselhável usar o coeficiente de correlação de classificação quando houver um pequeno número de observações. Este método pode ser utilizado não apenas para dados quantitativos, mas também nos casos em que os valores registrados são determinados por características descritivas de intensidade variável.

    O coeficiente de correlação de postos de Spearman com um grande número de postos idênticos para uma ou ambas as variáveis ​​comparadas fornece valores aproximados. Idealmente, ambas as séries correlacionadas deveriam representar duas sequências de valores divergentes

    Uma alternativa à correlação de Spearman para classificações é a correlação τ - Kendal. A correlação proposta por M. Kendall é baseada na ideia de que a direção da conexão pode ser julgada comparando sujeitos em pares: se um par de sujeitos tem uma mudança em x que coincide na direção com uma mudança em y, então isso indica uma conexão positiva, se não corresponder - então sobre uma conexão negativa.

    Os coeficientes de correlação foram projetados especificamente para quantificar a força e a direção do relacionamento entre duas propriedades medidas em escalas numéricas (métricas ou de classificação). Como já mencionado, a força máxima da ligação corresponde a valores de correlação de +1 (ligação estrita direta ou diretamente proporcional) e -1 (ligação estrita inversa ou inversamente proporcional); a ausência de ligação corresponde a uma correlação igual a zero . Informações adicionais sobre a força do relacionamento são fornecidas pelo coeficiente de determinação: esta é a parcela da variância de uma variável que pode ser explicada pela influência de outra variável.

    9. Métodos paramétricos para comparação de dados

    Métodos de comparação paramétrica serão usados ​​se suas variáveis ​​forem medidas em uma escala métrica.

    Comparação de Variâncias 2- x amostras de acordo com o teste de Fisher .


    Este método permite testar a hipótese de que as variâncias das 2 populações gerais das quais as amostras comparadas são extraídas diferem entre si. Limitações do método - a distribuição da característica em ambas as amostras não deve diferir do normal.

    Uma alternativa para comparar variâncias é o teste de Levene, para o qual não há necessidade de testar a normalidade da distribuição. Este método pode ser usado para verificar a suposição de igualdade (homogeneidade) das variâncias antes de verificar a significância das diferenças nas médias usando o teste de Student para amostras independentes de tamanhos diferentes.

    é uma avaliação quantitativa do estudo estatístico da relação entre fenômenos, utilizada em métodos não paramétricos.

    O indicador mostra como a soma dos quadrados das diferenças entre as classificações obtidas durante a observação difere do caso de nenhuma conexão.

    Objetivo do serviço. Usando esta calculadora online você pode:

    • cálculo do coeficiente de correlação de postos de Spearman;
    • calcular o intervalo de confiança do coeficiente e avaliar sua significância;

    Coeficiente de correlação de classificação de Spearman refere-se a indicadores para avaliar a proximidade da comunicação. A característica qualitativa da proximidade da conexão do coeficiente de correlação de classificação, bem como de outros coeficientes de correlação, pode ser avaliada por meio da escala de Chaddock.

    Cálculo do coeficiente consiste nas seguintes etapas:

    Propriedades do coeficiente de correlação de classificação de Spearman

    Area de aplicação. Coeficiente de correlação de classificação usado para avaliar a qualidade da comunicação entre duas populações. Além disso, sua significância estatística é utilizada na análise de dados para heterocedasticidade.

    Exemplo. Com base em uma amostra de variáveis ​​observadas X e Y:

    1. crie uma tabela de classificação;
    2. encontre o coeficiente de correlação de classificação de Spearman e verifique sua significância no nível 2a
    3. avaliar a natureza da dependência
    Solução. Vamos atribuir classificações ao recurso Y e ao fator X.
    XSclassificação X, d xclassificação Y, d y
    28 21 1 1
    30 25 2 2
    36 29 4 3
    40 31 5 4
    30 32 3 5
    46 34 6 6
    56 35 8 7
    54 38 7 8
    60 39 10 9
    56 41 9 10
    60 42 11 11
    68 44 12 12
    70 46 13 13
    76 50 14 14

    Matriz de classificação.
    classificação X, d xclassificação Y, d y(d x - d y) 2
    1 1 0
    2 2 0
    4 3 1
    5 4 1
    3 5 4
    6 6 0
    8 7 1
    7 8 1
    10 9 1
    9 10 1
    11 11 0
    12 12 0
    13 13 0
    14 14 0
    105 105 10

    Verificando a exatidão da matriz com base no cálculo da soma de verificação:

    A soma das colunas da matriz é igual entre si e a soma de verificação, o que significa que a matriz está composta corretamente.
    Usando a fórmula, calculamos o coeficiente de correlação de classificação de Spearman.


    A relação entre a característica Y e o fator X é forte e direta
    Significância do coeficiente de correlação de classificação de Spearman
    Para testar a hipótese nula no nível de significância α, o coeficiente geral de correlação de classificação de Spearman é igual a zero sob a hipótese concorrente Hi. p ≠ 0, precisamos calcular o ponto crítico:

    onde n é o tamanho da amostra; ρ é o coeficiente de correlação de postos de Spearman da amostra: t(α, k) é o ponto crítico da região crítica bilateral, que é encontrado na tabela de pontos críticos da distribuição de Student, de acordo com o nível de significância α e o número de graus de liberdade k = n-2.
    Se |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp - a hipótese nula é rejeitada. Existe uma correlação de classificação significativa entre as características qualitativas.
    Usando a tabela de Student encontramos t(α/2, k) = (0,1/2;12) = 1,782

    Desde T kp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.