Ao analisar séries de variação, o deslocamento do centro e a inclinação da distribuição são caracterizados por indicadores especiais. As distribuições empíricas, via de regra, são deslocadas do centro da distribuição para a direita ou esquerda e são assimétricas. A distribuição normal é estritamente simétrica em relação à média aritmética, o que se deve à paridade da função.

Distorção da distribuição surge porque alguns fatores atuam mais fortemente em uma direção do que em outra, ou o processo de desenvolvimento do fenômeno é tal que alguma causa domina. Além disso, a natureza de alguns fenômenos é tal que existe uma distribuição assimétrica.

A medida mais simples de assimetria é a diferença entre a média aritmética, moda e mediana:

Para determinar a direção e magnitude da mudança (assimetria) da distribuição, é calculado coeficiente de assimetria , que é um momento normalizado de terceira ordem:

As= 3 / 3, onde  3 é o momento central de terceira ordem;  3 – desvio padrão ao cubo. 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Para assimetria do lado esquerdo coeficiente de assimetria (Como<0), при правосторонней (As>0) .

Se o topo da distribuição for deslocado para a esquerda e a parte direita do ramo for mais longa que a esquerda, então tal assimetria é lado direito, de outra forma canhoto .

A relação entre moda, mediana e média aritmética em séries simétricas e assimétricas permite utilizar um indicador mais simples como medida de assimetria coeficiente de assimetria Pearson :

Ka = ( –Mo)/. Se K a >0, então a assimetria é do lado direito, se K a<0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

A assimetria pode ser determinada com mais precisão usando o momento central de terceira ordem:

, onde 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Se > 0, então a assimetria pode ser considerada significativa se < 0,25 асимметрию можно считать не значительной.

Para caracterizar o grau de desvio de uma distribuição simétrica de uma distribuição normal ao longo da ordenada, um indicador de pico, a inclinação da distribuição, denominado excesso :

Ex = ( 4 / 4) – 3, onde:  4 – momento central de quarta ordem.

Para uma distribuição normal, Ex = 0, ou seja,  4 / 4 = 3.  4 = (m 4 – 4m 3 m 1 + 6m 2 m 2 1 – 3 m 4 1)* k 4 .

As curvas de pico alto apresentam curtose positiva, enquanto as curvas de pico baixo apresentam curtose negativa (Fig. D.2).

Indicadores de curtose e assimetria são necessários na análise estatística para determinar a heterogeneidade da população, a assimetria da distribuição e a proximidade da distribuição empírica com a lei normal. Com desvios significativos dos indicadores de assimetria e curtose de zero, a população não pode ser considerada homogênea e a distribuição próxima do normal. A comparação das curvas reais com as teóricas permite fundamentar matematicamente os resultados estatísticos obtidos, estabelecer o tipo e a natureza da distribuição dos fenómenos socioeconómicos e prever a probabilidade de ocorrência dos eventos em estudo.

4.7. Justificativa da proximidade da distribuição empírica (real) com a distribuição normal teórica. Distribuição normal (lei de Gauss-Laplace) e suas características. "A Regra dos Três Sigma." Critérios de adequação (usando o exemplo do critério de Pearson ou Kolgomogorov).

Você pode notar uma certa conexão na mudança nas frequências e valores da característica variável. À medida que o valor do atributo aumenta, as frequências primeiro aumentam e depois, após atingir um determinado valor máximo, diminuem. Essas mudanças regulares nas frequências em séries de variação são chamadas padrões de distribuição.

Para identificar um padrão de distribuição, é necessário que as séries de variação contenham um número suficientemente grande de unidades e que as próprias séries representem populações qualitativamente homogêneas.

Um polígono de distribuição construído com base em dados reais é curva de distribuição empírica (real), refletindo não apenas condições de distribuição objetivas (gerais), mas também subjetivas (aleatórias) que não são características do fenômeno em estudo.

No trabalho prático, a lei de distribuição é encontrada comparando a distribuição empírica com uma das teóricas e avaliando o grau de diferença ou correspondência entre elas. Curva de distribuição teórica reflete em sua forma pura, sem levar em conta a influência de fatores aleatórios, o padrão geral de distribuição de frequência (densidade de distribuição) dependendo dos valores de características variadas.

Vários tipos de distribuições teóricas são comuns em estatística: normal, binomial, Poisson, etc. Cada uma das distribuições teóricas tem suas especificidades e escopo.

Lei de distribuição normal característica da distribuição de eventos igualmente prováveis ​​​​que ocorrem durante a interação de muitos fatores aleatórios. A lei da distribuição normal fundamenta os métodos estatísticos para estimar parâmetros de distribuição, representatividade de observações amostrais e medir a relação de fenômenos de massa. Para verificar até que ponto a distribuição real corresponde à normal, é necessário comparar as frequências da distribuição real com as frequências teóricas características da lei da distribuição normal. Essas frequências são função de desvios normalizados. Portanto, com base nos dados da série de distribuição empírica, são calculados os desvios normalizados t. Em seguida, as frequências teóricas correspondentes são determinadas. Isso nivela a distribuição empírica.

Distribuição normal ou a lei de Gauss-Laplace é descrita pela equação
, onde y t é a ordenada da curva de distribuição normal, ou a frequência (probabilidade) do valor x da distribuição normal; – expectativa matemática (valor médio) dos valores individuais de x. Se os valores (x – ) medir (expressar) em termos de desvio padrão , ou seja, em desvios padronizados (normalizados) t = (x – )/, então a fórmula assumirá a forma:
. A distribuição normal dos fenómenos socioeconómicos na sua forma pura é rara, no entanto, se a homogeneidade da população for mantida, as distribuições reais são muitas vezes próximas do normal. O padrão de distribuição das grandezas estudadas é revelado verificando a conformidade da distribuição empírica com a lei teórica da distribuição normal. Para fazer isso, a distribuição real é alinhada com a curva normal e calculada critérios de consentimento .

A distribuição normal é caracterizada por dois parâmetros significativos que determinam o centro de agrupamento dos valores individuais e a forma da curva: a média aritmética e desvio padrão . As curvas de distribuição normais diferem na posição do centro de distribuição no eixo x e a opção de dispersão em torno deste centro  (Fig. 4.1 e 4.2). Uma característica da curva de distribuição normal é sua simetria em relação ao centro da distribuição - em ambos os lados de seu meio, formam-se dois ramos uniformemente decrescentes, aproximando-se assintoticamente do eixo das abcissas. Portanto, em uma distribuição normal, a média, a moda e a mediana são iguais: = Mo = Eu.

  x

A curva de distribuição normal tem dois pontos de inflexão (transição da convexidade para a concavidade) em t = 1, ou seja, quando as opções se desviam da média (x – ), igual ao desvio padrão . Dentro de  com distribuição normal é 68,3%, dentro 2 – 95,4%, dentro 3 – 99,7% do número de observações ou frequências da série de distribuição. Na prática, quase não há desvios superiores a 3portanto, a relação dada é chamada de “ regra dos três sigma ».

Para calcular as frequências teóricas, é utilizada a fórmula:

.

Magnitude
é uma função de t ou da densidade da distribuição normal, que é determinada a partir de uma tabela especial, cujos trechos são apresentados na tabela. 4.2.

Valores de densidade de distribuição normal Tabela 4.2

Gráfico na Fig. 4.3 demonstra claramente a proximidade das distribuições empírica (2) e normal (1).

Arroz. 4.3. Distribuição dos balcões dos correios por número

trabalhadores: 1 – normais; 2 – empírico

Para fundamentar matematicamente a proximidade da distribuição empírica com a lei da distribuição normal, calcule critérios de consentimento .

Critério de Kolmogorov - um critério de qualidade de ajuste que permite avaliar o grau de proximidade da distribuição empírica com o normal. A. N. Kolmogorov propôs usar a diferença máxima entre as frequências acumuladas ou frequências dessas séries para determinar a correspondência entre as distribuições normais empíricas e teóricas. Para testar a hipótese de que a distribuição empírica corresponde à lei da distribuição normal, o critério de qualidade de ajuste = D/ é calculado
, onde D é a diferença máxima entre as frequências empíricas e teóricas cumulativas (acumuladas), n é o número de unidades na população. Usando uma tabela especial, P() é determinado - a probabilidade de atingir , o que significa que se uma característica variacional é distribuída de acordo com uma lei normal, então Por razões aleatórias, a discrepância máxima entre as frequências acumuladas empíricas e teóricas não será menor que a realmente observada. Com base no valor de P(), certas conclusões são tiradas: se a probabilidade P() for suficientemente grande, então a hipótese de que a distribuição real corresponde à lei normal pode ser considerada confirmada; se a probabilidade P() for pequena, então a hipótese nula é rejeitada e as discrepâncias entre as distribuições reais e teóricas são consideradas significativas.

Valores de probabilidade para o critério de adequação  Tabela 4.3

Critérios de Pearson 2 (“qui-quadrado”) - critério de adequação que permite avaliar o grau de proximidade da distribuição empírica com o normal:
,onde f i, f" i são as frequências das distribuições empíricas e teóricas em um determinado intervalo. Quanto maior a diferença entre as frequências observadas e teóricas, maior o critério  2. Para distinguir a significância das diferenças nas frequências do distribuições empíricas e teóricas de acordo com o critério  2 a partir de diferenças devido a amostras aleatórias, o valor calculado do critério  2 calc é comparado com a tabela  2 tabulada com o número apropriado de graus de liberdade e um determinado nível de significância. nível é selecionado de modo que P( 2 calc > 2 tab) = . O número de graus de liberdade é heu, Onde h– número de grupos; eu– o número de condições que devem ser atendidas no cálculo das frequências teóricas. Para calcular as frequências teóricas da curva de distribuição normal usando a fórmula
você precisa saber três parâmetros , , f, portanto o número de graus de liberdade é h–3. Se  2 calc > 2 tab, ou seja  2 cai na região crítica, então a discrepância entre as frequências empíricas e teóricas é significativa e não pode ser explicada por flutuações aleatórias nos dados da amostra. Neste caso, a hipótese nula é rejeitada. Se  2 cálculo  2 tabelas, ou seja, o critério calculado não ultrapassa a divergência máxima possível de frequências que pode surgir por acaso, então neste caso é aceita a hipótese sobre a correspondência das distribuições. O critério de Pearson é eficaz com um número significativo de observações (n50), e as frequências de todos os intervalos devem numerar pelo menos cinco unidades (com um número menor, os intervalos são combinados), e o número de intervalos (grupos) deve ser grande (h>5), pois a estimativa  2 depende do número de graus de liberdade.

Critério Romanovsky - um critério de qualidade de ajuste que permite avaliar o grau de proximidade da distribuição empírica com a normal. Romanovsky propôs avaliar a proximidade da distribuição empírica com a curva de distribuição normal em relação a:

, onde h é o número de grupos.

Se a razão for maior que 3, então a discrepância entre as frequências das distribuições empírica e normal não pode ser considerada aleatória e a hipótese de uma lei de distribuição normal deve ser rejeitada. Se a proporção for menor ou igual a 3, podemos aceitar a hipótese de que a distribuição dos dados é normal.

2.6 Assimetria e curtose

Na estatística matemática, para determinar a forma geométrica da densidade de probabilidade de uma variável aleatória, são utilizadas duas características numéricas associadas aos momentos centrais de terceira e quarta ordens.

Definição 2.22 Coeficiente de assimetria da amostrax 1 , x 2 , …, x né um número igual à razão entre o momento central da amostra de terceira ordem e o cubo do desvio padrão S:

Desde , então o coeficiente de assimetria é expresso através dos momentos centrais pela seguinte fórmula:

A partir disso obtemos uma fórmula que expressa o coeficiente de assimetria através dos momentos iniciais:

, o que facilita cálculos práticos.

A característica teórica correspondente é introduzida por meio de pontos teóricos.

Definição 2.23 Coeficiente de assimetria de uma variável aleatóriaXnúmero chamadoigual à razão do momento central de terceira ordemao cubo do desvio padrão:

Se uma variável aleatória X tem uma distribuição simétrica em relação à expectativa matemática μ, então seu coeficiente de assimetria teórico é igual a 0, mas se a distribuição de probabilidade for assimétrica, então o coeficiente de assimetria é diferente de zero. Um valor positivo do coeficiente de assimetria indica que a maioria dos valores da variável aleatória está localizada à direita da expectativa matemática, ou seja, o ramo direito da curva de densidade de probabilidade é mais longo que o esquerdo. Um valor negativo para o coeficiente de assimetria indica que a parte mais longa da curva está localizada à esquerda. Esta afirmação é ilustrada pela figura a seguir.

Figura 2.1 – Assimetria positiva e negativa

distribuições

Exemplo 2.29 Vamos encontrar o coeficiente de assimetria amostral com base nos dados do estudo de situações estressantes do exemplo 2.28.

Utilizando os valores previamente calculados dos momentos centrais da amostra, obtemos

.

Arredondamento = 0,07. O valor diferente de zero encontrado do coeficiente de assimetria mostra a assimetria da distribuição em relação à média. Um valor positivo indica que o ramo mais longo da curva de densidade de probabilidade está à direita.

A constante a seguir caracteriza a distribuição dos valores das variáveis ​​​​aleatórias em torno de seu valor modal X modos.

Definição 2.24 Curtose da amostrax 1 , x 2 , …, x nnúmero chamado , igual

,

Onde– momento central seletivo de quarta ordem,

S 4 – quarto grau de padrãodesviosS.

O conceito teórico de curtose é análogo à amostragem.

Definição 2.25 Curtose de uma variável aleatóriaXnúmero chamado e, igual

,

Ondemomento central teórico de quarta ordem,

quarto grau de desvio padrão.

Valor de curtose e caracteriza a inclinação relativa do topo da curva de densidade de distribuição em torno do ponto máximo. Se a curtose for um número positivo, então a curva de distribuição correspondente terá um pico mais acentuado. Uma distribuição com curtose negativa tem um topo mais suave e plano. A figura a seguir ilustra possíveis casos.

Figura 2.2 – Distribuições com valores de curtose positivos, zero e negativos

A assimetria é calculada pela função SKES. Seu argumento é o intervalo de células com dados, por exemplo, =SKES(A1:A100), se os dados estiverem contidos no intervalo de células de A1 a A100.

A curtose é calculada pela função KURTESS, cujo argumento são dados numéricos, geralmente especificados como um intervalo de células, por exemplo: =KURTESS(A1:A100).

§2.3. Ferramenta de análise Estatísticas descritivas

EM Excelé possível calcular todas as características pontuais de uma amostra de uma só vez usando a ferramenta de análise Estatísticas descritivas, que está contido em Pacote de análise.

Estatísticas descritivas cria uma tabela de características estatísticas básicas para o conjunto de dados. Esta tabela conterá as seguintes características: média, erro padrão, dispersão, desvio padrão, moda, mediana, faixa de variação intervalar, valores máximos e mínimos, assimetria, curtose, volume populacional, soma de todos os elementos populacionais, intervalo de confiança (nível de confiabilidade ). Ferramenta Estatísticas descritivas simplifica significativamente a análise estatística, pois não há necessidade de chamar cada função para calcular as características estatísticas separadamente.

Para ligar Estatísticas descritivas, segue:

1) no cardápio Serviço selecione uma equipe Análise de dados;

2) na lista Ferramentas de análise caixa de diálogo Análise de dados selecione o instrumento Estatísticas descritivas e pressione OK.

Na janela Estatísticas descritivas necessário:

· em grupo Dados de entrada em campo Intervalo de entrada especifique o intervalo de células que contém dados;

· se a primeira linha no intervalo de entrada contiver um cabeçalho de coluna, então Campo de rótulos na primeira linha deve ser verificado;

· em grupo Opções de saída ative o interruptor (marque a caixa) Estatísticas resumidas, se precisar de uma lista completa de características;

· ativar o interruptor Nível de confiabilidade e especifique a confiabilidade em % se precisar calcular um intervalo de confiança (a confiabilidade padrão é 95%). Clique OK.

Como resultado, aparecerá uma tabela com os valores calculados das características estatísticas acima. Imediatamente, sem desmarcar esta tabela, execute o comando Formatar® Coluna® Seleção automática de largura.

Visualização da caixa de diálogo Estatísticas descritivas:

Tarefas práticas

2.1. Cálculo de estatísticas básicas de pontos usando funções padrão Excel

O mesmo voltímetro mediu a tensão em uma seção do circuito 25 vezes. Como resultado dos experimentos, foram obtidos os seguintes valores de tensão em volts:

32, 32, 35, 37, 35, 38, 32, 33, 34, 37, 32, 32, 35,

34, 32, 34, 35, 39, 34, 38, 36, 30, 37, 28, 30.

Encontre a média, amostra e variância corrigida, desvio padrão, faixa de variação, moda, mediana. Teste o desvio da distribuição normal calculando assimetria e curtose.

Para concluir esta tarefa, conclua as etapas a seguir.

1. Digite os resultados do experimento na coluna A.

2. Na célula B1 digite “Média”, em B2 – “Variância amostral”, em B3 – “Desvio padrão”, em B4 – “Variância corrigida”, em B5 – “Desvio padrão corrigido”, em B6 – “Máximo”, em B7 – “Mínimo”, em B8 – “Faixa de variação”, em B9 – “Moda”, em B10 – “Mediana”, em B11 – “Assimetria”, em B12 – “Curtose”.

3. Ajuste a largura desta coluna usando Seleção automática largura.

4. Selecione a célula C1 e clique no botão com o sinal “=” na barra de fórmulas. Usando Assistentes de função na categoria Estatística encontre a função MÉDIA, destaque o intervalo de células de dados e clique OK.

5. Selecione a célula C2 e clique no sinal = na barra de fórmulas. Usando Assistentes de função na categoria Estatística encontre a função VAR, destaque o intervalo de células de dados e clique OK.

6. Execute você mesmo os mesmos passos para calcular as características restantes.

7. Para calcular o intervalo de variação na célula C8, insira a fórmula: =C6-C7.

8. Adicione uma linha na frente de sua tabela, na qual digite os títulos das colunas correspondentes: “Nome das características” e “Valores numéricos”.

Assimetria e curtose da distribuição de uma variável aleatória.

090309-matmetody.txt

Características da assimetria.

A principal medida de assimetria é o coeficiente de assimetria. Ou seja, o grau em que o gráfico de distribuição de frequência se desvia de uma forma simétrica em relação ao valor médio. É designado pela letra A com o índice s e é calculado pela fórmula (Fig. 8). O coeficiente de assimetria varia de menos infinito a mais infinito. A assimetria é esquerda (positiva) quando o coeficiente é maior que zero - As>0 e direita (negativa) - As<0. При левосторонней ассиметрии чаще встречаются значения ниже среднего арифметического. При правой, соответственно чаще всего встречаются значения, превосходящие среднее арифметическое. Для симметричных распределений коэффициент ассиметрии равен нулю, а мода, медиана и среднее арифметическое значение совпадают между собой.

Características da curtose.

Caracteriza seu coeficiente de curtose (ou pico) - calculado pela fórmula.

A distribuição de pico é caracterizada por curtose positiva, a distribuição de pico plana é caracterizada por curtose negativa e a distribuição de pico médio tem curtose zero.

Primeiramente, Em segundo lugar,

Se você-(geralmente intervalo).

Método gráfico(P- P Parcelas, RRParcelas).





Onde N- tamanho da amostra.

    Propriedades da distribuição normal de uma variável aleatória.

090309-matmetody.txt

Distribuição normal.

Uma distribuição normal é caracterizada pelo fato de que valores extremos das características são relativamente raros e aqueles próximos à média aritmética são relativamente comuns. A curva de distribuição normal tem formato de sino. Esta é uma distribuição unimodal, cujos valores de mediana, moda e média aritmética coincidem entre si, os coeficientes de assimetria e curtose estão na faixa de zero a dois (aceitável), mas idealmente são iguais a zero.

Desde a segunda metade do século XIX, métodos de medição e computacionais em psicologia foram desenvolvidos com base no seguinte princípio. Se indiea variabilidade visual de uma determinada propriedade é consequência da ação de muitas causas, então a distribuição de frequência para toda a variedade de manifestaçõesesta propriedade na população em geral corresponde à curva normaldistribuições. Esta é a lei da distribuição normal.

A lei da distribuição normal tem uma série de consequências muito importantes, às quais nos referiremos mais de uma vez. Observemos agora que se, ao estudar uma determinada propriedade, a medimos em uma amostra de sujeitos e obtivemos uma distribuição diferente da normal, isso significa que ou a amostra não é representativa da população geral, ou as medidas foram não é feita em uma escala de intervalos iguais.

PARA
Cada propriedade psicológica (ou, mais amplamente, biológica) corresponde à sua distribuição na população em geral. Na maioria das vezes é normal e é caracterizado por seus parâmetros: médio (M) e desvio padrão (o). Somente esses dois valores distinguem entre si um conjunto infinito de curvas normais de mesmo formato, dado pela equação (5.1). A média especifica a posição da curva no eixo dos números e atua como uma forma inicial valor de medição padrão. O desvio padrão define a largura desta curva, depende das unidades de medida e atua como escala de medição(Fig. 5.3).

Figura 5.3. Família de curvas normais, a 1ª distribuição difere da 2ª pelo desvio padrão (σ 1< σ 2), 2-е от 3-го средним арифметическим (M 2 < M 3)

Toda a variedade de distribuições normais pode ser reduzida a uma curva se aplicarmos a transformação ^ (de acordo com a fórmula 4.8) a todas as medidas possíveis de propriedades. Então cada propriedade terá média 0 e desvio padrão 1. Na Fig. 5.4 um gráfico de distribuição normal é traçado para M = 0 e uma = 1. É isso que édistribuição normal unitária, Quem-enxame é usado como padrão - padrão. Vamos considerar isso propriedades importantes.

    A unidade de medida para uma distribuição normal unitária é o desvio padrão.

    A curva se aproxima do eixo Z nas bordas assintoticamente - nunca o tocando.

    A curva é simétrica em relação a M=0. Sua assimetria e curtose são zero.

    A curva tem uma curvatura característica: o ponto de inflexão fica exatamente a uma distância de um σ de M.

    A área entre a curva e o eixo Z é 1.

A última propriedade explica o nome solteiro distribuição normal e é extremamente importante. Graças a esta propriedade a área sob a curva é interpretada como uma probabilidade ou relativafrequência. Na verdade, toda a área sob a curva corresponde à probabilidade de a característica assumir qualquer valor de toda a faixa de sua variabilidade (de -oo a +oo). A área sob uma curva normal unitária à esquerda ou à direita do ponto zero é 0,5. Isso corresponde ao fato de que metade da população geral tem um valor característico superior a 0 e metade - menor que 0. A frequência relativa de ocorrência na população geral de valores característicos na faixa de Z\ antes igual à área sob a curva situada entre os pontos correspondentes. Notemos novamente que qualquer distribuição normal pode ser reduzida a uma distribuição normal unitária por z- transformações.

Assim, a propriedade comum mais importante das diferentes curvas de distribuição normal é a mesma proporção da área sob a curva entre os mesmos dois valores do atributo, expressa em unidades de desvio padrão.

É útil lembrar que para qualquer distribuição normal existem as seguintes correspondências entre os intervalos de valores e a área sob a curva:

Uma única distribuição normal estabelece uma relação clara entre o desvio padrão e o número relativo de casos na população para qualquer distribuição normal. Por exemplo, conhecendo as propriedades de uma distribuição normal unitária, podemos responder às seguintes questões. Que proporção da população em geral tem uma expressão de propriedade de - \O até +1o? Ou qual é a probabilidade de um representante da população em geral selecionado aleatoriamente ter uma intensidade de propriedade superior ao valor médio? No primeiro caso, a resposta será 68,26% de toda a população, pois de -1 a +1 há 0,6826 da área de uma distribuição normal unitária. No segundo caso, a resposta é: (100-99,72)/2 = 0,14%.

Existe uma tabela especial que permite determinar a área sob a curva à direita de qualquer positivo z (Anexo 1). Usando-o, você pode determinar a probabilidade de ocorrência de valores de atributos em qualquer intervalo. Isso é amplamente utilizado na interpretação de dados de teste.

Apesar do postulado inicial de que as propriedades da população têm distribuição normal, os dados reais obtidos de uma amostra raramente são distribuídos normalmente. Além disso, foram desenvolvidos muitos métodos que permitem analisar os dados sem qualquer suposição sobre a natureza da sua distribuição, tanto na amostra como na população. Estas circunstâncias levam por vezes à falsa crença de que a distribuição normal é uma abstração matemática vazia que não tem relação com a psicologia. Contudo, como veremos mais adiante, existem pelo menos três aspectos importantes da aplicação da distribuição normal:

    Desenvolvimento de escalas de teste.

    Verificando a normalidade da distribuição amostral para tomar uma decisão
    decisões sobre em que escala o atributo é medido - métrica ou convencional
    privado

    Teste estatístico de hipóteses, em particular na determinação do risco
    tomando a decisão errada.

    Distribuição normal padrão. Padronização de distribuições.

(Para toda a questão nº 12 + sobre padronização, veja abaixo)

091208-matmetody.txt

estandardização métodos psicodiagnósticos (mais sobre isso na questão nº 17)

    População e amostra.

091208-matmetody.txt

Populações gerais.

Qualquer técnica de psicodiagnóstico destina-se a examinar uma determinada categoria grande de indivíduos. Este conjunto é chamado de população.

Para determinar o grau de expressão de uma determinada propriedade em uma determinada pessoa, é necessário saber como essa qualidade se distribui por toda a população. É quase impossível fazer um levantamento da população em geral, por isso recorrem à extração de uma amostra da população em geral, ou seja, alguma parte representativa da população em geral. É esta representatividade (caso contrário é chamada de “representatividade”) que é o principal requisito da amostra. É impossível garantir uma correspondência absolutamente exata deste requisito. Você só pode chegar mais perto do ideal usando certos métodos. Os principais são 1) aleatoriedade e 2) modelagem.

1) A amostragem aleatória pressupõe que os sujeitos serão incluídos nela de forma aleatória. Estão sendo tomadas medidas para garantir que não surjam padrões.

2) Ao modelar, primeiro são selecionadas as propriedades que podem afetar os resultados do teste. Normalmente são características demográficas, dentro das quais se distinguem gradações: intervalos de idade, níveis de escolaridade, etc. Com base nestes dados, constrói-se um modelo matricial da população geral.

Normalmente, os métodos são padronizados em uma amostra de 200 a 800 pessoas.

A padronização dos métodos de psicodiagnóstico é o procedimento para obtenção de uma escala que permite comparar o resultado de um teste individual com os resultados de um grande grupo.

A pesquisa geralmente começa com alguma suposição que requer verificação por meio de fatos. Esta suposição - uma hipótese - é formulada em relação à conexão de fenômenos ou propriedades em um determinado conjunto de objetos.

Para testar tais suposições contra os fatos, é necessário medir as propriedades correspondentes de seus portadores. Mas é impossível medir a ansiedade em todas as mulheres e homens, assim como é impossível medir a agressividade em todos os adolescentes. Portanto, ao conduzir pesquisas, ela é limitada apenas a um grupo relativamente pequeno de representantes das populações relevantes.

População- é todo o conjunto de objetos em relação aos quais se formula uma hipótese de pesquisa.

No primeiro exemplo, essas populações gerais são todas homens e todas mulheres. No segundo - todos os adolescentes que assistem a programas de televisão com cenas de violência. As populações gerais sobre as quais o pesquisador vai tirar conclusões com base nos resultados do estudo podem ser de tamanho mais modesto.

Assim, a população geral é, embora não um número infinito de pessoas, mas, via de regra, um conjunto de potenciais sujeitos inacessíveis à pesquisa contínua.

Amostra- trata-se de um grupo de objetos em número limitado (em psicologia - sujeitos, entrevistados), especialmente selecionados da população em geral para estudar suas propriedades. Assim, o estudo das propriedades da população geral por meio de uma amostra é denominado estudo amostral. Quase todos os estudos psicológicos são selectivos e as suas conclusões estendem-se à população em geral.

Assim, depois de formulada uma hipótese e identificadas as populações correspondentes, o pesquisador enfrenta o problema de organizar uma amostra. A amostra deve ser tal que se justifique a generalização das conclusões do estudo amostral - generalização, extensão das mesmas à população em geral. Os principais critérios para designaçãovalidade dos resultados da pesquisa- esta é a representatividade da amostra e oconfiabilidade estatística dos resultados (empíricos).

Representatividade da amostra- por outras palavras, a sua representatividade é a capacidade da amostra representar de forma bastante completa os fenómenos em estudo do ponto de vista da sua variabilidade na população geral.

É claro que apenas a população em geral pode dar uma visão completa do fenômeno em estudo, em toda a sua amplitude e nuances de variabilidade. Portanto, a representatividade é sempre limitada na medida em que a amostra é limitada. E é a representatividade da amostra o principal critério para determinar os limites de generalização dos resultados da pesquisa. No entanto, existem técnicas que permitem obter uma amostra representativa e suficiente para o pesquisador. (A pergunta nº 15 é uma continuação desta pergunta)

    Métodos básicos de amostragem.

Com. 13 (20) (A pergunta nº 14 é um prelúdio para esta pergunta)

A primeira e principal técnica é aleatório simples (randomizado)seleção. Envolve garantir condições para que cada membro da população tenha chances iguais aos demais de ser incluído na amostra. A seleção aleatória garante que uma variedade de representantes da população em geral possa ser incluída na amostra. Neste caso, são tomadas medidas especiais para evitar o surgimento de qualquer padrão durante a seleção. E isso permite-nos esperar que, em última análise, na amostra, o bem em estudo esteja representado, senão na sua totalidade, pelo menos na sua máxima diversidade possível.

A segunda forma de garantir a representatividade é seleção aleatória estratificada, ou seleção baseada nas propriedades da população. Envolve uma determinação preliminar das qualidades que podem influenciar a variabilidade da propriedade em estudo (pode ser género, nível de rendimento ou educação, etc.). Em seguida, é determinada a proporção percentual do número de grupos (estratos) que diferem nessas qualidades na população geral e é garantida uma proporção percentual idêntica dos grupos correspondentes na amostra. A seguir, os sujeitos são selecionados em cada subgrupo da amostra de acordo com o princípio da seleção aleatória simples.

Confiabilidade estatística, ou significância estatística, os resultados de um estudo são determinados usando métodos de inferência estatística. Consideraremos esses métodos em detalhes na segunda parte deste livro. Agora apenas notamos que eles têm certos requisitos para o número, ou tamanho da amostra.

Infelizmente, não existem diretrizes rígidas para pré-determinar o tamanho da amostra necessário. Além disso, o pesquisador geralmente recebe a resposta à pergunta sobre o número necessário e suficiente tarde demais - somente após analisar os dados de uma amostra já pesquisada. No entanto, as recomendações mais gerais podem ser formuladas:

□ É necessário o maior tamanho de amostra ao desenvolver uma técnica de diagnóstico - de 200 a 1.000-2.500 pessoas.

Se for necessário comparar 2 amostras, o seu número total deve ser
ter pelo menos 50 pessoas; o número de amostras comparadas deve
ser aproximadamente o mesmo.

P Se a relação entre quaisquer propriedades estiver sendo estudada, o tamanho da amostra deverá ser de pelo menos 30-35 pessoas.

□ Quanto mais variabilidade propriedade em estudo, maior deverá ser
tamanho da amostra. Portanto, a variabilidade pode ser reduzida aumentando
homogeneidade da amostra, por exemplo, por sexo, idade, etc.
Naturalmente, as possibilidades de generalização de conclusões são reduzidas.

Amostras dependentes e independentes. Uma situação comum de pesquisa é quando uma propriedade de interesse de um pesquisador é estudada em duas ou mais amostras para fins de comparação posterior. Essas amostras podem estar em diferentes proporções, dependendo do procedimento de sua organização. Independenteamostras válidas são caracterizados pelo fato de que a probabilidade de seleção de qualquer sujeito em uma amostra não depende da seleção de qualquer sujeito em outra amostra. Contra, amostras dependentes são caracterizados pelo fato de que cada sujeito de uma amostra é combinado, de acordo com um determinado critério, com um sujeito de outra amostra.

Em geral, amostras dependentes envolvem seleção pareada de sujeitos em amostras comparadas, e amostras independentes implicam uma seleção independente de sujeitos.

Deve-se notar que os casos de amostras “parcialmente dependentes” (ou “parcialmente independentes”) são inaceitáveis: isto viola imprevisivelmente a sua representatividade.

Concluindo, notamos que dois paradigmas de pesquisa psicológica podem ser distinguidos. Assim chamado R-metodologia envolve o estudo da variabilidade de uma determinada propriedade (psicológica) sob a influência de uma determinada influência, fator ou outra propriedade. A amostra é multi- número de assuntos . Outra abordagem P-metodologia, envolve o estudo da variabilidade de um sujeito (indivíduo) sob a influência de diversos estímulos (condições, situações, etc.). Corresponde à situação em que a amostra é existem muitos incentivos .

    Verificando a amostra em busca de valores anômalos.

Para testar a normalidade, vários procedimentos são usados ​​para determinar se a distribuição amostral de uma variável medida difere do normal. A necessidade de tal comparação surge quando duvidamos em qual escala o atributo é representado - ordinal ou métrico. E tais dúvidas surgem com muita frequência, pois, via de regra, não sabemos de antemão em que escala será possível medir o imóvel em estudo (excluindo, claro, os casos de medição claramente nominativa).

A importância de determinar em que escala uma característica é medida não pode ser subestimada, por pelo menos duas razões. Depende de, Primeiramente, integralidade da consideração das informações empíricas iniciais (em particular, sobre diferenças individuais), Em segundo lugar, disponibilidade de muitos métodos de análise de dados. Se o pesquisador decidir medir em escala ordinal, então a inevitável classificação subsequente leva à perda de parte da informação original sobre as diferenças entre sujeitos, grupos estudados, relações entre características, etc. gama significativamente mais ampla de métodos de análise e, como resultado, tornam as conclusões da pesquisa mais profundas e significativas.

O argumento mais convincente a favor do fato de a característica ser medida em uma escala métrica é a correspondência da distribuição da amostra com o normal. Isto é uma consequência da lei da distribuição normal. Se você-a distribuição de Boroch não difere da normal, isso significa quea propriedade medida foi refletida na escala métrica(geralmente intervalo).

Existem muitas maneiras diferentes de testar a normalidade, das quais descreveremos brevemente apenas algumas, assumindo que o leitor realizará esses testes utilizando programas de computador.

Método gráfico(P- P Parcelas, RRParcelas). Eles constroem gráficos de quantis ou gráficos de frequências acumuladas. Gráficos de quantis (P- P Parcelas) são construídos da seguinte forma. Primeiramente são determinados os valores empíricos da característica em estudo, correspondentes ao percentil 5, 10, ..., 95. Os escores Z (teóricos) são então determinados a partir da tabela de distribuição normal para cada um desses percentis. As duas séries de números resultantes especificam as coordenadas dos pontos no gráfico: os valores empíricos do atributo são plotados no eixo das abcissas e os valores teóricos correspondentes são plotados no eixo das ordenadas. Para uma distribuição normal, todos os pontos serãopressione na mesma linha ou perto dela. Quanto maior a distância dos pontos à linha reta, menos a distribuição corresponde ao normal. Gráficos de frequências acumuladas (PPParcelas) são construídos de maneira semelhante. Os valores das frequências relativas acumuladas são plotados no eixo das abcissas em intervalos iguais, por exemplo 0,05; 0,1; ...; 0,95. A seguir são determinados os valores empíricos da característica em estudo, correspondentes a cada valor da frequência acumulada, que são convertidos em escores z. Pora tabela de distribuição normal determina a acumulação teóricafrequências medidas (área sob a curva) para cada um dos valores r calculados, que são plotados na ordenada. Se a distribuição forcorresponde ao normal, os pontos obtidos no gráfico ficam no mesmodireto.

Critérios de assimetria e curtose. Esses critérios determinam o grau permitido de desvio dos valores empíricos de assimetria e curtose dos valores zero correspondentes à distribuição normal. O grau de desvio aceitável é aquele que nos permite considerar que estas estatísticas não diferem significativamente dos parâmetros normais. A quantidade de desvios permitidos é determinada pelos chamados erros padrão de assimetria e curtose. Para a fórmula de assimetria (4.10), o erro padrão é determinado pela fórmula:

Onde N- tamanho da amostra.

Os valores amostrais de assimetria e curtose são significativamente diferentes de zero se não excederem seus erros padrão. Isto pode ser considerado um sinal de que a distribuição amostral corresponde à lei normal. Deve-se notar que os programas de computador calculam indicadores de assimetria, curtose e os erros padrão correspondentes utilizando outras fórmulas mais complexas.

Teste de normalidade estatística Kolmogorov-Smirnové considerado o mais adequado para determinar o grau de conformidade da distribuição empírica com a normal. Permite estimar a probabilidade de uma determinada amostra pertencer a uma população com distribuição normal. Se esta probabilidade R< 0,05, então esta distribuição empírica difere significativamente do normal, e se R> 0,05, então concluem que esta distribuição empírica corresponde aproximadamente à normal.

Razões para desvio da normalidade. A razão geral para o desvio da forma da distribuição amostral de uma característica da forma normal é na maioria das vezes uma característica do procedimento de medição: a escala usada pode ter sensibilidade desigual à propriedade medida em diferentes partes da faixa de sua variabilidade .

EXEMPLO Suponha que a gravidade de uma determinada habilidade seja determinada pelo número de tarefas concluídas no tempo previsto. Se as tarefas forem simples ou o tempo for muito longo, então este procedimento de medição terá sensibilidade suficiente apenas para uma parte dos sujeitos para os quais essas tarefas são bastante difíceis. E uma proporção muito grande de assuntos resolverá todas ou quase todas as tarefas. Como resultado, obteremos uma distribuição com pronunciada assimetria do lado direito. É claro que é possível melhorar posteriormente a qualidade da medição através da normalização empírica, adicionando tarefas mais complexas ou reduzindo o tempo necessário para completar um determinado conjunto de tarefas. Se complicarmos excessivamente o procedimento de medição, surgirá a situação oposta, quando a maioria dos sujeitos resolverá um pequeno número de tarefas e a distribuição empírica adquirirá uma assimetria à esquerda.

Assim, desvios da forma normal, como assimetria do lado direito ou esquerdo ou curtose muito grande (maior que 0), estão associados à sensibilidade relativamente baixa do procedimento de medição na região do modo (o topo do gráfico de distribuição de frequência ).

Consequências do desvio de normalidade. Deve-se notar que a tarefa de obter uma distribuição empírica que corresponda estritamente à lei normal não é frequentemente encontrada na prática de pesquisa. Normalmente, tais casos limitam-se ao desenvolvimento de um novo procedimento de medição ou escala de teste, quando a normalização empírica ou não linear é usada para “corrigir” a distribuição empírica. Na maioriacasos de conformidade ou não conformidade com a normalidade é a naturezaa propriedade da característica medida, que o pesquisador deve levar em consideração aoseleção de procedimentos estatísticos para análise de dados.

Em geral, se houver um desvio significativo da distribuição empírica em relação à normal, deve-se abandonar a suposição de que a característica é medida numa escala métrica. Mas a questão permanece em aberto: qual é a medida da importância deste desvio? Além disso, diferentes métodos de análise de dados apresentam diferentes sensibilidades aos desvios da normalidade. Normalmente, ao justificar as perspectivas deste problema, cita-se o princípio de R. Fisher, um dos “pais fundadores” da estatística moderna: "Desvios do normaldeste tipo, a menos que sejam muito perceptíveis, só podem ser detectados por grandesnovas amostras; por si só, eles fazem pouca diferença na crítica estatísticaria e outras questões." Por exemplo, com amostras pequenas mas típicas para investigação psicológica (até 50 pessoas), o critério Kolmogorov-Smirnov não é suficientemente sensível para determinar desvios da normalidade “a olho nu” mesmo muito perceptíveis. Ao mesmo tempo, alguns procedimentos de análise de dados métricos permitem plenamente desvios da distribuição normal (alguns em maior medida, outros em menor grau). Futuramente, na apresentação do material, estipularemos, se necessário, o grau de rigidez do requisito de normalidade.

    Regras básicas para padronização de técnicas de psicodiagnóstico.

091208-matmetody.txt

estandardização métodos psicodiagnósticosé o procedimento para obter uma escala que permite comparar o resultado de um teste individual com os resultados de um grande grupo.

As escalas de teste são desenvolvidas para avaliar o resultado de um teste individual, comparando-o com normas de teste obtidas de uma amostra de padronização. Amostragem de padronizaçãoé especialmente formado para o desenvolvimento de uma escala de teste - deve ser representativo da população em geral para a qual este teste está planejado para ser utilizado. Posteriormente, ao testar, assume-se que tanto a pessoa testada como a amostra de padronização pertencem à mesma população geral.

O princípio de partida ao desenvolver uma escala de teste é a suposição de que a propriedade que está sendo medida está distribuída na população em geral de acordo com a lei normal. Assim, a medição desta propriedade na escala de teste na amostra de padronização também deve garantir uma distribuição normal. Se sim, então a escala de teste é métrica – mais precisamente, intervalos iguais. Se este não for o caso, então a propriedade poderá ser refletida, na melhor das hipóteses, na escala de pedidos. Naturalmente, a maioria das escalas de teste padrão são métricas, o que permite interpretar os resultados dos testes com mais detalhes - levando em consideração as propriedades da distribuição normal - e aplicar corretamente quaisquer métodos de análise estatística. Assim, o principal problema do padrãoteste teste é desenvolver uma escala na qual a distribuiçãoA redução dos indicadores de teste na amostra de padronização corresponderiadistribuição normal.

As pontuações iniciais dos testes são o número de respostas a certas questões do teste, o tempo ou o número de problemas resolvidos, etc. Eles também são chamados de pontuações primárias ou “brutas”. O resultado da padronização são normas de teste - uma tabela para converter notas “brutas” em escalas de teste padrão.

Existem muitas escalas de teste padrão, cujo objetivo principal é apresentar resultados de testes individuais de uma forma conveniente para interpretação. Algumas dessas escalas são apresentadas na Fig. 5.5. O que eles têm em comum é o cumprimento da distribuição normal, e diferem apenas em dois indicadores: o valor médio e a escala (desvio padrão - o), que determina a granularidade da escala.

Sequência geral de padronização(desenvolvimento de padrões de teste - tabelas para converter pontuações “brutas” em pontuações de testes padrão) é o seguinte:

    a população geral para a qual está sendo desenvolvido é determinada
    metodologia e é formada uma amostra representativa de padronização;

    Com base nos resultados da aplicação da versão primária do teste, uma distribuição
    determinação de estimativas “brutas”;

    verifique a conformidade da distribuição resultante com uma normal
    kon;

    se a distribuição das estimativas “brutas” corresponder ao normal, pro-
    assediado padronização linear;

    se a distribuição das estimativas “brutas” não corresponder ao normal, então
    duas opções são possíveis:

    antes da padronização linear, um padrão empírico é produzido -
    lização;

    realizar normalização não linear.

A distribuição das estimativas “brutas” é verificada quanto à conformidade com a lei normal utilizando critérios especiais, que consideraremos mais adiante neste capítulo.

Padronização linear reside no fato de que são determinados os limites dos intervalos de estimativas “brutas”, correspondentes aos indicadores de teste padrão. Esses limites são calculados adicionando às pontuações “brutas” médias (ou subtraindo delas) as parcelas dos desvios padrão correspondentes à escala de teste.

Normas de teste - tabela para conversão de pontos “brutos” em paredes

Pontos "brutos"

Utilizando esta tabela de normas de teste, o resultado individual (pontuação “bruta”) é convertido em uma escala de parede, que permite interpretar a severidade da propriedade que está sendo medida.

Normalização empírica usado quando a distribuição das pontuações “brutas” difere do normal. Consiste em alterar o conteúdo das tarefas de teste. Por exemplo, se a pontuação “bruta” for o número de problemas resolvidos pelos examinandos no tempo previsto, e for obtida uma distribuição com assimetria do lado direito, isso significa que uma proporção muito grande dos examinandos resolve mais mais da metade das tarefas. Neste caso, é necessário adicionar tarefas mais difíceis ou reduzir o tempo de solução.

Normalização não linearé usado se a normalização empírica for impossível ou indesejável, por exemplo, do ponto de vista de tempo e recursos. Neste caso, a conversão das estimativas “brutas” em padrão é realizada encontrando os limites percentuais dos grupos na distribuição original, correspondentes aos limites percentuais dos grupos na distribuição normal da escala padrão. Cada intervalo da escala padrão está associado a um intervalo da escala de avaliação “bruta” que contém a mesma porcentagem da amostra de padronização. Os valores das ações são determinados pela área sob a curva normal unitária, delimitada entre as estimativas r correspondentes a um determinado intervalo da escala padrão.

Por exemplo, para determinar qual pontuação “bruta” deve corresponder ao limite inferior da parede 10, você deve primeiro descobrir a qual valor de r esse limite corresponde (z = 2). Em seguida, utilizando a tabela de distribuição normal (Anexo 1), é necessário determinar qual proporção da área sob a curva normal está à direita deste valor (0,023). Depois disso, determina-se qual valor corta os 2,3% dos maiores valores das pontuações “brutas” da amostra de padronização. O valor encontrado corresponderá ao limite da 9ª e 10ª paredes.

Os fundamentos declarados do psicodiagnóstico nos permitem formular requisitos matematicamente sólidos para o teste. O procedimento de teste deve obedecersegurar:

    descrição da amostra de padronização;

    características da distribuição das pontuações “brutas” indicando a média e
    desvio padrão;

    nome, características da escala padrão;

    normas de teste - tabelas para converter pontuações “brutas” em pontuações de escala.

    Escala de pontuação Z. (???)

091208-matmetody.txt

O desvio padronizado (ou padrão) é geralmente indicado pela letra Z. (Fig. 1 no caderno) Os escores Z são obtidos.

Um lugar especial entre as distribuições normais é ocupado pela chamada distribuição normal padrão ou unitária. Esta distribuição é obtida desde que a média aritmética seja zero e o desvio padrão seja 1. A distribuição normal é conveniente porque qualquer distribuição pode ser reduzida a ela por padronização.

A operação de padronização é a seguinte: a média aritmética é subtraída de cada valor de parâmetro individual. Esta operação é chamada de centralização. E a diferença resultante é dividida pelo desvio padrão. Esta operação é chamada de normalização.

Com. 47 (54) (veja a foto com escalas lá)

monitoramento2.htm

Assim, se subtrairmos a pontuação de um determinado sujeito da média e dividirmos a diferença pelo desvio padrão, podemos expressar a pontuação individual como uma fração do desvio padrão. As ações diagnósticas obtidas desta forma são chamadas de escores Z. A pontuação Z é a base de qualquer escala padrão. A propriedade mais atrativa dos escores z é que eles caracterizam a posição relativa do resultado do sujeito entre todos os resultados do grupo, independentemente da média e do desvio padrão. Além disso, os escores z não têm unidades. Graças a essas duas propriedades dos escores z, eles podem ser usados ​​para comparar resultados obtidos de diversas maneiras e em diversos aspectos da amostra de comportamento.

Escala Stanina
Escala de parede
Escala T
Escala de QI

    Escalas derivadas da escala Z-score.

monitoramento2.htm (também há um bom começo sobre padronização e desvio padrão)

A desvantagem do escore z é que você precisa lidar com valores fracionários e negativos. Portanto, geralmente é convertida nas chamadas escalas padrão, que são mais convenientes de usar. Tradicionalmente e com mais frequência do que outras em diagnóstico, são utilizadas as seguintes escalas:

Escala Stanina
Escala de parede
Escala T
Escala de QI

Com. 47 (54) (veja a foto com escalas lá)

0028.htm 7. Padronização do questionário psicológico

Normalização dos indicadores de teste.

Para que o questionário psicológico seja utilizado de forma prática, ou seja, Para fazer uma previsão do seu comportamento em novas situações a partir do seu preenchimento por um sujeito selecionado aleatoriamente (usando os critérios de validade deste questionário), é necessário normalizar os indicadores em uma amostra normativa. Somente a utilização de padrões estatísticos permite julgar o aumento ou diminuição da gravidade de uma determinada qualidade psicológica em um determinado sujeito. Embora as normas sejam importantes para a psicologia aplicada, é mais fácil para a pesquisa psicológica usar medidas brutas diretamente.

O desempenho de um determinado sujeito deve ser comparado com o desempenho de um grupo normativo adequado. Isto é conseguido através de alguma transformação que revela o status daquele indivíduo em relação ao grupo.

Transformações lineares e não lineares de valores brutos de escala. Os indicadores padrão podem ser obtidos por transformação linear e não linear de indicadores primários. As transformações lineares são obtidas subtraindo uma constante do indicador primário e dividindo-a ainda por outra constante, portanto todas as relações características dos indicadores primários também se aplicam aos lineares. O mais comumente usado é o escore z (Fórmula 3).

Mas devido ao fato de que muitas vezes a distribuição das pontuações finais em uma ou outra escala não é normal, os percentis não podem ser derivados desses indicadores padronizados, ou seja, estimar quantos por cento dos sujeitos receberam o mesmo indicador que o sujeito em questão.

Se a normalização percentil com conversão para paredes e a normalização linear com conversão para paredes fornecerem os mesmos valores de parede, então a distribuição será considerada normal dentro de um padrão dez.

Para conseguir a comparabilidade dos resultados pertencentes a distribuições de diferentes formas, uma transformação não linear pode ser aplicada.

As pontuações padrão normalizadas obtidas usando uma transformação não linear são pontuações padrão correspondentes a uma distribuição que foi transformada para se tornar normal. Para calculá-los, são criadas tabelas especiais para converter pontos brutos em pontos padrão. Eles fornecem a porcentagem de casos com vários graus de desvio (em unidades de σ do valor médio). Assim, o valor médio que corresponde ao alcance de 50% dos resultados do grupo pode ser igualado a 0. A média menos o desvio padrão pode ser igualado a -1, este novo valor será observado em cerca de 16% da amostra, e o valor +1 - em cerca de 84%.

trabalho “Trabalho de grupos de fonoaudiologia”; 2. “Cumprimento de... normas sanitárias nas cantinas escolares”; 3. "Ah trabalhar administração da escola especial (correcional) da Voivodia...

  • Plano de trabalho (21)

    Perguntas para o exame

    Planotrabalhar Questões do exame 1 21. Tipos... e consulte o critério anterior. Avançar Trabalho com o critério de Page é transformar a tabela... a ligação investigativa se justifica na parte teórica trabalhar e é confirmado por muitos autores, então...

  • Ao analisar a distribuição da população, de significativo interesse é a avaliação do desvio de uma determinada distribuição em relação à simétrica, ou, por outras palavras, a sua assimetria. O grau de assimetria (assimetria) é uma das propriedades mais importantes da distribuição populacional. Existem várias estatísticas destinadas a calcular a assimetria. Todos eles atendem a pelo menos dois requisitos para qualquer indicador de assimetria: deve ser adimensional e igual a zero se a distribuição for simétrica.

    Na Fig. 2 a, b mostram curvas de duas distribuições populacionais assimétricas, uma das quais é distorcida para a esquerda e a outra para a direita. A posição relativa da moda, mediana e média é mostrada qualitativamente. Percebe-se que um dos possíveis indicadores de assimetria pode ser construído levando-se em consideração a distância em que a média e a moda estão localizadas uma da outra. Mas tendo em conta a complexidade de determinar a moda a partir de dados empíricos, e por outro lado, a conhecida relação (3) entre moda, mediana e média, foi proposta a seguinte fórmula para cálculo do índice de assimetria:

    Desta fórmula segue-se que as distribuições distorcidas para a esquerda têm assimetria positiva e as distribuições distorcidas para a direita têm assimetria negativa. Naturalmente, para distribuições simétricas, para as quais a média e a mediana coincidem, a assimetria é zero.

    Calculemos os indicadores de assimetria para os dados fornecidos na tabela. 1 e 2. Para a distribuição da duração do ciclo cardíaco temos:

    Assim, esta distribuição é ligeiramente distorcida à esquerda. O valor obtido para assimetria é aproximado e não exato, pois para calculá-lo foram utilizados valores e calculados de forma simplificada.

    Para a distribuição dos grupos sulfidrila no soro sanguíneo temos:

    Assim, esta distribuição tem uma assimetria negativa, ou seja, inclinado para a direita.

    Teoricamente, mostra-se que o valor determinado pela fórmula 13 está dentro de 3. Mas, na prática, este valor muito raramente atinge os seus valores limites e, para distribuições moderadamente assimétricas de um único vértice, o seu valor absoluto é geralmente inferior a um.

    O indicador de assimetria pode ser utilizado não apenas para uma descrição formal da distribuição da população, mas também para uma interpretação significativa dos dados obtidos.

    Na verdade, se a característica que observamos é formada sob a influência de um grande número de causas independentes umas das outras, cada uma das quais dá uma contribuição relativamente pequena para o valor desta característica, então, de acordo com algumas premissas teóricas discutidas no seção sobre teoria das probabilidades, temos o direito de esperar que a distribuição populacional obtida como resultado do experimento seja simétrica. No entanto, se for obtido um valor de assimetria significativo para os dados experimentais (o valor numérico de As módulo está dentro de alguns décimos), então pode-se assumir que as condições especificadas acima não são atendidas.

    Neste caso, faz sentido assumir ou a existência de um ou dois fatores, cuja contribuição para a formação do valor observado no experimento é significativamente maior que os demais, ou postular a presença de um mecanismo especial que é diferente do mecanismo de influência independente de muitas causas no valor da característica observada.

    Assim, por exemplo, se as mudanças em uma quantidade que nos interessa, correspondente à ação de um determinado fator, são proporcionais a esse próprio valor e à intensidade da ação da causa, então a distribuição resultante será sempre distorcida para o esquerda, ou seja, tem uma assimetria positiva. Os biólogos, por exemplo, encontram esse mecanismo ao estimar quantidades associadas ao crescimento de plantas e animais.

    Outra forma de avaliar a assimetria é baseada no método dos momentos, que será discutido no Capítulo 44. De acordo com este método, a assimetria é calculada usando a soma dos desvios de todos os valores de uma série de dados em relação à média , elevado à terceira potência, ou seja:

    A terceira potência garante que o numerador desta expressão seja igual a zero para distribuições simétricas, pois neste caso as somas dos desvios para cima e para baixo da média para a terceira potência serão iguais e terão sinais opostos. A divisão por fornece adimensionalidade para a medida de assimetria.

    A fórmula (14) pode ser transformada da seguinte forma. No parágrafo anterior foram introduzidos valores padronizados:

    Assim, a medida de assimetria é a média dos dados padronizados ao cubo.

    Para os mesmos dados para os quais a assimetria foi calculada pela fórmula (13), encontramos o indicador pela fórmula (15). Nós temos:

    Naturalmente, os indicadores de assimetria calculados por diferentes fórmulas diferem entre si em magnitude, mas indicam igualmente a natureza da assimetria. Em pacotes de aplicativos para análise estatística, no cálculo da assimetria, utiliza-se a fórmula (15), pois fornece valores mais precisos. Para cálculos preliminares usando calculadoras simples, você pode usar a fórmula (13).

    Excesso. Assim, examinamos três dos quatro grupos de indicadores com a ajuda dos quais são descritas as distribuições populacionais. O último deles é um grupo de indicadores de pico, ou curtose (do grego - corcunda). Para calcular um dos possíveis indicadores de curtose, utiliza-se a seguinte fórmula:

    Utilizando a mesma abordagem aplicada na transformação da fórmula de assimetria (14) é fácil mostrar que:

    Teoricamente, foi demonstrado que o valor da curtose para uma curva de distribuição normal (Gaussiana), que desempenha um papel importante nas estatísticas, bem como na teoria das probabilidades, é numericamente igual a 3. Com base em uma série de considerações, a nitidez de esta curva é tomada como padrão e, portanto, como indicador de curtose utiliza-se o valor:

    Vamos encontrar o valor de pico para os dados fornecidos na tabela. 1. Temos:

    Assim, a curva de distribuição da duração dos ciclos cardíacos é achatada em comparação com a curva normal, para a qual.

    Na tabela A Figura 3 mostra a distribuição do número de flores marginais em uma das espécies de crisântemo. Para esta distribuição

    A curtose pode assumir valores muito elevados, como se pode verificar no exemplo dado, mas o seu limite inferior não pode ser inferior a um. Acontece que se a distribuição for bimodal, então o valor da curtose se aproxima do seu limite inferior, portanto tende a -2. Assim, se como resultado dos cálculos se verificar que o valor é inferior a -1-1,4, podemos ter a certeza que a distribuição populacional à nossa disposição é pelo menos bimodal. Isto é especialmente importante levar em consideração quando os dados experimentais, ultrapassando a fase de pré-processamento, são analisados ​​​​em um computador digital e o pesquisador não tem diante de seus olhos uma representação gráfica direta da distribuição da população.

    A curva de distribuição de dois picos de dados experimentais pode surgir por vários motivos. Em particular, tal distribuição pode aparecer combinando dois conjuntos de dados heterogêneos em um único conjunto. Para ilustrar isso, combinamos artificialmente dados sobre a largura das conchas de dois tipos de moluscos fósseis em um conjunto (Tabela 4, Fig. 3).

    A figura mostra claramente a presença de dois modos, uma vez que dois conjuntos de dados de populações diferentes são misturados. O cálculo dá para o valor de curtose 1,74 e, portanto, = -1,26. Assim, o valor calculado do índice de pico indica, de acordo com a posição anteriormente afirmada, que a distribuição possui dois picos.

    Há uma ressalva aqui. Com efeito, em todos os casos em que a distribuição da população tem dois máximos, o valor da curtose estará próximo da unidade. No entanto, este facto não pode levar automaticamente à conclusão de que o conjunto de dados analisado é uma mistura de duas amostras heterogéneas. Em primeiro lugar, tal mistura, dependendo do número de seus agregados constituintes, pode não ter dois picos, e o índice de curtose será significativamente maior que um. Em segundo lugar, uma amostra homogênea pode ter dois modos se, por exemplo, os requisitos para a seleção de dados experimentais forem violados. Assim, neste, como noutros casos, após o cálculo formal de diversas estatísticas, deve ser efectuada uma análise profissional aprofundada, que permitirá dar uma interpretação significativa aos dados obtidos.