Avaliação da escala de auto-estima de Rosenberg mediante o modelo de rasch
Avaliação da Escala de Auto-Estima de Rosenberg mediante o Modelo de Rasch
Rosenberg (1965) define auto-estima como uma avaliação que o indivíduo faz
sobre si mesmo, que se expressa numa atitude positiva ou negativa em função de
si, em que este aprova ou não o resultado. Uma auto-estima elevada implica que
o indivíduo sinta que tem valor e inclui a dimensão dos sentimentos positivos
que tem sobre si. Neste contexto, uma baixa auto-estima é originada por uma
diminuição do indivíduo perante si próprio, através de uma auto-avaliação
negativa. De acordo com este autor, a auto-estima global é baseada não só na
avaliação da qualidade dos seus constituintes, como o auto-conceito, mas
concomitantemente na avaliação das qualidades que são importantes para o
indivíduo.
A escala de auto-estima de Rosenberg (1965) é a medida de auto-estima mais
comummente utilizada em investigação (Ghaderi, 2005; Kwan, John, Kenny, Bond,
& Robins, 2004) e está traduzida e validada para Portugal (Santos &
Maia, 2003). A brevidade de aplicação, a linguagem acessível dos itens e os
resultados positivos evidenciados no estudo original de validação, permitiram
que esta escala se transformasse no padrão de referência na avaliação da auto-
estima (Santos & Maia, 2003), embora exista um estudo (Gray-Little,
Williams & Hancock, 1997) em que se sugeria que a escala de Rosenberg só é
adequada para medir com precisão pessoas situadas nos níveis baixos do
constructo de auto-estima.
A Teoria Clássica dos Testes (TCT) foi o principal modelo psicométrico empregue
na construção e análise de testes. No entanto, foram assinaladas várias
limitações à TCT, como utilizar distintas escalas para medir os sujeitos e os
itens (o que impede a análise das suas interacções para construir
interpretações sobre a variável medida), pressupor falsamente que o erro de
medida é invariante ao longo da variável, etc. (Embretson, 1996). As suas
limitações levaram a uma proposta de modelos alternativos, dos quais o mais
harmonioso é o modelo de Rasch, que permite a medição conjunta de pessoas e
itens numa mesma dimensão ou constructo (Prieto & Delgado, 2003; Stone,
2003). Assim, é um dos principais modelos que proporciona a objectividade
específica para a construção de escalas, permitindo a independência das
estimações com respeito à distribuição do atributo pelas pessoas em que é
medido (Bond & Fox, 2001). Este modelo tem recebido muita atenção como
revelam as publicações em distintas línguas, especificamente na língua
portuguesa (Ziviani & Primi, 2002).
O modelo de Rasch, proposto por Georg Rasch (1960), fundamenta-se em dois
pressupostos principais: o atributo que se pretende medir pode representar-se
numa dimensão onde só se situariam conjuntamente as pessoas e os itens; o nível
da auto-estima do inquirido e a dificuldade do item são os únicos determinantes
da probabilidade de uma determinada resposta. Se o controlo da situação é
adequado, esta expectativa é razoável e pode ser representada matematicamente
através do modelo.
Rasch apresenta uma fórmula para modelar esta relação em itens dicotómicos: ln
(Pis / 1 ' Pis ) = (Bs ' Di). Esta equação indica que o quociente entre a
probabilidade de uma determinada resposta (por exemplo, concordo) e a
probabilidade da outra resposta possível (discordo) num item (Pis / 1 ' Pis), é
função da diferença no atributo entre o nível da pessoa (Bs) e o nível do item
(Di). Assim, quando uma pessoa responde a um item equivalente ao seu nível no
atributo, terá a mesma probabilidade de uma resposta de concordar ou discordar
(Pis / 1 ' Pis = 0.50/0.50). Neste caso, o logaritmo natural de (Pis / 1 '
Pis), reflecte que a dificuldade do item é equivalente ao nível do sujeito no
atributo medido (Bs ' Di=0) (Bond & Fox, 2001; Prieto & Delgado, 2003;
Stone, 2003).
Existem extensões do modelo de Rasch para itens politómicos. Uma das formas de
apresentar este tipo de dados, mais utilizadas na avaliação em saúde mental,
são as escalas tipo Likert. O modelo estabelece a localização de cada ponto do
item desde os itens mais baixos até os mais altos. Assim, cada item tem uma
localização estimada. O modelo também estima os valores das categorias da
escala para dar uma estrutura de qualificação à escala, que é partilhada por
todos os itens que a compõem. Com dados dicotómicos, cada item tem uma
estimação de localização e um erro de estimação associado. Com dados
politómicos, não só cada item tem uma localização estimada como adicionalmente
a escala tem uma série de pontos de transição (incremento na probabilidade de
escolha de uma categoria de resposta em função do nível da auto-estima do
inquirido) entre as categorias sucessivas. Podemos apresentar una extensão do
modelo básico de Rasch para escalas com categorias ordenadas segundo o Modelo
de Escalas de Classificação
(Rating Scale Model, Andrich, 1978): ln (Pnik / Pni(k-1)) = Bn ' Di ' Fk. Onde:
Pnik é a probabilidade de que a pessoa n, perante o item i seja observada, ou
responda, na categoria k; Pni(k-1) é a probabilidade de que a observação ou a
resposta esteja na categoria k-1 ; Bn é a habilidade, atitude, etc., da pessoa
n; Di é a dificuldade do item i; Fk é o ponto de transição entre a categoria k
e a categoria k-1, i.e. o késimo passo de calibração, de onde as categorias se
numeram 0, m.
Com base no exposto, foi objectivo do presente estudo a análise das
características psicométricas da tradução portuguesa da escala de Auto-Estima
de Rosenberg mediante o Modelo de Escalas de Classificação (MEC, Wright &
Masters, 1982). Era esperado que a escala apresentasse características
razoáveis ao nível da consistência interna, mas que não permitisse distinguir
níveis médios e altos de auto-estima, tal como sugerido por Gray-Little,
Williams e Hancock (1997) que referiram que a escala de Rosenberg só é adequada
para medir com precisão pessoas situadas nos níveis baixos do constructo de
auto-estima, devido aos itens serem muito orientados para os extremos do
constructo.
Método
Participantes
Participaram no estudo 510 estudantes universitários, 223 do sexo masculino e
287 do sexo feminino, com uma média etária de 21.7 anos (DP = 3.80). A maior
parte dos participantes eram solteiros (95.24%), estudantes do primeiro e
segundo ano da universidade (52.39%), futuros licenciados em Letras, Direito e
Historia (35.97%) e em Economia, Gestão, Contabilidade e Marketing (29.25%),
sem profissão (90.34%).
Medidas
Rosenberg Self-esteem Scale(RSES; Rosenberg, 1965) é uma medidade auto-
avaliação da auto-estima global. A RSES foi originalmente construída como uma
escala de tipo Guttman embora, na maioria dos casos, os investigadores optem
por um formato tipo Likert (Santos & Maia, 2003). A RSES original
apresentava boas propriedades psicométricas: a sua consistência interna era
elevada, com um valor de α de Cronbach igual a .92 (Rosenberg, 1965).
Um estudo internacional sobre as características psicométricas da escala, em 53
países, mostrou que a escala apresenta uma consistência interna pelo menos
adequada em 50 desses países (α de Cronbach superior a .70), sendo o valor mais
elevado de .90, com excepção da República Democrática do Congo, Etiópia e
Tanzânia (Schmitt & Allik, 2005).
Este questionário, na versão portuguesa, é constituído por 10 itens, com um
formato de resposta tipo Likert de quatro pontos (1. Concordo fortemente; 4.
Discordo fortemente), 5 de orientação positiva e 5 de orientação negativa. A
medida permite um resultado total, que varia de 10 a 40, crescendo em função do
nível de auto-estima.
A escala traduzida apresenta, de uma forma genérica, qualidades psicométricas
comparáveis às relatadas originalmente por Rosenberg (1965) e a outras versões
de outras línguas (Schmitt & Allik, 2005; Shapurian, Hojat, &
Nayerahmadi, 1987). Apresenta uma consistência interna adequada, com um valor
de α de Cronbach igual a .86, e boa estabilidade temporal, dado que com um
intervalo de duas semanas entre avaliações, o coeficiente de correlação de
Pearson era igual a .90 (Santos & Maia, 2003).
Procedimento
A aplicação do questionário foi realizada em universidades (bibliotecas e salas
de estudo). Pediu-se a colaboração desinteressada dos participantes de forma
oral e por escrito, com informação prévia do objectivo do estudo e do tipo de
participação pretendida, da confidencialidade e anonimato, da possibilidade de
desistência durante a elaboração da avaliação, assim como da inexistência de
respostas correctas ou incorrectas.
A recolha da amostra decorreu em diversas universidades da cidade de Lisboa,
tendo a aplicação da prova demorado em média cinco minutos.
Codificação e análise dos dados
Uma vez recolhidos os dados, estes foram recodificados de maneira a que as
categorias correspondentes aos itens que mediam em sentido inverso passarem a
estar no sentido da variável medida, isto é, a maior valor corresponder maior
auto-estima.
Os dados foram analisados com o programa Winsteps (Linacre & Wright, 2000).
Em primeiro lugar, realizou-se uma análise da funcionalidade das categorias de
resposta, de acordo com os seguintes critérios estatísticos convencionais
propostos por Linacre (2002, 2010):
1. Frequência suficiente e distribuição regular das categorias: as frequências
baixas não são úteis para estimar as calibrações dos passos (Fk). O primeiro
critério exige um mínimo de 10 observações dentro de cada categoria da escala.
Baixas contagens dentro de uma categoria pode levar a estimativas imprecisas ou
instabilidade nas calibrações dos passos. A situação ideal é uma distribuição
uniforme, mas também é adequada uma distribuição unimodal ou bimodal com as
frequências maiores nas categorias dos extremos.
2. As categorias não devem apresentar um desajuste elevado com o modelo.
Para pôr à prova o ajuste das pessoas, itens e categorias, usaram-se as médias
dos resíduos (diferenças entre as respostas dadas e as esperadas) Outfit(média
dos resíduos estandardizados elevados ao quadrado) eInfit(média dos resíduos
estandardizados elevados ao quadrado, ponderados com a função de informação)
que são as estatísticas que indicam o grau de ajuste. Outfité muito sensível
aos padrões de resposta inesperados (outliers), quetêm menos influência no
Infit (Wright & Mok, 2004). O valor esperado para as duas estatísticas é a
unidade (Wright, 1996). Valores altos indicam padrões anormais com respeito ao
modelo, significando que há maior probabilidade de erro do que a probabilidade
sistemática no item e valores baixos indicam possibilidade de existirem padrões
aproximados aos modelos deterministas de resposta como o de Guttman
(significando que pode existir probabilidade sistemática nas respostas ao item
que não é explicada pela variável latente de interesse, que no presente estudo
é a auto-estima). Os valores de Infit ou Outfit, superiores a 1.5 e inferiores
a 2, indicam que o desajuste dos dados empíricos é moderadamente alto, mas não
enfraquecem gravemente as medidas. No entanto, os valores superiores a 2
revelam um alto desajuste, assim como valores inferiores a .50 indicam
possibilidade de existirem padrões aproximados aos modelos deterministas de
resposta (Linacre, 2010).
3. Os pontos de transição (passos) entre as categorias sucessivas (Fk) devem
aumentar monotonicamente (com ordenação crescente) o que significa que todas as
categorias de resposta são funcionais, uma vez que cada categoria é a mais
provável em algum ponto da variável.
No MEC, a probabilidade de seleccionar uma categoria depende do nível de auto-
estima da pessoa. É desejável que exista algum intervalo no contínuo no qual
cada categoria seja a mais provável de ser seleccionada (Linacre, 2002). Se
isto suceder, os pontos de transição (Fk) estão ordenados monotonicamente. Quer
dizer, F1<F2<F3, etc. Isto significa que no caso de quatro categorias tipo
Likert, que as pessoas com um valor superior a F3 terão uma probabilidade
superior de responder à categoria 4.
O funcionamento diferencial dos itens (FDI) é uma evidência da falta de
validade das medidas. Produz-se quando existem factores alheios ao constructo,
que se pretende medir, que afectam ilegitimamente as respostas. Em presença de
FDI pode suceder que sujeitos com o mesmo nível no constructo, mas pertencentes
a diferentes grupos sociodemográficos (por exemplo, homens e mulheres), tenham
uma probabilidade distinta de uma resposta (Draba, 1977). De acordo com os
pressupostos dos modelos tipo Rasch, a probabilidade da resposta a um item só
dependerá do parâmetro da pessoa no atributo latente. Isto implica, por
exemplo, que a probabilidade de 0.50 de estar de acordo com um item corresponde
a um valor na variável que há-de ser a mesma para as pessoas de distintos
grupos sociais. Ao contrário, a probabilidade da resposta está determinada por
factores alheios ao constructo medido. Em consequência, as medidas obtidas com
os itens careceriam da validade requerida.
Actualmente a análise de FDI é um passo obrigatório nos programas de validação
de um teste (AERA, APA, NCME, 1999). Em consequência, levou-se a cabo uma
análise do funcionamento diferencial dos itens da RSES, relacionada com o sexo,
uma vez que a literatura aponta para a existência de diferenças entre sexos,
apresentando os homens maior auto-estima (Hendricks, et al., 2001; Saigal,
Lambert, Russ, & Hoult, 2002; Santos & Maia, 2003).
O procedimento implementado em Winsteps consiste em estimar em cada item a
diferença entre o parâmetro de dificuldade em cada grupo e na amostra total. O
contraste leva-se a cabo mediante a fórmula proposta por Wrigt e Panchapakesan
(1969): t = Bf ' Br / (SE2f + SE2r)1/2. Onde Bf ' Br são os parâmetros de
localização ajustados por sexo, e SE2f e SE2r são os seus SE (erros padrão) ao
quadrado.
Um valor absoluto superior a 2 da estatística de contraste pode-se considerar
uma evidência de FDI estatisticamente significativa. No entanto, segundo Wright
e Douglas (1975), os valores de FDI que enfraquecem as medidas correspondem a
diferenças (Bf ' Br) superiores a 0.5 logit.
Resultados
Em primeiro lugar, foi analisada a qualidade psicométrica das categorias de
resposta, de acordo com os critérios de Linacre (2002). Tal como se pode
observar na Tabela_1, o sistema de quatro categorias, analisado com o Rating
Scale Model, é adequado.
Pode observar-se que as categorias cumprem os critérios propostos por Linacre
(2010): as frequências e a sua distribuição são adequadas, não há um desajuste
elevado em nenhuma categoria (Outfit< 2) e os passos (step) entre as categorias
sucessivas estão ordenados de forma crescente, ver Tabela_1.
Uma vez comprovada a adequação das categorias, foi analisado o ajuste dos itens
e das pessoas, foram estimados os seus parâmetros e avaliada a sua fiabilidade.
Na Tabela_2 são apresentadas as estatísticas de ajuste (Infit e Outfit), a
localização (Di) e o erro padrão de medida dos itens (SE), ver Tabela_2.
Pode-se observar que não existem itens com valores de infit e/ou outfit
superiores a 1.5 o que revela que os itens não se desajustam de forma severa
(Linacre & Wright, 2000).
Na coluna Di, referente à dificuldade ou localização dos itens, podemos ver que
o item 8 é o indicador de maior nível de auto-estima e o item 9 é o de menor
nível.
Os erros padrão da medida dos itens oscilam entre .08 a .10, o que indica que a
fiabilidade dos itens é elevada. A fiabilidade global das estimações dos itens
pode ser avaliada mediante a estatística denominada Item Separation Reliability
que indica a proporção da variância observada dos itens não explicada pelo erro
de medida (Smith & Smith, 2004). Como se pode observar na Tabela_3 a
fiabilidade dos itens é muito alta (.99), ver Tabela_3.
O ajuste das pessoas ao modelo não é razoável, pois apesar de o valor da média
e do desvio-padrão serem 1.02 e .71 (infit), e 1.00 e .74 (outfit), o número de
pessoas com infit e/ou outfit superior a 1.5 é elevado: 87 (18%). Inferior a .5
estão 107 sujeitos (22%), o que pode dever-se à existência de vários itens
similares ou muito correlacionados que inflacionam as fiabilidades.
Os parâmetros das pessoas vão de 5.34 a-2.74 com uma média de 1.95 e desvio-
padrão de 1.56. A fiabilidade global das pessoas (.79) não é excelente, embora
razoável (percentagem da variância das pessoas não explicada pelo erro). Este
valor é similar ao α de Cronbach da teoria clássica.
A correlação entre sexo e a medida dos itens, embora seja significativa (p =
.03 < .05) é muito reduzida (r = -.10). Não aparece nenhuma outra correlação
significativa com outras variáveis demográficas.
A Tabela_4 mostra uma representação conjunta pessoa-item, onde se pode observar
a posição dos itens e das pessoas na variável. Este tipo de representação
facilita a comunicação dos resultados e das suas implicações. A coluna da
Escala representa os valores estimados da variável latente auto-estima, sendo
que quanto maior forem estes valores, maior é o nível de auto-estima. Dado que
a média das pessoas (1.95) é muito superior à dos itens, pode-se considerar que
o nível de auto-estima dos sujeitos analisados é muito alto. Além do mais, a
maior parte das pessoas encontram-se acima do ponto da variável em que os itens
se situam. Em consequência, porque a média dos itens é alta (i.e., dificuldade
baixa) o que corresponde a indivíduos com valores de logit baixos (i.e., baixos
valores na variável latente) tenderem a concordar fortemente com os itens da
escala), observa-se que os itens da escala não permitem medir com elevada
precisão as pessoas com níveis médio e alto de auto-estima, ver Tabela_4.
Na Tabela_5 apresentam-se os resultados da análise de Funcionamento Diferencial
dos Itens associado ao sexo, ver Tabela_5.
De acordo com a distribuição normal, t≥|2| indica DIF. Neste caso, só os itens
2 e 5 mostram DIF, mas os valores não são muito altos, não enfraquecem a
medida, pois não têm diferenças superiores a 0.5 logit. O item 2 indica um
maior nível de auto-estima nas mulheres (di2=.44) e o item 5 nos homens
(di5=-.42).
Discussão
O objectivo deste estudo foi realizar uma análise das características
psicométricas da escala de auto-estima de Rosenberg (RSES) numa amostra de
alunos universitários portugueses. Os dados foram analisados mediante o modelo
de Escalas de Classificação (Wright & Masters, 1982), uma extensão para
itens politómicos do modelo de Rasch.
Neste estudo pretendia-se determinar o melhor sistema de categorias de
resposta. Os resultados mostraram que o sistema original de quatro categorias
tem boa qualidade psicométrica.
Com relação aos itens da RSES, a fiabilidade é muito alta. O ajuste das pessoas
ao modelo está no limite do razoável. A fiabilidade global das pessoas não é
excelente, embora resulte adequada. Sendo este valor similar ao α de Cronbach
da teoria clássica, pode-se assim afirmar que está de acordo com os resultados
da fiabilidade clássica da RSES apresentados por outros autores (Schmitt &
Allik, 2005), ainda que mais reduzido do que aparece em outros estudos
(Rosenberg, 1965; Santos & Maia, 2003; Shapurian, Hojat, & Nayerahmadi,
1987; Schmitt & Allik, 2005).
Alguns estudos prévios com a escala original colocaram a possibilidade de que a
escala não permitisse distinguir as pessoas com nível médio das pessoas com
nível elevado de auto-estima (Gray-Little, Williams & Hancock, 1997). Os
resultados indicam que a média das pessoas é superior à dos itens, o que revela
que a maior parte das pessoas se encontra num nível superior ao do nível da
variável em que os itens se situam, ou seja com mais auto-estima. Em
consequência, observa-se que os itens da escala não permitem medir com alta
precisão as pessoas com níveis médio e alto de auto-estima. Isto sucede porque
a escala só tem itens adequados para o leque inferior do constructo. Este
resultado está de acordo com o afirmado no estudo de Gray-Little et al. (1997)
que sugeriam que a escala de Rosenberg só é adequada para medir com precisão
pessoas situadas nos níveis baixos do constructo de auto-estima.
Só os itens 2 e 5 mostram FDI, mas os valores não são muito altos, não
enfraquecem a medida, logo a comparação entre homens e mulheres resulta
adequada. O item 2 indica um maior nível de auto-estima nas mulheres e o item 5
nos homens. Tanto no item 2 (Por vezes penso que não sou bom em nada) como no
item 5 (Sinto que não tenho muito de que me orgulhar), não é fácil encontrar
uma explicação clara para as diferenças de resposta entre sexos. Podemos assim
concluir que a medida pode ser utilizada igualmente nos dois géneros.
Tal como se esperava, os homens apresentaram um valor médio de auto-estima mais
elevado que as mulheres, embora o tamanho do efeito seja baixo, seguindo
critérios convencionais (Cohen, 1998) . Este dado está de acordo com o
publicado por outros autores (Hendricks, et al., 2001; Saigal, Lambert, Russ,
& Hoult, 2002; Santos & Maia, 2003; Turner, Pickering, & Johnson,
1998) . Não foram encontradas correlações significativas com outras variáveis
demográficas, o que pode dever-se ao facto de a população universitária ser uma
população com características muito mais homogéneas que as da população geral.
Finalmente, tal como se havia discutido em estudos anteriores, os dados
recolhidos com a escala de auto-estima de Rosenberg mostraram uma boa
fiabilidade.
Em conclusão, os aspetos mais positivos da escala são que as categorias
funcionam adequadamente, a fiabilidade média dos sujeitos é aceitável e a
fiabilidade dos itens é elevada.
Por outro lado, confirma-se que os itens da escala não permitem medir com
elevada precisão as pessoas com níveis médio e elevado de auto-estima. Isto
acontece porque o nível das pessoas é elevado e a escala só tem itens para
auto-estima reduzida. Este é o aspeto mais criticável da escala RSES. Estes
resultados podem estar de qualquer forma algo mascarados pelo efeito da
desejabilidade social, embora se tenha passado o questionário de forma anónima
e pelo facto de que os participantes serem estudantes universitários, não sendo
portanto representativos da população geral. Esta poderia ser também a
justificação para que as diferenças sexuais em auto-estima tenham resultado
menores de que o defendido em estudos prévios.
Uma limitação deste estudo prende-se por a amostra só ter sido recolhida em
Lisboa, não sendo representativa da população universitária portuguesa.
Em qualquer caso, parece necessário construir uma nova escala de auto-estima
que permita avaliar adequadamente um leque mais amplo do constructo.