SciELO - Scientific Electronic Library Online

 
vol.20 issue2Diagrams of structure in analysis of variance author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • On index processCited by Google
  • Have no similar articlesSimilars in SciELO
  • On index processSimilars in Google

Share


Revista Colombiana de Ciencias Pecuarias

Print version ISSN 0120-0690On-line version ISSN 2256-2958

Rev Colom Cienc Pecua vol.20 no.2 Medellín Apr./June 2007

 

Tipos de suma de cuadrados en el análisis de la varianza

Types of sum of squares for analysis of variance


Luis F Restrepo B1*, Estad, Esp estad bioma.

1 Grupo de Investigación Grica, Facultad de Ciencias Agrarias, Universidad de Antioquia, AA 1226, Medellín, Colombia.
lusitano@agronica.udea.edu.co

(Recibido: 31 mayo, 2006; aceptado: 26 abril, 2007).


Resumen

La suma de cuadrados se emplea con el fin de efectuar una descomposición de la variabilidad total atribuible a la variable respuesta Y, en los diferentes componentes o factores controlados o manipulados por el investigador x, y la adición del error experimental, que constituye la fuente de variación que aglutina a todos los componentes no controlados dentro del modelo de clasificación experimental.

Palabras clave: anova, estimación, hipótesis, sumas de cuadrados.


Summary


The sum of squares is used in order to carry out a decomposition of the entire variability attributable to a response variable Y in the different components or controlled or manipulated factors by the an investigator X, and the addition of the experimental error that constitutes the source of variation that agglutinates all the not controlled components inside the model of experimental classification.

Key words:anava, estimation, hypothesis, sum of squared.

* Autor para el envío de la correspondencia y la solicitud de separatas. Facultad de Ciencias Agrarias, Universidad de Antioquia, AA 1226, Medellín, Colombia. E-mail: lusitano@agronica.udea.edu.co.


Introducción

El objetivo en todo diseño experimental es minimizar la suma de cuadrados del error, con el fin de poder maximizar el rechazo de la hipótesis nula y así establecer divergencia en el efecto de los tratamientos (véase Figura 1).



El cual constituye el proyector ortogonal de y sobre el espacio generado por las columnas de X, C (x):



Y: variable dependiente, ê: error experimental, Ŷ: matriz diseño.

I – P, es un proyector ortogonal de y sobre el complemento ortogonal del espacio columna de x, C (x)

Dado el concepto de ortogonalidad y aplicando el Teorema de Pitágoras, se genera la descomposición ortogonal clásica del análisis de la varianza (8):



Tipos de sumas de cuadrados

Suma de cuadrados tipo I

Se genera por medio del método de la ordenación a priori, en el cual se efectúan ordenaciones paramétricas de interés en forma a priori, obteniéndose un cuadrado único y un análisis que contenga todas las ordenaciones generadas por el modelo de clasificación experimental (10).

La suma de cuadrados tipo I se usa para probar hipótesis sobre medias ponderadas, ajustadas o no (1, 19).

La suma de cuadrados tipo I es igual a la suma de cuadrados tipo II, III y IV para diseños balanceados; es decir aquellos diseños donde cada tratamiento tiene igual número de replicaciones (2, 3).

Si se tiene un diseño de estructura:



Se desprende:
A R(α/μ)
B R(β/ μ, α)
AB R(α β/ μ, α, β)

La suma de cuadrados tipo I se emplea en diseños donde hay interacción o no de factores o donde existen factores anidados (18).

Suma de cuadrados tipo ll

Esta se puede generar a partir de la suma de cuadrados tipo I, en la cual se escogen únicamente las hipótesis asociadas con medias ponderadas ajustadas. La suma tipo II es de la forma: R(α /μ,β)yR(β/ μ, α)

En la suma de cuadrados tipo I se tiene:



En la suma de cuadrados tipo II en general no siempre ocurre lo anterior. Las sumas de cuadrados tipo II son provenientes de una partición ortogonal de la suma de cuadrados de los parámetros, así (10).




R( )
A R(α /μ, β) suma de cuadrados de A.
B R(β /μ, α) suma de cuadrados de B.
AB R (γ /μ, α, β) suma de cuadrados de la interacción AB.

La SC Tipo II =SC Tipo III = SC Tipo IV Si no existe interacción en el modelo.

La suma de cuadrados Tipo II puede ser descrita en general

R (@ factor / con todos los otros factores apropiados)

Por ejemplo, la suma de cuadrados para el factor A, es la suma de cuadrados ajustada por todos los otros factores y las interacciones, excepto las interacciones donde está el factor A y los factores anidados dentro de A.

La suma de cuadrados de A es: R(α /μ, β) y no R(α / μ, β, α x β)
Para un modelo con dos factores cruzados A, B; y un factor C anidado dentro de

La suma de cuadrados Tipo II para A, es:

R(α/ μ, β) y no R(α/ μ, β, γ: α)

Suponga que hay tres factoresA, B y Cdonde sólo hay interacción entre los factores A y B.

La suma de cuadrados Tipo II para A, es:
R(α/ μ, β, γ)
La de B es: R(β / μ, α, γ)
Y la de C es: R(γ / μ, α, β, α x β)

Finalmente, la de la interacción de A * B es:
R(α x β / μ, α, β, γ)

Suma de cuadrados tipo lll

Las sumas de cuadrados tipo III se pueden obtener entre otros, a través de los métodos de cuadrados de medias ponderadas (20), o por el método de los mínimos cuadrados completos (15), o por medio de la inversa de una fracción, de la inversa de Searle (16) Las hipótesis son sobre medias no ponderadas.

Con base en la estructura:



Se tiene por el método de Yates.




La suma de cuadrados tipo III sirve para modelos restringidos. Por ejemplo, de la forma:

Donde

Cabe anotar que la suma de cuadrados de este tipo también se puede emplear ante la presencia de datos completos en todas las celdas (5). Siendo idéntica a la suma de cuadrados de promedios ponderados.

Suma de cuadrados tipo lV

Esta es similar a la suma de cuadrados tipo III, si no existen celdas vacías. Si al menos una celda está vacía, la SC tipo III ≠ SC tipo IV y se asocian a diferentes hipótesis.

Ante la presencia de celdas vacías la suma de cuadrados tipo IV puede no ser única ya que depende de la posición y del número de celdas vacías.

La suma de cuadrados tipo IV está referida a hipótesis sobre contrastes entre medias poblacionales de celdas ubicadas en la misma columna o fila. Siempre se inician las comparaciones por la última fila o columna.

Las sumas de cuadrados tipo I, II, III son empleadas para estimar un modelo y diferentes subconjuntos teóricos derivados del modelo (12). Mientras la suma de cuadrados tipo IV se utiliza para probar hipótesis que son determinadas por el procedimiento GLM (modelo lineal general) del paquete estadístico SAS, donde las hipótesis seleccionadas dependen del patrón de las celdas, y del estadístico F acorde a la prueba estadística del conjunto de hipótesis existentes.

La suma de cuadrados tipo IV puede diferenciar una secuencia de filas de otras (13), para el mismo conjunto de datos, donde se recuerda que no es única dicha suma de cuadrados para las filas o columnas existentes.

Suponga que se tiene:


Las hipótesis para el conjunto de filas en el proceso GLM del SAS pueden ser:


H1: hipótesis de contraste., y se relacionan con la suma tipo IV, la cual se puede calcular a partir de Q Q=β0’ K (K’GK)-1K’ β0 = Y’XG’K(K’GK)-1K’GX’Y

Asociada en general a la hipótesis:

H:K’β = 0

Cuandoα



Cuando γ k = γ x , M =0 correspondiente a la hipótesis



Si γ x = γ k M = 0

La simetría de X’X implica que la matriz R es de rango completo γ x tal que, X’X =RR’ donde (R’R)-1 existe.



K’ tiene rango completo γx fila y R tiene rango completo columna γx ademas (L’L)-1 existe ILI ≠ 0 tambien L-1 existe.



La suma de cuadrados tipo IV no necesariamente tiene en cuenta todos los datos. Las secuencias de filas pueden ser leídas en forma diferente conduciendo a diferentes sumas de cuadrado tipo IV (8, 10). La suma de cuadrados tipo IV depende de la secuencia en que esté la fila con los efectos promedios (10).


Conclusiones


En general se pueden concluir las siguientes relaciones entre las sumas de cuadrados por el procedimiento GLM del SAS:

1. Si las muestras son balanceadas. SCI = SCII = SCIII = SCIV (8)

2. Si todas las celdas están ocupadas (14). SCIII = SCIV

3. Si el modelo no contiene interacción. SCII = SCIII = SCIV

4. Las sumas de cuadrados pueden estar asociadas a diferentes hipótesis.

5. El investigador deberá tener un conocimiento amplio de estadística, a fin de poder distinguir bien las hipótesis; o estar muy bien asesorado por un profesional con amplio conocimiento en el tema estadístico experimental. Debe existir una perfecta interacción entre el investigador y el estadístico en todas las fases del proceso experimental, y sobre todo al momento de plantear las hipótesis de interés práctico y las estrategias que serán adoptadas para probarlas (10). Los métodos estadísticos pueden servir para simplificar la elección, entre otras, de los tipos de suma de cuadrados más indicados para probar las hipótesis del verdadero interés para el investigador.

La suma de cuadrados tipo I es apropiada para diseños balanceados ortogonales (4, 11). También es empleada en diseños no ortogonales (6), tal como el citado por tal proceso se obtienen particulares anidamientos ajustados para algunos efectos, pero no para otros. Se pueden asignar algunos efectos a priori y ubicarlos en el modelo.

La suma de cuadrados tipo III es altamente recomendada ante la presencia de no ortogonalidad. En el anova se usa promedio muestral armónico para ajustar el total de la celda.

La suma de cuadrados tipo I depende de las hipótesis del orden en que el efecto esta especificado (7, 17).

La suma de cuadrados tipo II es apropiada para modelos construidos, y es naturalmente seleccionada en modelos de regresión (8, 9).

Las sumas tipo III y IV tienen las mismas hipótesis para datos balanceados o no, y trabajan con promedios marginales, donde algunos promedios marginales no son definidos. Es generalmente obvio cuando se comparan muchos efectos.

La suma tipo III no depende del orden del efecto, o de niveles. Sin embargo los contrastes ortogonales empleados son complejos para interpretar. Algunas interacciones son cero.

La sumas tipo I y II dependen del conteo en la celda.

La suma tipo IV se emplea para analizar subconjuntos de niveles de factores elegidos automáticamente (8).

La suma tipo III no depende del orden de los efectos. Los contrastes son complejos y se asumen algunas interacciones como cero.


Ejemplo

Se efectuó un experimento con tilapía donde se evaluó la ganancia de peso expresada en gramos. Se tenían dos factores alimenticios A y B cada uno con dos dosificaciones. El interés es obtener las sumas de cuadrados bajo dos situaciones (diseño balanceado y no balanceado). Cabe anotar que el diseño experimental empleado fue completamente aleatorizado en arreglo factorial 2*2 efecto fijo.

Se puede apreciar que todas las sumas de cuadrados coinciden.









Sólo coinciden la suma de cuadrados tipolll y tipo lV.


Referencias

1. Calzada BJ. Métodos estadísticos para la investigación. Diversidad de la Molina. Lima. 1970. 640p.         [ Links ]

2. Cochran WG, Cox GM. Experimental designs. 2. ed. New York, John Wiley, 1977. 611p.         [ Links ]

3. Cochran WG, Cox GM. Diseños experimentales. Trillas, México D. F. 1981. 615p.         [ Links ]

4. Cordeiro GM. Modelos lineares generalizados. Unicamp, Campinas. 1986. 286p.         [ Links ]

5 Dobson. An introduction to linear models, Chadpman-Hall 2º edition. New York. 1991. 221p.         [ Links ]

6. Federer WT. Experimental design, the MaCmillan Company, New York .1955. 554p.         [ Links ]

7 Hinkelman K, Kempthorne O. Design and analysis of experiments. John wiley, New York.1994. 512p.         [ Links ]

8. John JA, Draper NR. An alternative family of transformations. Appl Stat 1980; 2:190-197.         [ Links ]

9. Kempthorne O, Folks L. Probability statistics and data analysis . Ames, Iowa. Iowa State University Press. 1971. 555p.         [ Links ]

10. Lemma AF. Hipoteses estatisticas com amostras desequilibradas, Fac Sci Agrom Gembloux, Bélgica. 1991.         [ Links ]

11. Little TM, Hills FJ. Métodos estadísticos aplicados en agricultura, trillas México D. F, 1976. 270p.         [ Links ]

12. Martínez GA. Diseños experimentales, México; Colegio de Postgrado de Chapingo. 1983. 1058p.         [ Links ]

13. Montgomery DC. Design and analysis of experiments, John wiley. New York 1991. 649p.         [ Links ]

14. Ostle B. Estadística aplicada. Limusa-Wiley S.A. México D .F. 1973. 629p.         [ Links ]

15. Overall JE, Spiegel DK. Concerning least squares analysis of experimental data. Psych Bull 1969; 72:311-322.         [ Links ]

16. Searle SR. Linear models for unbalanced data. Wiley J Roy Statl Soc New York. 1987; 83:911-912.         [ Links ]

17. Senedecor GW. Métodos estadísticos aplicados a la investigación agrícola y biológica. Continental. México D. F.1989. 503p.         [ Links ]

18. Sokal R, Rohlf J. Introducción a la bioestadística: Reverte S.A. New Cork. 1980. 363p.         [ Links ]

19. Torrie JH. Bioestadística. Principios y procedimientos. McGraw-Hill. México D.F. 1985. 666p.         [ Links ]

20. Yates F The analysis of multiple classifications with unequal numbers in the different classes. J Am Stat 1934; 7:121-140.         [ Links ]

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License