Os dados podem ser liberais ou conservadores? Alain Desrosières escava a curiosa história da "análise de correspondência" e sua ascensão à fama.
Clique aqui para ler a versão base em inglês.
Por muito tempo, a estatística teve a reputação de eliminar a individualidade, de descrever agregados apenas por meio de somas e médias. No entanto, na década de 1960, especialmente na França, técnicas de análise estatística descritiva foram desenvolvidas (análise de correspondência de Jean-Paul Benzecri), permitindo-nos focar em indivíduos dentro da totalidade maior. Desde então, os desenvolvimentos em tecnologia da informação e a proliferação de registros quase automáticos (desejáveis ou indesejados) de dados de indivíduos resultaram em técnicas conhecidas como mineração de dados e criação de perfil ; iluminando indivíduos, por exemplo, para identificar futuros delinquentes ou simplesmente criar perfis de consumidores. A estatística construiu, portanto, uma rede ainda mais densa de relações que nos permite fazer conexões entre indivíduos e agregados maiores. Entre essas ferramentas matemáticas e estatísticas, as mais difundidas e amplamente ensinadas são conhecidas por sua capacidade de estimar tamanho, tirar inferências e testar hipóteses, devido principalmente ao cálculo de probabilidades. Apresentamos aqui um grupo de ferramentas completamente diferente, mais descritivas do que inferenciais, cujo benefício inclui a possibilidade de criar um vaivém entre indivíduos e representações sintéticas – algo obviamente de grande interesse para cientistas políticos e sociólogos. [1]
O astrônomo belga Adolphe Quetelet (1796-1874) introduziu nas ciências humanas a ideia do homem médio, da regularidade e previsibilidade dos comportamentos médios , em oposição aos comportamentos individuais, que são aleatórios e especialmente imprevisíveis. Quando características humanas, como tamanho, se tornam distribuídas “normalmente”, digamos, de acordo com uma curva de sino, sua média supostamente representa uma realidade ontológica superior, um todo composto de propriedades específicas, células individuais distintas. Essa ideia seria a base das futuras ciências sociais quantitativas, sendo Le Suicide , de Émile Durkheim, o protótipo: a sociologia não é a união de psicologias individuais.
Então, no final do século XIX , os biometristas (e eugenistas) Francis Galton (1822-1911) e Karl Pearson (1857-1936), que apregoavam a ideia de traços humanos biológicos e intelectuais herdados, se interessaram não apenas por médias, mas também por diferenças — na dispersão e distribuição desses traços. O indivíduo foi indiretamente reintroduzido, permitindo-nos localizá-lo ao longo da escala, no espaço, ao mesmo tempo em que explicava a noção de “correlação” entre esses traços e a noção de “regressão” — formalizando os efeitos de uma “variável” sobre outra. Mas, ao focar em distribuições em vez de médias, essas novas ferramentas introduziram a ideia de “variação” e, eventualmente, “variação explicada”, e ao fazer isso o indivíduo estava temporariamente de volta a uma armadilha. No entanto, essas noções de correlação e regressão, os fundamentos da matemática estatística, tinham um futuro muito promissor em econometria, ciências sociais e engenharia social.
Os psicólogos Alfred Binet, Charles Spearman e Louis Léon Thurstone reviveriam essas ferramentas para avaliar indivíduos dentro de espaços maiores e mais complexos por meio do conceito de inteligência geral. A análise fatorial dos psicólogos (análise de componentes principais) torna visíveis esses espaços multidimensionais, mas até a década de 1960, era usada na psicologia com muito mais frequência do que nas outras ciências sociais (ciência política, sociologia, economia).
Análise de dados à la française…
Naquela época, na França, uma nova ferramenta analítica multidimensional foi colocada em prática por um estatístico único e carismático, Jean-Paul Benzecri. Chamada de análise de correspondência, ela rapidamente obteve sucesso entre os sociólogos franceses, notavelmente Pierre Bourdieu. Foi um sucesso porque os "campos" da teoria de Bourdieu podiam ser representados em cartões - gráficos com uma quantidade máxima de informações contidas em uma tabela com uma infinidade de linhas e colunas. Os cartões podem anotar as posições relativas de indivíduos específicos ou os centros de gravidade para nuvens de pontos correspondentes a uma categoria específica, por exemplo, os empregadores e bispos nos famosos artigos de Bourdieu. Além disso, são chamadas de análises "duais": podem mostrar "pontos/linhas" ou "pontos/colunas" simultaneamente, de modo que, em um único olhar, é possível ver as posições relativas de indivíduos ou grupos, bem como as variáveis que eles representam.
Esta análise de correspondência de estilo francês foi considerada por alguns como uma filha de maio de 68. À medida que se espalhou pelas ciências sociais por volta de 1970, foi considerada "esquerdista", assim como as técnicas econométricas, por outro lado, foram consideradas "direitistas". Hoje, isso parece estranho: ferramentas estatísticas por si só não são nem "esquerdistas" nem "direitistas". Como explicar esse fenômeno, típico da atmosfera após 1968? Os argumentos (certamente debatidos apaixonadamente) apresentados pelos inquilinos da análise de dados "esquerdista" eram de dois tipos. Por um lado, a análise era supostamente neutra, sem viés ideológico. Por outro lado, era multidimensional.
Em primeiro lugar, a análise de correspondência era vista como uma técnica puramente descritiva (ao contrário da econometria), sem um modelo econômico/teórico subjacente e implícito: livre da teoria neoclássica ideologicamente inclinada. Era suposto permitir que se separasse – sem qualquer ideologia a priori – as estruturas fundamentais enterradas em uma montanha opaca de dados. Muitos disseram que a ideia, alimentada por Benzecri, era simplista porque a escolha de variáveis e nomenclaturas usadas nas tabelas analíticas já implicava uma hipótese, se não um modelo. Ainda assim, a ferramenta foi apresentada nesses termos por seus apoiadores, em oposição explícita à epistemologia popperiana, como análise exploratória descritiva em vez de análise causal reforçada por um modelo predeterminado.
Além disso, na esteira de 1968, sua multidimensionalidade parecia ser prova de pluralismo e democracia, e não simplesmente unidimensional e reducionista (a famosa escala salarial tão cara aos economistas) – os dois últimos sinônimos de monotonia e hierarquia. O precisamente intitulado Homem Unidimensional de Herbert Marcuse, um dos livros cult da época, apareceu em 1968 com sua crítica vigorosa ao capitalismo de consumo. Essa multidimensionalidade permitiu uma compreensão dos conflitos de classe mais sutil do que a divisão proletário/burguesia, tudo isso enquanto ainda mantinha o caráter central desta última.
Os adversários desse ponto de vista tradicionalmente apontam que as ferramentas técnicas não têm tendência política ou ideológica, e que o formalismo matemático (diagonalização de matrizes de variância-covariância, buscas de autovalor e autovetor) é o mesmo para análise de correspondência, bem como para a resolução de modelos econométricos com equações simultâneas. Mas mesmo que as sintaxes matemáticas dessas duas ferramentas sejam relacionadas, suas semânticas são tão diferentes quanto se pode imaginar: de um lado, há a crítica sociológica de Bourdieu, e do outro, há os modelos econométricos de conselheiros governamentais, que focam em ação e decisão.
…prepara o cenário para uma cartografia social bidimensional…
Bourdieu e seus discípulos colocaram tudo isso em uso espetacular a partir de 1975, especialmente no livro La distinct: Critique sociale du jugement . Nele, Bourdieu analisou os gostos e comportamentos culturais dos franceses de acordo com uma nomenclatura elegante de grupos “socioprofissionais”, que incluía mais de trinta posições e que tinha sido usada pelo l'INSEE (Instituto Estatístico Francês) desde a década de 1950 para seus censos e pesquisas. O interesse dessa lista era que ela produzia distinções muito mais complexas do que aquelas obtidas com a escala unidimensional da sociologia anglo-americana de outrora (classe alta, classe média, classe baixa). A análise de correspondência produziu representações gráficas estruturadas ao longo de “eixos fatoriais” criados a partir de tabelas de pesquisa de dados (ou matrizes). [2]
O primeiro eixo, levando em conta um máximo de informação (ou “variância”) contida nesta tabela, colocou, como esperado, as classes ociosas contra as classes mais baixas. Mas o segundo eixo (ortogonal ao primeiro e retendo toda a variância não explicada por ele) mostrou contrastes que eram muito menos evidentes a priori (ainda com uma “variância explicada” notavelmente inferior, mantendo assim a hegemonia da oposição da classe mais baixa). Ao longo deste segundo eixo, duas outras categorias foram contrastadas em probabilidade , para usar as palavras de Bourdieu. Uma categoria foi designada “capital cultural” (professores, artistas, pesquisadores, funcionários públicos assalariados com diplomas – principalmente urbanos), e a outra foi chamada de “capital econômico” (empregadores, comerciantes, artesãos, fazendeiros, trabalhadores assalariados em empresas privadas – mais frequentemente rurais). Assim, em um determinado nível na escala anglo-americana (por exemplo, “a classe média”), surgem distinções claras em termos de práticas culturais, bairros residenciais e padrões de votação.
O mapeamento do mundo social proposto por Bourdieu em La distinct vem em parte de análises de correspondência feitas em dados de uma série de investigações estatísticas. Seu segundo eixo, contrastando porções de classe em termos de capital cultural e capital econômico, é relativamente estável. Ele foi sustentado por vários outros estudos sobre práticas de consumo, sobre casamento, sobre a distribuição de território residencial em grandes cidades e sobre padrões de votação . Este último exemplo é muito revelador, pois somente a representação bidimensional permite uma contabilização das diferenças surpreendentes entre, por um lado, os resultados das eleições presidenciais e parlamentares e, por outro, os votos no referendo para a União Europeia em 1992 e 2005.
…que evidencia certas peculiaridades no comportamento eleitoral.
Em 1970, o próprio Benzecri aplicou a análise de correspondência aos resultados da votação de vinte distritos parisienses na eleição presidencial de 1969. Dois candidatos clássicos de direita, Georges Pompidou e Alain Poher, enfrentaram um comunista, Jacques Duclos, dois representantes da esquerda intelectual, Michel Rocard e Alain Krivine, e um candidato que representava pequenos empresários, Louis Ducatel. O primeiro eixo classicamente colocou Pompidou e Poher contra Duclos, os bairros burgueses contra os bairros da classe trabalhadora. Mas o estatístico Benzecri, de forma deliciosa, antecipando o que mais tarde constituiria o segundo eixo no celebrado esquema de Bourdieu em La Distinction, comentou assim sobre os resultados do segundo eixo de sua análise de correspondência:
“No segundo eixo, acreditamos ser possível reconhecer algumas distinções comuns. Politicamente, é Rocard, apoiado por intelectuais de classe média que vivem no 6º arrondissement , contra Ducatel, cujo feudo é composto por outra classe média de artesãos e pequenos comerciantes ativos entre o antigo Les Halles e a Bastilha. De um lado, estão os bairros que, embora não sejam estritamente residenciais, ainda possuem poucas oficinas e negócios; do outro lado, um labirinto pitoresco saindo direto de Hausmann, levando talvez até Rungis... No mapa político, os arrondissements 5, 6, 13, 14 e 15 estão sozinhos acima do primeiro eixo, com Rocard e Krivine...” (Benzecri, 1970).
O mesmo mapeamento bidimensional de categorias sociais mostra-se relevante para a interpretação das diferenças entre as eleições políticas tradicionais e os dois referendos relativos à União Europeia em 1992 e 2005. Um mapa dos resultados das eleições legislativas de 1973, feito com pesquisas indicando a categoria social dos eleitores, foi publicado em 1975. Seguindo o primeiro eixo de cima para baixo (apresentado verticalmente), há cinco partidos. Os eleitores de esquerda são habilmente representados à esquerda do esquema, e os eleitores de direita à direita. Os republicanos independentes (a direita burguesa de Valéry Giscard d'Estaing) estão no topo, na zona para profissionais liberais e executivos de alto escalão. Abaixo disso, na mesma vertical e perto do centro da imagem, está o Centro (democratas cristãos). A UDR (o partido gaullista) está no mesmo nível do Centro, mas mais à direita, perto do polo "não assalariado" do segundo eixo. O Partido Socialista (o de François Mitterrand) está mais abaixo e claramente à esquerda, do lado dos executivos de médio escalão, enquanto o Partido Comunista está ainda mais abaixo, na zona dos trabalhadores.
Esta configuração é um modelo de sociologia eleitoral clássica. No entanto, a representação bidimensional permite uma análise mais sutil. Os dois grandes grupos políticos, a direita e a esquerda (cujo voto foi dividido quase igualmente entre Giscard d'Estaing e Mitterrand em 1974), são divididos no esquema não com uma linha horizontal, mas por uma "segunda bissetriz" (NW - SE). Os eleitores de Giscard d'Estaing são (em probabilidade) mais ou menos de classe alta e não assalariados (comerciantes, artesãos e empregadores - as categorias designadas como capital econômico). Os eleitores de Mitterrand são trabalhadores, empregados e a classe média assalariada, notavelmente professores (categorias designadas como capital cultural). A Frente Nacional, o partido populista de Jean-Marie Le Pen, ainda não existia. Depois de se tornar uma força política significativa em 1985, complicou o esquema, encontrando-se socialmente mais ou menos no quadrante sudeste do gráfico, na zona não assalariada, de classe baixa e média, com eleitores situados em áreas rurais ou em pequenas cidades.
Trinta anos depois, esse meio de representar o espaço social permitiria esclarecimentos esclarecedores sobre o processo de votação em ambos os referendos europeus: o Tratado de Maastricht de 1992 e o Projeto de Constituição Europeia de 2005. Essas eleições deixaram os adeptos da sociologia eleitoral da velha escola bastante desconcertados, porque os grupos sociais não estavam distribuídos da mesma maneira que nas eleições tradicionais que colocam a direita contra a esquerda. Para esses referendos, é a “primeira bissetriz” (NE-SW), perpendicular à anterior , que distingue (em probabilidade) os eleitores sim e não . Em ambos os referendos, as classes altas, os graduados em universidades urbanas e os funcionários públicos assalariados votaram sim com mais frequência do que as classes baixas e os pequenos empresários. Isso ficou claro nas pesquisas feitas em 1992 e 2005.
Nas últimas duas décadas, métodos chamados mineração de dados foram desenvolvidos. Eles são usados principalmente em marketing, para diferenciar categorias de clientela ou para "traçar perfis" de futuros delinquentes. A análise de dados francesa, como a análise de correspondência de Benzecri, é ancestral de ferramentas mais recentes, independentemente do fato de que Benzecri e Bourdieu certamente não tinham a mínima ideia de suas futuras aplicações em negócios e policiamento. Esses métodos descritivos e classificatórios são ferramentas diferentes em estatística inferencial, usadas especialmente em econometria e, mais geralmente, em procedimentos científicos hipotéticos-dedutivos. Sua flexibilidade é o que os torna únicos, permitindo um vai e vem entre indivíduos e seus respectivos reagrupamentos. Essa flexibilidade é claramente de suma importância tanto na criação de perfis quanto na recente explosão do uso de bancos de dados, ambos subprodutos da nova tecnologia de informação e comunicação desenvolvida desde 1990.
A história dos métodos estatísticos sempre foi atormentada por uma tensão entre os objetivos do conhecimento puro e da crítica social, por um lado, e a aplicação prática nos campos da governança social ou do comércio, por outro. Dito isso, a análise de dados de Benzecri e os métodos mais recentes de mineração de dados cobrem todo o espectro, desde a crítica mais radical até e incluindo empreendimentos políticos e comerciais. É também outra maneira mais séria de colocar aquela questão ingênua dos anos 1970: a análise de correspondência é esquerdista ou direitista?
Comentários
Postar um comentário