Marcos André Gonçalves,

Universidade Federal de Minas Gerais

Abstract:

A efetividade de um sistema de recuperação de informação depende fundamentalmente da qualidade da função de ordenação (ranking) dos documentos. Até hoje, literalmente, milhares de alternativas de funções de ordenação já foram empiricamente estudadas. Já se sabe também que o comportamento de funções consideradas standard, como TF-IDF e BM25, pode variar de acordo com o contexto (coleção e consultas) para a qual são aplicadas. Em função disso, abordagens que conseguem aprender características específicas deste contexto para gerar uma função de ordenação mais específica, têm conseguido resultados mais efetivos do que as funções standard. Uma dessas abordagens é Programação Genética (GP). Diversos trabalhos utilizam evidências estatísticas da coleção, dos documentos e das consultas como características dos indivíduos. Diferentemente daqueles, este trabalho utiliza evidências mais significativas no lugar de informações estatísticas. Estas evidências foram extraídas de conhecidas funções de ordenação (CCA) e de probabilidades (PROB) de ocorrência de termos e documentos em uma coleção. Os melhores resultados obtidos com estas evidências para a coleção TREC-8, apresentaram ganhos de cerca de 41% na precisão média (MAP) contra BM25 e de quase 18% contra uma abordagem que usa GP a partir de evidências estatísticas.

 

Date: 2006-Sep-13     Time: 15:00:00     Room: Taguspark, anfiteatro A5


For more information: