Ensino‎ > ‎

Ordenação e Recuperação de Dados

Sobre a Disciplina

Técnicas básicas e avançadas utilizadas em sistemas de informação baseados em texto: indexação eficiente de texto; modelos de recuperação booleano e vetorial.
Pesquisa web incluindo rastejamento (crawling), algoritmos baseados em ligações e metadados.
Agrupamento e classificação de texto e mineração de texto.

Carga horária: 60 horas
Horário: Terça -› 16:00h-18:00h; Quinta -› 16:00h-18:00h

Conteúdo Programático

  1. Introdução à recuperação da informação
  2. Consultas booleanas
  3. Vocabulário de termos e listas de postagem
  4. Dicionários e recuperação tolerante
  5. Construção de índices
  6. Compressão de índices
  7. Classificação, ponderação de termos e consultas vetoriais
  8. Cálculo de score
  9. Sumário de resultados
  10. Feedback relevante e expansão de consultas
  11. Classificação de texto (Modelo de Naive-Bayes e filtragem de spam)
  12. Agrupamento plano
  13. Fundamentos de buscas na web
  14. Índices e rastejamento (crawling) web
  15. Análise de links

Plano de Aulas (sendo preparado on the go)


Data  Assunto  Notas de aula  Material para leitura/consulta
 06/03/2012    
   
 08/03/2012
   
 13/03/2012


 15/03/2012


    




Bibliografia

Básica
Complementar
  • Managing Gigabytes, by I. Witten, A. Moffat, and T. Bell.
  • Information Retrieval: Algorithms and Heuristics by D. Grossman and O. Frieder.
  • Modern Information Retrieval, by R. Baeza-Yates and B. Ribeiro-Neto.
  • Finding Out About, by R. Belew.
  • Mining the Web, by S. Chakrabarti.


Forma de Avaliação

A avaliação da disciplina será realizada através de um projeto em grupo (máximo de 4 alunos) e duas provas teóricas, com o seguintes pesos:
  • Projeto: 40%
  • Minitestes: 60%
Notas