Sobre a Disciplina
Técnicas básicas e avançadas utilizadas em sistemas de informação baseados em texto: indexação eficiente de texto; modelos de recuperação booleano e vetorial.
Pesquisa web incluindo rastejamento (crawling), algoritmos baseados em ligações e metadados.
Agrupamento e classificação de texto e mineração de texto.
Horário: Terça -› 16:00h-18:00h; Quinta -› 16:00h-18:00h
Conteúdo Programático
- Introdução à recuperação da informação
- Consultas booleanas
- Vocabulário de termos e listas de postagem
- Dicionários e recuperação tolerante
- Construção de índices
- Compressão de índices
- Classificação, ponderação de termos e consultas vetoriais
- Cálculo de score
- Sumário de resultados
- Feedback relevante e expansão de consultas
- Classificação de texto (Modelo de Naive-Bayes e filtragem de spam)
- Agrupamento plano
- Fundamentos de buscas na web
- Índices e rastejamento (crawling) web
- Análise de links
Plano de Aulas (sendo preparado on the go)
| Data |
Assunto |
Notas de aula |
Material para leitura/consulta |
| 06/03/2012 |
| |
|
| 08/03/2012 |
|
|
|
| 13/03/2012 |
|
|
|
| 15/03/2012 |
|
|
| | | | | |
Bibliografia
Básica
Complementar
- Managing Gigabytes, by I. Witten, A. Moffat, and T. Bell.
- Information Retrieval: Algorithms and Heuristics by D. Grossman and O. Frieder.
- Modern Information Retrieval, by R. Baeza-Yates and B. Ribeiro-Neto.
- Finding Out About, by R. Belew.
- Mining the Web, by S. Chakrabarti.
Forma de Avaliação
A avaliação da disciplina será realizada através de um projeto em grupo (máximo de 4 alunos) e duas provas teóricas, com o seguintes pesos:
- Projeto: 40%
- Minitestes: 60%
|
|