Capturando conteúdo HTML com JSoup

Tempos atrás postei o pequeno tutorial, Capturando HTML de Página Web com Java, que demonstra uma forma simples de capturar uma página web e salva-la em um arquivo. Porém tal tutorial não permite que se capture um conteúdo especifico e sim toda a página. Caso seja necessário capturar o conteúdo de uma TAG como, <a><img><div><label>, entre outras, não seria possível desta maneira.

Pesquisando um pouco nas bibliotecas do JDK, descobri que existe algumas classes que permitiriam isso, porém depois de uns testes, acabei não gostando muito e preferi testar a biblioteca Jsoup. Esta é uma biblioteca Java que permite a leitura de uma página HTML e inclusive do novo HTML 5. O Jsoup trabalha como um biblioteca XML do tipo DOM, lendo as tags pelo tipo, podendo capturar além do conteúdo o valor de seus atributos.

Jsoup é um projeto open source distribuído sob a licença MIT e seu código fonte está disponível no GitHub. Você pode encontrar uma documentação de introdução à biblioteca no jsoup cookbook ou assistir a uma vídeo aula que montei sobre o assunto.

Nesta vídeo aula eu demonstro como capturar um página através de sua URL e depois como efetuar o parser em tags de conteúdo especifico. Usei como testes as paginas do próprio blog, e uma das atividades mostra como montar uma pequena e simples aplicação SWING para exibir parte do conteúdo capturado.

Capturando conteúdo HTML com JSoup – Parte I


Capturando conteúdo HTML com JSoup – Parte II

GitHub

Ballem

Marcio Ballem é bacharel em Sistemas de Informação pelo Centro Universitário Franciscano em Santa Maria/RS. Tem experiência com desenvolvimento Delphi e Java em projetos para gestão pública e acadêmica. Possui certificação em Java, OCJP 6.

Você pode gostar...