Ho provato htmlcleaner e mi chiedevo se ci fossero alternative valide in giro.
Grazie.
Visualizzazione stampabile
Ho provato htmlcleaner e mi chiedevo se ci fossero alternative valide in giro.
Grazie.
Dipende essenzialmente da cosa devi fare. Ufficialmente non esiste parser html che tenga. Questo per colpa del design dei siti che 99% non è html validato.
Perciò esistono le regexp che ti permettono, nella maggior parte dei casi, di prendere le porzioni della pagina che ti servono con qualche trick
Capisco.
Io ho usato HtmlCleaner, ma per arrivare ad un risultato decente ci ho dato di if e else.
dove hai trovato htmlcleaner per java ?
Yeah . Sembra powerful ... Ma funziona perfettamente ?
Si certo.
La documentazione lascia un pò a desiderare, però una volta capito come funziona fila liscio. ;-)
Fico, Grazie della dritta :)
Vado a riesumare il post.
Ho un dubbio, sto usando HTML Cleaner e sto seguendo un approccio del tipo:
Vorrei sapere se esiste un modo per tirar fuori l'html completo e ripulito, un pò come fa nella home page del progetto HTML Cleaner. Esempio:codice:HtmlCleaner cleaner = new HtmlCleaner();
CleanerProperties props = cleaner.getProperties();
props.setAllowHtmlInsideAttributes(true);
props.setAllowMultiWordAttributes(true);
props.setRecognizeUnicodeChars(true);
props.setOmitComments(true);
// apertura della connessione
URL url;
try {
url = new URL(url_str);
URLConnection conn = url.openConnection();
rootNode = cleaner.clean(new InputStreamReader(conn.getInputStream()));
Here is a typical example - improperly structured HTML containing unclosed tags and missing quotes:
codice HTML:<table id=table1 cellspacing=2px
<h1>CONTENT</h1>
<td><a href=index.html>1 -> Home Page</a>
<td><a href=intro.html>2 -> Introduction</a>
After putting it through HtmlCleaner, XML similar to the following is coming out:
E' possibile? Come posso fare?codice HTML:<?xml version="1.0" encoding="UTF-8"?>
<html>
<head />
<body>
<h1>CONTENT</h1>
<table id="table1" cellspacing="2px">
<tbody>
<tr>
<td>
<a href="index.html">1 -> Home Page</a>
</td>
<td>
<a href="intro.html">2 -> Introduction</a>
</td>
</tr>
</tbody>
</table>
</body>
</html>