CERCA
PER MODELLO
FullScreen Chatbox! :)

Utente del giorno: carotix con ben 2 Thanks ricevuti nelle ultime 24 ore
Utente della settimana: 9mm con ben 11 Thanks ricevuti negli ultimi sette giorni
Utente del mese: 9mm con ben 34 Thanks ricevuti nell'ultimo mese

Visualizzazione dei risultati da 1 a 9 su 9
Discussione:

Quale parser HTML usate?

Se questa discussione ti è stata utile, ti preghiamo di lasciare un messaggio di feedback in modo che possa essere preziosa in futuro anche per altri utenti come te!
  1. #1
    Androidiano


    Registrato dal
    May 2009
    Messaggi
    108

    Ringraziamenti
    1
    Ringraziato 1 volta in 1 Post
    Predefinito

    Quale parser HTML usate?

    Ho provato htmlcleaner e mi chiedevo se ci fossero alternative valide in giro.
    Grazie.

  2.  
  3. #2
    Administrator L'avatar di Andrea


    Registrato dal
    Nov 2008
    Messaggi
    3,368
    Smartphone
    Nexus S, myTouch Slide 4g

    Ringraziamenti
    143
    Ringraziato 880 volte in 323 Posts
    Predefinito

    Dipende essenzialmente da cosa devi fare. Ufficialmente non esiste parser html che tenga. Questo per colpa del design dei siti che 99% non è html validato.

    Perciò esistono le regexp che ti permettono, nella maggior parte dei casi, di prendere le porzioni della pagina che ti servono con qualche trick

    Twitter @veke87

  4. #3
    Androidiano


    Registrato dal
    May 2009
    Messaggi
    108

    Ringraziamenti
    1
    Ringraziato 1 volta in 1 Post
    Predefinito

    Capisco.
    Io ho usato HtmlCleaner, ma per arrivare ad un risultato decente ci ho dato di if e else.

  5. #4
    Administrator L'avatar di Andrea


    Registrato dal
    Nov 2008
    Messaggi
    3,368
    Smartphone
    Nexus S, myTouch Slide 4g

    Ringraziamenti
    143
    Ringraziato 880 volte in 323 Posts
    Predefinito

    dove hai trovato htmlcleaner per java ?

    Twitter @veke87

  6. #5
    Androidiano


    Registrato dal
    May 2009
    Messaggi
    108

    Ringraziamenti
    1
    Ringraziato 1 volta in 1 Post

  7. Il seguente Utente ha ringraziato riddick86 per il post:

    Andrea (10-05-10)

  8. #6
    Administrator L'avatar di Andrea


    Registrato dal
    Nov 2008
    Messaggi
    3,368
    Smartphone
    Nexus S, myTouch Slide 4g

    Ringraziamenti
    143
    Ringraziato 880 volte in 323 Posts
    Predefinito

    Yeah . Sembra powerful ... Ma funziona perfettamente ?

    Twitter @veke87

  9. #7
    Androidiano


    Registrato dal
    May 2009
    Messaggi
    108

    Ringraziamenti
    1
    Ringraziato 1 volta in 1 Post
    Predefinito

    Si certo.
    La documentazione lascia un pò a desiderare, però una volta capito come funziona fila liscio. ;-)

  10. #8
    Administrator L'avatar di Andrea


    Registrato dal
    Nov 2008
    Messaggi
    3,368
    Smartphone
    Nexus S, myTouch Slide 4g

    Ringraziamenti
    143
    Ringraziato 880 volte in 323 Posts
    Predefinito

    Fico, Grazie della dritta

    Twitter @veke87

  11. #9
    Senior Droid L'avatar di Cecco


    Registrato dal
    May 2009
    Messaggi
    478
    Smartphone
    Samsung Galaxy Nexus

    Ringraziamenti
    6
    Ringraziato 77 volte in 43 Posts
    Predefinito

    Vado a riesumare il post.
    Ho un dubbio, sto usando HTML Cleaner e sto seguendo un approccio del tipo:

    codice:
    HtmlCleaner cleaner = new HtmlCleaner();
    		CleanerProperties props = cleaner.getProperties();
    		props.setAllowHtmlInsideAttributes(true);
    		props.setAllowMultiWordAttributes(true);
    		props.setRecognizeUnicodeChars(true);
    		props.setOmitComments(true);
    		 
    		// apertura della connessione
    		URL url;
    		try {
    			url = new URL(url_str);
    			URLConnection conn = url.openConnection();
    			rootNode = cleaner.clean(new InputStreamReader(conn.getInputStream()));
    Vorrei sapere se esiste un modo per tirar fuori l'html completo e ripulito, un pò come fa nella home page del progetto HTML Cleaner. Esempio:

    Here is a typical example - improperly structured HTML containing unclosed tags and missing quotes:

    codice HTML:
    <table id=table1 cellspacing=2px
        <h1>CONTENT</h1>
        <td><a href=index.html>1 -> Home Page</a>
        <td><a href=intro.html>2 -> Introduction</a>

    After putting it through HtmlCleaner, XML similar to the following is coming out:

    codice HTML:
    <?xml version="1.0" encoding="UTF-8"?>
    <html>
       <head />
       <body>
          <h1>CONTENT</h1>
          <table id="table1" cellspacing="2px">
             <tbody>
                <tr>
                   <td>
                      <a href="index.html">1 -&gt; Home Page</a>
                   </td>
                   <td>
                      <a href="intro.html">2 -&gt; Introduction</a>
                   </td>
                </tr>
             </tbody>
          </table>
       </body>
    </html>
    E' possibile? Come posso fare?
    GynLemon....m'hai fatto venì sete

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire risposte
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Torna su
Privacy Policy