obtener el texto de una pagina web?

25/02/2005 - 16:33 por Ignacio X. Domínguez | Informe spam
Saludos. Cual es la manera mas sencilla de obtener todo el texto de una
pagina web? de hecho tengo el codigo HTML de la pagina pero lo que quiero es
el texto sin todas las etiquetas, comentarios, scripts, vinculos (estos los
quiero como texto), etc. Hay alguna clase el C# que me permite eliminarlo de
manera similar que la funcion strip_tags() de PHP?

Gracias

Ignacio

Preguntas similare

Leer las respuestas

#1 Oscar Galvis
25/02/2005 - 17:11 | Informe spam
Esta gente tiene un componente q hace lo q quieres...


http://www.clevercomponents.com/pro...itenet.asp

O si quieres hacert el parse

hazle con la clase

System.Net.WebResponse

Salu2

Oscar

"Ignacio X. Domínguez" wrote in message
news:#
Saludos. Cual es la manera mas sencilla de obtener todo el texto de una
pagina web? de hecho tengo el codigo HTML de la pagina pero lo que quiero


es
el texto sin todas las etiquetas, comentarios, scripts, vinculos (estos


los
quiero como texto), etc. Hay alguna clase el C# que me permite eliminarlo


de
manera similar que la funcion strip_tags() de PHP?

Gracias

Ignacio


Respuesta Responder a este mensaje
#2 Unai Zorrilla Castro
25/02/2005 - 17:29 | Informe spam
Oye no se si te refieres a todo el texto de una web o bien
solamente a texto de una etiqueta en particular, pero
bueno, lo mejor es usar expresiones regulares para quitar
las etiquetas html y scripts y quedarte con el resto. El
contenido de la web lo puedes capturar usando como se dijo
en el mensaje anterio HttpWebRequest

Esta gente tiene un componente q hace lo q quieres...


http://www.clevercomponents.com/pro...tenet/suit


enet.asp

O si quieres hacert el parse

hazle con la clase

System.Net.WebResponse

Salu2

Oscar

"Ignacio X. Domínguez" wrote in


message
news:#
Saludos. Cual es la manera mas sencilla de obtener todo




el texto de una
pagina web? de hecho tengo el codigo HTML de la pagina




pero lo que quiero
es
el texto sin todas las etiquetas, comentarios, scripts,




vinculos (estos
los
quiero como texto), etc. Hay alguna clase el C# que me




permite eliminarlo
de
manera similar que la funcion strip_tags() de PHP?

Gracias

Ignacio






.

Respuesta Responder a este mensaje
#3 Ignacio X. Domínguez
25/02/2005 - 18:54 | Informe spam
efectivamente, utilizo la clase HttpWebRequest para obtener el codigo HTML y
lo que busco es el texto completo de la página. Apenas llevo un par de dias
conociendo las expresiones regulares y he logrado a través de ellas obtener
una lista de todos los vinculos de una página. Sin embargo, no se me ocurre
como obtener el texto utilizando expresiones regulares pues las etiquetas
pueden estar anidadas, hay tablas, etc..

Agradeceria cualquier ayuda que me puedan brindar al respecto.



"Unai Zorrilla Castro" wrote in
message news:14c201c51b57$269aa1a0$

Oye no se si te refieres a todo el texto de una web o bien
solamente a texto de una etiqueta en particular, pero
bueno, lo mejor es usar expresiones regulares para quitar
las etiquetas html y scripts y quedarte con el resto. El
contenido de la web lo puedes capturar usando como se dijo
en el mensaje anterio HttpWebRequest

Esta gente tiene un componente q hace lo q quieres...


http://www.clevercomponents.com/pro...tenet/suit


enet.asp

O si quieres hacert el parse

hazle con la clase

System.Net.WebResponse

Salu2

Oscar

"Ignacio X. Domínguez" wrote in


message
news:#
Saludos. Cual es la manera mas sencilla de obtener todo




el texto de una
pagina web? de hecho tengo el codigo HTML de la pagina




pero lo que quiero
es
el texto sin todas las etiquetas, comentarios, scripts,




vinculos (estos
los
quiero como texto), etc. Hay alguna clase el C# que me




permite eliminarlo
de
manera similar que la funcion strip_tags() de PHP?

Gracias

Ignacio






.

Respuesta Responder a este mensaje
#4 Ignacio X. Domínguez
25/02/2005 - 19:32 | Informe spam
Saludos, queria compartir con ustedes la solucion a la que he llegado:

string resultado = null;
//Quitar etiquetas HTML
resultado = Regex.Replace(HTML, "<(.|\)*?>", " ",
RegexOptions.IgnoreCase);
//Quitar espacios extra y convertirlo en uno solo
resultado = Regex.Replace(resultado, "(?:\\s{2,})", " ",
RegexOptions.IgnoreCase);

me funciona bien para los pocos casos que he probado hasta ahora.. si
alguien consigue una mejor solucion, estaria muy interesado en conocerla.

Suerte

"Ignacio X. Domínguez" wrote in message
news:%
efectivamente, utilizo la clase HttpWebRequest para obtener el codigo HTML
y lo que busco es el texto completo de la página. Apenas llevo un par de
dias conociendo las expresiones regulares y he logrado a través de ellas
obtener una lista de todos los vinculos de una página. Sin embargo, no se
me ocurre como obtener el texto utilizando expresiones regulares pues las
etiquetas pueden estar anidadas, hay tablas, etc..

Agradeceria cualquier ayuda que me puedan brindar al respecto.



"Unai Zorrilla Castro" wrote in
message news:14c201c51b57$269aa1a0$

Oye no se si te refieres a todo el texto de una web o bien
solamente a texto de una etiqueta en particular, pero
bueno, lo mejor es usar expresiones regulares para quitar
las etiquetas html y scripts y quedarte con el resto. El
contenido de la web lo puedes capturar usando como se dijo
en el mensaje anterio HttpWebRequest

Esta gente tiene un componente q hace lo q quieres...


http://www.clevercomponents.com/pro...tenet/suit


enet.asp

O si quieres hacert el parse

hazle con la clase

System.Net.WebResponse

Salu2

Oscar

"Ignacio X. Domínguez" wrote in


message
news:#
Saludos. Cual es la manera mas sencilla de obtener todo




el texto de una
pagina web? de hecho tengo el codigo HTML de la pagina




pero lo que quiero
es
el texto sin todas las etiquetas, comentarios, scripts,




vinculos (estos
los
quiero como texto), etc. Hay alguna clase el C# que me




permite eliminarlo
de
manera similar que la funcion strip_tags() de PHP?

Gracias

Ignacio






.





email Siga el debate Respuesta Responder a este mensaje
Ads by Google
Help Hacer una preguntaRespuesta Tengo una respuesta
Search Busqueda sugerida