Hola,
Disculpen por la longitud del mensaje y por si no les parece que este
sea el foro correcto. Yo pienso que sí puede serlo.
Tengo un problema un tanto extraño. He extraido texto de un PDF que
originalmente era de Macintosh (QuarkXpress). El archivo resultante es
un documento de Word (doc). La mayor parte del archivo está correcto y
yo puedo cambiar el juego de cacracteres del archivo extraido a
cualquier otro y los párrafos y caracteres se muestran correctamente
en la nueva fuente. Sin embargo, algunos "símbolos" (según Word están
en fuente Symbol), por ejemplo "mayor o igual que", aparecen
correctamente en pantalla, se imprimen correctamente, pero al intentar
asignarles cualquier fuente estándar (cambiando el formato de fuente
como haría con cualquier otro carácter o párrafo), por ejemplo Times
New Roman, cambian a un" cuadrado", como si no los reconociera en esa
tipo de fuentes o no tuviera modo de representarlos. Estos cuadrados
son perfectamente convertibles al símbolo original, simplemente
eligiendo la fuente Symbol en vez de la fuente Times New Roman.
Hasta aquí todo parece más o menos correcto. Sin embargo, si yo elijo
el mismo símbolo (mayor o igual que) en la fuente Symbol, lo pego a un
documento de Word y lo cambio a Times New Roman, se sigue mostrando
correctamente como "mayor o igunal que", no como un "cuadrado" (lo que
pasa al cambiar los "mayor o igual que" de los Symbol provenientes de
la extracción del PDF.
Mando este problema al foro de Word porque parece un problema de Word,
no de la extracción de texto PDF. Lo digo porque si yo ejecuto el
comando:
Debug.Print "Font: " & .Font
Debug.Print "Char number " & .CharNum
simplemente para que Word me indique qué código Unicode tiene ese
carácter, los resultados son los siguientes:
"mayor o igual que" en formato Symbol de texto extraido de PDF: -3917
"cuadrado" en formato Times New Roman de texto extraido de PDF y
convertido desde Symbol: -3917
"mayor o igual que" en formato Times New Roman creado en Word: 8805
"mayor o igual que" en formato Symbol creado en Word: -3995
Es decir, Word no reconoce que el Symbol inicial se ha convertido a
otra fuente. Además, los códigos que asigna a este Symbol no se
corresponden ni con el código que tiene este mismi símbolo "mayor o
igual que" creado directamente en un documento en blanco desde el Mapa
de caracteres (o desde insertar símbolo, da igual), ni con ese mismo
símbolo convertido a la fuente Times New Roman.
Si yo utilizo el pincel de pegar formato y copio el formato del
símbolo inicial extraido del PDF (lo copia desde el texto ya extraido
en Word, naturalmente) a un símbolo "mayor o gual que" creado
directamente en Word, no obtengo el mismo código que tenía
inicialmente, ni asignándole la fuente Symbol, ni la Times New Roman.
¿Dónde está el problema? ¿Cómo puedo solucionarlo?
Necesito crear una macro que me convierta todos estos caracteres de un
documento extraido de un PDF a Times New Roman, pero naturalmente
deben conservar el aspecto original, es decir, si son un "mayor o
igual que" deben seguir siéndolo. No estoy preguntando por cómo hacer
la macro (puedo hacerla) sino cómo puedo averiguar qué codificación
está REALMENTE utilizando Word para estos caracteres. Evidentemente,
la fuente no es la Symbol que utiliza cuando yo creo estos mismos
símbolos con el mapa de caracteres o insertando el símbolo.
Gracias,
Jon
Leer las respuestas