Ah, jeg sidder og trækker data ud af et leksikon (PDF -> hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det.
-
@infonauten tror ikke det er muligt at lave noget generelt give the staten of pdfs. Så jeg er aldrig lykkedes med andet end at hive så meget rå tekst ud som muligt og så prøve mig frem med uperfekte regex til at vride lidt struktur frem
@maltelau det er en kæmpe mundfuld, ja. Jeg arbejder på en heuristisk model, der kigger på skriftstørrelser, marginer og f.eks. alignments for at lave en relativt ok PDF -> struktureret, reflowable HTML, men der er så fucking mange edge cases som jeg støder ind i undervejs. Og så er jeg ikke engang kommet ind på hyphenation / orddelinger generelt. Jeg bliver mere hvidhåret end jeg allerede er

-
@infonauten Åh nej, og scriptet kan ikke bruge underscore som kursiv-markør? Jeg foretrækker klart asterisk fremfor underscore, men hvis det kan hjælpe konverteringen...
@fanden lige nu kører jeg bare den gamle proces -> HTML, jeg har en deadline for leverancen.
Men ja, enten underscore eller bare escape * inden jeg kører formattering. Om end jeg tror markdown nok er en blindgyde i forhold til mit formål, skal nok blive ved HTML. -
@maltelau det er en kæmpe mundfuld, ja. Jeg arbejder på en heuristisk model, der kigger på skriftstørrelser, marginer og f.eks. alignments for at lave en relativt ok PDF -> struktureret, reflowable HTML, men der er så fucking mange edge cases som jeg støder ind i undervejs. Og så er jeg ikke engang kommet ind på hyphenation / orddelinger generelt. Jeg bliver mere hvidhåret end jeg allerede er

@maltelau kender du Bento PDF? Den har nogle ok værktøjer til at hive data ud af PDFer (om end de heller ikke er perfekte). https://www.bentopdf.com/index.html
-
@maltelau kender du Bento PDF? Den har nogle ok værktøjer til at hive data ud af PDFer (om end de heller ikke er perfekte). https://www.bentopdf.com/index.html
@infonauten tror også jeg har et par hvide hår endnu, og jeg har ikke engang ville have andet struktur end overskrifter osv ud. Kender ikke bento nej, har bare brugt gode gamle poppler's pdftotext
-
F folfdk@helvede.net shared this topic
-
@infonauten tror også jeg har et par hvide hår endnu, og jeg har ikke engang ville have andet struktur end overskrifter osv ud. Kender ikke bento nej, har bare brugt gode gamle poppler's pdftotext
@maltelau pdftohtml fra poppler gør det også nogenlunde. men på grund af pdf'ers mærkelighed er det svært at blive rigtig godt. Men nu tilbage og fixe poppler. @infonauten
-
@maltelau pdftohtml fra poppler gør det også nogenlunde. men på grund af pdf'ers mærkelighed er det svært at blive rigtig godt. Men nu tilbage og fixe poppler. @infonauten
@svuorela @maltelau en del af problematikken er, at der udover at PDF er et spøjst, spøjst format, også er et menneskeligt element inde, nemlig grafikeren der har sat PDF'en. Hvis vedkommende f.eks. tvinger en orddeling via "-" og enter i stedet for at brug en soft hyphen, så er det det, der kommer ud. Eller hvad de ellers kan finde på. Og det skal man så håndtere i post processing.
-
@fanden lige nu kører jeg bare den gamle proces -> HTML, jeg har en deadline for leverancen.
Men ja, enten underscore eller bare escape * inden jeg kører formattering. Om end jeg tror markdown nok er en blindgyde i forhold til mit formål, skal nok blive ved HTML.@infonauten Nu holder jeg bare meget af markdown, men hvis det ikke er andet end et skridt i processen for at lave en EPUB, kan HTML vel være lige så godt

Jeg kender godt det der med "jeg har en nemmere løsning på hånden, men jeg vil regne ud hvordan den her metode kan fungere, selvom det gør det mere bøvlet lige nu"...
-
@maltelau kender du Bento PDF? Den har nogle ok værktøjer til at hive data ud af PDFer (om end de heller ikke er perfekte). https://www.bentopdf.com/index.html
@infonauten @maltelau Hvordan er det egt. med PDF Jar vs. Bento? De ligner de kan ca. det samme: https://pdfjar.com
-
@infonauten Nu holder jeg bare meget af markdown, men hvis det ikke er andet end et skridt i processen for at lave en EPUB, kan HTML vel være lige så godt

Jeg kender godt det der med "jeg har en nemmere løsning på hånden, men jeg vil regne ud hvordan den her metode kan fungere, selvom det gør det mere bøvlet lige nu"...
@fanden man er jo nødt til at prøve når man har fået ideen, jo ...
-
@infonauten @maltelau Hvordan er det egt. med PDF Jar vs. Bento? De ligner de kan ca. det samme: https://pdfjar.com
-
@fanden man er jo nødt til at prøve når man har fået ideen, jo ...
@infonauten Det kan jo være verdens bedste idé, den skal forfølges ned af alle kaninhuller!
-
@infonauten @maltelau Jeg kan se at Bento har et workflow-tool, som binder de enkelte funktioner sammen, det gør det en hel del mere attraktivt.