Skip to content
  • Hjem
  • Seneste
  • Etiketter
  • Populære
  • Verden
  • Bruger
  • Grupper
Temaer
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • Default (No Skin)
  • No Skin
Kollaps
FARVEL BIG TECH
  1. Forside
  2. Ikke-kategoriseret
  3. Ah, jeg sidder og trækker data ud af et leksikon (PDF -> hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det.

Ah, jeg sidder og trækker data ud af et leksikon (PDF -> hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det.

Planlagt Fastgjort Låst Flyttet Ikke-kategoriseret
15 Indlæg 5 Posters 0 Visninger
  • Ældste til nyeste
  • Nyeste til ældste
  • Most Votes
Svar
  • Svar som emne
Login for at svare
Denne tråd er blevet slettet. Kun brugere med emne behandlings privilegier kan se den.
  • infonauten@helvede.netI infonauten@helvede.net

    Ah, jeg sidder og trækker data ud af et leksikon (PDF -> hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det.
    Det går egentligt skidegodt, indtil det går op for mig, at henvisninger til andre opslag i leksikonet er markeret ved "*".

    Mit udtræk har nu nogle meget lange afsnit i kursiv. Tilbage til tegnebrættet.

    maltelau@expressional.socialM This user is from outside of this forum
    maltelau@expressional.socialM This user is from outside of this forum
    maltelau@expressional.social
    wrote sidst redigeret af
    #2

    @infonauten tror ikke det er muligt at lave noget generelt give the staten of pdfs. Så jeg er aldrig lykkedes med andet end at hive så meget rå tekst ud som muligt og så prøve mig frem med uperfekte regex til at vride lidt struktur frem

    infonauten@helvede.netI 1 Reply Last reply
    0
    • infonauten@helvede.netI infonauten@helvede.net

      Ah, jeg sidder og trækker data ud af et leksikon (PDF -> hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det.
      Det går egentligt skidegodt, indtil det går op for mig, at henvisninger til andre opslag i leksikonet er markeret ved "*".

      Mit udtræk har nu nogle meget lange afsnit i kursiv. Tilbage til tegnebrættet.

      fanden@helvede.netF This user is from outside of this forum
      fanden@helvede.netF This user is from outside of this forum
      fanden@helvede.net
      wrote sidst redigeret af
      #3

      @infonauten Åh nej, og scriptet kan ikke bruge underscore som kursiv-markør? Jeg foretrækker klart asterisk fremfor underscore, men hvis det kan hjælpe konverteringen...

      infonauten@helvede.netI 1 Reply Last reply
      0
      • maltelau@expressional.socialM maltelau@expressional.social

        @infonauten tror ikke det er muligt at lave noget generelt give the staten of pdfs. Så jeg er aldrig lykkedes med andet end at hive så meget rå tekst ud som muligt og så prøve mig frem med uperfekte regex til at vride lidt struktur frem

        infonauten@helvede.netI This user is from outside of this forum
        infonauten@helvede.netI This user is from outside of this forum
        infonauten@helvede.net
        wrote sidst redigeret af
        #4

        @maltelau det er en kæmpe mundfuld, ja. Jeg arbejder på en heuristisk model, der kigger på skriftstørrelser, marginer og f.eks. alignments for at lave en relativt ok PDF -> struktureret, reflowable HTML, men der er så fucking mange edge cases som jeg støder ind i undervejs. Og så er jeg ikke engang kommet ind på hyphenation / orddelinger generelt. Jeg bliver mere hvidhåret end jeg allerede er 🙂

        infonauten@helvede.netI 1 Reply Last reply
        0
        • fanden@helvede.netF fanden@helvede.net

          @infonauten Åh nej, og scriptet kan ikke bruge underscore som kursiv-markør? Jeg foretrækker klart asterisk fremfor underscore, men hvis det kan hjælpe konverteringen...

          infonauten@helvede.netI This user is from outside of this forum
          infonauten@helvede.netI This user is from outside of this forum
          infonauten@helvede.net
          wrote sidst redigeret af
          #5

          @fanden lige nu kører jeg bare den gamle proces -> HTML, jeg har en deadline for leverancen.
          Men ja, enten underscore eller bare escape * inden jeg kører formattering. Om end jeg tror markdown nok er en blindgyde i forhold til mit formål, skal nok blive ved HTML.

          fanden@helvede.netF 1 Reply Last reply
          0
          • infonauten@helvede.netI infonauten@helvede.net

            @maltelau det er en kæmpe mundfuld, ja. Jeg arbejder på en heuristisk model, der kigger på skriftstørrelser, marginer og f.eks. alignments for at lave en relativt ok PDF -> struktureret, reflowable HTML, men der er så fucking mange edge cases som jeg støder ind i undervejs. Og så er jeg ikke engang kommet ind på hyphenation / orddelinger generelt. Jeg bliver mere hvidhåret end jeg allerede er 🙂

            infonauten@helvede.netI This user is from outside of this forum
            infonauten@helvede.netI This user is from outside of this forum
            infonauten@helvede.net
            wrote sidst redigeret af
            #6

            @maltelau kender du Bento PDF? Den har nogle ok værktøjer til at hive data ud af PDFer (om end de heller ikke er perfekte). https://www.bentopdf.com/index.html

            maltelau@expressional.socialM tokeriis@helvede.netT 2 Replies Last reply
            1
            0
            • infonauten@helvede.netI infonauten@helvede.net

              @maltelau kender du Bento PDF? Den har nogle ok værktøjer til at hive data ud af PDFer (om end de heller ikke er perfekte). https://www.bentopdf.com/index.html

              maltelau@expressional.socialM This user is from outside of this forum
              maltelau@expressional.socialM This user is from outside of this forum
              maltelau@expressional.social
              wrote sidst redigeret af
              #7

              @infonauten tror også jeg har et par hvide hår endnu, og jeg har ikke engang ville have andet struktur end overskrifter osv ud. Kender ikke bento nej, har bare brugt gode gamle poppler's pdftotext

              svuorela@helvede.netS 1 Reply Last reply
              0
              • folfdk@helvede.netF folfdk@helvede.net shared this topic
              • maltelau@expressional.socialM maltelau@expressional.social

                @infonauten tror også jeg har et par hvide hår endnu, og jeg har ikke engang ville have andet struktur end overskrifter osv ud. Kender ikke bento nej, har bare brugt gode gamle poppler's pdftotext

                svuorela@helvede.netS This user is from outside of this forum
                svuorela@helvede.netS This user is from outside of this forum
                svuorela@helvede.net
                wrote sidst redigeret af
                #8

                @maltelau pdftohtml fra poppler gør det også nogenlunde. men på grund af pdf'ers mærkelighed er det svært at blive rigtig godt. Men nu tilbage og fixe poppler. @infonauten

                infonauten@helvede.netI 1 Reply Last reply
                0
                • svuorela@helvede.netS svuorela@helvede.net

                  @maltelau pdftohtml fra poppler gør det også nogenlunde. men på grund af pdf'ers mærkelighed er det svært at blive rigtig godt. Men nu tilbage og fixe poppler. @infonauten

                  infonauten@helvede.netI This user is from outside of this forum
                  infonauten@helvede.netI This user is from outside of this forum
                  infonauten@helvede.net
                  wrote sidst redigeret af
                  #9

                  @svuorela @maltelau en del af problematikken er, at der udover at PDF er et spøjst, spøjst format, også er et menneskeligt element inde, nemlig grafikeren der har sat PDF'en. Hvis vedkommende f.eks. tvinger en orddeling via "-" og enter i stedet for at brug en soft hyphen, så er det det, der kommer ud. Eller hvad de ellers kan finde på. Og det skal man så håndtere i post processing.

                  1 Reply Last reply
                  0
                  • infonauten@helvede.netI infonauten@helvede.net

                    @fanden lige nu kører jeg bare den gamle proces -> HTML, jeg har en deadline for leverancen.
                    Men ja, enten underscore eller bare escape * inden jeg kører formattering. Om end jeg tror markdown nok er en blindgyde i forhold til mit formål, skal nok blive ved HTML.

                    fanden@helvede.netF This user is from outside of this forum
                    fanden@helvede.netF This user is from outside of this forum
                    fanden@helvede.net
                    wrote sidst redigeret af
                    #10

                    @infonauten Nu holder jeg bare meget af markdown, men hvis det ikke er andet end et skridt i processen for at lave en EPUB, kan HTML vel være lige så godt 🙂

                    Jeg kender godt det der med "jeg har en nemmere løsning på hånden, men jeg vil regne ud hvordan den her metode kan fungere, selvom det gør det mere bøvlet lige nu"...

                    infonauten@helvede.netI 1 Reply Last reply
                    0
                    • infonauten@helvede.netI infonauten@helvede.net

                      @maltelau kender du Bento PDF? Den har nogle ok værktøjer til at hive data ud af PDFer (om end de heller ikke er perfekte). https://www.bentopdf.com/index.html

                      tokeriis@helvede.netT This user is from outside of this forum
                      tokeriis@helvede.netT This user is from outside of this forum
                      tokeriis@helvede.net
                      wrote sidst redigeret af
                      #11

                      @infonauten @maltelau Hvordan er det egt. med PDF Jar vs. Bento? De ligner de kan ca. det samme: https://pdfjar.com

                      infonauten@helvede.netI 1 Reply Last reply
                      0
                      • fanden@helvede.netF fanden@helvede.net

                        @infonauten Nu holder jeg bare meget af markdown, men hvis det ikke er andet end et skridt i processen for at lave en EPUB, kan HTML vel være lige så godt 🙂

                        Jeg kender godt det der med "jeg har en nemmere løsning på hånden, men jeg vil regne ud hvordan den her metode kan fungere, selvom det gør det mere bøvlet lige nu"...

                        infonauten@helvede.netI This user is from outside of this forum
                        infonauten@helvede.netI This user is from outside of this forum
                        infonauten@helvede.net
                        wrote sidst redigeret af
                        #12

                        @fanden man er jo nødt til at prøve når man har fået ideen, jo ...

                        fanden@helvede.netF 1 Reply Last reply
                        0
                        • tokeriis@helvede.netT tokeriis@helvede.net

                          @infonauten @maltelau Hvordan er det egt. med PDF Jar vs. Bento? De ligner de kan ca. det samme: https://pdfjar.com

                          infonauten@helvede.netI This user is from outside of this forum
                          infonauten@helvede.netI This user is from outside of this forum
                          infonauten@helvede.net
                          wrote sidst redigeret af
                          #13

                          @tokeriis @maltelau har ikke set pdfjar f'r, men det ligner det umiddelbart, ja. Jeg anbefaler udelukkende Bento fordi jeg kender og bruger det og fordi jeg "kender" manden bag (læs: han er på et forum jeg også er på, og virker sympatisk og lydhør).

                          tokeriis@helvede.netT 1 Reply Last reply
                          0
                          • infonauten@helvede.netI infonauten@helvede.net

                            @fanden man er jo nødt til at prøve når man har fået ideen, jo ...

                            fanden@helvede.netF This user is from outside of this forum
                            fanden@helvede.netF This user is from outside of this forum
                            fanden@helvede.net
                            wrote sidst redigeret af
                            #14

                            @infonauten Det kan jo være verdens bedste idé, den skal forfølges ned af alle kaninhuller!

                            1 Reply Last reply
                            0
                            • infonauten@helvede.netI infonauten@helvede.net

                              @tokeriis @maltelau har ikke set pdfjar f'r, men det ligner det umiddelbart, ja. Jeg anbefaler udelukkende Bento fordi jeg kender og bruger det og fordi jeg "kender" manden bag (læs: han er på et forum jeg også er på, og virker sympatisk og lydhør).

                              tokeriis@helvede.netT This user is from outside of this forum
                              tokeriis@helvede.netT This user is from outside of this forum
                              tokeriis@helvede.net
                              wrote sidst redigeret af
                              #15

                              @infonauten @maltelau Jeg kan se at Bento har et workflow-tool, som binder de enkelte funktioner sammen, det gør det en hel del mere attraktivt.

                              1 Reply Last reply
                              0
                              Svar
                              • Svar som emne
                              Login for at svare
                              • Ældste til nyeste
                              • Nyeste til ældste
                              • Most Votes


                              • Log ind

                              • Har du ikke en konto? Tilmeld

                              • Login or register to search.
                              Powered by NodeBB Contributors
                              Graciously hosted by data.coop
                              • First post
                                Last post
                              0
                              • Hjem
                              • Seneste
                              • Etiketter
                              • Populære
                              • Verden
                              • Bruger
                              • Grupper