<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det.]]></title><description><![CDATA[<p>Ah, jeg sidder og trækker data ud af et leksikon (PDF -&gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. <br />Det går egentligt skidegodt, indtil det går op for mig, at henvisninger til andre opslag i leksikonet er markeret ved "*". </p><p>Mit udtræk har nu nogle meget lange afsnit i kursiv. Tilbage til tegnebrættet.</p>]]></description><link>https://forum.fedi.dk/topic/50497e85-4676-4ad0-af99-5728d37f67b1/ah-jeg-sidder-og-trækker-data-ud-af-et-leksikon-pdf-gt-hvad-som-helst-andet-bare-det-er-struktureret-og-leger-med-en-ny-proces-der-udtrækker-til-markdown-frem-for-html-bare-for-at-prøve-det.</link><generator>RSS for Node</generator><lastBuildDate>Fri, 17 Apr 2026 04:06:38 GMT</lastBuildDate><atom:link href="https://forum.fedi.dk/topic/50497e85-4676-4ad0-af99-5728d37f67b1.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 14 Apr 2026 09:09:57 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 10:08:12 GMT]]></title><description><![CDATA[<p><span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span> <span><a href="/user/maltelau%40expressional.social">@<span>maltelau</span></a></span> Jeg kan se at Bento har et workflow-tool, som binder de enkelte funktioner sammen, det gør det en hel del mere attraktivt.</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/tokeriis/statuses/116402506474682741</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/tokeriis/statuses/116402506474682741</guid><dc:creator><![CDATA[tokeriis@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 10:08:12 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 10:06:35 GMT]]></title><description><![CDATA[<p><span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span> Det kan jo være verdens bedste idé, den skal forfølges ned af alle kaninhuller!</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/fanden/statuses/116402500119148304</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/fanden/statuses/116402500119148304</guid><dc:creator><![CDATA[fanden@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 10:06:35 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:55:51 GMT]]></title><description><![CDATA[<p><span><a href="/user/tokeriis%40helvede.net">@<span>tokeriis</span></a></span> <span><a href="/user/maltelau%40expressional.social">@<span>maltelau</span></a></span> har ikke set pdfjar f'r, men det ligner det umiddelbart, ja. Jeg anbefaler udelukkende Bento fordi jeg kender og bruger det og fordi jeg "kender" manden bag (læs: han er på et forum jeg også er på, og virker sympatisk og lydhør).</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402457912523151</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402457912523151</guid><dc:creator><![CDATA[infonauten@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:55:51 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:54:29 GMT]]></title><description><![CDATA[<p><span><a href="/user/fanden%40helvede.net">@<span>fanden</span></a></span> man er jo nødt til at prøve når man har fået ideen, jo ...</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402452546260803</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402452546260803</guid><dc:creator><![CDATA[infonauten@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:54:29 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:46:26 GMT]]></title><description><![CDATA[<p><span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span> <span><a href="/user/maltelau%40expressional.social">@<span>maltelau</span></a></span> Hvordan er det egt. med PDF Jar vs. Bento? De ligner de kan ca. det samme:  <a href="https://pdfjar.com" rel="nofollow noopener"><span>https://</span><span>pdfjar.com</span><span></span></a></p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/tokeriis/statuses/116402420899793740</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/tokeriis/statuses/116402420899793740</guid><dc:creator><![CDATA[tokeriis@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:46:26 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:45:06 GMT]]></title><description><![CDATA[<p><span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span> Nu holder jeg bare meget af markdown, men hvis det ikke er andet end et skridt i processen for at lave en EPUB, kan HTML vel være lige så godt <img src="https://forum.fedi.dk/assets/plugins/nodebb-plugin-emoji/emoji/android/1f642.png?v=94543ec6bc6" class="not-responsive emoji emoji-android emoji--slightly_smiling_face" style="height:23px;width:auto;vertical-align:middle" title="🙂" alt="🙂" /></p><p>Jeg kender godt det der med "jeg har en nemmere løsning på hånden, men jeg vil regne ud hvordan den her metode kan fungere, selvom det gør det mere bøvlet lige nu"...</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/fanden/statuses/116402415639813184</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/fanden/statuses/116402415639813184</guid><dc:creator><![CDATA[fanden@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:45:06 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:42:24 GMT]]></title><description><![CDATA[<p><span><a href="/user/svuorela%40helvede.net">@<span>svuorela</span></a></span> <span><a href="/user/maltelau%40expressional.social">@<span>maltelau</span></a></span> en del af problematikken er, at der udover at PDF er et spøjst, spøjst format, også er et menneskeligt element inde, nemlig grafikeren der har sat PDF'en. Hvis vedkommende f.eks. tvinger en orddeling via "-" og enter i stedet for at brug en soft hyphen, så er det det, der kommer ud. Eller hvad de ellers kan finde på. Og det skal man så håndtere i post processing.</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402405008102162</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402405008102162</guid><dc:creator><![CDATA[infonauten@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:42:24 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:36:22 GMT]]></title><description><![CDATA[<p><span><a href="/user/maltelau%40expressional.social">@<span>maltelau</span></a></span> pdftohtml fra poppler gør det også nogenlunde. men på grund af pdf'ers mærkelighed er det svært at blive rigtig godt. Men nu tilbage og fixe poppler. <span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span></p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/svuorela/statuses/116402381319876302</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/svuorela/statuses/116402381319876302</guid><dc:creator><![CDATA[svuorela@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:36:22 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:33:27 GMT]]></title><description><![CDATA[<p><span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span> tror også jeg har et par hvide hår endnu, og jeg har ikke engang ville have andet struktur end overskrifter osv ud. Kender ikke bento nej, har bare brugt gode gamle poppler's pdftotext</p>]]></description><link>https://forum.fedi.dk/post/https://expressional.social/users/maltelau/statuses/116402369799593559</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://expressional.social/users/maltelau/statuses/116402369799593559</guid><dc:creator><![CDATA[maltelau@expressional.social]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:33:27 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:27:22 GMT]]></title><description><![CDATA[<p><span><a href="/user/maltelau%40expressional.social">@<span>maltelau</span></a></span> kender du Bento PDF? Den har nogle ok værktøjer til at hive data ud af PDFer (om end de heller ikke er perfekte). <a href="https://www.bentopdf.com/index.html" rel="nofollow noopener"><span>https://www.</span><span>bentopdf.com/index.html</span><span></span></a></p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402345933619556</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402345933619556</guid><dc:creator><![CDATA[infonauten@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:27:22 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:26:03 GMT]]></title><description><![CDATA[<p><span><a href="/user/fanden%40helvede.net">@<span>fanden</span></a></span> lige nu kører jeg bare den gamle proces -&gt; HTML, jeg har en deadline for leverancen. <br />Men ja, enten underscore eller bare escape * inden jeg kører formattering. Om end jeg tror markdown nok er en blindgyde i forhold til mit formål, skal nok blive ved HTML.</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402340696232324</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402340696232324</guid><dc:creator><![CDATA[infonauten@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:26:03 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:23:46 GMT]]></title><description><![CDATA[<p><span><a href="/user/maltelau%40expressional.social">@<span>maltelau</span></a></span> det er en kæmpe mundfuld, ja. Jeg arbejder på en heuristisk model, der kigger på skriftstørrelser, marginer og f.eks. alignments for at lave en relativt ok PDF -&gt; struktureret, reflowable HTML, men der er så fucking mange edge cases som jeg støder ind i undervejs. Og så er jeg ikke engang kommet ind på hyphenation / orddelinger generelt. Jeg bliver mere hvidhåret end jeg allerede er <img src="https://forum.fedi.dk/assets/plugins/nodebb-plugin-emoji/emoji/android/1f642.png?v=94543ec6bc6" class="not-responsive emoji emoji-android emoji--slightly_smiling_face" style="height:23px;width:auto;vertical-align:middle" title=":)" alt="🙂" /></p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402331755775738</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/infonauten/statuses/116402331755775738</guid><dc:creator><![CDATA[infonauten@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:23:46 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:23:00 GMT]]></title><description><![CDATA[<p><span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span> Åh nej, og scriptet kan ikke bruge underscore som kursiv-markør? Jeg foretrækker klart asterisk fremfor underscore, men hvis det kan hjælpe konverteringen...</p>]]></description><link>https://forum.fedi.dk/post/https://helvede.net/users/fanden/statuses/116402328751989082</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://helvede.net/users/fanden/statuses/116402328751989082</guid><dc:creator><![CDATA[fanden@helvede.net]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:23:00 GMT</pubDate></item><item><title><![CDATA[Reply to Ah, jeg sidder og trækker data ud af et leksikon (PDF -&amp;gt; hvad som helst andet, bare det er struktureret) og leger med en ny proces, der udtrækker til Markdown frem for HTML, bare for at prøve det. on Tue, 14 Apr 2026 09:17:52 GMT]]></title><description><![CDATA[<p><span><a href="/user/infonauten%40helvede.net">@<span>infonauten</span></a></span> tror ikke det er muligt at lave noget generelt give the staten of pdfs. Så jeg er aldrig lykkedes med andet end at hive så meget rå tekst ud som muligt og så prøve mig frem med uperfekte regex til at vride lidt struktur frem</p>]]></description><link>https://forum.fedi.dk/post/https://expressional.social/users/maltelau/statuses/116402308514609659</link><guid isPermaLink="true">https://forum.fedi.dk/post/https://expressional.social/users/maltelau/statuses/116402308514609659</guid><dc:creator><![CDATA[maltelau@expressional.social]]></dc:creator><pubDate>Tue, 14 Apr 2026 09:17:52 GMT</pubDate></item></channel></rss>