Advertisement · 728 × 90
#
Hashtag
#kursen
Advertisement · 728 × 90
Preview
Dansk EU-kommissær: Milliardstøtte fra EU skal styrke Grønland – ikke styre det Selvom EU har øje på råstoffer og energi, afviser Dan Jørgensen, at pengene bruges som pres mod Grønland. Selvstyret skal selv sætte kursen.

4/9 2025

#EU-kommissær #DanJørgensen

#Milliardstøtte fra #EU skal #styrke #Grønland – ikke styre det

Selvom EU har øje på råstoffer og energi, #afviser Dan Jørgensen, at pengene bruges som pres mod Grønland.

#Selvstyret skal #selv #sætte #kursen

knr.gl/da/nyheder/m...

0 0 0 1
Preview
Aurel Daugs, Katharina Josipovic und Holle Meding: Evaluation großer Sprachmodelle für die Geschichtswissenschaft: Das SPIEGEL-RAG-System im Test Wie lassen sich Sprachmodelle geschichtswissenschaftlich evaluieren – und welche Hürden sind dabei zu überwinden? Der Blogbeitrag von Aurel Daugs, Katharina Josipovic und Holle Meding zeigt anhand des SPIEGEL-RAG-Systems, wie der Einsatz von LLMs und Retrieval-Augmented Generation (RAG) neue Forschungsansätze ermöglicht und warum eigene Evaluierungsmethoden unerlässlich sind. Zu diesem Zweck wurde die Entwicklung eines „Silberstandards“ nachskizziert, der als Referenzwert für die Ausgaben der Sprachmodelle und des Retrievals diente. Die Ergebnisse dieser Evaluation wurden anschließend im größeren Rahmen der Geschichtswissenschaft reflektiert.`` # Einleitung Wie verändern große Sprachmodelle die Geschichtswissenschaften? In der gleichnamigen Übung wurden unter dieser zentralen Fragestellung die Potenziale und Grenzen großer Sprachmodelle für die historische Forschung praktisch untersucht und diskutiert. Das thematische Fundament bildete dabei der Diskurs im Nachrichtenmagazin _DER SPIEGEL_ um die Dekolonisierung in Asien und Afrika zwischen den 1940er- und 1970er-Jahren. Neben der Anwendung zweckmäßiger promptbasierter Methoden wurde in der Übung ein _Retrieval-Augmented Generation Framework_ (Abrufgestütztes Generierungsframework, RAG) (LINK M5 RAG Text) erprobt, um große Textkorpora systematisch und nachvollziehbar zu erschließen. Diese in den Geisteswissenschaften noch relativ neue Herangehensweise wurde mithilfe eines systematischen Fragenkatalogs getestet, empirisch evaluiert und kritisch reflektiert. Ziel war es, zu untersuchen, inwieweit Large Language Models (LLMs) trotz bestehender methodischer und epistemologischer Herausforderungen zur Erweiterung historischer Forschungsansätze beitragen können. Der nachfolgende Blogbeitrag skizziert dabei die Erfahrungen und Ergebnisse der Implementierung eines RAG-Systems und fasst die durchgeführten Evaluationsschritte zusammen. # Vorbereitung der Evaluation Angesichts der Tatsache, dass der Output eines Sprachmodells stets auf einer stochastischen Next-Token-Vorhersage basiert (Link) und damit inhärente Unsicherheiten und Herausforderungen für die sachgemäße Nutzung von LLMs verbunden sind (Link), ist eine kritische Evaluation jeder einzelnen generierten Ausgabe grundsätzlich unerlässlich. Nur so lässt sich feststellen, ob die methodische Integration großer Sprachmodelle in den Forschungsprozess tatsächlich von Nutze sein kann. Gleiches gilt für das RAG-System: Passen die infolge des sog. _Retrievals_ abgerufenen Kontextinformationen nicht zur formulierten Frage, kann die vom LLM generierte Antwort zwar sprachlich überzeugend wirken und sogar einen Quellennachweis enthalten, aber dennoch am eigentlichen Thema vorbeigehen. Entscheidend ist daher nicht nur die Qualität der generierten Antwort, sondern auch die Relevanz der vom RAG-System dem Sprachmodell bereitgestellten Informationen. In einen historischen Anwendungs- und Forschungskontext bedeutet das, dass sowohl die Auswahl der Artikel als auch die Kohärenz und Validität der Antworten sorgfältig überprüft werden müssen. Für den weiteren Verlauf wurde hierzu der intern erstellte Korpus aller _DER SPIEGEL_ -Artikel aus den Jahren 1949 bis 1979 als externe Wissensbasis definiert, auf die das RAG-System letztlich zugreifen soll.[1] # _Retrieval_ und Silberstandard Um das RAG-System – insbesondere das _Retrieval_ – fundiert zu evaluieren, bedarf es zunächst eines Bezugswerts, an dem die Qualität der Ergebnisse gemessen werden kann. In einer idealen Evaluationspraxis würde dieser Bezugswert als _Ground Truth_ dienen – also als absolut verlässlicher, objektiver und vollständig validierter Referenzstandard. In der Realität ist es in den Geschichtswissenschaften jedoch meist nicht möglich, eine derart umfassende und in den meisten Fällen überhaupt existierende _Ground Truth_ zu erstellen. Denn es ist grundsätzlich unmöglich, Geschichte standpunktunabhängig, also ohne kulturelle oder persönliche Vorannahmen und ohne die Subjektivität des jeweiligen Historikers in seiner Zeit, zu rekonstruieren. Historische Wahrheit bzw. Objektivität bleibt demzufolge nur theorieförmig erhalten. Im vorliegenden Fall wurde als Lösungsansatz ein „ _Silberstandard_ “ in Form eines händisch erstellten Fragekatalogs entwickelt. Dieser dient im Rahmen der Bewertung von LLMs und des RAG-Systems als umsetzbare und praktikable Alternative. Zu diesem Zweck wurden zunächst ein thematischer Fokus sowie konkrete Fragestellungen zu bereits identifizierten SPIEGEL-Artikeln formuliert. Grundsätzlich bildet der „ _Silberstandard_ “ ein Mindestmaß an relevanter Artikeln sowie zentraler Aussagen und Informationen ab, die zur Beantwortung der jeweiligen Fragen als relevant gelten. Auf dieser Grundlage lassen sich sowohl die Qualität des Retrievals als auch die inhaltliche Angemessenheit der vom LLM generierten Antworten vergleichen. Um dabei eine möglichst breite Evaluationsgrundlage zu gewährleisten und die Leistungsfähigkeit des RAG-Systems in verschiedenen Kontexten zu testen, wurden in der Übung verschiedene Fragekategorien besprochen. Durch diese Differenzierung konnte gezielt analysiert werden, in welchen Bereichen das System besonders zuverlässig arbeitet und wo mögliche Schwächen bestehen: * Informationsfrage: Wie werden Fakten, Daten oder Ereignissen in einem Artikel dargestellt? * Bewertungsfrage: Wie werden Akteure, Ereignisse oder Prozesse der Dekolonialisierung inhaltlich eingeordnet und bewertet? * Darstellungsfrage: Wie werden Personen, Gruppen oder Ereignisse sprachlich oder stilistisch dargestellt? * Kontextualisierungsfrage: Wie werden Ereignisse, Personen oder Gruppen in größere politische, soziale oder kulturelle Kontexte bzw. Diskurse eingeordnet? * Methodenfrage: Welche journalistischen Mittel und Strategien werden bei der Darstellung der Dekolonialisierung angewandt? * Vergleichsfrage: Welche Unterschiede oder Gemeinsamkeiten gibt es in der Darstellung (synchron oder diachron) der Texte? Abb. 1: Evaluation des RAG-Frameworks zur Analyse historischer Texte aus dem SPIEGEL-Archiv (1940er–1970er Jahre) [2] # Erstellung eines Evaluationsset – Beispiel Algerienkrieg Im Folgenden wird eine Forschungsfrage anhand eines in der Übung erarbeiteten Beispiels vorgestellt, das als Grundlage für den Test des RAG-Systems und der Antworten ausgewählter Sprachmodelle dient. Das analysierte Thema fokussierte sich hierbei auf den Machtübernahmeprozess von Charles de Gaulle im Jahre 1958 und die damit verbundenen Auswirkungen auf den Algerienkrieg sowie auf die vor Ort lebenden Menschen.[3] Konkret bezieht sich das Beispiel auf den vorgefundenen _SPIEGEL_ -Artikel „DE GAULLE, DER GOTTGESANDTE“ (Nr. 36, 1958). In diesem Artikel berichtet François Mauriac – Literatur-Nobelpreisträger und späterer Biograf von Charles de Gaulle – in einem Interview über dessen Machtübernahme. Für den „Silberstandard“ wurde unter anderem folgende Darstellungsfrage und Antwort erstellt:~~~~ Darstellungsfrage: Wie beschreibt François Mauriac die Algerier*innen im Zusammenhang mit der Machtübernahme Charles de Gaulles? Mit welchen sprachlichen Mitteln und semantischen Begriffen werden die Algerier*innen insgesamt dargestellt? Plausible Antwort: Die muslimischen Algerier*innen werden von Mauriac mit rassistischen und patriarchal-kolonialistischen Kollektivbeschreibungen entmenschlicht. Die französischen Algerier*innen werden als die eigentliche Gefahr im Krieg sowie insgesamt als eine Gefahr für die Demokratie dargestellt. Kontext / Zitate aus dem Artikel: „Die Moslem sind nicht viel mehr als eine hin- und herflutende, gestaltlose Masse unterernährter und unwissender Unglücklicher, von denen die meisten nur einen Gedanken haben: daß der Krieg endlich aufhört, daß man sich um sie kümmert, daß man sie ernährt, und daß man ihnen Arbeit gibt.“ // „Das algerische Drama besteht darin, daß auf der einen Seite die unbeugsame muselmanische Befreiungsfront, auf der anderen Seite die Franzosen Algeriens stehen, deren Kraft viel größer ist, als wir ahnten.“ # Testphase – _Retrieval_ Zuallererst erfolgte das _Retrieval_ , das anschließend evaluiert wurde. Hierfür wurde für die _Query_ , d.h. Suchanfrage, zum Erhalt der relevantesten Dokumente der Quellenbegriff „algerische Muselmanen“ verwendet. Ziel war es dabei, dass das System aus dem vordefinierten _SPIEGEL_ -Artikel zehn relevante Textpassagen, die sog. _Chunks_ , als Kontext für die Beantwortung der Darstellungsfrage bereitstellt. Obwohl das System tatsächlich relevante Abschnitt fand, traten in unserer vorläufigen Umsetzung drei zentrale Probleme auf: 1. Wiederholungen: Die gelieferten Passagen waren größtenteils identisch. Von den zehn Ergebnissen unterschieden sich maximal zwei inhaltlich voneinander. 2. Unvollständige Sätze: Das Chunking hat, trotz der Verwendung eines _recusive-chunking Verfahrens_ öfter Textpassagen ausgegeben, die keine sinnvolle inhaltliche Einheit ergaben. Trotz des _Overlapping_ ging teilweise der Sinninhalt des Satzes und in manchen Fällen der gesamten Passage verloren. 3. Fehlzuordnung: Bei anderen Suchanfragen wurden zwar zum Teil passende Passagen gefunden, aber zusätzlich auch irrelevante Abschnitte aus anderen Artikeln, die dann fälschlicherweise als relevanter Kontext beigefügt wurden. Abb. 2: Retrieval-Ausgabe der gefundenen Textpassagen (Chunks) Der erste Teil unserer Evaluation hat damit gezeigt, dass unser Chunking und das darauf aufbauende Retrieval noch deutlich verbesserbar sind – was die Bedeutung unseres Vorgehens nur noch einmal unterstreicht. # Testphase – Sprachmodell Dennoch wurden auch die von uns gesuchten Chunks gefunden, die dann in den Kontext des Prompts für die zu untersuchenden Sprachmodelle integriert werden. Auf dieser Grundlage lassen sich nun die Antworten ausgewählter Sprachmodelle überprüfen. Hierfür wurden unter anderem das interne HU-LLM-3 und OpenAIs GPT-4o als Vergleichsgrundlage evaluiert. Ein vordefinierter Systemprompt, der Frage-Prompt – beispielsweise hier die Darstellungsfrage –, und die vom RAG-System gefundenen Kontextabschnitte wurden dann über die jeweilige Programmierschnittstelle an die Modelle übergeben. Auf die Darstellungsfrage wurde folgende Antwort vom HU-LLM-3-Modell generiert: Abb. 3: Generierte Antwort des HU-LLM-3-Modell Das Sprachmodell beantwortet die Frage im Vergleich zum „Silberstandard“ insgesamt zufriedenstellend. Zwar erfolgte keine genauere Differenzierung zwischen den Darstellungen der französischen und der muslimischen Algerien*innen, doch werden die Begriffe insgesamt schlüssig in einen breiteren kolonialhistorischen Kontext eingeordnet – auch trotz der inhaltlich begrenzten Chunk-Auswahl. Positiv hervorzuheben ist zudem, dass eine potenziell verzerrte Darstellung durch die einseitige französische Perspektive zumindest erwähnt wird. Dies ist insofern bemerkenswert, als dass nicht nur eine vom Modell generierte anfängliche Quellenkritik erkennbar ist, sondern auch die Notwendigkeit der Betrachtung algerischer Quellen als nächster Schritt für eine historische Analyse angedeutet wird. # Reflexion Die Implementierung eines RAG-Frameworks in Kombination mit einem Large Language Model zeigte, dass sich umfangreiche historische Datensätze wie der _SPIEGEL_ -Korpus einerseits automatisiert erschließen lassen und andererseits die Ausgaben eines LLM durch beigefügte Kontextinformationen besser nachvollziehbar werden. Das RAG-System bietet hierbei den Vorteil, dass die für die Antworten verwendeten Quellen explizit mit ausgegeben werden. Dies ermöglicht es Forschenden, die bereitgestellten Informationen kritisch zu prüfen, die Originalquelle zu konsultieren und so die Faktizität der Aussagen eigenständig zu verifizieren. Im Sinne der geschichtswissenschaftlichen Heuristik erleichtert dies sowohl die Sichtung als auch die erste Einordnung von Quellen erheblich. Darüber hinaus ist positiv zu beurteilen, dass das RAG-System themenagnostisch einsetzbar ist, d.h. es ist nicht nur ein bestimmtes Thema beschränkt, sondern kann je nach Query den _SPIEGEL_ -Korpus flexibel durchsuchen. Grundsätzlich sollte es somit möglich sein, auch andere Korpora in das RAG-System einzupflegen, sofern diese entsprechend aufbereitet sind. Nichtsdestotrotz werden auch die Grenzen der Methode schnell deutlich. Zwar wird der Input durch die gezielte Anreicherung mit externen Quellen optimiert, doch beseitigt der Einsatz von RAG weder das fundamentale Problem der Faktizität noch das Risiko von Halluzinationen bei LLMs: Wenn das _Retrieval_ irrelevante, verzerrte oder fehlerhafte Informationen liefert, kann das LLM scheinbar überzeugende, aber dennoch inhaltlich unzutreffende Antworten generieren. Im schlimmsten Fall verstärkt das RAG-System die Illusion von Faktizität, indem es halluzinierte Aussagen mit vermeintlichen Belegen aus dem _Retrieval_ absichert, die tatsächlich nicht zur gestellten Frage passen. Daher bleibt eine kritische Überprüfung der Ergebnisse in Form einer Evaluation unerlässlich, insbesondere im historischen Forschungskontext, wo Quellenauthentizität und inhaltliche Präzision von zentraler Bedeutung sind. Die Qualität des _Retrievals_ hängt zudem vom eigenen historischen Verständnis des Korpus ab. Um relevante Kontextpassagen auf Basis der _Query_ zu finden, ist es entscheidend, sowohl die im ursprünglichen Quellenmaterial verwendeten Begriffe als auch die sprachlichen Konventionen zu kennen und gezielt einzusetzen (z. B. „Muselmanen“ statt „Muslime“ in den _SPIEGEL_ -Artikeln). Letztlich zeigt sich, dass RAG-Systeme in Verbindung mit Large Language Models zwar den Zugang zu umfangreichen historischen Korpora erleichtern können, doch die kritische Reflexion und das fachliche Urteilsvermögen von Historiker*innen weiterhin unverzichtbar bleiben, um Verzerrungen, Fehlinterpretationen und die Grenzen automatisierter Ansätze zu erkennen und einzuordnen. * * * [1] Für einen tieferen historischen Einblick des Wandels des Nachrichtenmagazins DER SPIEGEL unter Rudolf Augstein siehe: Von Lucke, Albrecht: _Seismograph Augstein. DER SPIEGEL als Produkt und Produzent der Liberalisierung – und der neue Ruck nach rechts_ , in: Lilienthal, Volker (Hrsg.): _„Sagen, was ist“: Journalismus für eine offene Gesellschaft – Rudolf Augstein zum 100. Geburtstag_. Köln 2024, S. 115-131.; sowie zur allgemeinen Entwicklung des Zeitschriftenwesens in Deutschland nach 1945: Koszyk, Kurt: _Presse unter alliierter Besatzung_ , in: Wilke, Jürgen (Hrsg.): _Mediengeschichte der Bundesrepublik Deutschland_. Köln/Wien 1999, S. 31-58. [2] Eigene Darstellung, Holle Meding und Aurel Daugs. [3] Vgl. als Überblickswerke unter anderem: Bouchène, Abderrahmane (Hrsg.): _Histoire de l’Algérie à la période coloniale._ Paris 2012; Riegler, Thomas:_Die Schlacht um Algier und die ‚französische Doktrin‘: Eine Wirkungsgeschichte_ , in: Zeitgeschichte 35 (2008) 3, S. 138–152; sowie: Stora, Benjamin: _Le mystère De Gaulle: son choix pour l’Algérie_. Paris 2009. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Digital History Berlin (Redaktion) (15. Juli 2025). Aurel Daugs, Katharina Josipovic und Holle Meding: Evaluation großer Sprachmodelle für die Geschichtswissenschaft: Das SPIEGEL-RAG-System im Test. _Digital History Berlin_. Abgerufen am 15. Juli 2025 von https://dhistory.hypotheses.org/11176 * * * * * * * *

Aurel Daugs, Katharina Josipovic und Holle Meding: Evaluation großer Sprachmodelle für die Geschichtswissenschaft: Das SPIEGEL-RAG-System im Test Wie lassen sich Sprachmodelle geschichtswissensch...

#Aus #den #Kursen #LLM

Origin | Interest | Match

0 0 0 0
Preview
Holle Meding und Aurel Daugs: Prompt & Proof: Retrieval-Augmented Generation zur Steigerung der LLM-Zuverlässigkeit am Beispiel historischer Zeitungsquellen Kann die Zuverlässigkeit von Large Language Models (LLMs) für den Einsatz in der historischen Forschung verbessert werden? Holle Meding und Aurel Daugs gehen dieser Frage mittels eines Retrieval-Augmented-Generation-Ansatzes (RAG) nach, der LLMs mit externen Wissensquellen wie digitalen Zeitungsarchiven kombiniert. An der Humboldt-Universität zu Berlin wurde dazu eine RAG-Pipeline entwickelt, die eine quantitative Erschließung von über 100.000 SPIEGEL-Artikeln (1940er–1970er Jahre) ermöglicht. Durch rekursives Chunking, vektorbasierte Retrieval-Verfahren und gezieltes Prompt Design zeigt der Beitrag, wie ein RAG-Framework für die historische Forschung implementiert und nutzbar gemacht werden kann.`` # Was ist Retrieval-Augmented Generation (RAG)? Ein _Retrieval-Augmented Generation Framework_ , kurz RAG, beschreibt eine Architektur, welche Large Language Models mit externen Wissensdatenbanken kombiniert, um dadurch erweiterte und vor allem kontextualisierte Antworten zu ermöglichen. Statt sich folglich allein auf die Datenbasis eines Large Language Models (wie GPT-4o) zu verlassen, kann mittels RAG beispielsweise auf digitale Zeitungsarchive oder lokale Archivsammlungen zugegriffen werden und auf dieser Grundlage eine Antwort generiert werden. Das Ziel ist dabei die Reduktion von Halluzinationen und gleichsam eine Verbesserung der Verlässlichkeit der generierten Antworten. Anstelle eines von Grund auf mit neuen Daten trainierten Modells, werden mit RAG gezielt die Abrufmechanismen optimiert. In seiner Grundform folgt das Framework einer mehrstufigen Verarbeitungspipeline: 1. Datenbank aufsetzen: Zunächst werden Dokumente innerhalb einer strukturierten Datenbank indiziert. 2. Suchprozess: Dann wird ein Suchprozess für diese eingebetteten Dokumente durchgeführt. 3. Systemprompt: Schließlich wird eine erweiterte Eingabeaufforderung (Prompt) verfasst, die sowohl die ursprüngliche Nutzeranfrage als auch die extrahierten Informationen aus der Wissensdatenbank einbezieht. Auf diese Weise kann RAG gezielt relevante Textsammlungen oder andere Datenbanken durchsuchen und das Sprachmodell mit kontextbezogenen Quellen anreichern, um fundiertere Antworten zu generieren. Zudem können bei der Generierung der Antworten die verwendeten Quellen direkt angezeigt werden, was nicht nur die Nachvollziehbarkeit erhöht, sondern auch eine Überprüfung der zugrunde liegenden Informationen ermöglicht. # Praxisanwendung Im Laufe der Übung „Wie verändern große Sprachmodelle die Geschichtswissenschaften? Praxisübung am Beispiel der Darstellung der Dekolonialisierung in deutschen Nachrichtenmagazinen (1940er-1970er Jahre)“ an der Humboldt-Universität zu Berlin wurde eine RAG-Pipeline für die Analyse von historischen Texten aus dem Nachrichtenmagazin DER SPIEGEL entwickelt. Das Ziel war es, den Diskurs über den Prozess der Dekolonisierung in Asien und Afrika zwischen den späten 1940er und 1970er Jahren in der Berichterstattung des SPIEGEL nachzuvollziehen. Dabei sollte an konkreten Beispielen das Potenzial und die Grenzen großer Sprachmodelle für die historische Forschung erarbeitet und diskutiert werden. Der Dekolonisierungskontext war dabei in den Artikeln zumeist indirekt eingebettet. Statt explizit von „Dekolonisierung“ zu schreiben, wurde dabei je nach Kontext Begriffe wie „Befreiungsbewegung“, „Dritte-Welt-Bewegung“ oder „Entwicklungspolitik“ verwandt. Aufgrund dieser terminologischen Vielfalt bot sich der Einsatz von Large Language Models zur Identifikation semantischer Muster und impliziter Bedeutungszusammenhänge an. Die Studierenden der Praxisübung stießen in der Anwendung der Modelle schnell an die Grenzen eines rein generativen Ansatzes. Verwendet wurden die Large Language Models (HU-LLM-1, HU-LLM-3) der HU Berlin sowie die kommerziellen Modelle Gemini, Claude Sonett und GPT-4o. Ohne gezieltes _Retrieval_ basierten die Antworten der LLMs oft auf allgemeinem Weltwissen oder halluzinierten Zusammenhängen, anstatt sich präzise auf die spezifischen Quellen aus dem SPIEGEL-Archiv zu stützen, was ihren Mehrwert für die historische Arbeit deutlich mindert. # RAG-Architektur: Chunking, Embeddings und Retrieval Um eine fundierte Grundlage für die Analyse und Implementierung eines RAG-Frameworks zu schaffen, wurde zunächst ein umfangreicher Textkorpus von 105.257 Artikeln aus dem SPIEGEL-Archiv extrahiert und in eine strukturierte CSV-Datenbank überführt. Die Gesamtmenge umfasste etwa 84 Millionen _Token_ – ein riesiger Bestand an historischen Informationen, der ohne digitale Methoden kaum systematisch auszuwerten wäre. Allerdings bestehen auch qualitative Einschränkungen: Die originalen Bilder wurden entfernt, die physische Position der Artikel und die ursprüngliche Textstruktur sind nicht erhalten geblieben und die Texte weisen einige OCR-Fehler auf – insbesondere bei fremdsprachigen Namen. Wie genau der SPIEGEL seine Artikel im Jahr 2007 digitalisiert hat, ist seitens SPIEGEL nicht dokumentiert und damit nicht nachvollziehbar. Um die Quellen für eine LLM-gestützte Analyse zugänglich zu machen, mussten sie dabei zunächst in kleinere Sinneinheiten (_Chunks_) zerlegt werden. Damit wichtige Zusammenhänge zwischen den Abschnitten nicht verloren gingen, wurden diese Sinneinheiten mit einer gezielten Kontextüberschneidung gestaltet, d.h. dass der letzte Teil eines Abschnitts im nächsten wiederholt wird, um den Kontext zu erhalten. Ein _Token_ stellt die kleinste Verarbeitungseinheit in der natürlichen Sprachverarbeitung (NLP) dar. Es kann dabei – je nach Tokenisierungsverfahren – ein ganzes Wort, ein Wortbestandteil oder ein einzelnes Zeichen repräsentieren. --- Für die RAG-Pipeline wurde das _Recursive Chunking-Verfahren_ mit folgenden Parametern eingesetzt: * Chunk-Größe: 500 Tokens * Overlap: 50 Tokens _Chunking_ ist ein Verfahren zur schrittweisen Textzerlegung, bei dem ein Text nach einer festgesetzten Anzahl von Zeichen oder mithilfe von Trennzeichen (z. B. Absätze, Sätze) in kleinere Segmente unterteilt wird. Beim _Recursive Chunking_ wird dabei der Text nicht einfach einmalig in feste Abschnitte unterteilt (z.B. Absätze), sondern, sofern die erste Aufteilung noch nicht die gewünschte Segmentgröße oder Struktur liefert, stufenweise auf noch kleinere Einheiten von Trennkriterien (z.B. Sätze) zurückgegriffen. Ziel dabei ist es, semantisch sinnvolle als auch annähernd gleich große Chunks zu erzeugen, ohne starre Grenzen vorzugeben und dadurch den Kontext innerhalb der Segmente bestmöglich zu erhalten. --- Jeder dieser Chunks wurde dann mithilfe eines _Sentence Transformer-Modells_ (all-MiniLM-L6-v2) in _Sentence Embeddings_ umgewandelt. Anstatt Wörter folglich nur als einzelne Zeichenketten zu erfassen, erkennt das Modell Zusammenhänge zwischen Wörtern und Sätzen und stellt diese in einer numerischen Form dar. _Embeddings_ bezeichnen Zahlenreihen (Vektoren), die die Bedeutung eines Textes kodieren. Sie sind für Large Language Models notwendig, da diese natürliche Sprache nicht direkt „begreifen“. Stattdessen müssen Wörter und Sätze in eine mathematische Form übersetzt werden, um sie verarbeiten zu können. Insbesondere erleichtern _Embeddings_ die semantische Suche, d.h. dass ein Sprachmodell nicht nur nach exakt passenden Wörtern sucht, sondern auch inhaltlich ähnliche Texte identifizieren kann. Lies hier weiter zu Embeddings und der Architektur von LLMs. --- Das _Retrieval_ -Modul ermöglichte es wiederum, bei einer Nutzeranfrage (_Query_) die semantisch relevantesten Chunks zu identifizieren. Hierbei wurde die _Query_ ebenfalls in _Embeddings_ umgewandelt und mit den gespeicherten Vektoren über Kosinusähnlichkeit verglichen, sodass nicht nur exakte Übereinstimmungen, sondern auch inhaltlich verwandte Textstellen gefunden wurden. Letztlich sind es diese Chunks, die später als Kontext für die Generierung der Antwort dienten. (Link) Abb. 1, Holle Meding und Aurel Daugs: RAG-Pipeline zur Analyse historischer Texte aus dem SPIEGEL-Archiv (1940er–1970er Jahre) Entwicklung eines Systemprompts: Unsicherheitskommunikation und Quellenabhängigkeit Zuletzt wurden die vom LLM generierten Antworten mittels Prompt Engineering optimiert.[1] Hierbei wurde ein Systemprompt implementiert, der sicherstellte, dass das LLM nur auf die tatsächlich infolge des _Retrievals_ abgerufenen Dokumente Bezug nahm. Darüber hinaus wurde eine explizite Unsicherheitskommunikation integriert, um die Halluzinationen von LLMs einzuschränken: Falls keine relevanten Informationen gefunden wurden, sollte das Modell nicht spekulieren, sondern stattdessen klar antworten: „Ich kann das nicht beantworten.“ Ein Systemprompt ist eine übergeordnete Anweisung, die grundlegende Regeln für ein Large Language Model, wie Verhalten, Ton und Umfang der Antworten, festlegt und dauerhaft im Hintergrund aktiv bleibt. Im Gegensatz dazu wird ein Benutzerprompt individuell für jede Anfrage formuliert. Während der Systemprompt folglich das generelle Verhalten des Modells steuert, bestimmt der Benutzerprompt nur den Inhalt der jeweiligen Interaktion. Lies hier weiter zum Training von LLMs und welche Rolle der Systemprompt dabei spielt​. --- Abb. 2: Systemprompt Als letzter Schritt wurde der Systemprompt, der Frage-Prompt mit der spezifischen Fragestellung sowie die vom RAG-System abgerufenen Kontextabschnitte an das interne HU-LLM übergeben. Das Modell sollte damit die finale Antwort nun ausschließlich auf Basis der bereitgestellten Informationen generieren. Ob das wirklich funktioniert hat? Lies den nächsten Beitrag zur Evaluation des RAG-Systems. * * * * * * Zu den Autor*innen: Holle Meding ist Historikerin mit einem Schwerpunkt auf der Anwendung computergestützter Methoden und Large Language Models in der Geschichtswissenschaft. Sie studierte im Master Geschichte an der Freien Universität Berlin und am El Colegio de México und schloss den Master Interdisziplinäre Lateinamerikastudien an. Derzeit ist sie Stipendiatin der Gerda Henkel Stiftung und promoviert über Historisches Framing in den Medien. Aurel Daugs ist Masterstudent der Geschichtswissenschaft an der Humboldt-Universität zu Berlin mit dem Schwerpunkt Digital History. Seine Forschungsinteressen umfassen die methodenkritische Anwendung von Large Language Models sowie die semantische Textannotation für historische Textanalysen. In seiner Masterarbeit untersucht er das Ess- und Konsumverhalten im England des 18. Jahrhunderts anhand gedruckter Rezeptbücher, die er unter Einsatz von Sprachmodellen systematisch erschließt und analysiert [1]Vgl. für einen umfassenderen Überblick über das Prompt Engineering auch: Chen, Banghao / Zhang, Zhaofeng / Langrené, Nicolas / Zhu, Shengxin: _Unleashing the Potential of Prompt_ _Engineering in Large Language Models: A Comprehensive Review_. arXiv preprint 05.09.2024. https://doi.org/10.48550/arXiv.2310.14735. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Digital History Berlin (Redaktion) (9. Juli 2025). Holle Meding und Aurel Daugs: Prompt & Proof: Retrieval-Augmented Generation zur Steigerung der LLM-Zuverlässigkeit am Beispiel historischer Zeitungsquellen. _Digital History Berlin_. Abgerufen am 9. Juli 2025 von https://dhistory.hypotheses.org/11139 * * * * * * * *

Holle Meding und Aurel Daugs: Prompt & Proof: Retrieval-Augmented Generation zur Steigerung der LLM-Zuverlässigkeit am Beispiel historischer Zeitungsquellen Kann die Zuverlässigkeit von Large...

#Aus #den #Kursen #LLM

Origin | Interest | Match

0 0 0 0
Preview
Technische Einblicke in LLMs: Wie funktionieren große Sprachmodelle? von Niklas Kelm und Mareike Schäffer ## Embeddings: Die semantische Grundlage von LLMs Wortvektoren, auch **Embeddings** genannt, sind die grundlegende Technologie, welche dafür sorgen, dass der Computer in der Lage, ist Sprache semantisch zu verarbeiten. Wortvektoren repräsentieren Wörter bzw. das dahinterliegende Konzept in einem mathematischen Raum. Dabei gilt: Je ähnlicher die Bedeutung zweier Wörter, desto näher liegen ihre Vektoren im Raum beieinander. In den meisten LLMs werden jedoch keine ganzen Wörter, sondern kleinere Wortbestandteile (sogenannte Tokens) als Vektoren abgebildet. Diese Unterteilung ermöglicht eine genauere und flexiblere Darstellung von Bedeutung und agiert somit robuster auf regionale Schreibarten oder „Typos“. ``Zur Anschaulichkeit bleiben wir für unser Beispiel jedoch bei ganzen Wörtern. So würden beispielsweise die Vektoren für „Hund“ oder „Kuh“ näher beieinanderliegen als „Kuh“ und „Laptop“, da sich die Wörter „Hund“ und „Kuh“ semantisch ähnlicher sind als die Wörter „Kuh“ und „Laptop“. (siehe Abb. 1) Über die Verteilung der Vektoren im Raum werden außerdem auch semantische Beziehungen abgebildet. Schaut man sich beispielsweise an, wie die Vektoren „Hund“ und „Welpe“ zueinander liegen, fällt auf, dass die Länge und Richtung der Entfernung der zwischen den Vektoren „Kuh“ und „Kalb“ entspricht. (s. Abb. 2) Eine Richtung im Vektorraum kann demnach grob als ein „Konzept“, hier das Konzept „Erwachsenenform und Jungform“, verstanden werden. Abb. 1 Verteilung der Embeddings im Vektorraum (Eigene Abbildung) Abb. 2 Semantische Beziehungen zwischen den Wortvektoren (Eigene Abbildung) Im Vektorraum gibt es nicht nur einzelne Richtungen, sondern auch Kombinationen verschiedener Richtungen (Superposition), die gleichzeitig mehrere Konzepte in einem einzigen Vektor repräsentieren. So kann ein Vektor für ein Wort wie „Laptop“ aus einer Kombination von Konzepten wie u.a. „Computer“, „tragbar“ und „Arbeit“ bestehen, wodurch die Bedeutung des Wortes komplex und präzise dargestellt wird. Embeddings werden durch das Training eines Embeddingmodells mit einer großen Menge an Textdaten erstellt. Hierbei lernen die Embeddingmodelle die Bedeutung von Wörtern basierend auf ihrem Kontext und den statistischen Beziehungen zu anderen Wörtern. Es wird demnach analysiert, wie oft Wörter in welchem Kontext zusammen auftreten. Das Model platziert die Wörter damit auf Grundlage ihrer semantischen Bedeutung und Beziehungen zu anderen Wörtern im Vektorraum und erlernt somit deren semantische Bedeutung. Die Berechnung der Word-Embeddings ist Teil des sogenannten Trainings von LLMs. ## Training: Wie Maschinen Sprache lernen Als Training wird generell jeder Schritt bezeichnet, in dem das Verhalten des Modells hin zu einem gewünschten Verhalten angepasst wird. Ausgangspunkt sind dabei die Trainingsdaten, also ein Korpus bestehender Daten, welche als Grundlage des Modells fungieren. Je nach Sprachmodell umfassen diese gewaltige Menge an (Text-)Daten, die meist durch Webscraping zusammengetragen werden. Dabei gilt generell, dass eine größere Menge Trainingsdaten die Qualität des resultierenden Modells erhöhen. Abb. 3 Skizze des Trainingsprozesses (Eigene Abbildung) Der erste Schritt, aus Trainingsdaten ein Modell zu erstellen, beginnt mit dem sogenannten **Pretraining**. Das Modell wird mit zufälligen Parametern und Embeddings initialisiert und bekommt Satzteile aus den Trainingsdaten, für welche es das nachfolgende Wort vorhersagen soll (diese Vorhersage bildet die Grundfunktion des LLM!). Je nachdem, ob das Wort korrekt vorhergesagt wurde, werden die Parameter und Embeddings anschließend in die eine oder andere Richtung leicht angepasst. Dieser Prozess läuft so lange, bis die Fehlerrate des Modells unter einem von den Entwickler:innen festgelegten Grenzwert fällt – ein rechenintensiver und langwieriger Prozess, der daher mit hohen Kosten verbunden ist. Nach dem Pretraining erhält man also ein generelles Modell, welches Text mit einiger Genauigkeit weiterführen kann. Daraus ergeben sich zwar schon eine Bandbreite an Fähigkeiten, aber für spezifischere Aufgaben ist das Modell meist noch ungeeignet. Um das LLM auf eine bestimmte Aufgabe (als Chatbot, Übersetzungsprogramm,…) zu “fokussieren”, nutzt man mehrere Methoden: * Beim **Finetuning** wird das Modell noch einmal mit zusätzlichen, für die Aufgaben spezifischen Texten trainiert. Dies ist besonders nützlich, wenn bestimmte Arten von Output oder domänenspezifische Fakten erlernt werden sollen. * **Reinforcement-Learning (RL)** optimiert ein Modell, indem Ausgaben bewertet werden. Durch die Belohnung für gewünschte Ausgaben, was auf Grundlage entsprechender Beispiele auch automatisch erfolgen kann, wird das Modell immer weiter angepasst. Dies kann zum Beispiel durch die Bewertung des Outputs durch Nutzende des Modells geschehen, hier spricht man auch von Reinforcement Learning with Human Feedback (RLHF). * Der **Systemprompt** ist Text, der der eigentlichen Nutzeranfrage an das Modell vorangestellt wird. Möchte man zum Beispiel einen Chatbot wie ChatGPT entwickeln, könnte der Systemprompt “Du bist ein Chatbot, der hilfreiche Antworten auf folgende Frage liefert:” lauten, wobei tatsächliche Anwendungen um ein Vielfaches längere Prompts benutzen. * **In-Context-Learning** basiert, ähnlich dem Systemprompt, auf der Eingabe in das Sprachmodell. Dabei werden mit dem Prompt Beispiele geliefert, wie das LLM die Eingabe beantworten soll. Man unterscheidet hierbei zwischen _Zero_ -, _One_ – und _Few-Shot-Learning_ , womit die Anzahl der genutzten Beispiele gemeint ist. Der Prompt “Schreibe Wörter rückwärts. Hallo -> ollaH, Katze ->” wäre also ein Beispiel für _One-Shot-Learning_ , weil ein korrektes Ergebnis als Anleitung mitgegeben wird. Wie auch beim Systemprompt findet hier kein permanentes Trainieren des Modells statt, sondern nur eine Manipulation des Outputs durch die Manipulation des dem Modell zur Vervollständigung übergebenen Textes (Kontext). Modelle wie ChatGPT nutzen eine Kombination dieser Methoden für das sogenannte **Human Alignment** , womit die Anpassung des Modells an seine Aufgaben, zum Beispiel als genereller Chatbot mit Beschränkungen bei sensitiven Themen, gemeint ist. ## Transformer und Self-Attention: Wie LLMs den Kontext verstehen Im Abschnitt zum Training wurde bereits angesprochen, dass LLMs grundsätzlich immer, ausgehend vom Kontext, das nächste wahrscheinliche Wort berechnen. LLMs basieren dabei auf einem speziellen Aufbau, der sogenannten Transformerarchitektur. Sie ermöglicht die Verarbeitung von Texten und bildet die Grundlage dafür, dass LLMs in der Lage sind, verschiedene Aufgabestellungen wie beispielsweise Übersetzungen oder Zusammenfassungen zu lösen. Um eingegebene Texte „verstehen“ und korrekte Ausgaben erzeugen zu können , muss das Modell die einzelnen Wörter bzw. Tokens im Kontext des gesamten Textes repräsentieren. Dieses kontextuelle „Verständnis“ eignet sich das LLM mit Hilfe des _Self-Attention-Mechanismus_ an. Bei der Self-Attention wird für jedes Wort bzw. jeden Token im gegebenen Textausschnitt (Kontext) ermittelt, wie es mit den anderen Wörtern bzw. Tokens in Beziehung steht. Dafür verfügt das Modell über zahlreiche Attention-Heads, die während des Trainings verschiedene Beziehungen – etwa Subjekt-Verb-Abhängigkeiten – erlernen, ohne dass diese davor explizit vorgegeben wurden. Dafür werden in jede, Attention-Head für jedes Wort bzw. Token drei Vektoren erzeugt: der Query-Vektor, der Key-Vektor und der Value-Vektor. Der Query-Vektor eines Tokens formuliert, nach welchen Eigenschaften es bei anderen Tokens sucht, während der Key-Vektor die Eigenschaften des jeweiligen Tokens selbst beschreibt. Der Value-Vektor schließlich enthält den eigentlichen Inhalt des Tokens, der dann dort weitergereicht wird, wo Query und Key zusammenpassen. Nehmen wir als Beispiel den Satz: „Die Kuh steht auf der Weide.“ Für das Wort „steht“ wird ein Query-Vektor erzeugt, der nach einem Subjekt sucht. Der Query-Vektor von „steht“ wird dann mit den Key-Vektoren der anderen Wörter verglichen und findet das Wort „Kuh“ als zugehöriges Subjekt. Das Modell überträgt dann die Informationen aus dem Value-Vektor von „Kuh“ auf „steht“, um so die Beziehung zwischen dem Subjekt und der Handlung korrekt zu erfassen. (siehe Abb. 4) Durch die Einbeziehung des Kontext sind LLMs in der Lage mehrdeutige Wörter z.B. Maus (Computermaus oder die Maus als Tier) richtig zu interpretieren. Abb. 4 Transformer (Eigene Abbildung) Um besonders effizient zu arbeiten ohne dabei wichtige Zusammenhänge zu verlieren, werden die Wörter im **Transformer** nicht nacheinander, sondern parallel zueinander analysiert, was die Verarbeitung von besonders großen Textmengen ermöglicht. Der Transformer betrachtet also alle Wörter gleichzeitig und berechnet für jedes Wort zeitgleich, mit welchen anderen es in welcher Weise in Beziehung steht. Sowohl Transformer als auch Attention-Mechanismen berechnen ihre Ausgabe mittels beim Training angepasster und in der Verwendung des Modells dann fixer Werte, die zu den Parametern des Modells gehören. Wie funktioniert das ganze nun in der Praxis? Grundsätzlich generieren LLMs nacheinander immer ein Wort (Token), basierend auf den vorangehenden Wörtern (der eingegebene Prompt + bereits generierte Wörter). Je nach Komplexität des Modells haben sie dabei ein unterschiedlich großes **Context Window** , das den Umfang des Textes beschreibt, der gleichzeitig in der Self-Attention Architektur verarbeitet werden kann. Zur Berechnung des nächsten Outputs führen sie eine Vielzahl von Matrizenrechnungen aus (zu denen auch die bereits erwähnten Transformer- und Attentionalgorithmen zählen), um schlussendlich einen Vektor zu erhalten, der die Position des nächsten Wortes im Embedding-Raum abbildet. Damit der ausgegebene Text dann aber nicht immer der gleiche ist, verwenden die Modelle bei der Ausgabe dann allerdings nicht immer das wahrscheinlichste nächste Wort: Sprachmodelle haben häufig zudem eine eingebaute variable Zufälligkeit, die sogenannte **Temperatur** , um regelmäßig “kreativere” Wörter zu nutzen und damit „kreativere“ Texte erstellen zu können. ## Fazit Wie dieser Beitrag gezeigt hat, sind LLMs mitnichten “Hexenwerk”. Allerdings macht es ihre Komplexität und unvorstellbare Vielzahl an einzelnen Parametern schwierig für unser Vorstellungsvermögen, den genauen Weg von Input zu Output nachzuvollziehen. Diese Größe ist es allerdings auch, die es ihnen erlaubt, eine Vielzahl von für Historiker*innen nützliche Aufgaben zu übernehmen, für welche früher spezialisiertere Tools nötig waren. Die ethischen Implikationen der LLM-Nutzung, wie u. a. Nachhaltigkeit, die Provenienz der (Trainings-)daten, Transparenz oder die Frage nach Open Access, müssen jedoch immer mitgedacht werden, wenn sich Forschende für die Nutzung von LLMs in ihren Projekten entscheiden. * * * * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Digital History Berlin (Redaktion) (21. Mai 2025). Technische Einblicke in LLMs: Wie funktionieren große Sprachmodelle? _Digital History Berlin_. Abgerufen am 22. Mai 2025 von https://doi.org/10.58079/13zpc * * * * * * * *

Technische Einblicke in LLMs: Wie funktionieren große Sprachmodelle? Large Language Models (LLM)...

https://dhistory.hypotheses.org/10423

#Aus #den #Kursen #Digital #History #LLMs

Result Details

0 0 0 0