Datensatz

Question Answering Datensatz, basierend auf den Dokumenten des Münchner Dienstleistungsfinders

Dieser Datensatz ist für maschinelles Lernen gedacht.

Die Texte stammen aus dem ["Dienstleistungsfinder"](https://stadt.muenchen.de/service/) der Stadtverwaltung München.
Dort werden Informationen über die von der Stadt angebotenen Dienstleistungen online präsentiert.
Die Informationen reichen von der Beantragung eines Personalausweises bis zur Müllentsorgung.

Diese Texte können zum Training von NLP (Natural Language Processing)-Modellen auf Behördendeutsch genutzt werden.

Der Question-Answering Datensatz eignet sich speziell um Frage-Antwort-Systeme oder neuronale Dokumentensuchen - vgl. den [Artikel "Dense Passage Retrieval: Neuronale Suche in Texten"](https://www.heise.de/hintergrund/Dense-Passage-Retrieval-Neuronale-Suche-in-Texten-8992144.html) (Heise Verlag - Paywall).

Die Datensätze stehen unter [MIT-Lizenz](https://opensource.org/license/mit/).

## Weiterführende Informationen

[Mehr Informationen zum Parquet-Format](https://parquet.apache.org/).

Dense Passage Retrieval (DPR)

* https://haystack.deepset.ai/tutorials/09_dpr_training
* https://towardsdatascience.com/understanding-dense-passage-retrieval-dpr-system-bce5aee4fd40

Question-Answering (QA)

* https://huggingface.co/learn/nlp-course/chapter7/7?fw=pt

Distributionen

  • TXT LHM-Dienstleistungen-Corpus

    Alle Texte des Dienstleistungsfinders. Stand 11/2022.

    Letzte Änderung:
    13.06.2023
    Verfügbarkeit:
    -
    Offenheit der Lizenz:
    Freie Nutzung
    Nutzungsbedingungen:
    Andere offene Lizenz
    URL:
    https://huggingface.co/datasets/it-at-m/LHM-Dienstleistungen-Corpus/tree/main
  • TXT LHM-Dienstleistungen-QA

    2127 Frage-Antwort-Paare zu den Dokumenten des Dienstleistungsfinders. Format inspiriert von [GermanQuAD](https://www.deepset.ai/germanquad). Annotiert von: * Institute for Applied Artificial Intelligence: Leon Marius Schröder * BettercallPaul GmbH: Clemens Gutknecht, Oubada Alkiddeh, Susanne Weiß * Stadt München: Leon Lukas Statistiken zur Frageverteilung finden sich auf der [Huggingface Dataset-Card](https://huggingface.co/datasets/it-at-m/LHM-Dienstleistungen-QA)

    Letzte Änderung:
    13.06.2023
    Verfügbarkeit:
    -
    Offenheit der Lizenz:
    Freie Nutzung
    Nutzungsbedingungen:
    Andere offene Lizenz
    URL:
    https://huggingface.co/datasets/it-at-m/LHM-Dienstleistungen-QA/tree/main
Offenheit der Lizenz:
Freie Nutzung
Nutzungsbedingungen:
Andere offene Lizenz
Letzte Änderung:
24.08.2023
Veröffentlichungsdatum:
13.06.2023
Datenbereitsteller:
open bydata
Veröffentlichende Stelle:
IT-Referat
Kategorien:
Regierung und öffentlicher Sektor Regierung und öffentlicher Sektor
Zeitraum:
-
Raumbezug:
-
Schlagwörter:
machine-learning
nlp
question-answering

Diesen Datensatz kommentieren

Neueste Kommentare

Es sind noch keine Kommentare zu diesem Metadatensatz vorhanden. Schreiben Sie den ersten.