Mozilla veröffentlicht Common Voice Corpus 11.0 und Delta-Downloads

Mit Common Voice stellt Mozilla den weltweit größten öffentlichen Datensatz menschlicher Stimmen bereit – kostenlos und für jeden nutzbar. Mozilla hat Version 11.0 seines Datensatzes veröffentlicht. Außerdem lassen sich jetzt optional auch nur die Unterschiede zur vorherigen Version herunterladen.

Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla im Jahr 2017 das Projekt Common Voice gestartet. Mit Common Voice bietet Mozilla eine kostenlose Alternative an, zu der jeder beitragen kann und die jedem zur Verfügung steht. Damit möchte Mozilla Innovation und Wettbewerb in der Sprachtechnologie auf Basis von Maschinenlernen fördern.

Im vergangenen Jahr hat Mozilla Common Voice Investitionen von Nvidia, der Bill & Melinda Gates Foundation, der Deutschen Gesellschaft für Internationale Zusammenarbeit (GIZ) und dem britischen Außenministerium in Gesamthöhe von knapp fünf Millionen Dollar erhalten.

Mit dem vor kurzem veröffentlichten Common Voice Corpus 11.0 wächst der deutschsprachige Datensatz von 1.212 auf 1.234 Stunden an. Insgesamt deckt Mozilla Common Voice mit der neuen Version jetzt 100 Sprachen mit insgesamt 24.211 aufgenommenen Stunden ab, was Mozilla Common Voice zum vielfältigsten mehrsprachigen Sprachkorpus der Welt macht.

Außerdem ist es ab sofort möglich, anstelle vollständiger Datensätze für eine Sprache auch nur die Unterschiede zur vorherigen Version herunterzuladen. Wer also bereits den Common Voice Corpus 10.0 besitzt, muss mit dem sogenannten Delta Segment der Version 11.0 anstelle der ganzen 29,45 GB für Deutsch nur 424,4 MB herunterladen.

Zum Download der Mozilla Common Voice Datensätze

Der Beitrag Mozilla veröffentlicht Common Voice Corpus 11.0 und Delta-Downloads erschien zuerst auf soeren-hentzschel.at.