Wikilegal/Urheberrechtsanalyse von ChatGPT
![]() | Note: This page shares the Wikimedia Foundation’s preliminary perspective on a legal issue. This page is not final – if you have additional information, or want to provide a different perspective, please feel free to expand or add to it.
Please remember – this is not legal advice!
For more information on this disclaimer, see here. |
Einführung
Anfang 2023 löst der kreative Charakter neuer KI-Werkzeuge Diskussionen über die aktuellen US-Gesetze aus, die auf sie anwendbar sein könnten. Dabei geht es vor allem um Einschränkungen, die nur von Menschen geschaffenen Werken Urheberrechtsschutz gewähren. ChatGPT ist ein zentraler Teil dieser Diskussion. Als maschinelles Lernprogramm wurde ChatGPT anhand mehrerer Texte aus unterschiedlichen Quellen trainiert, von denen viele offene Texte unter der Lizenz Creative Commons waren, darunter auch Wikipedia. Dieser Artikel zielt darauf ab, zu analysieren, wie ChatGPT und andere ähnliche Werkzeuge mit den aktuellen US-Urheberrechtsgesetzen interagieren. Da es sich jedoch um ein sich entwickelndes Thema handelt und zum Zeitpunkt der Veröffentlichung noch mehrere Fälle anhängig waren, ist dieser Artikel wahrscheinlich veraltet, wenn er viel später als zum Zeitpunkt seiner Erstellung gelesen wird.
Einige andere Gerichtsbarkeiten, wie etwa das Vereinigte Königreich, vertreten in dieser Angelegenheit eine völlig andere Ansicht.
Was ist ChatGPT?
ChatGPT ist ein KI-Sprachmodell, das von OpenAI entwickelt und im November 2022 eingeführt wurde. Es besteht aus einem maschinellen Lernprogramm, das in einem Dialog mit Nutzern interagiert und es ihnen ermöglicht, Fragen in einfacher Sprache zu nahezu jedem Thema zu stellen. Auf diese Fragen generiert es Antworten in scheinbar natürlicher Sprache mithilfe eines statistischen Modells, das auf seinen Trainingsdaten basiert. Als KI-Sprachmodell kann ChatGPT für verschiedene Zwecke eingesetzt werden, darunter zum Beantworten von Fragen, zum Generieren von Texten, zum Übersetzen von Sprachen und mehr. Aufgrund der statistischen Natur seines Modells liefert es jedoch manchmal eine falsche Antwort auf eine Frage oder “halluziniert” Material, das nicht existiert.
Wie funktioniert ChatGPT?
ChatGPT nutzt maschinelle Lernalgorithmen, um aus großen Textmengen zu lernen und kontextgerechte Antworten auf Nutzereingaben zu generieren. Während des Trainings wurde ChatGPT mit einer riesigen Textmenge aus verschiedenen Quellen wie Büchern, Artikeln und Websites konfrontiert. Durch dieses Verfahren wurde das Sprachmodell so programmiert, dass es Textmuster erkennt und passende Vervollständigungen für einen gegebenen Eingabekontext generiert. Dieser Prozess wird als “unüberwachtes Lernen” bezeichnet, da der Algorithmus Muster aus unmarkierten Daten lernte, das heißt aus Daten, denen er ausgesetzt war, ohne explizit angewiesen zu werden. Wenn ein Nutzer eine Frage eingibt, generiert das Modell daher eine Antwort basierend auf der Sprache und dem Kontext der Eingabe.
ChatGPT verarbeitet Text, indem es ihn in Token aufteilt, die ungefähr die Größe eines Morphems haben, und versucht, mithilfe je eines Token auf einmal, was ungefähr einem Morphem auf einmal entspricht, die wahrscheinlichsten Vervollständigungen des Eingabetexts vorherzusagen. ChatGPT kann auf Eingaben in vielen natürlichen und konstruierten Sprachen, einschließlich Programmiersprachen, reagieren.
Auf KI-Systeme anwendbare Urheberrechtsgesetze
Nach dem US-amerikanischen Urheberrecht sind Werke, die ausschließlich von maschinellen Lernprogrammen erstellt wurden, nicht geschützt, da diese keine Rechtspersönlichkeit besitzen und nach geltendem Recht keine Rechte besitzen. Dies kann jedoch unter Umständen der Fall sein, wenn die Urheber einen erheblichen menschlichen Beitrag nachweisen und daher argumentieren können, dass ihr Werk urheberrechtlich geschützt ist. In anderen Fällen werden urheberrechtlich geschützte Daten zum Trainieren dieser Modelle verwendet. Die folgenden Fragen untersuchen diese Szenarien genauer.
Können urheberrechtlich geschützte Werke zum Trainieren von KI-Modellen verwendet werden?
Der erste Themenkomplex rund um Künstliche Intelligenz und Urheberrecht betrifft die Daten, mit denen diese Modelle trainiert werden. Die meisten dieser Systeme nutzen Inhalte aus dem gesamten Web, darunter persönliche Blogs, Kunstplattformen, Online-Enzyklopädien und mehr. Der Grund für die Verwendung einer so großen Menge an Inhalten ohne Lizenz liegt darin, dass die Verwendung dieser Bilder in den USA unter die Fair-Use-Doktrin fällt.[1] Für diese Analyse ist es wichtig zu klären, dass die Fair-Use-Doktrin nur in den USA und einigen anderen Rechtsräumen gilt, die Fair Use anerkennen, und dass ihre Anwendbarkeit in anderen Rechtssystemen abweichen kann. Nach dieser Rechtsdoktrin ist die Verwendung urheberrechtlich geschützten Materials unter bestimmten Umständen ohne Genehmigung erlaubt, solange sie einer gesellschaftlich nützlichen Aktivität wie Kritik, Berichterstattung, Forschung und Wissenschaft dient.
Das Rechtsteam der Foundation hat bereits eine Einführung zum Thema Fair Use veröffentlicht. Für diese Diskussion relevant ist, dass bei der Bestimmung, ob es sich um Fair Use handelt, verschiedene Faktoren berücksichtigt werden, darunter Zweck und Art der Nutzung, die Art des urheberrechtlich geschützten Werks, Umfang und Wesentlichkeit des verwendeten Teils im Verhältnis zum Gesamtwerk sowie die Auswirkungen auf den potenziellen Markt oder den Wert des urheberrechtlich geschützten Werks.[2] Mit anderen Worten: Diese Faktoren fragen danach, ob die Nutzung eine sozial nützliche Aktivität fördert, ob das Werk veröffentlicht oder unveröffentlicht ist, wie kreativ es ist, welcher Anteil des Originalwerks verwendet wurde und ob das Fair-Use-Werk das urheberrechtlich geschützte Werk ergänzt oder ersetzt.
In der Vergangenheit wurde großflächiges Kopieren als Fair Use eingestuft. Dazu gehören die massenhafte Reproduktion von Bildern für Bildsuchergebnisse und das Abrufen von Buchfragmenten zur digitalen Archivierung. Es gibt jedoch einige wesentliche Unterschiede zwischen dem Training eines Programms wie ChatGPT und diesen früheren Präzedenzfällen. Insbesondere berücksichtigt Fair Use die kommerziellen Auswirkungen und den Ersatz der Originalwerke, ein Thema, das im Zusammenhang mit KI-Werkzeugen noch erforscht wird. Sollte sich herausstellen, dass ChatGPT oder ähnliche Programme die zu ihrem Training verwendeten Werke ersetzen und so die kommerzielle Nutzung dieser Werke beeinträchtigen, ist es möglich, dass sie nicht als Fair Use eingestuft werden.
In diesem Zusammenhang ist es wichtig zu beachten, dass Creative-Commons-Lizenzen die freie Vervielfältigung und Wiederverwendung erlauben. KI-Programme wie ChatGPT könnten daher Text aus einem Wikipedia-Artikel oder ein Bild von Wikimedia Commons kopieren. Es ist jedoch noch unklar, ob das massive Kopieren von Inhalten aus diesen Quellen einen Verstoß gegen die Creative-Commons-Lizenz darstellt, wenn die Namensnennung nicht erfolgt. Insgesamt ist es in Anbetracht der aktuellen Präzedenzfälle wahrscheinlicher, dass Trainingssysteme mit urheberrechtlich geschützten Daten in den USA unter das Fair-Use-Prinzip fallen. Zum Zeitpunkt der Erstellung dieses Beitrags besteht jedoch erhebliche Unsicherheit.
Can you copyright AI outputs, and if so, who owns the content?
A second issue relates to what can be done with the outputs of AI programs. In September 2022, the US Copyright Office granted the first copyright for artwork created by latent diffusion AI.[3] However, on February 22, 2023, the USCO reconsidered the copyright protection it granted for artwork created by Midjourney, an AI image generator that features pictures created by feeding text inputs.[4] In its decision, USCO determined that the images “are not the product of human authorship.” Their decision was based primarily on the way that the output was random and could not be determined in advance. For them, this meant that it was not the work of human authorship, but rather of a random mechanical process. For USCO, copyright under US law requires sufficient human creativity, and therefore decided to cancel the registration. A few weeks later, the U.S. Copyright Office released detailed guidance clarifying its practices for examining and registering works that contain material generated by the use of artificial intelligence technology.[5]
Assuming, however, that some work could be the result of original and creative human authorship, several elements need to be taken into account when deciding who owns the copyrighted work:
Copyright law does not explicitly exclude artificial intelligence work. However, under the Copyright Act, any work must meet the following criteria:[6]
- Original works of authorship.
- Fixed in a tangible medium.
- A minimal degree of creativity.
If a work of art does not meet all three of these requirements, then it does not qualify for copyright protection, even if authored by a human.
Copyright is given to the creator, so they have exclusive rights to decide the future use of their work.
With the above in mind, some concerns about the ownership of AI-generated works exist. Particularly, there may be infringement claims on the final work based on copyrighted artworks inputted into the AI, which may infringe the rights of copyright holders. In this regard, some considerations must be taken, especially when the final AI output infringes the copyright of an existing work. For this reason, applying the standard of substantial similarity becomes relevant as it helps to determine whether an author has reproduced an existing copyrighted work even when the author’s creation is not identical to the original protected work.
There is no formulaic rule for determining whether there is a substantial similarity; instead, courts typically look at the facts of the case and the creativity involved in the process. However, not all copying is actionable. For example, copying only small elements of a work where the parts that were copied are in the public domain is legal.[7] Overall, what the test seeks is to prohibit substantial copying of a protected work.
Another important consideration is that AI often incorporates reproductions of copyrighted works used to create new works of art. Such new work could be an unauthorized derivative, constituting, therefore, infringement. In addition, storing copies of copyrighted works without justification is also an infringement.
In some cases, the owner of the AI may be liable for infringement if they appear to be the ones at fault for causing the infringement.
This creates a somewhat unusual legal situation: since AI-generated artwork is not copyrightable under current laws, it is likely neither the prompter nor the AI company has any rights to the artwork. But if the output infringes the copyright of an existing work, it is possible that the prompter or the AI company could be liable for the infringement.
Copyright concerns in modified AI-generated images
If an AI model is trained on millions of images and used to generate new images, it may not constitute copyright infringement in the United States if the method of training rises to the level of fair use. However, considering the most recent USCO decision, if a human modifies an AI-generated work, it is possible that the human can have copyright in their modification of a public domain AI work. This would follow the standard rules for derivative works, with the primary question being whether the human modifications are adequately creative to qualify for their own copyright.
Conclusion
Given the current discussion that ChatGPT and other AI platforms may be trained on content from the Wikimedia projects, including Wikipedia articles and free culture images, and may be used to generate works, it becomes critical to understand the many possible legal ramifications. So far, all possibilities remain open, as key cases about AI and copyright remain unresolved. However, separating and understanding both the output and the input questions is perhaps the first step toward defining the future of AI works. In other words, it is crucial to define if it is possible to copyright what an AI model creates and if it is possible to use copyright-protected data to train AI models. We encourage the Wikimedia communities to consider these topics when reviewing AI works on the projects and considering new policies for how to use these tools.
References
- ↑ “17 U.S. Code § 107 - Limitations on Exclusive Rights: Fair Use.” Legal Information Institute. Accessed March 22, 2023. https://www.law.cornell.edu/uscode/text/17/107
- ↑ “Copyright and Fair Use: A Guide for the Harvard Community,” Office of the General Counsel, February 16, 2023, https://ogc.harvard.edu/pages/copyright-and-fair-use#:~:text=Fair%20use%20is%20the%20right,law%20is%20designed%20to%20foster.
- ↑ Adam Schrader, “NYC Artist Granted First Known Registered Copyright for AI Art,” United Press International, September 24, 2022, https://www.upi.com/Top_News/US/2022/09/24/nyc-artist-granted-first-known-registered-copyright-ai-art/4081664063008/.
- ↑ “Zarya of the Dawn.” Reuters. United States Copyright Office, February 21, 2023. https://fingfx.thomsonreuters.com/.
- ↑ Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, U.S. Copyright Office. Federal Register. 88 FR 16190. 2023-05321. March 16, 2023. https://www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence
- ↑ U.S. Congress. United States Code: Copyright Office, 17 U.S.C. §§ 201-216. 1958. Periodical. https://www.loc.gov/item/uscode1958-004017003/.
- ↑ Balganesh, Shyamkrishna and Manta, Irina D. and Wilkinson-Ryan, Tess, Judging Similarity (2014). 100 Iowa Law Review 267 (2014), U of Penn Law School, Public Law Research Paper No. 14-15, Hofstra Univ. Legal Studies Research Paper No. 2014-09, Available at SSRN: https://ssrn.com/abstract=2409811