Maschinelle Texterstellung mittels KI: Taugt das was? [Search Camp 194]

7. September 2021 | Von in Podcast "Search Camp", SEO

Auch Maschinen können mittlerweile Text erstellen – KI sei Dank. Warum sollten sich dann noch Texter und Redakteure damit abmühen? Sind die Maschinen schon so weit? Wie gut sind maschinell erstellte Texte? Und wie funktioniert das eigentlich? Fragen über Fragen, die uns Kai Spriestersbach beantwortet hat.

 

Die wichtigsten Podcast-Links:

 

Shownotes

 

Markus Hövener: Moin! Herzlich willkommen bei Search Camp! Und heute geht’s ums Thema maschinelle Texterstellung und Textgenerierung mittels Künstlicher Intelligenz. Zumindest ist das der Arbeitstitel, den wir uns überlegt haben. Und wir ist natürlich, ich bin heute nicht alleine, einmal im Monat gibt’s ja eine Interview-Episode, und der Kai stand schon ewig lange auf meiner Vorschlagsliste. Und deswegen schön, dass der Kai Spriestersbach jetzt in der Leitung ist. Moin!

Kai Spriestersbach: Guten Morgen, Markus! Hallo!

Markus Hövener: Inhaber von SEARCH ONE und SEO-Berater, Content-Marketing-Stratege, sehr bekannt. Man sieht ihn auf wahnsinnig vielen Konferenzen und so. Ich hoffe, ich habe nichts Wesentliches vergessen.

Kai Spriestersbach: Alles gut, alles gut! Nein, also seit Corona ja nicht mehr, aber ich hoffe, das kommt natürlich irgendwann auch wieder zurück.

Markus Hövener: Ja, das wird, das wird. Wir wollen ja darüber sprechen, dass Maschinen Texte erstellen. Und ich habe mir mal vorher überlegt, es gibt ja eigentlich so drei Fälle. Und der erste Fall ist: Man hat einen redaktionell erstellten Text und lässt den durch eine Maschine übersetzen, welches Tool man auch immer dafür jetzt nimmt. Gibt’s ja was von Google, gibt’s was nicht von Google. Und darüber reden wir heute nicht, richtig?

Kai Spriestersbach: Genau, genau! Das ist auch ein sehr spannendes Thema, aber das wollen wir heute mal ein bisschen ausklammern. Also es geht wirklich nicht nur um die 1:1-Übersetzung, sondern um eigentlich Generierung von neuen Texten.

Markus Hövener: Dann das Zweite, was es gäbe, wäre regelbasierte Texterstellung. Das heißt, ich habe vielleicht ganz viele Produktdaten, ich habe einen Online-Shop für Monitore, die haben alle irgendeine Zoll-Zahl und einen Panel-Typ oder sowas, und eine Wattzahl und was auch immer. Und daraus auf Basis von vielen Schablonen und Durcheinanderwürfeln und alles werden dann automatisiert Texte erstellt. Aber nochmal: Die haben als Input eben immer strukturierte Informationen. Reden wir heute darüber?

Kai Spriestersbach: Würde ich sagen, nicht. Wir können das in der Abgrenzung vielleicht mal erwähnen, weil das ist einfach eine unterschiedliche Herangehensweise. Aber das würde ich auch eher ausklammern, weil schon, sage ich mal, seit zehn Jahren kann man das relativ gut machen. Und dieses Thema Künstliche Intelligenz ist halt jetzt relativ neu und spannend. Und ich glaube, darüber wissen auch viele noch viel weniger. Deshalb würde ich lieber darüber sprechen.

Markus Hövener: Dann kommen wir ja zum Thema Nummer 3. Das sind Sprachmodelle, das heißt, ich gebe eigentlich nur noch ein Thema vor oder einen Suchbegriff vielleicht, und die Maschine schreibt einfach mal drauf los. Ist das so einfach?

Kai Spriestersbach: Es kann so einfach sein, nur dann werden die Ergebnisse wahrscheinlich nicht so sein, wie du sie gerne hättest. Da kommen wir nämlich zu diesem ersten Riesen-Riesen-Unterschied. Nämlich diese regelbasierte Textgenerierung, die es eben schon seit über zehn Jahren gibt, da ist jeder vorgenerierte Pfad des Textes quasi festgelegt. Man legt ja Varianten an und du hast gerade gesagt, das basiert auf Texten und auf Daten in einer Datenbank. Und dann ist im Prinzip vorher vorhersagbar oder zumindest ist es klar, was rauskommen kann. Bei diesen neuen Sprachmodellen ist das eben gar nicht so. Ich kann sagen, schreib mir einen Text über, keine Ahnung, SEO und dann kommt irgendwas raus, was mal wahnsinnig erstaunlich geil ist und manchmal totaler Quatsch. Das liegt eben in der Natur der Sache. Es gibt auch einen schönen Vergleich, dass man sagt, das ist eigentlich fast wie ein Papagei. Also diese Sprachmodelle lernen ja auf Basis von Texten.

Markus Hövener: Die muss ich erstmal am Anfang reinstecken. Also ich könnte ihm jetzt die ganze Wikipedia mal reinstecken und was auch immer so innerhalb meines Themengebietes jetzt ein relevanter Text ist.

Kai Spriestersbach: Ja. Man geht da häufig oder lass uns mal bei der neuesten Iteration bleiben, dann machen wir es konkret, dann ist es, glaube ich, ein bisschen einfacher. Also die momentan am weitesten entwickelte, kommerziell nutzbare Variante des Ganzen nennt sich GPT-3 und ist mittlerweile ein Produkt der OpenAI Foundation. Das wurde mal gegründet, da war auch Elon Musk einer der Gründer, wenn man quasi einen Zugang für alle zu Künstlicher Intelligenz schaffen wollte. Das ist mittlerweile ein Konsortium und wird jetzt kommerziell auch ausgeschlachtet, also Microsoft hat sozusagen sich den Exklusivdeal gesichert. Diese GPT-3, das ist eine API, eben exklusiv zu vermarkten, und jetzt kann jeder dort einen Zugang buchen und kann quasi auf Basis dieser API, also einer Programmierschnittstelle, quasi Tools entwickeln. Und im Kern dahinter ist eben ein künstliches neuronales Netz, also sowas ähnliches wie so ein, kann man schon sagen, wie ein Gehirn, nur sehr viel primitiver als unser menschliches Gehirn. Aber schon für eine Künstliche Intelligenz wahnsinnig komplex, also mehrere Milliarden Parameter sind da drin. Und da wurden für, ich glaube, der aktuelle Stand waren irgendwie fast 20 Milliarden – nein 20 Millionen? Ich muss nochmal gucken – also für unfassbar viel Geld wurde dieses aufwendig trainiert mit eben nicht nur der Wikipedia, sondern so ziemlich alles, was greifbar war an Texten. Also einmal das komplette Internet reingestopft sozusagen, alles, was am Book Corpora da war, also so Projekt Gutenberg kennt man vielleicht, wo einfach Bücher in maschineller Form schon vorliegen. Also die haben einfach alles, was es an Text gab, da reingesteckt. Und dieses künstliche neuronale Netz ist quasi ein Mechanismus, um Muster zu erkennen und zu lernen. Also das ist üblicherweise die Vorgehensweise mittlerweile mit, man sagt da, Unsupervised Learning, also nichtbeaufsichtigtem Lernen. Man sagt jetzt nicht, guck mal, hier sind zwei Bilder, das eine ist ein Apfel, das andere ist eine Orange, sondern man gibt dem Netz eben sehr, sehr, sehr viele Daten und lässt das selber Unterschiede feststellen. Und das funktioniert mittlerweile erstaunlich gut, muss man sagen. Da können aber auch, wie gesagt, Dinge passieren, weil man eben nicht vorher festlegt, was man gerne hätte. Ja, können da auch ein paar lustige Sachen passieren oder merkwürdige Dinge. Und die Kunst mittlerweile ist eben, die Daten, also das Netz so aufzubauen und die Daten so auszuwählen, dass das, was rauskommt, irgendeinen Sinn ergibt.

Markus Hövener: Also wäre es immer sinnvoll, dass ich, wenn ich jetzt für einen ganz bestimmten Themenbereich später Texte generieren möchte, dass ich nur Texte aus meiner Domäne reinstecke?

Kai Spriestersbach: Das wäre eigentlich der Idealfall. Also die wirklich guten AI-Firmen, die machen das auch so. Die nehmen, das ist so ein vortrainiertes Netz, das kann dann schon mal alles, was Grammatik ist, und hat ein Grundverständnis von Sprache und Sprachkonstrukten. Und dann trainiert man das selber noch mal für seinen Anwendungsfall, zum Beispiel im medizinischen Bereich gibt’s das. Dann wirft man da nochmal einen Haufen medizinischer Paper und Forschungspaper und – keine Ahnung – Untersuchungsberichte, Arztberichte und so weiter da rein und dann kann dieses Netz in dieser Domäne sehr, sehr speziell sehr, sehr gute Ergebnisse liefern. Das ist jetzt bei GPT-3, wenn man es kommerziell nutzt, einfach nicht möglich. Man kann das nicht nutzen, also man kann es nicht trainieren, sondern man muss es so nutzen wie es jetzt da ist. Und das ist auch gleichzeitig eben derzeit, würde ich sagen, das größte Problem bei der tatsächlichen Anwendung. Du hast gerade schon gesagt, ich gebe den Dingen einfach ein Thema vor und lass das mal schreiben. Dann ist das in dieser Domäne überhaupt nicht Experte oder trainiert oder hat irgendeine Ahnung von dem, was ich da eigentlich haben will. Also ich kann Glück haben, dann waren in dem Korpus, der da trainiert wurde, die Informationen drinnen, die ich vielleicht brauche für meinen Artikel. Es kann aber auch sein, zum Beispiel, ich will über das neueste iPhone einen Text haben und der Korpus ist einfach von 2019, dann hat das Ding überhaupt keine Ahnung und schreibt mir irgendwas über ein altes iPhone mit einem alten Prozessor. Also das habe ich zum Beispiel ausprobiert, und es war dann so, dass halt faktische Angaben wie Bildschirmgröße, Auflösungen, Prozessor, Arbeitsspeicher und so weiter basieren dann halt eben auf den alten Informationen in diesem Korpus. Das heißt, für die Wiedergabe von Wissen ist das eigentlich überhaupt nicht geeignet. Also es ist ein Sprachmodell, was das Ding lernt und es ist kein Informationsmodell. Da wird die Software häufig fast schon missbraucht, sage ich jetzt mal. Was natürlich ganz gut funktioniert, ist, ich kann einen Artikel, das habe ich auch selber gemacht auf meinem englischen Blog, einfach mal zu sagen, schreib mal einen Artikel, wie man in zehn Jahren zum Millionär wird. Das ist ziemlich interessant und ziemlich witzig. Weil es gibt natürlich hunderte und tausende von Texten auf irgendwelchen Blogs, wo halt irgendjemand geschrieben hat, wie man reich wird. Das heißt, irgendwas halbwegs Sinnvolles kommt dabei raus.

Markus Hövener: Vielleicht basierend darauf, ist das denn etwas, wo man sagen würde, ist das jetzt eine Spielwiese im Moment oder würdest du sagen, dafür gibt’s auch wirklich im Moment Einsatzgebiete?

Kai Spriestersbach: Ja, auf jeden Fall. Wenn man sich einzelne Aufgaben heraussucht, wo das jetzt schon sehr, sehr gut ist, würde ich sagen, macht das auf jeden Fall Sinn das einzusetzen. Beispielsweise die Erstellung von Anzeigentexten. Also man kann zwar dieses System nicht trainieren, aber du kannst dem quasi eine umfangreiche Information mitgeben. Stell dir das vor wie ein Briefing für einen Autor. Du kannst sagen beispielsweise, schreib mir einen Anzeigentext für eine Facebook-Anzeige. Dieses Ding weiß quasi schon auf Basis dessen, was es gelernt hat, was ein Facebook-Anzeigentext ist, also sprich, die ungefähre Länge ist dem Ding klar. Das funktioniert schon ganz gut. Und auch, dass ein Anzeigentext, sag ich mal, aufmerksamkeits- und klickstark sein soll, also mehr so werblich, marktschreierisch, hätte ich jetzt mal gesagt. Das ist dem Ding schon klar, wenn du sagst, ich hätte gerne einen Facebook-Anzeigentext. Und dann gibst du ihm einfach noch mit, für das und das Produkt, für die und die Zielgruppe, und dann funktioniert das wirklich erstaunlich gut. Genauso kannst du, SEO, wenn wir uns mal angucken, Seitentitel und Meta-Beschreibungen zum Beispiel wunderbar generieren, wenn du dem Ding einfach für jede einzelne URL sozusagen den Inhalt mitteilst. Dann weiß es ja sozusagen, um was es sich dreht und kann mit dem Sprachmodell was Sinnvolles ableiten sozusagen, aber auf Basis von Informationen, die du bereitstellt. Und das ist eigentlich so die Kunst sozusagen, den Input, also die Arbeitsanweisung an GPT-3 so zu formulieren, dass was Gutes oder Sinnvolles bei rauskommt. Und da spiele ich seit einer gewissen Zeit mit rum, also ich habe direkt Zugriff mittlerweile als, also ich bin ja noch im Masterstudium, ich habe jetzt in der Corona-Zeit gesagt, ich mache jetzt nebenberuflich noch meinen Master, und habe da als Student sozusagen einen Forscherzugang zu der reinen API bekommen, was ziemlich spannend ist. Und nutze aber auch kommerzielle Dienste wie zum Beispiel jarvis.ai, die darauf basierend halt ein Tool, ein Frontend gebaut haben, um es zu vereinfachen. Und damit experimentiere ich gerade rum. Leider noch überwiegend in englischer Sprache. Aber da kommen teilweise schon echt erstaunliche Dinge raus. Oder was auch sehr, sehr, sehr gut funktioniert, sind Reformulierungen oder Umformulierungen. Also zum Beispiel, eins, was mich total umgehauen hat, weil ich tue mich immer ein bisschen schwer, ich bin kein Werbetexter und ich bin eher so der nüchterne, faktische Mensch, und wenn ich irgendwie ein Produkt beschreibe, dann schreibe ich halt, was für Features das Produkt hat. Und es gibt in diesem jarvis.ai ein Modul, das nennt sich eben Feature-basierte Produktbeschreibung, wird umgewandelt in Vorteile für den Kunden. Also der macht dir tatsächlich aus so einer Liste von Features Kundenvorteile. Und das funktioniert erstaunlich gut. Und da kommen Dinger raus, wo ich denke, geil, hätte ich so nie schreiben können. Und das macht echt Spaß. Oder auch so, also da gibt’s so ein paar so kleinere, vorgefertigte Modelle, oder es gibt auch im Werbetexter-Umfeld so ein paar Modelle und die hat das eben auch, also dafür wurde es speziell trainiert. Und das funktioniert erstaunlich gut. Also zumindest in Englisch.

Markus Hövener: Aber das heißt jetzt, wenn du sagst, erstaunlich gut, frei loslaufen lassen würdest du es nicht, sondern es muss immer noch, oder es kann entweder inspirativ verwendet werden oder halt, dass noch zum Schluss ein Mensch drüber guckt und sagt: Okay! Hier ist er gerade etwas vom Weg abgekommen. Oder?

Kai Spriestersbach: Ja, unbedingt, unbedingt! Du kannst nie, nie, nie irgendwas, was da rausfällt, eins zu eins so onlinestellen. Theoretisch, du kannst da in Teufelsküche kommen. Wir hatten tatsächlich eine Anfrage, damals noch über die Agentur, ich habe ja für die eology Beratung gemacht noch bis Ende letzten Jahres, und da war ein großer Kunde, der genau das eben machen wollte: Text generieren, direkt onlinestellen ohne Redaktion. Und da habe ich dem einfach mal so ein paar Beispiele gemacht. Und gerade, das ist ein großer Konzernkunde, der normalerweise, also wenn die einmal irgendwo was falsch wiedergeben, weil in irgendeinem Tarif irgendein Faktum nicht stimmt, dann kommt sofort die Konkurrenz und dann gibt’s Abmahnungen und dann wird‘s richtig teuer. Und gerade die haben danach gefragt. Fand ich ziemlich witzig. Also das geht natürlich auf keinen Fall. Aber ich würde sagen, derzeit, es ersetzt keinen Texter, sondern es ist ein Tool für Texter. Das heißt, also im kreativen Bereich funktioniert es wahnsinnig gut, also das Ding ist unfassbar gut, sich Bullshit auszudenken, um es mal so plakativ zu sagen. Also es gibt jetzt schon die ersten Bücher, die mit Jarvis geschrieben wurden, also so fiktionale Storys, funktioniert wahnsinnig gut. Das Problem ist halt nur, dass, wenn du über ein Buch hinweg eine Story entwickelst, dass das Ding halt irgendwann nicht mehr weiß, was es am Anfang geschrieben hat. Weil das Fenster von Text sozusagen, an das es sich selbst erinnern kann, ist halt limitiert. Das heißt, so zwei, drei DIN-A4-Seiten funktioniert alles wunderbar, ab der vierten DIN-A4-Seite kann es halt sein, dass plötzlich die Hauptpersonen andere Namen haben, weil das Ding einfach gar nicht mehr weiß, wie seine eigenen Hauptpersonen heißen. Also das ist wirklich, sag ich mal, noch im explorativen Bereich. Aber was zum Beispiel grandios funktioniert, ist, Blog Post Outline nennt sich das. Also du sagst einfach, schreib mir ein Outline für einen Artikel, zum Beispiel – keine Ahnung – wie erstelle ich einen WordPress Theme. Und dann liefert das dir tatsächlich zwischen fünf und zehn Bullet Points, sag ich jetzt mal, die hervorragend strukturiert sind, die auch inhaltlich Sinn machen, wie so ein Artikel eben aufgebaut sein könnte. Und dann kann man eben mit dem Assistenten, jede einzelnen dieser Überschriften anfangen mit: write an blog introduction, write an blog paragraf und so weiter. Also quasi so Stück für Stück kann man diesen Artikel entstehen lassen. Und wenn man einfach alles, was Blödsinn ist, weglöscht, kommt man einfach schon zu einem okayen Ergebnis, würde ich mal sagen. Aber das würde ich sagen, lohnt sich nicht. Also wirklich lohnen tun sich die Dinge, wo es halt wirklich sehr gut ist. Eben Anzeigentexte, Seitentitel, Produktbeschreibungen für Amazon Produkte zum Beispiel, wenn ich jetzt ein großer, großer E-Commerce-Händler bin und ich brauche vor allem einzigartige Beschreibungen oder besonders gute Beschreibungen, das kann es sehr, sehr gut. Oder wenn jemand eine Gastartikel-Strategie fährt und er braucht jetzt einen Artikel, den ein Fachautor geschrieben hat, vielleicht in 20 Varianten oder in 10 Varianten. Sowas funktioniert auch gut, weil dann ist die Information quasi schon feststehend und das Ding ist im Reformulieren auch sehr, sehr gut. Also du kannst sagen: Diesen Text, nimm, und erkläre den einem Kind. Zum Beispiel. Das funktioniert wirklich sehr gut. Oder formuliere das jetzt in – keine Ahnung – wissenschaftliche Fachsprache oder in Sprache für einen Zehnjährigen oder in sehr glücklich, euphorisch, optimistischer Sprache oder in depressiv, endzeitstimmungsgemäßer Sprache und so weiter. Also das ist echt erstaunlich. Ich habe da großen Spaß im Moment, damit rumzuspielen. Und teilweise sind die Ergebnisse wirklich gut und teilweise denkst du dir dann so: Oh nein! Something went wrong.

Markus Hövener: Jetzt sind wir ja hier bei Search Camp, also wir müssen eigentlich auch noch so den SEO-Bogen jetzt schlagen, weil erstmal grad Texterstellung, ja, praktisch und als Inspiration alles super. Aber ich habe natürlich mal nachgeguckt, ich meine, wir alle kennen das Dokument, Google sagt: Was nicht zulässig ist, sind automatisch generierte Inhalte. Zitat: „Automatisch generierte Inhalte sind Inhalte, die durch ein Programm erstellt wurden“. Und dann werden halt ein paar Sachen aufgeführt wie Markow-Ketten oder sowas. Das haben wir hier jetzt nicht. Oder: „Von einem automatisierten Tool übersetzte Texte“ – das Thema wollten wir heute eigentlich auch nicht mehr machen – „die vor der Veröffentlichung nicht manuell überprüft oder zusammengestellt werden.“ Also quasi, wann immer eine Maschine was macht, ohne dass ein Mensch drüber guckt, ist das schlecht?

Kai Spriestersbach: Genau! Ich finde, das ist übrigens eine relativ neue Anmerkung, dieses, ohne dass Menschen drüber geguckt haben, stand früher nicht drin. Das finde ich ganz spannend. Das heißt, hier öffnet sich Google ein Stück weit, weil die maschinelle Übersetzung ist mittlerweile so gut und wenn da nochmal einer drüber guckt. Also die Frage ist ja immer: Was will Google damit verhindern? Natürlich, dieses Thema Markow-Ketten oder was man früher so Text Spinning auch genannt hat. Also bei Markow-Ketten kommt halt wirklich nur Blödsinn raus. Das ist ja das, was Google nicht im Index haben will. Das ist echter Spam, das ist kein Inhalt der, einem Menschen einen Mehrwert bietet, würde ich jetzt einfach mal kurz abkürzen. Ich würde behaupten, dass, wenn es gut gemacht ist und wenn ein Mensch eben dieses Tool benutzt und den Output sozusagen filtert, dass dieses GPT-3 durchaus Texte liefern kann, die einen hohen Wert für Menschen haben. Und an der Stelle finde ich, ist es dann auch in Ordnung die für SEO zu nutzen. Wenn es quasi nur ein Werkzeug ist, um diesen Text zu erstellen, dann begeben wir uns in das Land: Kann Google das merken und kriege ich trotzdem eins auf die Mütze? Aber aus meiner Sicht, wenn da wirklich ein guter Artikel bei rauskommt oder was auch immer da rauskommt und das ist genauso gut wie, wenn es ein Mensch geschrieben hätte, dann stelle ich die Frage: Warum nicht?

Markus Hövener: Ich hätte mich das auch gefragt. Ich meine, die Frage ist ja: Kann eine Maschine erkennen, dass ein Text von einer Maschine geschrieben wurde? Man könnte ja sagen, hey, die beiden kennen sich irgendwie, aber das stimmt natürlich nicht.

Kai Spriestersbach: Ja doch, da gibt es Methoden. Das Witzige ist ja, wenn du dir anschaust, wie eben diese Texte generiert werden. Es ist ja immer, also diese GPT-3, dieses Netz macht immer oder versucht vorherzusagen, welches das nächste Wort ist auf Basis der letzten Worte. Und wenn man sich das anschaut, das ist ein rein statistisches Verfahren. Also mit echter Intelligenz hat das nichts zu tun. Aber das lassen wir jetzt mal außen vor, man nennt es halt Künstliche Intelligenz. Aber wirklich intelligent ist es ja nicht. Das heißt, es wird immer das wahrscheinlichste Wort wählen. Und dann kannst du wiederum statistisch analysieren, ob dein Text sehr viele, sehr wahrscheinliche Wörter verwendet oder ob dein Text eben auch sehr unwahrscheinliche Wörter, die einfach ein Autor, versierte Sprache, der verwendet halt nicht immer dieselben 100 Wörter oder so, jetzt mal ganz plakativ gesagt. Der hat eher eine blumige Sprache, der bringt auch mal ein etwas seltener verwendetes Wort mit rein. Und daran kann, also es gibt schon Algorithmen, die textgenerierte oder automatisierte generierte Texte erkennen mit einer relativ hohen Wahrscheinlichkeit. Dann kann man natürlich wieder sozusagen dem entgegengesetzt, man kann auch dieser GPT-3 API sagen: Nimm nicht das Wahrscheinlichste, sondern … Das nennt man die Temperature. Das ist quasi ein Wert, den man mitgibt. Also wenn die Temperature 0 ist, kommt auf demselben Input immer derselbe Output raus. Das heißt, man gibt dieser API keinerlei Freiheitsgrade. Man kann die Temperatur aber auch relativ hoch setzen und dann kommt auf denselben Input halt zufällig verschiedene Dinge raus. Und dann wird es natürlich auch zunehmend schwieriger für, sage ich jetzt mal, den Gegen-Algorithmus das zu erkennen. Dann ist aber auch die Rate des Bullshits, der rauskommt, wieder sehr viel höher. Weil dann erlaubt man dem Algorithmus ja quasi abzubiegen sozusagen in seinem Korpus. Und dann kommt der halt manchmal an Stellen raus, die einfach nicht mehr sinnvoll sind.

Markus Hövener: Wir müssen jetzt natürlich auch nochmal gucken so, das, was der da schreibt, könnte ja vielleicht auch rechtliche Konsequenzen haben?

Kai Spriestersbach: Oh ja!

Markus Hövener: Eine Frage wäre vielleicht so: Wie wahrscheinlich sind Urheberrechtsprobleme? Denn schlussendlich hat die Maschine ja von anderen Texten gelernt. Und da könnte jetzt was rauskommen, was nicht so gut ist.

Kai Spriestersbach: Was man wirklich sagen muss oder kann, und das habe ich auch zigfach jetzt überprüft: Die Texte, die generiert werden, die bestehen jeden Copyscape Test. Also so exakt in dieser Formulierung, wie man es eben generiert, gibt es das nicht im Internet. Also auch, wenn man dann Google-Abfragen macht, das sind schon, in Anführungszeichen, unique Texte, also einzigartige Texte. Von daher könnte man sagen, urheberrechtlich eigentlich kein Problem. Was aber tatsächlich nicht geklärt ist, da müssen auch Juristen noch, glaube ich, oder Gerichte darüber urteilen, auch weltweit, ob eben, wenn ich einen Algorithmus auf Basis von Texten generieren, für die ich keine Lizenzen der Nutzung habe und dann das kommerziell nutze, also in meiner Rechtsauffassung ist das auch nicht in Ordnung. Wenn ich natürlich, sag ich jetzt mal, nur freie Texte wie die Wikipedia verwende, dann mag das in Ordnung sein. Oder es gibt ja auch Texte von Büchern, die sind so alt, dass die Autoren irgendwie 70 Jahre tot sind und da ist kein Urheberrecht mehr drauf und so weiter. Aber dann bin ich natürlich sehr eingeschränkt, was die Verwendung angeht. Und bei der Wikipedia ist ja auch die, so wie ich Creative Commons, die Lizenz dahinter verstehe, muss dann das Ergebnis eigentlich ja auch wieder unter Creative Commons Lizenz stehen. Was GPT-3 nicht tut und so weiter. Also in meiner Rechtsauffassung ist das eigentlich nicht in Ordnung, was da passiert. Aber das müssen andere entscheiden.

Markus Hövener: Und dann ist natürlich noch die Frage, finde ich, was eigentlich für mich vielleicht fast ein größeres Thema ist, das ist die Frage der faktischen Korrektheit. Also die Maschine hat irgendwas bei Holocaust-Leugnern gelernt und schreibt dann halt einen Text, der einfach grammatikalisch vielleicht super ist, aber inhaltlich natürlich mehr als grenzwertig. Das heißt, das, was ich reinstecke, definiert das, was ich herausbekomme. Und das heißt aber auch nochmal: Ich muss extrem aufpassen, was ich ihm eigentlich alles beibringe.

Kai Spriestersbach: Ja, das auf jeden Fall. Also man hat das ja, da gab‘s doch dieses schöne Beispiel mit dem Microsoft Chatroboter. Der wurde ja dann gezielt über Twitter, sag ich mal, mit nicht so netten Dingen gefüttert, und der wurde ja dann ein …

Markus Hövener: Ein bisschen unleidlich.

Kai Spriestersbach: … ja, ein sehr unleidlicher Zeitgenosse. Und dann hat man ihn auch ganz schnell wieder abgeschaltet. Das Risiko besteht, in Anführungszeichen, weniger bei GPT-3, weil – sag ich mal so – die Datenmenge, die da reingesteckt wurde, die ist so gigantisch, also kleine Extremmeinungen werden da statistisch einfach nicht abgebildet. Also du wirst wahrscheinlich mit dem Ding, also wenn du natürlich schreibst, erzeuge einen Text – also das kannst du machen – du kannst sagen, schreib mir einen Text, der argumentiert, warum der Holocaust nie stattgefunden hat, dann wird dieses Ding sowas schreiben. Aber normalerweise, wenn du sagst, explain what the holocaust is or the shoah oder sowas, dann würde ich jetzt mal sagen, aus meinem Bauchgefühl heraus ist die Wahrscheinlichkeit, dass da wirklich eine Leugnung rauskommt, relativ gering, weil einfach der überwiegende Teil des Textes im Internet Gott sei Dank doch die Wahrheit wiedergibt. Also da ist ja auch die Frage, was ist Wahrheit im Netz? Google tut sich da ja auch immer schwer, wenn eben zwei Behauptungen im Raum stehen. Also da würde ich wirklich sichergehen und in diesem Art Briefing wirklich ganz klar definieren, was geht, was nicht geht. Also am besten funktioniert dieser Algorithmus immer, wenn ich Beispiele mitliefere. Also wenn ich ihm sage, guck mal hier, keine Ahnung, das sind fünf Texte und ich habe dazu fünf Zusammenfassungen geschrieben und jetzt schreib mir zu dem sechsten Text eine Zusammenfassung, dann funktioniert es hervorragend. Da geht auch nichts schief. Aber je weniger Input ich liefere, desto mehr Möglichkeiten gibt es. Ich hatte das, ich weiß gar nicht mehr, habe ich es im Vorgespräch gesagt oder schon auf Sendung, aber wenn du sagst, schreibe mir ein wissenschaftliches Paper über zum Beispiel COVID-19 – das habe ich jetzt mal gemacht, um einfach mal rauszukriegen, was dabei rauskommt – dann weiß das Ding, weil der Korpus so alt ist, noch gar nicht, was COVID-19 ist. Und es hat natürlich auch keine wissenschaftliche Expertise in dem Bereich, aber es erstellt etwas, das eins zu eins aussieht wie ein wissenschaftliches Paper. Das zitiert Studien, die es nicht gibt, von Autoren, die es nicht gibt, also das ist hanebüchen, was dabei rauskommt. Da könnte man wahrscheinlich einen eigenen Podcast oder eine eigene YouTube Show machen, um nur Zeug vorzulesen, was dieses Ding geschrieben hat. Weil es klingt erstaunlich plausibel. Und das ist eben auch aus meiner Sicht die Gefahr dahinter. Und dessen muss man sich bewusst sein, wenn man sich sowas, also man denkt immer, man spart Zeit, aber wenn man dann alles, was dieses Ding generiert, nochmal liest und Fact Checking machen muss und korrigiert und Dinge löscht, die Blödsinn sind, also dann sag ich mal, der produktive Einsatzbereich, in dem es wirklich sinnvoll ist, weil man sich Zeit spart oder Geld spart, der ist momentan noch relativ klein.

Markus Hövener: Das wäre doch eine super Überleitung zur letzten Frage, nämlich wirklich die Frage: Müssen wir uns jetzt heute schon mit diesem Thema beschäftigen? Du hast zum Beispiel gesagt, für Autoren ist es eine ganz gute Inspirationsquelle zum Beispiel.

Kai Spriestersbach: Mhm (bejahend).

Markus Hövener: Also heute nutzen schon oder kann man da ruhig jetzt noch ein Jahr warten? Und wer sollte sich das Ganze auf jeden Fall angucken?

Kai Spriestersbach: Ja, die Standardantwort der SEOs: Es kommt darauf an. So auch hier. Also ich sag mal so, wenn man jetzt eine Webseite hat, die bestimmte Schemen verwendet, also zum Beispiel Textzusammenfassungen, funktioniert wahnsinnig gut. Wenn ich also jetzt ein großes redaktionelles Angebot habe und ich will irgendwo auf, sagen wir mal, vielleicht Kategorie-Seiten oder auf Themenseiten irgendwie Kurzzusammenfassungen zu meinen Artikeln haben, dann kann ich das dafür wirklich nutzen. Da bin ich gerade dabei was zu entwickeln, mal gucken, ob das funktioniert: zum Beispiel für Frage und Antworten. Also ich kann Fragen vorgeben und das Ding findet mir Antworten. Ich kann ihm auch vorher den Text mitgeben, in dem die Antwort eigentlich steht, und dann findet das die richtige Antwort. Also da wäre eben die Frage: Kann ich, wenn ich zum Beispiel für FAQ-Snippets in den Suchergebnissen eben Fragen und Antworten definiere, kann das Ding mir sowohl Fragen generieren, die die Zielgruppe hoffentlich interessieren, als auch dann die Antworten dazu generieren. Also das könnte man in so einen Prozess gießen, wo es vielleicht ein bisschen schneller geht. Was ich vorhin schon gesagt habe, so Seitentitel, Produktbeschreibungen, das funktioniert erstaunlich gut. Auch Antworten auf Reviews zum Beispiel: Wenn man jetzt im lokalen SEO-Bereich unterwegs ist, ist ja häufig eine Aufgabe, auf Bewertungen zu antworten. Das funktioniert auch sehr, sehr gut, also das Ding ist sehr freundlich, bedankt sich dann, geht auch tatsächlich auf Kritik ein. Manchmal, wie gesagt, liefert es erstaunliche Ergebnisse. Dafür kann man es definitiv einsetzen. Und ich glaube, jeder sollte oder muss einfach mal sich anmelden, Jarvis kann man ja kostenlos testen. Ich könnte auch noch dir einen Link geben, dann kriegt man 10.000 Gratis-Tokens, wo man einfach mal rumspielen kann. Und dann einfach mal diese einzelnen, das nennt sich Templates, einfach mal ausprobieren. Also das sind so Templates wie eben Product Description oder Blog Post Outline oder eben, explain to a child. Oder was ich auch gerne nutze, ist wie gesagt dieses Blog Post Outlining. Oder Sentence Expander macht auch Spaß. Also du schreibst einfach einen Halbsatz hin und sagst, schreib das Ding mal weiter. Und wie gesagt, manchmal kommen da echt erstaunliche Dinge raus, die mich einfach nur, wenn ich mal eine Schreibblockade habe, einfach weiterbringen in dem, was ich schreibe. Also ich lasse mir jetzt nicht die Texte wirklich von dem Ding schreiben, aber momentan habe ich Spaß da drin irgendwie, das so ein bisschen zu erforschen und das, was sinnvoll ist, eben mit reinzunehmen in den Text. Und was nicht sinnvoll ist, ist dann zumindest für ein Schmunzeln immer gut.

Markus Hövener: Wo du Links sagtest, also ich kann das natürlich gerne in die Shownotes reinpacken. Wenn wir das öffentlich teilen dürfen, dann gerne.

Kai Spriestersbach: Ja natürlich. Also das könnt ihr auch einfach, wenn ihr jetzt das hier audiomäßig hört, einfach kai.im/jarvis, also so wie bei Marvel im Marvel Universum, die KI heißt ja auch Jarvis, so heißt das Ding, dann bekommt ihr eben diese 10.000 Tokens extra und könnt da einfach mal rumspielen.

Markus Hövener: Ja, cool!

Kai Spriestersbach: Das funktioniert teilweise auch schon in Deutsch. Wobei das meiste, ich würde sagen, fangt mal in Englisch an, dass ihr mal ein Gefühl dafür bekommt, wo die Grenzen liegen. Und dann könnt ihr auch das mal für deutsche Texte nutzen oder testen. Dann leider, weil in dem Korpus einfach überwiegend englischsprachiger Inhalt drin war, fällt sozusagen die Qualität noch mal mit dem Switch auf Deutsch deutlich ab.

Markus Hövener: Ja, vielen Dank für deinen wertvollen Input und vor allem deine vielen Erfahrungen, die du damit gesammelt hast.

Kai Spriestersbach: Ja, gerne, gerne.

Markus Hövener: Vielleicht angrenzend die Frage: Sehen wir dich in diesem Jahr noch auf irgendeiner Konferenz?

Kai Spriestersbach: Ich muss mal gucken. Also ich habe, ich weiß nicht, wer mich verfolgt auf Twitter oder jetzt auch neuerdings auf Instagram, ich habe mir gerade eine kleine Auszeit genommen, ich baue gerade einen Kastenwagen um zu einem Camper-Mobil. Weil ich da mit meiner Frau durch Europa reisen möchte und von dort aus unterwegs arbeite. Und falls das klappt, dass das Ding fahrbereit ist bis zur SEOkomm im November, dann wird man mich dort sehen, aber nicht als Vortragender. Also ich habe dem Oliver auch schon abgesagt, weil ich es einfach zeitlich nicht unterkriege dieses Jahr. Aber dann bin ich zumindest als Teilnehmer da. Wobei, also vor einem Monat hätte ich gesagt, schaffe ich auf jeden Fall. Mittlerweile sage ich, oh, könnte knapp werden, das ist so viel mehr Arbeit wie ich gedacht hatte.

Markus Hövener: Ja.

Kai Spriestersbach: Also dieses Jahr wohl eher nicht mehr. Aber das Schöne ist, wenn ich dann diesen Camper habe, werde ich sehr viel unterwegs sein. Das heißt, ich plane dann auch, Leute zu besuchen, auch Gespräche vor Ort zu führen, auch auf Konferenzen wieder verstärkt zu gehen und freue mich sehr, sehr, sehr auf ein hoffentlich wieder sehr persönliches und interessantes Jahr 2022 dann zumindest.

Markus Hövener: Ist auch ein gutes Schlusswort. Kai, ich danke dir schön, es war mir ein Fest.

Kai Spriestersbach: Vielen Dank nochmal für die Einladung! War sehr spannend.

Markus Hövener: Wir sollten jetzt nicht, ich glaube, es ist Episode 195 oder 194, also wir sollten nicht mehr so lange warten, bis wir uns das nächste Mal hier hören und ich deine Erfahrungen anbohren kann.

Kai Spriestersbach: Sehr gerne! Also komm auf mich zu, ich komme dich auch auf jeden Fall besuchen, wenn ich dann eben on the road bin.

Markus Hövener: Ja, wir hätten hier noch einen Stellplatz, keine Sorge.

Kai Spriestersbach: Sehr schön!

Markus Hövener: Gut! Also euch da draußen, ich hoffe, ihr habt was mitgenommen. Den Link packe ich euch noch mal in die Shownotes rein. Und dann probiert das mal aus, spielt damit rum. Und bleibt gesund, kommt gut durch den Restsommer! Bis dann! Tschüss!

Kai Spriestersbach: Tschüss!

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Kommentieren