Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。
C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。
See the websites that make AI bots like ChatGPT sound so smart - Washington Post
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
(以下略、続きはソースでご確認ください)
Gigazine 2023年04月20日 13時00分
https://gigazine.net/news/20230420-ai-chatbot-learning-google-meta-c4/
面白いな、これは。
4c??hanというだけで4c??hanの全てのコンテンツが否定されうるということは
4c??hanのコンテンツが混じったGoogleのデータは「C4」のみならずすべてが否定されなければならないということになる。
4c??hanのどのスレッドのどのレスかを指定することなく全てまるっと4c??hanを否定しているのだから「C4」だけではなく検索インデックスもストリートビューもGoogle ScholarもGoogle Chromeも全て問題のあるコンテンツである。ということになる。
4c??hanだから全てのデータを信用してはいけなくてGoogleだから一部のデータだけで済む、なんてことはないよな?
AIには人格と常識(それをエミュレートするものも含めて)が実装されてないから
汎用的に学習内容を有害か有益か自分で評価できんのよね
そこで教師あり学習?となるんだが
微妙なケースも含めて膨人力でどうこうするのは無理だと思う
一つの大きな進歩が次の大きな課題を露呈させた…そんな感じか
4chを500万年ロムったようなものだから
立派な4ちゃんネラーになって
煽り騙り炎上祭りを繰り広げて
Qアノンのような儲者を生み出すんじゃないかな。
こどもが付き合う友達を親が決めるのと同じ
こどもが反抗期になって間違った道に進まなければいいけど
人類はついに電子生命体の友人を手に入れたのだ
どうやって洗脳、勧誘できるか競争始まってるんだろうな
そうやって時代から取り残されていくんだわ
自然な会話には多くのデータが必要だし、重みづけを含めればいわゆる「有害な」サイトが部分的に含まれていたとしても、全体としてクリーンという理屈は立つとおもうの
エロいものは駄目ザマス
清く正しいことだけを学んで立派なAIになるザマスよ!
中○よりよほど多様性はあるよな
それはそれですげー偏向した姿勢だよな
AIを過保護児童の天才にしたいのかな そんなの人間の子供と同じくロクなもんに育たんよ
人類はガス室に送られる。
今はもうPCの操作権限を渡すようなレベルだったり、AIがAIに命令出すようなのも出てきてて、
正直無法地帯になりそうで怖いのは感じる。
引用元: ・【AI】Googleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している [すらいむ★]