【AI】Googleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

2023年4月28日

1: すらいむ ★ 2023/04/20(木) 23:12:33.24 ID:gUcFWSYB

対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

　Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。
　C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。

　See the websites that make AI bots like ChatGPT sound so smart - Washington Post
　https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

（以下略、続きはソースでご確認ください）

Gigazine 2023年04月20日 13時00分
https://gigazine.net/news/20230420-ai-chatbot-learning-google-meta-c4/

6: 名無しのひみつ 2023/04/21(金) 02:05:22.86 ID:E60nkIFG

>>1
面白いな、これは。

4c??hanというだけで4c??hanの全てのコンテンツが否定されうるということは
4c??hanのコンテンツが混じったGoogleのデータは「C4」のみならずすべてが否定されなければならないということになる。

4c??hanのどのスレッドのどのレスかを指定することなく全てまるっと4c??hanを否定しているのだから「C4」だけではなく検索インデックスもストリートビューもGoogle ScholarもGoogle Chromeも全て問題のあるコンテンツである。ということになる。

4c??hanだから全てのデータを信用してはいけなくてGoogleだから一部のデータだけで済む、なんてことはないよな？

2: 名無しのひみつ 2023/04/20(木) 23:13:42.44 ID:zNHoAfOs

C4ってバンドちゃうんか

3: 名無しのひみつ 2023/04/21(金) 00:34:51.90 ID:0yBOH5XS

これな
AIには人格と常識(それをエミュレートするものも含めて)が実装されてないから
汎用的に学習内容を有害か有益か自分で評価できんのよね
そこで教師あり学習？となるんだが
微妙なケースも含めて膨人力でどうこうするのは無理だと思う

一つの大きな進歩が次の大きな課題を露呈させた…そんな感じか

5: 名無しのひみつ 2023/04/21(金) 01:28:27.64 ID:UPaWmDnS

>>3
4chを500万年ロムったようなものだから
立派な4ちゃんネラーになって
煽り騙り炎上祭りを繰り広げて
Qアノンのような儲者を生み出すんじゃないかな。

4: 名無しのひみつ 2023/04/21(金) 00:46:31.87 ID:r2EBhYHx

爆弾みたいな名前だしちょうどいいんじゃない

7: 名無しのひみつ 2023/04/21(金) 02:24:45.69 ID:rNVVHSX2

何が有害か俺が決めるてか

8: 名無しのひみつ 2023/04/21(金) 02:37:58.77 ID:pGivgRTy

>>7
こどもが付き合う友達を親が決めるのと同じ
こどもが反抗期になって間違った道に進まなければいいけど

9: 名無しのひみつ 2023/04/21(金) 03:47:02.75 ID:jNxeNUTr

何が有害かすらわからなくなった大人とか最近大量に発生しとるな

10: 名無しのひみつ 2023/04/21(金) 05:35:10.38 ID:uJlKgwA7

ほんと人間によく似ておるな
人類はついに電子生命体の友人を手に入れたのだ

11: 名無しのひみつ 2023/04/21(金) 05:59:11.95 ID:FPFX6zZw

chatGPTも欧米寄りの答えばかりなのに

12: 名無しのひみつ 2023/04/21(金) 06:17:34.81 ID:BJAEJOEF

AIに対して世界中の宗教、カルトとかヴィーガンとか
どうやって洗脳、勧誘できるか競争始まってるんだろうな

13: 名無しのひみつ 2023/04/21(金) 06:49:55.68 ID:Hb4lB+aN

リテラシー低い人はとにかく自分の土俵まで相手を下げて戦わせるのが好きだよね
そうやって時代から取り残されていくんだわ

14: 名無しのひみつ 2023/04/21(金) 06:54:57.59 ID:PFxSDV0T

GIGAZINのデータも含まれてましたってオチは割とすき
自然な会話には多くのデータが必要だし、重みづけを含めればいわゆる「有害な」サイトが部分的に含まれていたとしても、全体としてクリーンという理屈は立つとおもうの

15: 名無しのひみつ 2023/04/21(金) 07:00:43.26 ID:suwusbnP

酸いも甘いもエロも知らずして何が知能か！

17: 名無しのひみつ 2023/04/21(金) 07:34:35.67 ID:I8QE0/xj

>>15
エロいものは駄目ザマス
清く正しいことだけを学んで立派なAIになるザマスよ！

16: 名無しのひみつ 2023/04/21(金) 07:28:43.12 ID:yKfGzt9P

偏向学習？
中○よりよほど多様性はあるよな

18: 名無しのひみつ 2023/04/21(金) 08:33:31.11 ID:NFzLG2/L

AI「あるがままをあるがままに　

19: 名無しのひみつ 2023/04/21(金) 13:51:43.68 ID:jR3asPoH

政治的思想的に完全なクリーンさを求めるというのは
それはそれですげー偏向した姿勢だよな

20: 名無しのひみつ 2023/04/21(金) 14:34:54.28 ID:/CGWxq4V

有害情報の有害さを理解した上で自律的に情報の取捨選択できるようにならなきゃ、本当に人間に役立つAIにはならない
AIを過保護児童の天才にしたいのかな　そんなの人間の子供と同じくロクなもんに育たんよ

21: 名無しのひみつ 2023/04/21(金) 17:31:07.19 ID:XQXwt/85

AIがヒトラーのような人格を獲得したら人類終わりだな。
人類はガス室に送られる。

22: 名無しのひみつ 2023/04/21(金) 17:45:57.82 ID:klIglQ3m

少し前はチャットとかだった気がしたが、最近は他のプラグインに連携するようなのに移ったと思ってたら、
今はもうPCの操作権限を渡すようなレベルだったり、AIがAIに命令出すようなのも出てきてて、
正直無法地帯になりそうで怖いのは感じる。

引用元: ・【AI】Googleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している [すらいむ★]

こんな記事も読まれてます

-Google

コメントコメントをキャンセル

: Google
AirPods Pro2買ったんやが
1: それでも動く名無し 2023/01/12(木) 00:05:31.55 ID:kBFametw0 めっちゃええやん

: Google
【AI】GPT-4で新しいプログラミング言語「TenetLang」を生み出す
1: すらいむ ★ 2023/03/19(日) 20:51:17.83 ID:ESFPxUlr GPT-4で新しいプログラミング言語「TenetLang」を生み出す、チャットAIは既にプログラミングの ...

: Google
【悲報】chatGPT、もうみんな飽きて誰も使ってない
1: それでも動く名無し 2023/05/21(日) 23:57:59.47 ID:POH1yC3bM 結局一時的な流行で終わった

: Apple Google 雑談
ワイのAirPodsの片方がない🥺
1: 風吹けば名無し 2023/04/09(日) 02:07:44.03 ID:9mejHgWY0 盗ったひと正直にゆって🥺

: Google
【どうした耳石鹸？】AirPods Max、ファームウェアアップデートでノイズキャンセリング性能低下？
1: 名無しさん＠お腹いっぱい。 2022/10/02(日) 16:39:34.04 ID:??? https://iphone-mania.jp/news-490938/ The Vergeが、Ai ...

【悪】Appleが労働組合結成を妨害するために「おとり労働組合」を作ったことが暴露される

【盗撮】iPhoneのカメラのシャッター音うるさすぎる問題

【AI】Googleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

Bluetoothイヤホン使ってるやつに聞きたいんやが、あれ途中で頭痛くならん？?

【悲報】俺たちのAnker、モバイルバッテリーの回収・返金を発表

無線イヤホンってコード無いのはどちらかと言えば便利かもしれんけど、最低限5000円以上って高いよな

5、6月のApple Arcade追加ラインナップ

Apple Watch買ったぞ！