l と I と | は人の目から見ればフォントの次第で殆ど違いがない
だが、「別物」に見えているのがBPEでテキストデータを読むLLM側である。
l(小文字のエル): U+006C
I(大文字のアイ): U+0049
|(縦棒): U+007C
そして、学習用のウェブ上で一般市民が打ち間違えた 「Iove」などを機械学習で取り込むから「これは love の `l` を `I` とtypoしたのかと推測しますが」と指摘するような回答を生成する。
で、本来そういう視座で見れば、全く無用の長物では無かったのだ。
Posts by VoQn
「なんでGPT5は博士号取得者並みの賢さがあるとか宣伝しておいて、実際にプログラム書かせるとこんなにいい加減なんだ」の理由は、これでわかるだろ。
tool_call で書き出されたコードそのものも含めて「雰囲気それっぽいデジタル文字列の並び」であるし、そのAIは「視覚的な想像」なんぞしていないのだ。
「時計とは何か、どういう構造か」なんて、始めから知っちゃいねえの
なので、そもそも根本的に「(LLM)AIにテキストを送信した」操作とは「架空の質問に対して、架空の回答をシミュレーションした」様相であって、使用者は『ままごと』のつもりでいなきゃいかんのだ。
だいたい、すでに「検索をしたフリをして回答をするGemini」などの報告があるだろ。アレはそういう意味で「原理的に正常動作そのもの」なんだよ。バグではない、本来の挙動なのだ。
ClaudeCodeのやからしソースコード公開で急にソフトウェアのソースコードの著作権性について正気に戻ってくれるのは救いがある反面「なんだったんだよ、今まで」とはやっぱり思ってしまうところあり。
そして、強化学習時において「適切なタイミングと呼び出し頻度」を人間の被験者を通して調整する。
simplicityissota.substack.com/p/how-llms-a...
こうして、割と泥臭い工程を経て「自然にちょうどよく外部システムの呼び出しや内部のスクリプト実行も織り交ぜながら賢そうな結果をテキストで生成している」のが現在のLLMプロダクトである
無論、そのツール内部のスクリプトやらAPIやらは人間が考えて仕込むわけだからなんだかんだで人手がかかっているもんである
LLMの複数段階ある機械学習フェイズのうち、一通りの字句の「自然言語テキストの生成が可能になった後」の段階において、「質問とツールコール の組み合わせのテキストデータセット」をもって事後学習を行なって、エージェントの生成時に高確率でそれが出現するようにしてある。
rlhfbook.com/c/13-tools
んで、LLMエージェントはこの「予想回答」に <tool_call> などの特殊なXML構文を敢えて生成するようにしてある。
www.youtube.com/watch?v=h8gM...
<tool_call>
<name>web_search</name>
<param name="query">東京 現在の天気</param>
</tool_call>
これを別のシステムに繋げて「生成テキストに <tool_call> ... </tool_call> があれば、それを実際にWeb検索APIを叩いた結果を構造化して置換して埋め込み、続きの文を補完生成し続ける」、と
なのでこうなる。
「"User: 閑さや岩にしみ入る" "AI:〇〇" の〇〇を予想して埋めよ」という風に動作している。
サービス組み込みのシステムプロンプトがユーザーのパーソナライズ情報を付与して、回答言語も合わせて生成する(一枚目 Grok)
そのような場合もあれば、入力プロンプトが短すぎて単に「英語圏ユーザーがXなどの日本人からの投稿のコピペした?」とでも推測したかのような、英語のテキストで補完し生成出力をすることもある(二枚目 Gemini)
そして重要なのは同じプロンプトでも、やり直す度に出力テキストは違う。(三枚目 Gemini)
「自然言語モデルというぐらいなのだから、文章をAIが読んでその意図を考えて答えてくれているのだろう」とか漠然と解釈し続けていたらダメだ。
これの冒頭30秒で述べられているように
「人間の質問や語りかけ:<ユーザーの入力プロンプト>」に対し、「AIアシスタントの回答:」で途切れたテキストを「予想演算して出力」がLLMの現在の基本になる
www.youtube.com/watch?v=y7NQ...
重要なのは「(人間の)予想」とは同じではないし、ましてや「思考」なのではない。
それはこうしたLLMトーカナイザーデモサイトで簡単にわかることである。
gpt-tokenizer.dev
添付した画像の例をよく見て欲しい。
"components" で区切れているのに対し、日本語では
'コン', 'ポ', 'ー', 'ネ', 'ント' のような区切られ方になっている
(でも、'主要' だけはそのまとまりで区別されているだろ)
「コン」の次に「センサス」「トロール」「ポジット」と続くトークンで単語としての意味が変わるから、そこで区切る。
んで、英語はその学習用データおよび開発者の母語の影響で区切りの粒度が大きいのがわかるはずだ
元OpenAI創業者であるアンドレイ・カーパシーが直々にLLMの根本的な仕組みを解説しているが、そも現在のLLMは「単語ごと」ですらなく、「幾らかの文字の並びの塊でパターンとして登録し、生成時においては連続する"次のトークンは何が続くか"を前後から予想する」ものが基本になっている。
www.youtube.com/watch?v=zduS...
その単位は単語でも文章でもない、そして「文字ですらない」。まずここから勘違いしてる AI bro さえ多い
「AI推進してるテメーの方が根っこの仕組み理解してねーじゃねーか!」っていう方向のほうが結果的に観測者側からしたら効くので、そのへんは妙な俗説じゃなくてガッツリとあたって調べていくほうが良いです。
あまり他者の例え話的解説をそのまま受け売りしてデッドコピーせずに。
AI驚き屋系およびそのフォロワーなヒトらと変わらなくなるので。
例えばパラメータ数と次元の関係によるスケーリング則については、このぐらいの理解はあった方が絶対に良い
www.youtube.com/watch?v=GFeG...
皆々はとにかく英語圏だろが仏語圏だろがこういった地味な年次・四半期の国勢調査レポと日本の状況との対照比較を持って AI bro のナラティブをファクトで潰すことだ。
「AI は既に欧米にも着実に浸透していて...」みたいな妄想を「それ、アンタが毎日使ってるのとSNSのタイムラインアルゴリズムでフィルターバブルん中にいて勘違いしとるだけや」とデータで突き崩せ。
www.dataforprogress.org/blog/2026/2/...
最も導入率の高いアメリカですら半数は「一度も使う気は無い」(2026年2月発表)
なお、3/26 での報告でも更に下がって30%前後に下落している。昨年での同調査は 35% から 45% に急増していたので、「今度こそHypeではなく、本物か」と夏ごろまで沸いていたのが米国であったことに留意しておくとよい。
x.com/Jon_Hartley_...
「大企業の」を付けない場合での調査はどうだったか。
あのAI企業にべったりなホワイトハウスからの全国調査レポートだ。
www.whitehouse.gov/research/202...
それでもなお労働現場におけるAIの採用率は2025年6月の46%をピークに、12月にかけて36%を切るまでに低下を続けている。
職場でAIを利用する人の数が減少し始めている話。
futurism.com/artificial-i...
> 従業員数100人以上250人未満の企業のうち、過去2週間以内にAIを使用していないと回答した企業の割合は74.1%だった。今回調査では 81.4%と、使わない割合は増えている。
> 250人以上の大企業では、その割合が68.6%に上昇しており、2月の最低値62.4%から増加している
利用者の割合が増えるのではなく、ある時期を境に減るように変わった。
そして、そもそも
大企業で“商品やサービスを生産する”ためにAIを使用している米国人の割合は10月時点で僅か11%と推定されてる
「自称AI使いこなしクン」なぜかちゃんと調べてキャッチアップしときゃ勘違いせずにいられる情報を追わない。
現在まだ不十分であるつうレポートやナレッジおよびニュースを読まないし知らなくて。
なんでか結果的に私の方がその辺の最新レポート周りとか知っている状態になり。
これがめっちゃくっちゃにフラストレーション溜まるところ。
(マスピの由来とかもそうだったが)
404media.co/ceo-ignores-lawyers-asks-chatgpt-how-to-void-250-million-contract-loses-terribly-in-court/
PUBGのKraftonのCEO, 買収会社との都合の良い契約破棄の相談にChatGPTを使い、見事に裁判でバレて「なに非弁行為させとるんじゃ」とボロ負け。
「AI系設備投資に巨額な準備金が要るのでレイオフします」って、これ「絶対にFXは儲かるから自分の車と家を売った」なみに本末転倒し始めてるようにしか見えんですけどね
文化庁の最終的な資料が出てきました
www.bunka.go.jp/seisaku/chos...
私がこれまでいってきたものが証明されてしまいました
・All rights reservedは権利保護を示すものの利用可否を示していない
・氏名表示は氏名表示であり利用可否情報でない
この辺りを意識してもらって、確実に
「利用禁止」「転載禁止」「(利用可否情報が示されている)サイトのURL」を示す必要があります
また、画像3枚目の通り、『利用可能な状態であれば裁定の前から利用できる』ため、利用されたら終わりの不可逆な生成AIと非常に相性がいいです
そもそも制度で利用しうる状況を拒否しましょう
「自然物の馬なり犬や猫や自然風景なら!」
少なくとも 原本2Kのデジタル写真は2000年代からだ。
(商用のフルカラー写真フィルムからのスキャンだとしても、最初期が1935年ごろとなるので、殆どはまだ著作権利が生きとる)
global.canon/ja/technolog...
はじめから、ライセンス締結無しで進めるには詰んでる技術なんだってば
「あくまでも画風作風であるから」としての「90年代OVAのようなセル画アニメ風(と、プロンプト入力者は東映アニメーションのセーラームーンなどを想像しながら)」
このスタイル指定の時点で、まだ著作権が生きてる作品群をデータセット上でもCLIPテキストエンコーダーでのエンコードでも必要としてしまうだろ。
はじめから、このあたりで詰んでて。
んで「テキストでひたすら記述して既存キャラクターから相当に離れた、オリジナリティのあるキャラクターデザイン」を創出できたのなら、そもそも画像生成AIに頼らんでも手描きなり3DCGモデリングなり、もっといや VROID Studio でもモンハンのキャラクリでキャラデザを出来る能を持っとる。
だから、「それすらできない人間が縋る」なら、もう出てくるのは「既に知られたアーティストの名前、作品とキャラ名」のプロンプトになってしまうだろ。
考えてみりゃええ。
「シアン系の緑がかった水色の長いツインテールを持つアニメ風の少女。ノースリーブのドレスシャツに髪色と同系統のネクタイをしている。裾が開いた、黒く長いアームソックスのような袖を付けている」
これだと「ツインテールの髪の束の相対的大きさ、長さ、体格バランスは未指定」なぁワケ。どういう立ち姿かアングルかも未指定。
網羅するように記述したところで、その思い描いたとか言うてるソレにならない。
そして、「思ったとおりだ!」なら、単にデータセット側に問題がある。
固有名、作品名、人物名を出さずに類似する図像を出そうとする都合でモデル側が既存のコンテンツ画像映像をトレーニングにブチ込むほかなくなり、かつ、ブチ込んだらブチ込んだでテキストで呼び出せるならそれは依拠性を示してしまう。
なので、パラダイムそのものが詰んでる状態
「ポケモン剣盾のサイトウ」が持っている造形的特徴要素を、その名前を使わずに文章で再現しようとすると膨大な記述を必要とする上に、その上で全く再現できない。
顔立ちやアートスタイルの指定から、結局元のキャラクターデザイナーや作品名が必要になってくる。
これ「白灰色の髪と青白い目を持つ褐色肌の筋肉質な若い女性のオリジナルキャラクター」と誤魔化そうとしても、求めてる造形性が2020年代の人気のアートスタイルである限り、絶対に避けられない
機械翻訳を 日→英→日 …と繰り返すとどんどん元の意味から崩れて意味不明な文章になっていく現象があるが、アレと同じような事が起きる。
が、これが実名人物(イーロン・マスク、とか)になると、その部分だけ妙に強力に再現されたままとなる。
これが ”固有名が与えられた対象” が持ってる強い特性
構造的問題として、どう足掻いても美的に好ましい生成性能を追求する都合 text 2 image は著作物か著名人から要素抽出せざるを得なくなる構造的宿痾を抱えている。
……っていうのを、ちゃんと冷静にまとめないのも違うなと思っており。
i2t2i, って搦手がある。
VLM系の「画像を読み取って、それをテキストとして説明を吐き出し、それを画像生成モデルに t2i として出力させる」方式。
これで、「テキスト的には依拠性があるのに、全く原本に似ない」生成が作られる。
しかし、ここで「じゃあパラダイムごと不完全じゃん」ってぇのが発生する
「学生手篭めにして反抗逃亡できないようにして性的な調教をする教師モノ」を過去にでも描いた全員に無実の嫌疑が掛かるぐらいの沙汰なので、寧ろ表現の自由を守らんとする人間ほど激昂してほしい案件だったが、嫌な予感というの当たるもので。
「フィクションはフィクション、現実とは切り離して」の建前を破った事案だったのにさ。