コーディングできないけど生成AIで簡単にWebアプリが作れました! みたいな話を見るたびにセキュリティが気になってしまう今日この頃。
Posts by ak11
驚き屋さん、正しい情報を発信している分にはいいんだけど、誤情報や誤解を招く表現が多いから(多い人が)嫌われるのだと思う。
そういう人だと覚えた上でフォローしとく分には無駄ではないけど、認知負荷?とのトレードオフ。
LLMにpandas(とかの古い有名ライブラリ)のコード書かせた場合とpolars(とかの新しいライブラリ)のコード書かせた場合の出来具合に大きく差があるみたいな性質、変なバイアスというか人による評価の違いが生まれる元になってそう
ln -s .github/copilot-instructions.md .clinerules
reasoning modelsの日本語訳は推論モデルで定着しちゃったんだろうか。
inferenceも推論って訳してるから思考とか推理とかの方がいいと思うけど、Chromeの翻訳機能とかを使うと推論モデルになっちゃうな…。
LLM、例えば「例えば◯◯みたいに、△△な要素を持つ□□を列挙して」みたいなプロンプトを投げると、◯◯に囚われすぎる問題がある気がする。
いったん◯◯を忘れて□□に属する全てを考えて欲しいんだけど、o3とかでさえ◯◯に近い分野しか出なくなっちゃいがち。Attention効き過ぎ問題。
BitNet b1.58のときも投資界隈がやたらざわついていた気がする。
「AIエージェント」って言葉、世間では「よく分からんが何でもできる凄いもの」みたいなニュアンスになってる気がしていて、詳しく話を聞いてみるとRPAの凄いやつみたいなイメージだったりRAGの凄いやつのイメージだったりバラバラ。
「AIってやつで何とかして」の令和版なのかな…。
YouTubeやらTwitterやら、リコメンドが汚染されないようにアカウント分けて履歴掃除したりしながら使ってるので有料プラン前提になるとつらいなーと思っているけど、mixi2ってもしかしてその辺いい感じなんだろうか
最終的には「昔のTweetDeck風のTwitter互換クライアント作ってAWSでホストして」って言ったら全ていい感じにやってくれるようになってほしいけど、そのためには難しいベンチマークを解けることだけでは足りないと思うのでそっちを何とかしてほしい。
GCNとかやってたときにバッチサイズを1000くらいから10万くらいまで変えていろいろやってたときは固定じゃ駄目そうだった(バッチサイズ10万のAdamWで1e-3だと小さすぎた)けど比例だと極端すぎるなーとなってsqrtに落ち着いたけど根拠は特にない
Tailwindのレスポンシブ機能、デフォルトがモバイルとか向けで、画面が大きいときに適用するスタイルにだけプレフィクスつけるのって、思想の癖が強すぎない…? (もともと思想の強いライブラリではあるんだろうけど、「画面が小さかったら隠す」を素直に書けないのは流石に…)
見当違いな方向にプライバシー保護が進んだ結果、広告が有害無益なものだらけになるの、人類って感じがする
LLMが書くコードのコメントのほとんどは「次の行のコードを読めば分かることしか書いてない」という典型的なダメコメントだけど、LLMにとってそれがCoT的に都合がいいことも分かるけど、そういう学習データが世の中にそんなにあるのか? とちょっと腑に落ちない (RLHFとかだけでどうにかなるもの…?)
「GitHub Copilotを使うと設計書からコード生成できる?」ってここ1年で100回聞かれた。(未だに何から誤解を解いていくのが正解か分からない)
計算量とか作者の出身とかPoC云々とかの問題ではなく、例えば関数1つを見た時に、関数の外の情報(例えば「その関数において自明ではない入力データの性質」とか「PoCという文脈」とか)に依存した実装が、「ある程度以上の規模のシステムを作る上では良くない実装」と思っている
https://anond.hatelabo.jp/20240626103929
cosine decayは終盤まで大してLR変わらないんだから基本固定にして最後だけ下げればいいと言われれば確かにそうだなという感じだ…
https://arxiv.org/abs/2405.18392
vLLMがJSONモード対応しててえらいと思ったけどやってみたらスペースや改行を延々吐き続ける現象が頻発してなかなかつらかった
(モデルによるんだろうけど、JSONが相当得意じゃないとまあそうなるかなという気がする)
GPT-4o、無料版ChatGPTユーザーが初めて使えるGPT-4系なのかな?
(Bingのは検索に特化しすぎてるのか会話にならないこと多いし)
openai.types.chat.ChatCompletionMessageはpydantic.BaseModelだけど、openai.types.chat.ChatCompletionAssistantMessageParamはtyping.TypedDictなのか。そりゃそうか…。
言葉足らずなユーザー入力に対して妄想で補いまくって答えてしまうLLMは初心者受けはいいかもしれないけどハルシネーションが起きやすすぎるので、もっと杓子定規な受け答えしてくれるLLMの方が色々使い勝手がいい気がする。
gpt-4-turbo-2024-04-09
ネーミングルールがころころ変わる…
Stochastic Depthの今どきバージョンみたいな感じで面白かった。
https://arxiv.org/abs/2404.02258
学習済みモデルを量子化したわけじゃなく別で学習したならLLaMAくらい超えることもあるんじゃないのという気がする。
コンテキスト長はスペックとして分かりやすいけど、いくら長くても1トークン生成するときに通るMultiHeadAttentionの数は同じ(数十個)なのでできることには限界があるというか結局短くまとめたほうがいいというかエラーにならないこと以外のメリットが無いと思ってるけどGPT-4くらい賢いと違うのかな…
DockerfileでRUN --mount=type=cache,target=/var/cache/aptとか書いてたけど、これ異なるDockerfile間でも共有されるっぽい。
UbuntuとDebianとかで混ざったりするとややこしそう…。
github.com/moby/buildkit/blob/maste...