拝啓 データサイエンティストがいらなくなると思っている君へ

図1: 二十七の僕には誰にも話せない悩みの種があるのです はじめに: AIは専門家を不要にするという風潮の問題 ここ数年、専門的なホワイトカラーの仕事がAIに奪われるという話を至る所で耳にします。 私自身学部時代から、仕事でも研究でも趣味でもデータサイエンス(以下、DS)にどっぷり浸かってきたのですが、 最近ではテクノロジーに疎い家族やプログラミング経験のない友人から、「まだプログラミングやってるの?」「AIで全部できるんじゃない?」と、悪気なく言われるようになりました。 こうした声は身内だけにとどまりません。 驚くべきことに、名だたる大企業のマネージャーレベルの人や、コンサルティング業界で長年活躍されてきたような、いわゆるエリートの方々からも、 『DS領域でやっていこうとするのは勧めない』 『データサイエンティストが一番最初にAI に代替される職業なのではないか』 と言われてしまいました。 図2: それ、本当? つい先日も、知り合いの優秀な大学院生が「データサイエンティストの将来は暗い」という周囲の声に惑わされ、大学院を中退しようと真剣に悩んでいました。 私は、 データサイエンティストの仕事を完全にAIで置き換える未来が数年以内に来る可能性は極めて低い と考えており、AIへの過度な期待が企業の判断を誤らせたり、「AIがなんでもやってくれるから自分は何も学ぶ必要がない」という極端な考えが若干広まりつつある現状に強い危機感を覚えています。 この状況に対し、データ分析をしている側の人間として立場を明確に示す責任があると感じ、「データサイエンティストがAIに代替される」論者の主張としてよく見られる以下の意見: AI は コードを書けるから、データサイエンティストはいらない 今はまだ発展途上なだけで、AI の進化ですぐに自動化できるようになる 人間も失敗するから、ハルシネーションはLLMが人間に劣る理由にならない AIで誰でも専門的な知識を得られるから、専門性の価値は下がるのでは? なくならずとも、残るのはトップレベルの人だけで、需要は減るのでは? ジュニアレベル専門家は、AIを使いこなす素人にすぐに追い越されるのでは? のひとつひとつに対し、現場の者を(勝手に)レペゼン1してアンサーしていこうと思います2。 図3: I’m not a rapper 現状のLLMの課題 AI は コードを書けるから、データサイエンティストは不要になる これは、第一線で活躍されているコンサルの方から実際に私が言われたことです。 たしかにここ数年、特にコーディングの分野でのAIによる変化は凄まじく、そう思うのも無理はありません。 Tomlinson et al. (2025)が算出しているAI Applicability scores 3では"Data Scientist"はトップ30に入っており4、DSの業務と生成AIとの親和性が非常に高いことを示しています。 過去ブログにも書きましたが、私自身も2022年の終わり頃から生成AIを使っており、コーディングやリサーチ、資料作成や勉強など、様々な場面で恩恵を受けています。 しかしこの「生成AIの登場でデータサイエンティストが不要になる」という考えは電動ノコギリの登場が大工を不要にする と言うのと同じくらい 的外れ なことだと思います。 (前提) “データサイエンティストの仕事=コーディング” ではない 組織やポジションによって様々ですが、一般的にデータサイエンティストと呼ばれる仕事には上の資料にあるような多様な役割が含まれます。 そのため、LLM がコーディング作業を代替したとしてもデータサイエンティストの仕事がなくなるわけではありません。 自分でコードを書く時間が減り、課題設定や分析設計、実装の監督と検証、ステークホルダーとのコミュニケーションなどの 付加価値が高いタスクにより多くの時間が割かれるような形に転換されていくだけ というのが現実的なシナリオだと思います。 (ていうか、多くの仕事で既にこの類の変化は始まっていると思いますが。) ...

8月 31, 2025 · 5 分 · Kaoru Babasaki

『Pythonではじめる時系列分析入門』のorg version repoを作ったよ

最近、 馬場 真哉 (著) 『Pythonではじめる時系列分析入門』という本を読みました。 この本はpythonのコードを手で動かしながら時系列分析の基礎を学ぶことができる本で、とてもためになりました。 特にsktimeという、トレンド・季節性の除去などの前処理や予測モデルをsklearnのように簡単にpipeline化できるライブラリを知ることができた点がよかったです。 馬場先生はこの本の公式リポジトリを公開されているのですが、pythonコードがjupyter notebook形式で書かれているため、heavy emacserの私としてはどうしてもorg-modeを使いたくなってしまいました。 そこで、この本のコードをorg-mode形式に変換したリポジトリを作成しました。 リポジトリのリンク このリポジトリを使って、emacsユーザーの方々がこの本を読む際に、jupyter notebookを使わずにorg-modeでコードを実行できるようになればと思います。 特にないと思いますが、このリポジトリを使って何か問題が発生した場合は、pull requestやissueを送っていただけると助かります。 時系列分析勉強中のemacsユーザーは私に感謝したうえで今年のクリスマスは家族と過ごしてください。 読んでいただきありがとうございました。

12月 22, 2024 · 1 分 · B.Kaoru

修論+αの論文がarXivにアップロードされたよ

久しぶりの投稿です。(読んでくれてる人はおそらく一人ですが) 自分の修論にアップデートを加えたものが、arXivにアップロードされました。 論文: Babasaki, K., Sugasawa, S., McAlinn, K. and Takanashi, K. (2024). Ensemble doubly robust Bayesian inference via regression synthesis. (arXiv:2409.06288) この論文では、 マクリン先生が作ったBayesian Predictive Synthesis (BPS)というアンサンブル手法を因果推論、特に平均因果効果(ATE)推定の文脈で拡張し、doubly robust Bayesian regression synthesis という手法を提案してます。 詳しくは論文を読んでもらえるとありがたいです。 この論文を読むうえでは以下の論文を読むことをお勧めします。 McAlinn, K. & West, M. (2019). Dynamic Bayesian Predictive Synthesis in Time Series Forecasting. (Journal of Econometrics 210: 155-169) Sugasawa, S., McAlinn, K., Takanashi, K. and Airoldi, E. A. (2023). Bayesian causal synthesis for meta-inference on heterogeneous treatment effect. (arXiv:2304.07726) この論文は慶應経済学研究科に設定されている計量経済学演習(マクリン先生)の授業を受けた際に書くことになりました。 ...

10月 5, 2024 · 1 分 · B.Kaoru

ベイズの発表をしたよ

こんにちは。 大学のある授業で、中妻先生の名著『Pythonによる ベイズ統計学入門 (実践Pythonライブラリー)』 の 3.1 節までを友達のけいごくんと一緒にスライドにまとめて発表したので、そのスライドを公開します。 発表資料のリンク この資料は emacs の org-mode で作りました。 発表の内容とは関係なく、reveal.js や org-re-reveal の使い方を調べながら試行錯誤するのにとても時間がかかりました。 そのその甲斐あって、 1 番の目的であった、学部生に対してドヤ顔をかますことができました。 今度、暇なときに org-re-reveal の使い方や tips をまとめてみようと思います。 では、また今度。

4月 23, 2023 · 1 分 · B.Kaoru