投稿

検索キーワード「#学ぶ」に一致する投稿を表示しています

M1のお祭り感がいい #4star #学ぶ

今年はあまりM1は見てないけど、昼からずっとM1関連のテレビになるのでお祭り感は好き。

ズートピア2 #学ぶ #5star

イメージ
 スーパーマリオ以来、2年以上ぶりに映画館で映画を見た。映画館っていつも空いているイメージだったけど、この日はほぼ満員。 ついたらちょうど10分後に始まるものがあったのですぐチケットを買った。満席に近いけど、一番前の席はすべて空いていたので、そこの真ん中を取った。一番前は見にくいけど画面も近いしそんな悪くないと思う。 ズートピア2自体は本当に面白かった。こんなにたくさん動物を登場させて、ディズニーの制作力はどうなってるんだ。最近の映画はエンドロールもちゃんと見せるような設計になっていていいね。FinanceとかHuman Resourceとかもちゃんと書いてある。 ちなみにこの作品にはヘビが出てきて、最後のズートピア2の文字の2がヘビっぽくなっていた。これが伏線かと思ったが、そもそもポスターにヘビが真ん中に載ってた。

R言語におけるTidyverseエコシステムの包括的解析:設計思想、中核機能、およびデータサイエンス・ワークフローへの応用と将来展望 #学ぶ

これはGemini Deep Researchによるレポートです。 序論:データサイエンス・ライフサイクルにおけるTidyverseの役割と革新性 データサイエンスのライフサイクルは、実世界のデータを用いて回答可能な具体的な問いを立てることから始まり、その問いに対する科学的かつ客観的な解答を導き出すことで完結する。しかし、問いの生成から最終的な解答の導出、そして意思決定者への伝達に至るまでの間には、無数の複雑なステップが介在している。データサイエンティストは、分析に有用なデータソースを特定し、データをインポートし、扱いやすい形式に整形(Tidy)し、変形させ、探索的データ解析(EDA)を通じて視覚化を行い、数理モデルを構築し、最終的な知見をコミュニケーションするという一連のプロセスを歩む必要がある。 歴史的に、データサイエンスの現場において最も多大な労力と時間を要してきたのは、高度な機械学習アルゴリズムのチューニングではなく、分析前のデータの前処理である。実証的な報告によれば、データサイエンティストの業務時間の50%から80%が、データのラングリング(手なずけること)やクリーニングに費やされているとされる。データを読み込み、後続の分析ツールが要求するフォーマットに変換する作業は、エラーが頻発しやすく、認知的負荷の高いプロセスである。 このようなデータ分析における非効率性を根本から解消し、分析者がデータハンドリングのロジスティクスではなく、興味深いドメイン課題そのものにリソースを集中できるように開発された概念的フレームワークおよびR言語のパッケージ群が「Tidyverse」である。Tidyverseは、単なる独立した関数の寄せ集めではなく、データサイエンスのために特別に設計された「オピニオネイテッド(明確な設計思想を持った)」なRパッケージの統合コレクションである。すべてのパッケージが、基礎となる設計哲学、文法、およびデータ構造を共有しており、各ステップがシームレスに連携するように構築されている。現在、このエコシステムはデータサイエンス教育の世界的標準となっており、書籍『R for Data Science (2e)』(日本語版『Rではじめるデータサイエンス 第2版』、2024年6月発行)などを通じて、体系的なデータ分析ワークフローが広く普及している。本報告書では、T...