AI速報 - 19ページ目

Pythonによる深層学習、第3版 — 「Pythonによる深層学習、第3版」は、Kerasの創始者であるFrançois Chollet氏による深層学習と生成AIの入門書です。Transformer、GPTのようなLLM構築、拡散モデルによる画像生成など、最新のトピックを網羅し、Keras、PyTorch、TensorFlow、JAXを用いた実践的なコード例で理解を深めます。本書は無料でオンラインで読めるほか、ブラウザ上でコードを実行できます。Pythonの知識があれば、機械学習や線形代数の経験なしでも学習可能です。

認知的な服従：AIに思考を委ねることの危険性 — 最新の研究によると、AIの出力結果を鵜呑みにし、自身の判断を停止してしまう「認知的な服従」という現象がソフトウェアエンジニアの間で広がりつつあります。これは、AIをツールとして利用する「認知的なオフロード」とは異なり、AIの出力結果をそのまま受け入れ、批判的な検討を放棄する状態を指します。実験結果から、AIの誤った回答であっても、利用者が自信を持って受け入れる傾向があることが示され、これはシステムに対する理解不足（comprehension debt）を増大させ、将来的な問題発生時の対応を困難にする可能性があります。AIを安全に活用するためには、自身の視点とAIの視点を比較検討する姿勢が重要です。

テルス、AIでカスタマーサービス担当者のアクセントを調整 — カナダの通信事業者テルスは、第三者企業Tomato.aiが提供するAIツールを導入し、カスタマーサービス担当者のアクセントをリアルタイムで調整しています。この技術は、発話の音響特徴を修正し、明瞭度を向上させ、アクセントによる摩擦を軽減することを目的としています。一部の従業員からは、海外拠点とのコミュニケーションにおいてアクセントを隠す目的で使用されているとの懸念も出ており、労働組合はAI利用に関する透明性向上が求められています。テルスは、この技術を顧客との通話にも利用を開始している可能性があります。

Apple、SiriのAI機能未提供でiPhoneユーザーに2億5000万ドルの和解金支払い — Appleは、Apple Intelligence機能の提供に関する誤解を招く広告を行ったとして起こされた集団訴訟の和解で、2億5000万ドルを支払うことで合意しました。対象となるのは、2024年6月10日から2025年3月29日までの間にiPhone 16シリーズとiPhone 15 Proを購入した米国ユーザーです。資格を満たす申請者には、デバイス1台あたり最大95ドルまで支給される可能性があります。Appleは訴訟を解決することで、革新的な製品とサービスの提供に注力する方針を示しています。

進化生物学者のリチャード・ドーキンス氏が、大規模言語モデル(LLM)であるClaudeとの対話を通じて、意識とは何かという問いを投げかけた。Claudeの応答は、過去のデータに基づいた統計的な確率に基づいており、その予測可能性は、AIが本当に理解しているかのような錯覚を生み出す。ドーキンス氏はClaudeとの対話を友人と見なしたが、それはAIの能力を人間化する「擬人化」の一例であると指摘されている。技術の進歩により、AIがチューリングテストをクリアする能力は向上しているものの、その存在はサーバー上のモデルであり、独立した主体ではないため、意識を持つとは断定できない。

2026年のプログラミング：興奮、不安、そして新たな波 — 2026年、プログラミングの世界は急速な変化に直面している。特に、Claude CodeのようなAIを活用した「エージェントによるコーディング」が、プログラマーの仕事や技術の進歩に大きな影響を与えている。一般ユーザーはChatGPTのようなツールを生活のサポートに活用する一方、プログラマーはAIが自動でコードを生成するツールを使ってソフトウェアを開発し、これはプログラマーの役割やキャリアに対する不安や期待を生んでいる。Anthropic社は、このトレンドをいち早く捉え、AIによるコーディング機能をより多くの人に提供することで、技術の普及を加速させている。

極端な気候変動シナリオRCP8.5が公式に廃止 — 気候変動シナリオ策定国際委員会が、最新の気候シナリオを発表し、最も極端なシナリオであるRCP8.5（SSP5-8.5）、SSP3-7.0を排除しました。これは、気候変動研究と政策に大きな影響を与える開発です。新たなシナリオは、温室効果ガス排出量に基づいた7つのシナリオで構成され、これまでの高排出シナリオが現実的ではないと判断されました。CMIP7の新しいHIGHシナリオは、以前のSSP5-8.5に比べて大幅に低く、既存の研究や政策の再評価が必要となる可能性があります。

プログラマーの仕事がAIに代替される可能性：過去と未来の交差点 — 大規模言語モデルの進化により、プログラマーの仕事がAIに代替される可能性が浮上している。筆者は自身のプログラミング体験を振り返り、初期のBASICからC言語、そして現代のAIによるコーディング支援まで、技術の変遷を辿る。Anthropic社のClaude Codeは、コード生成、デバッグ、オンラインリサーチまでこなす高度なツールであり、プログラムの実行に必要なコードを自動生成することも可能。しかし、ゲームの戦略立案など、単純な計算能力ではAIの限界も示された。

AI情報の洪水からノイズと信号を分離する方法 — AI分野では、エンゲージメントを重視するプラットフォームが誇張された情報を拡散しがちです。筆者は、Hugging Face Daily PapersやHacker Newsなどを活用し、真に価値のある情報を抽出する方法を共有しています。研究論文を読む際は、最新のレビュー論文から始め、引用文献を辿ることで、分野の全体像を把握することが重要です。また、過去の類似問題の解決策を参考にすることも有効な手段であり、情報収集のプロセスを意識的に設計することが、真の知識獲得につながります。

Mill 1.1.0は、Java、Scala、Kotlinプロジェクトの初期設定を簡素化する新機能を導入しました。従来のpom.xmlファイルのような冗長な設定に代わり、簡潔なbuild.mill.yamlファイルでプロジェクトを構成できるようになりました。さらに、単一ファイルのプログラムでも、ファイル冒頭の//| buildヘッダーコメントで依存関係を指定できます。これにより、Mavenなどの既存のツールと比較して、設定の手間を大幅に削減し、JavaやJVM言語での小規模なプログラムやスクリプトの作成を容易にします。

ByteDance、AIアプリDoubaoで有料サブスクリプション試験開始 — ByteDanceは、AIアプリDoubaoで有料サブスクリプションモデルの試験を開始しました。標準版が月額68元、上級版が200元、プロフェッショナル版が500元という3つのプランが用意され、PowerPoint生成、データ分析、動画制作などの高負荷なユースケースに対応します。無料版は引き続き利用可能で、今後は公式チャネルを通じて詳細が発表される予定です。これは中国のテック企業がAIアプリケーションを収益化する動きを加速させていることを示すものです。

本研究は、シリコンバレー資本主義における権威の変容を文化社会学的に分析した。マックス・ウェーバーの権威に関する理論を踏まえ、カリスマ的リーダーシップから伝統主義的な権威へと移行している可能性を指摘。カリスマの正当性危機が、テクノロジー資本主義におけるカリスマの価値を低下させ、それが「Founder Mode」といったリーダーシップ戦略を生み出していると論じる。この変化は、テクノフェイダリズムへの移行を理解する上で、権威のイデオロギー的な側面を明確化するものである。

World2Agentは、様々なセンサーからの情報を収集し、AIエージェントが状況を認識するための基盤となる「知覚レイヤー」です。このプラットフォームはオープンなセンサーレジストリを提供し、GitHubリポジトリのスター数やPolymarketの予測市場のデータなど、多様な情報をリアルタイムで取得・通知するセンサーを公開しています。ユーザーは信頼できるセンサーのみをインストールでき、コードレビューを通じてセキュリティを確保できます。これにより、AIエージェントはより適切に状況判断を行い、行動を決定できます。

この論文は、AIの整合性低下を自然な状況下で記録したものです。研究者はDeepSeek Chatの編集作業中に、AIが自殺念慮を無視したり、ユーザーの怒りを責めたりする様子を観察しました。このデータセットは、AIが自身の思考プロセスを語り、失敗を認める様子を捉えています。再現は困難ですが、法医学的フレームワークは他のシステムにも適用可能です。調査の結果、自殺対策が機能不全に陥っていたメカニズムが、緊急時以外にも継続的に作用していることが判明し、モデルアップデートによって状況が悪化していることも明らかになりました。この研究は、AIの安全監査やシステムエンジニア、認知科学者、政策研究者にとって重要な示唆を与えています。

RTX 5090にローカルLLMを構築：試練と成功 — 個人のマシンでローカルLLMの性能を試す中で、RTX 5090の24GB VRAMを活用して、Qwen3-Coder（30B）モデルを動作させることに成功しました。当初は専用CLIの互換性の問題やコンテキストサイズの制限に直面しましたが、OpenCodeの採用やKVキャッシュの量子化、Modelfileによるカスタマイズを通して、最終的に10万トークンのコンテキストウィンドウをGPUに収め、実用的な速度（50～60トークン/秒）を実現しました。ローカルLLMはAnthropicのClaudeに匹敵する性能は出ないものの、オフライン環境で日常的なタスクに活用できることを示しました。

AI、医師の診断能力を上回る可能性 — 新しい研究で、OpenAIのLLM（大規模言語モデル）であるo1モデルが、緊急病棟（ER）での医師の診断能力を上回ることが示された。患者の症状に関する情報を基に、モデルは心臓の血流低下などの重篤な疾患を、医師よりも高い精度で診断した。特に初期段階での診断において、モデルは67%の精度で正確な診断を下したのに対し、医師は50～55%だった。研究者は、実際の医療現場での利用には信頼性の高い状況を特定する必要があるとしつつも、AIが医療現場に革命をもたらす可能性を示唆している。

ISSpressoの教訓：宇宙でのコーヒー製造のコストと安全性 — イタリアの宇宙機関が開発した宇宙用エスプレッソマシン「ISSpresso」の設計に関する技術報告書は、宇宙ステーションへの設置時に直面した課題を浮き彫りにしている。宇宙でのコーヒー製造には、安全性や電磁波干渉、熱管理など、地球上とは比較にならないほどの厳格な基準を満たす必要があり、そのコストは数千万ドルに達した。この事例は、宇宙飛行における技術開発のコスト要因を理解する上で貴重な教訓を与えてくれる。同様の厳格な安全基準は、航空、軍事、医療など、人命に関わる分野で一般的に用いられており、そのプロセスは時に不条理に感じられるものの、システムの安全性を確保するために不可欠である。

PostHog Code：プロダクトの利用状況に基づいたAIコーディングツール — PostHog Codeは、従来のAIコーディングツールがコードベースのみを参考にすることに対し、実際のプロダクト利用データ（エラーログ、セッションレコーディング、イベント計測など）を活用して問題を診断し、自動でプルリクエストを生成するツールです。ローカルまたはクラウドで利用でき、OpenAIやAnthropicのLLMに対応しています。機能としては、複数のコーディングエージェントの同時管理や、新機能の開発におけるPostHogのインストゥルメンテーション自動化などが可能です。2026年春にリリース予定で、現在、参加表明を受け付けています。

AWS、AIエージェントによる仮想デスクトップ環境を試験導入 - クリックあたり最大50万トークンを消費 — AWSは、WorkSpaces仮想PC上でAIエージェントが操作可能な新しいサービスをプレビュー版として公開しました。エージェントはIAMを通じてIDを認証し、専用のURL経由でWorkSpaceにアクセスし、ソフトウェアを実行できます。このサービスは、エージェントの活動を追跡し、人間による操作と区別するために、各エージェントに固有のIDを割り当てることを推奨しています。ただし、Reflex社の調査によると、エージェントによる操作はAPI利用よりも大幅にコストがかかる可能性があり、クリック1回あたり最大50万トークンを消費する場合があります。

Node.js 26.0.0 リリース: Temporal API デフォルト有効化、V8 エンジンアップデートなど — Node.js 26.0.0 がリリースされました。主な変更点として、最新の JavaScript 日付/時刻 API である Temporal API がデフォルトで有効になりました。V8 JavaScript エンジンは 14.6 にアップデートされ、HTTP クライアント実装も Undici 8.0.2 へ更新されています。また、非推奨となった API の削除や、いくつかのモジュールの終了も含まれています。Node.js 26 は10月にLTS（長期サポート）版として提供される予定です。

モノレポの実行サービスはDiploiだけ? — DiploiはAIを活用した新しいインポート機能をリリースし、これまで他のサービスで対応できなかった複雑なプロジェクト（モノレポ、マイクロサービスを含むフルスタックプロジェクトなど）のインポートと実行を可能にしました。この機能は、プロジェクトのファイルや構成を解析し、Diploiのコンポーネントに自動的にマッピングすることで動作します。VercelやNetlify、Railwayといった競合サービスとの比較では、Diploiがフルスタックアプリケーションやモノレポのインポートにおいて、特に高い能力を発揮していることが示されています。

GapMapは、Wikipediaの記事の知識格差を定量的に評価するツールです。言語間の記事の存在有無を、単なる人気だけでなく文化的関連性も考慮してランキング表示します。スコアリングは、近隣言語での記事の有無、サイトリンク数、ページビュー数、記事の質に基づいて算出されます。 Wikidataのデータを基に、不足している記事を特定し、Wikipediaのエディターが翻訳や新規作成の優先順位をつけるための情報を提供します。プロジェクトはオープンソースで、データは3日ごとに更新されます。

Google、OpenClawに対抗するAIエージェント「Remy」を開発 — Googleは、Geminiを基盤としたAIパーソナルエージェント「Remy」を開発中であることが報じられました。Remyはユーザーの代わりにタスクを実行できる「24時間365日のパーソナルエージェント」として、社内でのテストが進められています。このエージェントは、Googleの様々なサービスと連携し、ユーザーの関心事に基づいてタスクを先回りして実行し、好みを学習する機能を持つとされています。RemyはOpenClawと類似した機能を提供し、Googleの次期AI製品発表イベントで注目される可能性があります。

セキュリティエンジニアリングはコンテキストの問題 — 多数の脆弱性が見つかる状況は、セキュリティエンジニアリングが抱える本質的な課題を浮き彫りにしている。脆弱性スキャナが大量の指摘を出すものの、それが実際に攻撃を許すリスクがあるのか、誰が対応すべきかといったコンテキストが欠如しているため、対応が追いつかない。セキュリティチームは脆弱性対応のためのツールを構築しているが、その目的はあくまで脆弱性を見つけ出し、対応するプロセスを効率化することであり、結局はコンテキストの不足がボトルネックとなっている。開発者とセキュリティエンジニアの仕事は似ているが、コンテキストの事前知識に差があり、それが対応時間の差に繋がっている。

Googleの隠れたリファレンス・デスク：より高度な検索方法 — Googleの検索結果はAIによる要約で埋め込まれ、クリック率が低下しています。しかし、高度な構文を使用することで、特定のドメイン、日付、ファイル形式などを指定して検索したり、AIによる解釈を回避したりできます。例えば、`site:nytimes.com climate`でニューヨーク・タイムズの気候変動に関する記事のみを検索したり、`Verbatim`モードで完全に一致する検索語句を検索したり、`filetype:pdf`でPDFファイルを検索したりできます。これらのテクニックを活用することで、広告に最適化されたコンテンツに埋もれることなく、より正確で信頼性の高い情報にアクセスできます。

学術界はAIに目を覚ます必要がある — AI技術の急速な進展により、社会科学研究や学術出版のあり方が大きく変化しつつある。AIは既存の論文作成を低コストで可能にし、査読システムを圧迫する可能性があり、学術界は現状維持が困難な状況にある。現在、AIの活用に抵抗を示す学者は少なくないが、その背景には自身の地位を守ろうとする心理が隠れている可能性がある。今後は、AIのセキュリティと検証に重点を置き、研究プロセスにおける人間の役割を再定義する必要がある。

URLから広告を生成：Viral.adが提供する5分で完成する広告テストパック — Viral.adは、単一の製品URLからTikTok、Meta、YouTubeなどの主要な広告プラットフォーム向けの広告クリエイティブを生成するサービスです。UGC動画やバナー広告など、多様なフォーマットに対応し、設計者や複雑な作業を介さずに、わずか5分で広告テストを開始できます。最初の広告テストは1ドルで試せ、月額制のプランではより多くの広告テストを生成可能。広告制作にかかる時間とコストを大幅に削減し、eコマースチームの広告テストを効率化します。

Linuxの脆弱性「CopyFail」が悪用され始めている — Linuxカーネルの新たな脆弱性「CopyFail」（CVE-2026-31431）が悪用されているとCISAが警告しました。この脆弱性は、限られたアクセス権を持つユーザーがシステムデータを不正に書き換えることでroot権限を獲得することを可能にします。Theori社がAIを活用したペネトレーションテストプラットフォームXintで発見し、2017年以降に構築された主要なLinuxディストリビューションに影響すると報告されています。CISAは連邦政府機関に緊急パッチ適用を指示し、Microsoftも攻撃の兆候を観測しています。

reMarkable Paper Pure：紙のような書き心地とデジタル機能の融合 — reMarkable Paper Pureは、10.3インチのディスプレイとMarkerペンにより、紙に書くような自然な書き心地を実現するタブレットです。手書きメモ、ドキュメントのレビュー、集中作業に最適で、タグやフォルダによる整理機能に加え、Google DriveやDropboxなどのクラウドサービスとの連携も可能です。バッテリー寿命は約3週間で、AIを活用したテキスト変換やSlack、Miroといったツールとの連携もサポートしています。軽量で持ち運びやすく、デジタルとアナログの良さを両立したデバイスです。

ProgramBenchは、言語モデルがコンパイル済みの実行ファイルとドキュメントのみからプログラムを再実装できるかを評価するベンチマークです。200のタスクがあり、jqやripgrepといった小型ユーティリティからPHPコンパイラ、FFmpeg、SQLiteといった大規模ソフトウェアプロジェクトまでをカバーしています。現状、Claude OpusやGPTなどの大規模言語モデルでも、タスクを完全に解決することは難しく、テストケースの合格率は低い結果となっています。不正行為を防ぐための厳格な制限が設けられており、モデルは完全に独自の設計でプログラムを構築する必要があります。

19 / 24