米国地方自治体の法令データベースLOCUSを公開
米国の地方条例全てを網羅した米国で初めて、米国内のほぼすべての地方自治体の法令データを集めた「Local Ordinance Corpus for the United States (LOCUS)」が公開された。
研究者はこのデータを使用して、機械学習モデルを訓練し、地方法の分析やAI研究を行うことができる。
米国で地方自治体が制定する条例(ローカル・オーディンランス)を機械が読み取れる形でまとめた「LOCUS」というデータベースが、研究者に公開されました。このデータベースは、法律AIの進展に欠かせない大量の法的テキストを提供するため、米国各地の条例を網羅しています。
条例の重要性と現状
米国の法律体系では、自治体が制定する条例が日常的な規制の多くの分野を担当しています。しかし、これまでの機械読み可能なデータベースには、これらの条例がほとんど含まれていませんでした。条例は、土地利用や住宅、商業許可、公衆衛生など、さまざまな分野をカバーしていますが、人間が閲覧するために設計されたプラットフォームに分散しており、大規模な研究には不向きでした。
LOCUSの特徴
LOCUSは、米国の市町村の条例を網羅したデータベースで、研究者に公開されています。このデータベースには、9,239の市町村の条例が含まれており、米国の人口の大多数をカバーする2,309の郡も対象としています。OCR技術を用いて、さまざまなドキュメント形式を処理し、法的テキストを機械が読み取れる形にしています。
今後の活用と展望
LOCUSは、法律AI研究の基盤となるデータベースとして、今後さまざまな分野での研究に活用されることが期待されます。研究者たちは、透明性や権力行使などの観点から、米国の地方条例を分析するためのモデルを構築しています。今後、このデータベースが法律分野の研究や政策立案にどのように活用されるかが注目されます。
まとめ
LOCUSは、米国の地方条例を機械読み可能な形でまとめたデータベースで、法律AI研究の進展に大きく貢献する可能性があります。今後、このデータベースがどのように活用されるかが注目されます。
原文の冒頭を表示(英語・3段落のみ)
View PDF
HTML (experimental)
Abstract:Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, noise, animal control, and many other domains of everyday regulation, but they are fragmented across vendor platforms designed for human browsing rather than bulk research access. We introduce LOCUS - the Local Ordinance Corpus for the United States - a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes. The raw corpus, available for release to researchers, represents nearly all publicly available municipal and county ordinance codes. The resulting raw corpus contains codes from 9,239 cities and counties. A smaller county-harmonized LOCUS access layer provides coverage for the largest 2,309 of 3,144 U.S. counties, accounting for a majority of the population. We use OCR to handle the myriad of document formats that have kept the law from being a public resource. We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law. We train a collection of ModernBERT-based classifiers and scorers to facilitate analyzing U.S. local law among several dimensions, such as opacity and paternalism, that have not previously been studied at this scale. LOCUS-v1 and its derivative models are available at: this https URL
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。
Hacker News コメント
機械翻訳。HN の元スレッド ↗
柏ク系の学者が巨大な地方法と条例のコーパスを編纂し、多様な方法で分類した。残念ながら、彼らは各条例をその出所にきちんとリンクしていないため、最も有用である可能性を完全には確信できない。
原文
A couple of Berkeley academics compiled a giant corpus of local laws and ordinances and classified them in various ways.Unfortunately, they don't seem to have cleanly linked each ordinance to its source, so I'm not entirely sure it's as useful as it could be.