fin-glassbox

EXECUTIVE SUMMARY

We have completed the fundamentals data engineering pipeline from raw SEC EDGAR bulk archives through to a clean, point-in-time quarterly fundamentals table for U.S. issuers. This covers Family 3 (Fundamental Company Data) of the five required data families in your architecture.

DATA PROCESSED: SCALE AND SCOPE

Source	Raw Files	Processed To	Final Rows
submissions.zip	900,000+ JSON files	6 CSV families (inventory, entities, recent filings, filing files, former names, errors)	~Millions (partitioned)
companyfacts.zip	19,514 JSON files	121,896,885 flattened fact rows (72 partitioned CSVs)	121.9M facts
Final fundamentals	Derived from above	7,310 quarterly rows (point-in-time)	7,310 periods

FILES GENERATED AND THEIR PURPOSES

1. Issuer Master Files

Location: data/sec_edgar/processed/issuer_master/

`issuer_master.csv` (970,000+ rows)

Purpose: Complete registry of every SEC filer in the EDGAR system.

Key fields:

cik / padded_cik: Unique SEC identifier
entity_name: Legal name of filer
is_us_issuer: Boolean flag indicating U.S. incorporation/domicile
primary_ticker / primary_exchange: Trading symbol for public companies
sic / sic_description: Industry classification
has_submissions / has_companyfacts: Data availability flags
Filing date ranges: Coverage windows for each data type

Why this matters:

U.S. filter: Your final stock prediction target is U.S. companies. The is_us_issuer=1 flag (851,569 entities) enables downstream filtering.
CIK-to-ticker mapping: Bridges SEC’s CIK identifiers to human-readable tickers for joining with market data later.
Coverage audit: Tells you which companies have fundamentals vs. just filings text.

`cik_ticker_map.csv` (5,644 rows)

Purpose: Clean, production-ready mapping from CIK to primary ticker for publicly traded U.S. companies only.

Key fields:

cik / padded_cik: SEC identifier
primary_ticker: Trading symbol (e.g., AAPL, MSFT)
entity_name: Company name
primary_exchange: NYSE, Nasdaq, etc.

Why this matters:

This is your universe definition for stock prediction. These 5,644 tickers represent the intersection of:
1. SEC filers (they submit 10-K/10-Q)
2. U.S. issuers (incorporated/domiciled in U.S.)
3. Publicly traded (have a ticker symbol)
You will join this with yfinance market data later.

`issuer_master_summary.json`

Purpose: Pipeline metadata and statistics for reproducibility.

Key stats:

Total CIKs processed: 973,279
U.S. issuers identified: 851,569 (87.5%)
Issuers with tickers: 8,081 (but only 5,644 in final map due to exchange filtering)
Runtime: 85 seconds

2. Core Fundamentals Files

Location: data/sec_edgar/processed/fundamentals/

`core_fundamentals_quarterly.csv` (7,310 rows)

Purpose: Point-in-time quarterly and annual fundamentals for U.S. public companies.

Key fields (27 concepts extracted):

Category	Fields
Identifiers	`cik`, `ticker`, `fiscal_year`, `fiscal_period` (Q1-Q4, FY)
Timing	`filing_date`, `period_end_date`, `form_type` (10-K, 10-Q), `accession`
Income Statement	`revenue`, `cost_of_revenue`, `gross_profit`, `operating_expenses`, `operating_income`, `net_income`, `eps_basic`, `eps_diluted`, `shares_basic`
Balance Sheet - Assets	`total_assets`, `current_assets`, `cash_and_equivalents`, `inventory`, `ppe_net`, `goodwill`, `intangible_assets`
Balance Sheet - Liabilities	`total_liabilities`, `current_liabilities`, `long_term_debt`, `short_term_debt`
Balance Sheet - Equity	`shareholders_equity`, `retained_earnings`
Cash Flow	`operating_cash_flow`, `investing_cash_flow`, `financing_cash_flow`, `capex`, `free_cash_flow`

Point-in-Time Method (Option A - Strict): For each (cik, fiscal_year, fiscal_period):

Identify the earliest filing date among all 10-K/10-Q filings for that period
Extract facts only from that earliest filing
This ensures no restated/later-amended values leak into historical analysis

Why this matters:

This table feeds directly into your Fundamental Analyst module
It provides the structured company data for:
- Valuation signals (P/E, P/B, EV/EBITDA proxies)
- Quality metrics (margins, ROE, ROA)
- Growth trends (revenue growth, earnings growth)
- Leverage and liquidity assessment
The point-in-time design is thesis-defensible: you can claim no lookahead bias in backtesting.

`fundamentals_summary.json`

Purpose: Pipeline metadata and concept coverage.

Key stats:

Output rows: 7,310 quarterly/annual periods
Input observations processed: 73,677,604 facts (filtered from 121.9M)
U.S. CIKs filtered: 5,644
Runtime: 46.3 minutes (2,778 seconds)
Concepts extracted: 27 core financial metrics

WHY THE OUTPUT IS SMALL (7,310 ROWS) - IMPORTANT CONTEXT

You processed 73.6M observations but only got 7,310 output rows. This is expected and correct. Here’s why:

Sparsity of XBRL filings: The 121.9M facts include every possible XBRL tag (thousands of concepts) across all filing types (8-K, DEF 14A, S-1, etc.). We filter to:
- Only 10-K and 10-Q forms
- Only 27 core concepts
- Only U.S. public companies (5,644 CIKs)
Point-in-time deduplication: Multiple filings/amendments for the same period are collapsed to a single row (earliest filing).
Coverage is building over time: Many companies in the 5,644 list may not have XBRL facts for all periods yet (newer filers, data gaps).
This is sufficient: 7,310 company-periods across 5,644 tickers is a solid foundation. You can:
- Join with price data to get forward returns
- Train tabular models (XGBoost/LightGBM)
- Derive features (growth rates, ratios)

As you add more years of data (via incremental SEC updates), this table will grow.

HOW THIS DATA FEEDS YOUR ARCHITECTURE

Architecture Component	Data Source	Status
Fundamental Encoder/Model	`core_fundamentals_quarterly.csv`	✅ Ready
Fundamental Analyst	`core_fundamentals_quarterly.csv`	✅ Ready
Qualitative Analysis (fundamental branch)	Derived ratios from fundamentals	⏳ Next step
Risk Engine (leverage/liquidity signals)	Balance sheet fields	⏳ Feature engineering needed
U.S. Universe Definition	`cik_ticker_map.csv`	✅ Ready
Market Data Joining	Join tickers with yfinance	⏳ Next phase

WHAT REMAINS IN THE FUNDAMENTALS PIPELINE

Step 4: Derived Ratios and Features

Goal: Transform raw fundamentals into model-ready features.

Tasks:

Growth metrics (YoY, QoQ):
- Revenue growth
- Earnings growth
- Cash flow growth
Profitability ratios:
- Gross margin = gross_profit / revenue
- Operating margin = operating_income / revenue
- Net margin = net_income / revenue
Efficiency ratios:
- ROA = net_income / total_assets
- ROE = net_income / shareholders_equity (handle negative equity)
Leverage ratios:
- Debt/Equity = long_term_debt / shareholders_equity
- Current ratio = current_assets / current_liabilities
Valuation metrics (requires price data join):
- P/E, P/B, P/S, EV/EBITDA proxies

Output: fundamentals_features.csv with forward-filled quarterly data.

Step 5: Point-in-Time Alignment with Market Data

Goal: Ensure no lookahead when joining with prices.

Method:

Fundamentals are reported on filing_date
Price data should only use information after filing_date for forward returns
Lag features appropriately

WHAT REMAINS IN THE OVERALL DATA PIPELINE

Family 1: Time-Series Market Data (Not Started)

Status: ⏳ Pending Source: yfinance (prototype), potentially Alpha Vantage/Finnhub Scope: Daily OHLCV for 5,644 tickers × 15+ years Output: market_data/ with price panels, returns, technical indicators

Family 2: Financial Text Data (Partially Complete)

Status: 🔄 Raw downloads in progress Source: SEC EDGAR filings (.txt files) Completed:

Manifest generation
Raw filing downloads (ongoing)

Remaining:

Filing corpus audit
Document/section parsing (10-K: Risk Factors, MD&A; 8-K: item extraction)
Cleaned text corpus for FinBERT

Family 4: Macro/Regime Data (Not Started)

Status: ⏳ Pending Source: FRED API Scope: Interest rates, inflation, VIX, credit spreads, unemployment Output: macro/ with aligned daily/monthly series

Family 5: Cross-Asset Relation Data (Not Started)

Status: ⏳ Pending Source: Derived from price panel Scope: Rolling correlations, sector graphs for GNN Output: graphs/ with edge lists and adjacency matrices

RECOMMENDED NEXT STEPS

Based on your development priorities (data acquisition first), I recommend:

Option A: Complete Fundamentals Features (1-2 days)

python data/sec_fundamentals_features.py

This would add derived ratios and growth metrics, making the fundamentals table directly usable for modeling.

Option B: Resume Filings Text Pipeline (3-5 days)

# 1. Audit downloaded filings
python data/sec_filings_audit.py

# 2. Parse sections from 10-K/10-Q
python data/sec_filings_parser.py --forms 10-K,10-Q --sections risk,mdna

# 3. Build cleaned text corpus
python data/sec_filings_corpus.py

Option C: Bootstrap Market Data (2-3 days)

python data/market_data_yfinance.py --tickers data/sec_edgar/processed/issuer_master/cik_ticker_map.csv --years 15

SUMMARY TABLE: FILES YOU WILL USE GOING FORWARD

File	Purpose	Key Fields
`cik_ticker_map.csv`	Universe definition (5,644 tickers)	`cik`, `primary_ticker`
`core_fundamentals_quarterly.csv`	Model input for Fundamental Analyst	All 36 fields
`issuer_master.csv`	Reference for CIK lookups	`cik`, `entity_name`, `is_us_issuer`

The fundamentals pipeline is production-ready. The text pipeline is mid-flight. Market data is next.

Which step do you want to tackle next?

This site is open source. Improve this page.

fin-glassbox

EXECUTIVE SUMMARY

DATA PROCESSED: SCALE AND SCOPE

FILES GENERATED AND THEIR PURPOSES

1. Issuer Master Files

issuer_master.csv (970,000+ rows)

cik_ticker_map.csv (5,644 rows)

issuer_master_summary.json

2. Core Fundamentals Files

core_fundamentals_quarterly.csv (7,310 rows)

fundamentals_summary.json

WHY THE OUTPUT IS SMALL (7,310 ROWS) - IMPORTANT CONTEXT

HOW THIS DATA FEEDS YOUR ARCHITECTURE

WHAT REMAINS IN THE FUNDAMENTALS PIPELINE

Step 4: Derived Ratios and Features

Step 5: Point-in-Time Alignment with Market Data

WHAT REMAINS IN THE OVERALL DATA PIPELINE

Family 1: Time-Series Market Data (Not Started)

Family 2: Financial Text Data (Partially Complete)

Family 4: Macro/Regime Data (Not Started)

Family 5: Cross-Asset Relation Data (Not Started)

RECOMMENDED NEXT STEPS

Option A: Complete Fundamentals Features (1-2 days)

Option B: Resume Filings Text Pipeline (3-5 days)

Option C: Bootstrap Market Data (2-3 days)

SUMMARY TABLE: FILES YOU WILL USE GOING FORWARD

`issuer_master.csv` (970,000+ rows)

`cik_ticker_map.csv` (5,644 rows)

`issuer_master_summary.json`

`core_fundamentals_quarterly.csv` (7,310 rows)

`fundamentals_summary.json`