314 lines
9.7 KiB
Markdown
314 lines
9.7 KiB
Markdown
# Genotyping 模块数据流与表关系
|
||
|
||
本文档分析 Genotyping 模块的数据录入顺序、核心表关系,以及 Java 实体名与真实数据库表名之间的对应关系。
|
||
|
||
## 结论
|
||
|
||
Genotyping 模块的数据主线是:
|
||
|
||
```text
|
||
Core/Pheno 上游数据 -> sample / plate
|
||
ReferenceSet -> Reference -> ReferenceBases
|
||
ReferenceSet + Study -> VariantSet -> Variant
|
||
Sample -> CallSet
|
||
CallSet + Variant -> Call
|
||
GenomeMap -> LinkageGroup -> MarkerPosition -> Variant
|
||
```
|
||
|
||
更贴近业务录入的顺序是:
|
||
|
||
```text
|
||
1. 先有 Core/Phenotyping 上游:crop、program、trial、study、observation_unit
|
||
2. 录入 Plate 和 Sample
|
||
3. 录入 ReferenceSet、Reference、ReferenceBases
|
||
4. 录入 VariantSet
|
||
5. 录入 Variant
|
||
6. 录入 CallSet
|
||
7. 录入 Call,也就是 allele_call 表里的基因型结果
|
||
8. 录入 GenomeMap、LinkageGroup、MarkerPosition
|
||
```
|
||
|
||
初始化脚本中与 Genotyping 相关的执行顺序是:
|
||
|
||
```text
|
||
R__init_data_21_samples.sql
|
||
R__init_data_22_references.sql
|
||
R__init_data_23_variant_set_1.sql
|
||
R__init_data_24_genome_maps.sql
|
||
src/main/resources/db/sql/variant_set_4/variant_set_4.sql
|
||
src/main/resources/db/sql/variant_set_4/variant_set_4_alleles.sql
|
||
```
|
||
|
||
## 实体与真实表名
|
||
|
||
| 业务概念 | Java 实体 | 数据库表 | 说明 |
|
||
| --- | --- | --- | --- |
|
||
| Call | `CallEntity` | `allele_call` | 单个样本在某个 variant 上的 genotype 结果 |
|
||
| CallSet | `CallSetEntity` | `callset` | 某个 sample 的一组 call,通常对应一个样本的基因型调用集合 |
|
||
| Sample | `SampleEntity` | `sample` | 送检样本/测序样本 |
|
||
| Plate | `PlateEntity` | `plate` | 样本板,包含多个 sample |
|
||
| MarkerPosition | `MarkerPositionEntity` | `marker_position` | variant 在 linkage group 上的位置 |
|
||
| Variant | `VariantEntity` | `variant` | 变异位点,如 SNP/Indel |
|
||
| ReferenceSet | `ReferenceSetEntity` | `reference_set` | 参考基因组集合 |
|
||
| GenomeMap | `GenomeMapEntity` | `genome_map` | 遗传图谱 |
|
||
| VariantSet | `VariantSetEntity` | `variantset` | 一批 variant 的集合 |
|
||
| Reference | `ReferenceEntity` | `reference` | 参考序列,如 chromosome/contig |
|
||
| ReferenceBases | `ReferenceBasesPageEntity` | `reference_bases` | reference 的序列分页 |
|
||
| LinkageGroup | `LinkageGroupEntity` | `linkageGroup` | 图谱中的连锁群;注意表名是驼峰 `linkageGroup` |
|
||
|
||
## 核心表说明
|
||
|
||
| 表 | 作用 | 主要上游依赖 | 主要下游 |
|
||
| --- | --- | --- | --- |
|
||
| `plate` | 样本板 | `program`、`trial`、`study`,可选 vendor submission | `sample` |
|
||
| `sample` | 样本 | `plate`、`observation_unit`、`program`、`trial`、`study` | `callset` |
|
||
| `reference_set` | 参考基因组集合 | 可选 `germplasm` | `reference`、`variantset`、`variant` |
|
||
| `reference` | 参考序列 | `reference_set` | `reference_bases` |
|
||
| `reference_bases` | 参考序列片段/分页 | `reference` | 无 |
|
||
| `variantset` | 变异集合 | `reference_set`、`study` | `variant`、`callset_variant_sets`、`variantset_analysis`、`variantset_format` |
|
||
| `variant` | 变异位点 | `reference_set`、`variantset` | `allele_call`、`marker_position` |
|
||
| `callset` | 样本的 call 集合 | `sample` | `allele_call`、`callset_variant_sets` |
|
||
| `allele_call` | genotype 调用结果 | `callset`、`variant` | 无 |
|
||
| `genome_map` | 遗传图谱 | `crop`,可关联 `study` | `linkageGroup` |
|
||
| `linkageGroup` | 连锁群 | `genome_map` | `marker_position` |
|
||
| `marker_position` | marker/variant 在图谱上的位置 | `linkageGroup`、`variant` | 无 |
|
||
|
||
## 建议录入顺序
|
||
|
||
### 1. 准备 Core/Phenotyping 上游数据
|
||
|
||
Genotyping 数据通常挂在 Core 和 Phenotyping 之上。
|
||
|
||
必须或常见上游包括:
|
||
|
||
```text
|
||
crop
|
||
program
|
||
trial
|
||
study
|
||
observation_unit
|
||
```
|
||
|
||
`sample` 可以关联 `observation_unit`,也会冗余关联 `program/trial/study`,用于查询和筛选。
|
||
|
||
### 2. 录入 Plate
|
||
|
||
先录入 `plate`,表示样本板。
|
||
|
||
`plate` 可关联:
|
||
|
||
```text
|
||
program
|
||
trial
|
||
study
|
||
plate_submission
|
||
```
|
||
|
||
如果样本不走板,也可以直接录入 `sample`;但当前模型中 sample 支持挂到 plate 上。
|
||
|
||
### 3. 录入 Sample
|
||
|
||
录入 `sample`,它是 genotyping 流程的样本入口。
|
||
|
||
主要关系:
|
||
|
||
```text
|
||
sample -> plate
|
||
sample -> observation_unit
|
||
sample -> program / trial / study
|
||
sample -> germplasm_taxon
|
||
```
|
||
|
||
### 4. 录入 ReferenceSet 和 Reference
|
||
|
||
录入 `reference_set`,表示参考基因组集合。
|
||
|
||
然后录入 `reference`,表示具体参考序列,例如 chromosome、contig。
|
||
|
||
如需保存具体序列片段,再录入:
|
||
|
||
```text
|
||
reference_bases
|
||
```
|
||
|
||
### 5. 录入 VariantSet
|
||
|
||
录入 `variantset`,它把一批 variant 组织成集合。
|
||
|
||
主要关系:
|
||
|
||
```text
|
||
variantset -> reference_set
|
||
variantset -> study
|
||
```
|
||
|
||
附属表包括:
|
||
|
||
```text
|
||
variantset_analysis
|
||
variantset_format
|
||
variantset_additional_info
|
||
variantset_external_references
|
||
```
|
||
|
||
### 6. 录入 Variant
|
||
|
||
录入 `variant`,表示具体变异位点。
|
||
|
||
主要关系:
|
||
|
||
```text
|
||
variant -> reference_set
|
||
variant -> variantset
|
||
```
|
||
|
||
附属表包括:
|
||
|
||
```text
|
||
variant_entity_alternate_bases
|
||
variant_entity_ciend
|
||
variant_entity_cipos
|
||
variant_entity_filters_failed
|
||
```
|
||
|
||
### 7. 录入 CallSet
|
||
|
||
录入 `callset`,表示某个样本的一组 genotype calls。
|
||
|
||
主要关系:
|
||
|
||
```text
|
||
callset -> sample
|
||
callset_variant_sets -> variantset
|
||
```
|
||
|
||
`callset_variant_sets` 是 `callset` 和 `variantset` 的多对多关系表。
|
||
|
||
### 8. 录入 Call
|
||
|
||
录入 `allele_call`,业务上就是 Call。
|
||
|
||
它是最终基因型调用结果,核心关系是:
|
||
|
||
```text
|
||
allele_call -> callset
|
||
allele_call -> variant
|
||
```
|
||
|
||
也就是说,一条 call 表示“某个 sample/callset 在某个 variant 上的 genotype、read depth、likelihood 等结果”。
|
||
|
||
### 9. 录入 GenomeMap 和 MarkerPosition
|
||
|
||
如果需要遗传图谱定位,录入:
|
||
|
||
```text
|
||
genome_map -> linkageGroup -> marker_position -> variant
|
||
```
|
||
|
||
`marker_position` 实际上把 variant 放到某个 linkage group 的具体位置上。
|
||
|
||
## Genotyping 数据流图
|
||
|
||
```mermaid
|
||
flowchart TD
|
||
C["Core: crop"] --> GM["genome_map 遗传图谱"]
|
||
C --> P["Core: program"]
|
||
P --> T["Core: trial"]
|
||
T --> ST["Core: study"]
|
||
ST --> PL["plate 样本板"]
|
||
ST --> VS["variantset 变异集合"]
|
||
ST --> SM["sample 样本"]
|
||
|
||
OU["Pheno: observation_unit"] --> SM
|
||
PL --> SM
|
||
|
||
GER["Germplasm 可选"] --> RS["reference_set 参考集合"]
|
||
RS --> R["reference 参考序列"]
|
||
R --> RB["reference_bases 参考序列分页"]
|
||
|
||
RS --> VS
|
||
VS --> V["variant 变异位点"]
|
||
RS --> V
|
||
|
||
SM --> CS["callset 样本调用集合"]
|
||
CS --> CSV["callset_variant_sets"]
|
||
VS --> CSV
|
||
|
||
CS --> CALL["allele_call / Call 基因型结果"]
|
||
V --> CALL
|
||
|
||
GM --> LG["linkageGroup 连锁群"]
|
||
LG --> MP["marker_position 图谱位置"]
|
||
V --> MP
|
||
|
||
VS --> VSA["variantset_analysis"]
|
||
VS --> VSF["variantset_format"]
|
||
```
|
||
|
||
## Genotyping ER 关系图
|
||
|
||
```mermaid
|
||
erDiagram
|
||
program ||--o{ plate : "program_id"
|
||
trial ||--o{ plate : "trial_id"
|
||
study ||--o{ plate : "study_id"
|
||
|
||
plate ||--o{ sample : "plate_id"
|
||
observation_unit ||--o{ sample : "observation_unit_id"
|
||
program ||--o{ sample : "program_id"
|
||
trial ||--o{ sample : "trial_id"
|
||
study ||--o{ sample : "study_id"
|
||
|
||
germplasm ||--o{ reference_set : "source_germplasm_id"
|
||
reference_set ||--o{ reference : "reference_set_id"
|
||
reference ||--o{ reference_bases : "reference_id"
|
||
|
||
reference_set ||--o{ variantset : "reference_set_id"
|
||
study ||--o{ variantset : "study_id"
|
||
variantset ||--o{ variant : "variant_set_id"
|
||
reference_set ||--o{ variant : "reference_set_id"
|
||
|
||
sample ||--o{ callset : "sample_id"
|
||
callset ||--o{ callset_variant_sets : "call_sets_id"
|
||
variantset ||--o{ callset_variant_sets : "variant_sets_id"
|
||
|
||
callset ||--o{ allele_call : "call_set_id"
|
||
variant ||--o{ allele_call : "variant_id"
|
||
|
||
crop ||--o{ genome_map : "crop_id"
|
||
genome_map ||--o{ linkageGroup : "genome_map_id"
|
||
linkageGroup ||--o{ marker_position : "linkage_group_id"
|
||
variant ||--o{ marker_position : "variant_id"
|
||
|
||
variantset ||--o{ variantset_analysis : "variant_set_id"
|
||
variantset ||--o{ variantset_format : "variant_set_id"
|
||
```
|
||
|
||
## API 与表的对应关系
|
||
|
||
| API | 主表 | 说明 |
|
||
| --- | --- | --- |
|
||
| `/brapi/v2/samples` | `sample` | 样本查询、新增、修改 |
|
||
| `/brapi/v2/plates` | `plate` | 样本板查询、新增、修改 |
|
||
| `/brapi/v2/callsets` | `callset` | 样本调用集合 |
|
||
| `/brapi/v2/calls` | `allele_call` | genotype 调用结果 |
|
||
| `/brapi/v2/variants` | `variant` | 变异位点 |
|
||
| `/brapi/v2/variantsets` | `variantset` | 变异集合 |
|
||
| `/brapi/v2/referencesets` | `reference_set` | 参考基因组集合 |
|
||
| `/brapi/v2/references` | `reference` | 参考序列 |
|
||
| `/brapi/v2/maps` | `genome_map` | 遗传图谱 |
|
||
| `/brapi/v2/markerpositions` | `marker_position` | variant/marker 在图谱上的位置 |
|
||
|
||
## 关键注意点
|
||
|
||
1. `CallEntity` 对应的数据库表不是 `call`,而是 `allele_call`。
|
||
2. `CallSetEntity` 对应 `callset`,不是 `call_set`。
|
||
3. `VariantSetEntity` 对应 `variantset`,不是 `variant_set`。
|
||
4. `LinkageGroupEntity` 对应表名是 `linkageGroup`,schema 里另有外键引用时大小写需要特别注意。
|
||
5. `sample` 是基因型流程的样本入口,向上关联 `plate/observation_unit/study/trial/program`。
|
||
6. `variant` 是位点定义,`allele_call` 是样本在位点上的结果;不要把二者混成同一层数据。
|
||
7. `reference_set/reference/reference_bases` 是参考基因组侧;`variantset/variant/callset/allele_call` 是变异和结果侧。
|
||
8. `genome_map/linkageGroup/marker_position` 是遗传图谱定位侧,`marker_position` 通过 `variant_id` 与变异位点相连。
|
||
9. 与前两篇一样,`*_additional_info` 和 `*_external_references` 是通用扩展关系,用于补充业务字段和外部引用。
|
||
|