The issue of data usage

Hello! I noticed that in the data you provided, some sequences do not begin with "ATG", for example, 'TTGAAAAGAAAAGCCAGTATC**ATGTTTGTCCATCAAGACAAGTACGAAGAATACAAACAGCGGCATGATGACATTTGGCCTGAGATGGCAGAAGCACTCAAAGCTCATGGAGCACACCATTATTCCATTTTTCTAGACGAGGAAACAGGCAGGCTTTTTGCATATTTAGAAATAGAGGATGAAGAGAAATGGAGAAAGATGGCGGACACGGAAGTTTGCCAAAGATGGTGGAAATCGATGGCGCCATTAATGAAAACAAATTCGGATTTCAGTCCTGTTGCGATAGATCTAAAGGAAGTTTTTTATTTGGATTGA**'. 
When tokenizing, should I discard the part before ATG and start from ATG, or should I just use the entire sequence as it is?
Similarly, when translating it into an amino acid sequence, should I translate the entire sequence directly or start translating from ATG?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

The issue of data usage #7

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Uh oh!

The issue of data usage #7

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions