Package: protr 1.7-4

protr: Generating Various Numerical Representation Schemes for Protein Sequences

Comprehensive toolkit for generating various numerical features of protein sequences described in Xiao et al. (2015) <doi:10.1093/bioinformatics/btv042>. For full functionality, the software 'ncbi-blast+' is needed, see <https://blast.ncbi.nlm.nih.gov/doc/blast-help/downloadblastdata.html> for more information.

Authors:Nan Xiao [aut, cre], Qing-Song Xu [aut], Dong-Sheng Cao [aut], Sebastian Mueller [ctb]

protr_1.7-4.tar.gz
protr_1.7-4.zip(r-4.5)protr_1.7-4.zip(r-4.4)protr_1.7-4.zip(r-4.3)
protr_1.7-4.tgz(r-4.5-any)protr_1.7-4.tgz(r-4.4-any)protr_1.7-4.tgz(r-4.3-any)
protr_1.7-4.tar.gz(r-4.5-noble)protr_1.7-4.tar.gz(r-4.4-noble)
protr_1.7-4.tgz(r-4.4-emscripten)protr_1.7-4.tgz(r-4.3-emscripten)
protr.pdf |protr.html✨
protr/json (API)
NEWS

# Install 'protr' in R:

install.packages('protr', repos = c('https://nanxstats.r-universe.dev', 'https://cloud.r-project.org'))

Bug tracker:https://github.com/nanxstats/protr/issues

Pkgdown site:https://nanx.me

Datasets:

AA2DACOR - 2D Autocorrelations Descriptors for 20 Amino Acids calculated by Dragon
AA3DMoRSE - 3D-MoRSE Descriptors for 20 Amino Acids calculated by Dragon
AAACF - Atom-Centred Fragments Descriptors for 20 Amino Acids calculated by Dragon
AABLOSUM100 - BLOSUM100 Matrix for 20 Amino Acids
AABLOSUM45 - BLOSUM45 Matrix for 20 Amino Acids
AABLOSUM50 - BLOSUM50 Matrix for 20 Amino Acids
AABLOSUM62 - BLOSUM62 Matrix for 20 Amino Acids
AABLOSUM80 - BLOSUM80 Matrix for 20 Amino Acids
AABurden - Burden Eigenvalues Descriptors for 20 Amino Acids calculated by Dragon
AACPSA - CPSA Descriptors for 20 Amino Acids calculated by Discovery Studio
AAConn - Connectivity Indices Descriptors for 20 Amino Acids calculated by Dragon
AAConst - Constitutional Descriptors for 20 Amino Acids calculated by Dragon
AADescAll - All 2D Descriptors for 20 Amino Acids calculated by Dragon
AAEdgeAdj - Edge Adjacency Indices Descriptors for 20 Amino Acids calculated by Dragon
AAEigIdx - Eigenvalue-Based Indices Descriptors for 20 Amino Acids calculated by Dragon
AAFGC - Functional Group Counts Descriptors for 20 Amino Acids calculated by Dragon
AAGETAWAY - GETAWAY Descriptors for 20 Amino Acids calculated by Dragon
AAGeom - Geometrical Descriptors for 20 Amino Acids calculated by Dragon
AAInfo - Information Indices Descriptors for 20 Amino Acids calculated by Dragon
AAMOE2D - 2D Descriptors for 20 Amino Acids calculated by MOE 2011.10
AAMOE3D - 3D Descriptors for 20 Amino Acids calculated by MOE 2011.10
AAMetaInfo - Meta Information for the 20 Amino Acids
AAMolProp - Molecular Properties Descriptors for 20 Amino Acids calculated by Dragon
AAPAM120 - PAM120 Matrix for 20 Amino Acids
AAPAM250 - PAM250 Matrix for 20 Amino Acids
AAPAM30 - PAM30 Matrix for 20 Amino Acids
AAPAM40 - PAM40 Matrix for 20 Amino Acids
AAPAM70 - PAM70 Matrix for 20 Amino Acids
AARDF - RDF Descriptors for 20 Amino Acids calculated by Dragon
AARandic - Randic Molecular Profiles Descriptors for 20 Amino Acids calculated by Dragon
AATopo - Topological Descriptors for 20 Amino Acids calculated by Dragon
AATopoChg - Topological Charge Indices Descriptors for 20 Amino Acids calculated by Dragon
AAWHIM - WHIM Descriptors for 20 Amino Acids calculated by Dragon
AAWalk - Walk and Path Counts Descriptors for 20 Amino Acids calculated by Dragon
AAindex - AAindex Data of 544 Physicochemical and Biological Properties for 20 Amino Acids

On CRAN:

bioinformatics feature-engineering feature-extraction machine-learning peptides protein-sequences sequence-analysis

10.02 score 52 stars 3 packages 173 scripts 1.1k downloads 11 mentions 43 exports 0 dependencies

Last updated 6 months agofrom:8cafbdb092. Checks:9 OK. Indexed: yes.

Target	Result	Latest binary
Doc / Vignettes	OK	Mar 09 2025
R-4.5-win	OK	Mar 09 2025
R-4.5-mac	OK	Mar 09 2025
R-4.5-linux	OK	Mar 09 2025
R-4.4-win	OK	Mar 09 2025
R-4.4-mac	OK	Mar 09 2025
R-4.4-linux	OK	Mar 09 2025
R-4.3-win	OK	Mar 09 2025
R-4.3-mac	OK	Mar 09 2025

Exports:acc crossSetSim crossSetSimDisk extractAAC extractAPAAC extractBLOSUM extractCTDC extractCTDCClass extractCTDD extractCTDDClass extractCTDT extractCTDTClass extractCTriad extractCTriadClass extractDC extractDescScales extractFAScales extractGeary extractMDSScales extractMoran extractMoreauBroto extractPAAC extractProtFP extractProtFPGap extractPSSM extractPSSMAcc extractPSSMFeature extractQSO extractScales extractScalesGap extractSOCN extractTC getUniProt parGOSim parSeqSim parSeqSimDisk protcheck protseg readFASTA readPDB removeGaps twoGOSim twoSeqSim

Dependencies:

protr: R package for generating various numerical representation schemes of protein sequences

Nan Xiao <https://nanx.me>

Rendered fromprotr.Rmdusingknitr::rmarkdownon Mar 09 2025.

Last update: 2024-08-30
Started: 2017-06-06

Citation

Development and contributors

Readme and manuals

Help Manual

Help page	Topics
2D Autocorrelations Descriptors for 20 Amino Acids calculated by Dragon	AA2DACOR
3D-MoRSE Descriptors for 20 Amino Acids calculated by Dragon	AA3DMoRSE
Atom-Centred Fragments Descriptors for 20 Amino Acids calculated by Dragon	AAACF
BLOSUM100 Matrix for 20 Amino Acids	AABLOSUM100
BLOSUM45 Matrix for 20 Amino Acids	AABLOSUM45
BLOSUM50 Matrix for 20 Amino Acids	AABLOSUM50
BLOSUM62 Matrix for 20 Amino Acids	AABLOSUM62
BLOSUM80 Matrix for 20 Amino Acids	AABLOSUM80
Burden Eigenvalues Descriptors for 20 Amino Acids calculated by Dragon	AABurden
Connectivity Indices Descriptors for 20 Amino Acids calculated by Dragon	AAConn
Constitutional Descriptors for 20 Amino Acids calculated by Dragon	AAConst
CPSA Descriptors for 20 Amino Acids calculated by Discovery Studio	AACPSA
All 2D Descriptors for 20 Amino Acids calculated by Dragon	AADescAll
Edge Adjacency Indices Descriptors for 20 Amino Acids calculated by Dragon	AAEdgeAdj
Eigenvalue-Based Indices Descriptors for 20 Amino Acids calculated by Dragon	AAEigIdx
Functional Group Counts Descriptors for 20 Amino Acids calculated by Dragon	AAFGC
Geometrical Descriptors for 20 Amino Acids calculated by Dragon	AAGeom
GETAWAY Descriptors for 20 Amino Acids calculated by Dragon	AAGETAWAY
AAindex Data of 544 Physicochemical and Biological Properties for 20 Amino Acids	AAindex
Information Indices Descriptors for 20 Amino Acids calculated by Dragon	AAInfo
Meta Information for the 20 Amino Acids	AAMetaInfo
2D Descriptors for 20 Amino Acids calculated by MOE 2011.10	AAMOE2D
3D Descriptors for 20 Amino Acids calculated by MOE 2011.10	AAMOE3D
Molecular Properties Descriptors for 20 Amino Acids calculated by Dragon	AAMolProp
PAM120 Matrix for 20 Amino Acids	AAPAM120
PAM250 Matrix for 20 Amino Acids	AAPAM250
PAM30 Matrix for 20 Amino Acids	AAPAM30
PAM40 Matrix for 20 Amino Acids	AAPAM40
PAM70 Matrix for 20 Amino Acids	AAPAM70
Randic Molecular Profiles Descriptors for 20 Amino Acids calculated by Dragon	AARandic
RDF Descriptors for 20 Amino Acids calculated by Dragon	AARDF
Topological Descriptors for 20 Amino Acids calculated by Dragon	AATopo
Topological Charge Indices Descriptors for 20 Amino Acids calculated by Dragon	AATopoChg
Walk and Path Counts Descriptors for 20 Amino Acids calculated by Dragon	AAWalk
WHIM Descriptors for 20 Amino Acids calculated by Dragon	AAWHIM
Auto Cross Covariance (ACC) for Generating Scales-Based Descriptors of the Same Length	acc
Parallel Protein Sequence Similarity Calculation Between Two Sets Based on Sequence Alignment (In-Memory Version)	crossSetSim
Parallel Protein Sequence Similarity Calculation Between Two Sets Based on Sequence Alignment (Disk-Based Version)	crossSetSimDisk
Amino Acid Composition Descriptor	extractAAC
Amphiphilic Pseudo Amino Acid Composition (APseAAC) Descriptor	extractAPAAC
BLOSUM and PAM Matrix-Derived Descriptors	extractBLOSUM
CTD Descriptors - Composition	extractCTDC
CTD Descriptors - Composition (with customized amino acid classification support)	extractCTDCClass
CTD Descriptors - Distribution	extractCTDD
CTD Descriptors - Distribution (with customized amino acid classification support)	extractCTDDClass
CTD Descriptors - Transition	extractCTDT
CTD Descriptors - Transition (with customized amino acid classification support)	extractCTDTClass
Conjoint Triad Descriptor	extractCTriad
Conjoint Triad Descriptor (with customized amino acid classification support)	extractCTriadClass
Dipeptide Composition Descriptor	extractDC
Scales-Based Descriptors with 20+ classes of Molecular Descriptors	extractDescScales
Scales-Based Descriptors derived by Factor Analysis	extractFAScales
Geary Autocorrelation Descriptor	extractGeary
Scales-Based Descriptors derived by Multidimensional Scaling	extractMDSScales
Moran Autocorrelation Descriptor	extractMoran
Normalized Moreau-Broto Autocorrelation Descriptor	extractMoreauBroto
Pseudo Amino Acid Composition (PseAAC) Descriptor	extractPAAC
Amino Acid Properties Based Scales Descriptors (Protein Fingerprint)	extractProtFP
Amino Acid Properties Based Scales Descriptors (Protein Fingerprint) with Gap Support	extractProtFPGap
Compute PSSM (Position-Specific Scoring Matrix) for given protein sequence	extractPSSM
Profile-based protein representation derived by PSSM (Position-Specific Scoring Matrix) and auto cross covariance	extractPSSMAcc
Profile-based protein representation derived by PSSM (Position-Specific Scoring Matrix)	extractPSSMFeature
Quasi-Sequence-Order (QSO) Descriptor	extractQSO
Scales-Based Descriptors derived by Principal Components Analysis	extractScales
Scales-Based Descriptors derived by Principal Components Analysis (with Gap Support)	extractScalesGap
Sequence-Order-Coupling Numbers	extractSOCN
Tripeptide Composition Descriptor	extractTC
Retrieve Protein Sequences from UniProt by Protein ID	getUniProt
OptAA3d.sdf - 20 Amino Acids Optimized with MOE 2011.10 (Semiempirical AM1)	OptAA3d
Protein Similarity Calculation based on Gene Ontology (GO) Similarity	parGOSim
Parallel Protein Sequence Similarity Calculation Based on Sequence Alignment (In-Memory Version)	parSeqSim
Parallel Protein Sequence Similarity Calculation Based on Sequence Alignment (Disk-Based Version)	parSeqSimDisk
Protein sequence amino acid type sanity check	protcheck
Protein Sequence Segmentation/Partition	protseg
Read Protein Sequences in FASTA Format	readFASTA
Read Protein Sequences in PDB Format	readPDB
Remove or replace gaps from protein sequences.	removeGaps
Protein Similarity Calculation based on Gene Ontology (GO) Similarity	twoGOSim
Protein Sequence Alignment for Two Protein Sequences	twoSeqSim