1 2 3 4 5 6 7 8 9 10 11 次の10件>
(旧サイトより移行)過分散データ:GLM負の二項分布、GLMMによる解析の比較
## 2014.02.20 追記:旧サイトを閉じるため、このページを移植しました。 なお、現在は lmer()は正規分布専用になっており、その他の分布ではglmer()関数を使用します。 ##(2012.10.17 追記:GLM関数群とGLMM関数群との間でのモデル選択につ...
Lマウントの活性化にはエントリーからミドルクラスの競争力のある製品が必要
2025年1月18日
カテゴリ: シグマ, パナソニック, ライカ
PetaPixelのレビュアー達が、YouTubeチャンネルでLマウントシステムに関していくつかの提案をしています。 続きを読む
kiwiNao から 「PENTAX K-3 Mark III」がディスコンに
ずっとペンタックス から 「PENTAX K-3 Mark III」がディスコンに
まさる から 「PENTAX K-3 Mark III」がディスコンに
EP から 「PENTAX K-3 Mark III」がディスコンに
キョウと俺 から 「PENTAX K-3 Mark III」がディスコンに
DT-22 から 「PENTAX K-3 Mark III」がディスコンに
元OMファン から 「PENTAX K-3 Mark III」がディスコンに
ゅぃ から 「PENTAX K-3 Mark III」がディスコンに
OMユーザA から OMDSのヴィンテージカメラの背面の画像
seiic から キヤノンがCP+の前に「EOS R1」と「EOS R5 Mark II」のメジャーアップデートを行う?
スラドと OSDN の受け入れ先募集、現在の状況について [4] 237
この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。
パラポネラなど超大型種まで飼育が可能。
Nintendo SwitchドックやProコントローラーが2,530円!ジャンク品が大量入荷
1月18日 11:05
iPhone 15 Plusが74,980円、iPhone 15 ProMaxは99,980円など、じゃんぱらで訳あり品セール
1月18日 10:05
Nintendo Switch風デザインの6,000mAhモバイルバッテリー
1月18日 09:05
12インチ2in1レッツノートが15,000円!中古品が大量入荷
1月18日 08:08
2025-01-17
なんて素敵な壊れ方!
つぶやき
保険会社から「満期が近づいているのでお電話差し上げましたが、つながらなかったので書面にてご連絡いたします。」との手紙が届きました。保険会社に電話して「伝言残してくれれば、折り返したのですけど。」と言ったら、「この1ヶ月いつかけても『電波が入…
つぶやき (3099)
×
この広告は90日以上新しい記事の投稿がない
ブログに表示されております。
1月17日(金) 19:00 更新
オンキヨーから2ch AVアンプ「TX-8470」。8K HDMI搭載でAmazon Music、Roon Ready対応
第4世代有機EL「プライマリーRGBタンデム」とは? LGディスプレイが動画公開
AVアンプ
オンキヨー
オンキヨーから2ch AVアンプ「TX-8470」。8K HDMI搭載でAmazon Music、Roon Ready対応
17:06
製品
FIIO、約1760円で強力な磁気回路搭載イヤフォン「JD10」。USB-Cモデルも
レコードプレーヤー
コルグ、持ち運んでDJプレイできるポータブルレコードプレーヤー「handytraxx play」
16:26
製品
AV周辺機器
AverMedia、ビデオキャプチャ、HDMI出力、充電器、USBハブ機能盛り込んだ「GC313Pro」
17:00
コンテンツ・サービス
映画
映画作品
今日公開「機動戦士Gundam GQuuuuuuX」挿入歌は星街すいせい、NOMELON NOLEMON
12:38
製品
ゲーム機
PS5
PS5のDualSense Edgeなどの新色「ミッドナイト ブラック コレクション」、Amazonで予約受付中
19:00
製品
テレビ
パナソニック
パナソニック、一部ビエラで「Googleアシスタント」終了へ
18:00
製品
スマホアクセサリ
Insta360、iOS純正カメラ以外でも被写体追跡するジンバル「Flow 2 Pro」
14:30
製品
コンテンツ・サービス
映像配信
その他
KORG配信システム「Live Extreme」が4K HDRライブ配信に対応
15:00
2025-01-18
GPUによる高速相同性検索に対応した MMseqs2
2024 高速なツール GPU protein search Preprint benchmark
急速に増加するタンパク質配列データベースの進化情報を検索するには、常に高速化が必要である。これは、配列のフィルタリングやギャップアラインメントを実行する革新的なアルゴリズムによって達成される。ここでは、8GPUで最大100TCUPSを達成するギャップレスフィルタリングと、タンパク質プロファイルを使用したギャップドアラインメントのためのGPU最適化アルゴリズムを紹介する。MMseqs2-GPUに実装されたこれらのアルゴリズムは、NVIDIA L40S GPU上で、128コアCPU上のMMseqs2 k-merと比較して、20倍高速で71倍安価な検索を実現している。ColabFoldでは、AlphaFold2と一致する精度で構造予測を23倍高速化。MMseqs2-GPUは、mmseqs.comのCUDAデバイスで利用可能なオープンソースソフトウェアである。
New GPU-based MMseqs2: 20x faster searches on a single L40S (approx. as fast as a RTX 4090) vs. a 128-core CPU. This work enables to set up a very cost-efficient ColabFold MSA GPU server. 🧵
📄https://t.co/rO4ojozXm8
💾https://t.co/zmSp7vQzmZ
🗞️ https://t.co/Na7WSQRcjh pic.twitter.com/8Oh7owWUtl
— Martin Steinegger 🇺🇦 (@thesteinegger) November 15, 2024
wiki
https://github.com/soedinglab/MMseqs2/wiki#compile-from-source-for-linux-with-gpu-support
インストール
リリースから配布されている静的バイナリを使用した(テストしたマシンのCUDAバージョン: NVIDIA-SMI 560.35.03、GPU: RTX3090)。
ハードウェア
requires an NVIDIA GPU of the Ampere generation or newer for full speed, however, also works at reduced speed for Tesla-generation GPUs.
Github
# MMseqs2-GPU mostly-static AVX2 build requiring glibc >= 2.29 and nvidia driver >=525.60.13 (see below)
wget https://mmseqs.com/latest/mmseqs-linux-gpu.tar.gz; tar xvfz mmseqs-linux-gpu.tar.gz; export PATH=$(pwd)/mmseqs/bin/:$PATH
> mmseqs
MMseqs2 (Many against Many sequence searching) is an open-source software suite for very fast,
parallelized protein sequence searches and clustering of huge protein sequence data sets.
Please cite: M. Steinegger and J. Soding. MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets. Nature Biotechnology, doi:10.1038/nbt.3988 (2017).
MMseqs2 Version: ddf2e85f8835ea3f697ab3de665cea139b2f9990
© Martin Steinegger (martin.steinegger@snu.ac.kr)
usage: mmseqs <command> [<args>]
Easy workflows for plain text input/output
easy-search Sensitive homology search
easy-cluster Slower, sensitive clustering
easy-linclust Fast linear time cluster, less sensitive clustering
easy-taxonomy Taxonomic classification
easy-rbh Find reciprocal best hit
Main workflows for database input/output
search Sensitive homology search
map Map nearly identical sequences
rbh Reciprocal best hit search
linclust Fast, less sensitive clustering
cluster Slower, sensitive clustering
clusterupdate Update previous clustering with new sequences
taxonomy Taxonomic classification
Input database creation
databases List and download databases
createdb Convert FASTA/Q file(s) to a sequence DB
createindex Store precomputed index on disk to reduce search overhead
convertmsa Convert Stockholm/PFAM MSA file to a MSA DB
msa2profile Convert a MSA DB to a profile DB
Format conversion for downstream processing
convertalis Convert alignment DB to BLAST-tab, SAM or custom format
createtsv Convert result DB to tab-separated flat file
convert2fasta Convert sequence DB to FASTA format
taxonomyreport Create a taxonomy report in Kraken or Krona format
An extended list of all modules can be obtained by calling 'mmseqs -h'.
Bash completion for modules and parameters can be installed by adding "source MMSEQS_HOME/util/bash-completion.sh" to your "$HOME/.bash_profile".
Include the location of the MMseqs2 binary in your "$PATH" environment variable.
実行方法
GPU加速を利用するには、makepaddedseqdbモジュールでターゲットデータベースをGPU用にフォーマットし、searchまたはeasy-searchに--gpu 1パラメータを渡す必要がある。
1,まずクエリとDBのmmseq形式ファイルを作成
cd MMseqs2/examples/
#クエリのアミノ酸配列DBファイル作成
mmseqs createdb QUERY.fasta queryDB
#ターゲットデータベースのアミノ酸配列DBファイル作成
mmseqs createdb DB.fasta targetDB
2,mmseqs makepaddedseqdbコマンドでターゲットDBのデータベースをGPU用にフォーマットする
mmseqs makepaddedseqdb targetDB targetDB_gpu
targetDB_gpuのファイル群ができる
3,クエリとデータベースのファイルを指定してホモロジーサーチを実行する。tmpは作業ディレクトリ。巨大なデータベースを使う場合、十分な容量とI/Oの高速なストレージの利用が推奨されている(詳細はユーザーガイド参照)。
mmseqs search queryDB targetDB resultDB tmp
テスト
以下のファイルを使ってテストする。細菌ゲノム600個のproteomeを集めてgzip圧縮したものがDB、クエリは関心のある500アミノ酸程度の配列を99個集めたもの。ファイルサイズがこちら
順番に実行していく。
1、データベースのアミノ酸配列DB作成
mmseqs createdb DB.fasta targetDB
出力例
2,続いてクエリのアミノ酸配列DB作成
mmseqs createdb QUERY.fasta queryDB
出力例
3,makepaddedseqdbでターゲットデータベースをGPU用にフォーマット
mmseqs makepaddedseqdb targetDB targetDB_gpu
出力例
4,makepaddedseqdbでターゲットデータベースをGPU用にフォーマット
mmseqs search queryDB targetDB_gpu resultDB tmp --gpu 1
nvtopでモニタしたが、GPU使用率は一瞬だけ100%となった。配列空間がテストするには小さすぎたと思われる。
MMseqs2 GPU (RTX3090)
real読みで0.3秒で終了した。
CPU版も試す(5995WX)。
mmseqs search queryDB targetDB resultDB_CPU tmp
real読みで9秒、GPUの方が30倍ほど短い時間で終了した。
結果をblast様のタブ仕分けファイルに変換
mmseqs convertalis queryDB targetDB resultDB output.txt --format-mode 0
#CPU
mmseqs convertalis queryDB targetDB resultDB_CPU output_CPU.txt --format-mode 0
--format-mode 0 output format 0: BLAST-TAB, 1: PAIRWISE, 2: BLAST-TAB + query/db length
出力
行数が同じかだけ確認
> wc output*
当然完全には一致しないが、行数には変化なし
その他
GPU版を使うにはsearchモジュールまたはeasy-searchモジュールに--gpu 1パラメータを渡す必要がある。
exampleディレクトリにテスト用のクエリとデータベースファイルが準備されている。
引用
GPU-accelerated homology search with MMseqs2
Felix Kallenborn, Alejandro Chacon, Christian Hundt, Hassan Sirelkhatim, Kieran Didi, Christian Dallago, Milot Mirdita, Bertil Schmidt, Martin Steinegger
bioRxiv, Posted November 15, 2024.
関連
高速かつ高感度なプロテイン検索ツール MMseqs2
MMseqs2 コマンド其の2 タンパク質配列のクラスタリング
MMseqs2 コマンド其の3 既存のデータベースをダウンロードするmmseqs databasesコマンド
MMseqs2 コマンド其の4 分類群をアサインする mmseqs taxonomyコマンド
BLASTとコンパチブルで高速なホモロジー検索ツール Diamond
ベンチマーク補足
テストと同じデータと同じハードウェア構成でdiamond blastpも試した。感度を上げる--very-sensitive設定付きだとreal読みで6.1秒だった。
kazumaxneo 2025-01-18 01:53 読者になる
広告を非表示にする
もっと読む
コメントを書く
2025-01-16
ONT/PacBioのロングリードのメタゲノムアセンブリとbinningパイプライン mmlong2
2024 Preprint Binning (metagenomics) automated pipeline metagenome differential coverage rRNA Pacbio Nanopore long read MIMAGs/MISAGs
mmlong2はNanoporeまたはPacBio HiFiシーケンスデータから原核生物ゲノムを自動回収・解析するゲノム中心のロングリードメタゲノミクスワークフローである。mmlong2ワークフローはmmlongを継承している。mmlong2はロングリード専用のワークフローであり、Nanopore(リードエラー率約1 %)またはPacBio HiFi(リードエラー率約0.1 %)のデータセットで動作するように設計されている。
最近の高性能な複数のbinnerを使ったアンサンブルアプローチが採用されている。
Githubより転載
Frequently asked questions about mmlong2
https://github.com/Serka-M/mmlong2/blob/main/msc/mmlong2-faq.md
インストール
ハードウェア
mmlong2は、ワークフロー実行あたり100スレッド以上、300Gb以上のRAMを割り当てたUbuntu 22.04上で動作するHPCクラスタのノードで使用するように設計されている。
Github
mamba create -n mmlong python=3.12 -y
conda activate mmlong
mamba install -c bioconda mmlong2 -y
> mmlong2 -h
mmlong2: bioinformatics pipeline for microbial genome recovery and analysis using long reads
For issues or feedback please use https://github.com/Serka-M/mmlong2/issues or e-mail to mase@bio.aau.dk
MAIN INPUTS:
-np --nanopore_reads Path to Nanopore reads (default: none)
-pb --pacbio_reads Path to PacBio HiFi reads (default: none)
-o --output_dir Output directory name (default: mmlong2)
-p --processes Number of processes/multi-threading (default: 3)
OPTIONAL SETTINGS:
-db --install_databases Install missing databases used by the workflow
-dbd --database_dir Output directory for database installation (default: /media/kazu/8TB7)
-cov --coverage CSV dataframe for differential coverage binning (e.g. NP/PB/IL,/path/to/reads.fastq)
-run --run_until Run pipeline until a specified stage completes (e.g. assembly polishing filtering singletons coverage binning taxonomy annotation extraqc stats)
-tmp --temporary_dir Directory for temporary files (default: none)
-dbg --use_metamdbg Use metaMDBG for assembly of PacBio reads (default: use metaFlye)
-med --medaka_model Medaka polishing model (default: r1041_e82_400bps_sup_v5.0.0)
-mo --medaka_off Do not run Medaka polishing with Nanopore assemblies (default: use Medaka)
-vmb --use_vamb Use VAMB for binning (default: use GraphMB)
-sem --semibin_model Binning model for SemiBin (default: global)
-mlc --min_len_contig Minimum assembly contig length (default: 3000)
-mlb --min_len_bin Minimum genomic bin size (default: 250000)
-rna --database_rrna 16S rRNA database to use (default: /projects/microflora_danica/mmlong2/db/MiDAS_v5.3.0_sintax.fasta)
-gunc --database_gunc Gunc database to use (default: /projects/microflora_danica/mmlong2/db/gunc_db_progenomes2.1.dmnd)
-bkt --database_bakta Bakta database to use (default: /projects/microflora_danica/mmlong2/db/bakta_v5.1)
-kj --database_kaiju Kaiju database to use (default: /projects/microflora_danica/mmlong2/db/kaiju_db_nr_2023-05-10)
-gtdb --database_gtdb GTDB-tk database to use (default: /databases/gtdb-tk/release220/gtdb-tk)
-h --help Print help information
-v --version Print workflow version number
ADVANCED SETTINGS:
-fmo --flye_min_ovlp Minimum overlap between reads used by Flye assembler (default: auto)
-fmc --flye_min_cov Minimum initial contig coverage used by Flye assembler (default: 3)
-env --conda_envs_only Use conda environments instead of container (default: use container)
-n --dryrun Print summary of jobs for the Snakemake workflow
-t --touch Touch Snakemake output files
-r1 --rule1 Run specified Snakemake rule for the MAG production part of the workflow
-r2 --rule2 Run specified Snakemake rule for the MAG processing part of the workflow
-x1 --extra_inputs1 Extra inputs for the MAG production part of the Snakemake workflow (default: none)
-x2 --extra_inputs2 Extra inputs for the MAG processing part of the Snakemake workflow (default: none)
-xb --extra_inputs_bakta Extra inputs (comma-separated) for MAG annotation using Bakta (default: none)
データベース
mmlong2 --install_databases
半日ほどかかった。
現在のパスにmmlong2_db_v1.1.0/が出来る。
サイズは100Gb以上ある。
テストラン
ONTとPacBio HiFIリードを使ったアセンブリ。リード数は1Gb程度の小さなデータだがメモリを最大170 Gb程度使うので注意。
zenod