TrackNet
This commit is contained in:
parent
f6bae7d7af
commit
fadb65bc1c
@ -379,18 +379,25 @@
|
||||
\item[Laufzeit] durchschnittlich $0,059$[s]
|
||||
\end{description*}
|
||||
|
||||
\subsection{seTrackNet}
|
||||
\subsection{se(3)-TrackNet}
|
||||
se(3)-TrackNet\cite{se-TrackNet} ist ein datengesteuerter Optimierungsansatz für die langfristige 6D-Positionsverfolgung. Er zielt darauf ab die optimale relative Pose zu identifizieren, die sich aus der aktuellen RGB-D Beobachtung und eines synthetischen Bildes, das auf der vorherigen besten Schätzung und dem Modell des Objekts beruht, bildet. Der wichtigste Beitrag ist hierbei eine neuronale Netzarchitektur, die die Merkmalskodierung in geeigneter Weise entflechtet, um die Domänenverschiebung zu reduzieren, und eine effektive 3D-Orientierungsdarstellung mittels Lie-Algebra erstellt. Folglich kann das Netzwerk, auch wenn es nur mit synthetischen Daten trainiert wird, effektiv mit realen Bildern arbeiten.
|
||||
Umfassende Experimente mit Benchmarks - bestehenden als auch einen neuen Datensatz mit signifikanten Verdeckungen im Zusammenhang mit Objektmanipulation - zeigen, dass der vorgeschlagene Ansatz durchgängig robuste Schätzungen erzielt und Alternativen übertrifft, auch wenn obwohl diese mit echten Bildern trainiert wurden.
|
||||
Die Pipeline zur Erzeugung synthetischer Daten ist in Blender\footnote{\href{https://www.blender.org/}{https://www.blender.org/}} implementiert. Um Bilder zu rendern, wird die Kameraposition zufällig einer Kugel mit einem Radius zwischen $0,6$ und $1,3$m zufällig abgetastet, gefolgt von einer zusätzlichen Drehung entlang der z-Achse der Kamera, die zwischen zwischen $0$ und $360$ Grad.
|
||||
se(3)-TrackNet erweist sich als robust gegenüber großen Verdeckungen und plötzlichen Neuorientierungen im Datensatz, die eine Herausforderung für konkurrierende Ansätze darstellen. Trotz dieser wünschenswerten Eigenschaften des vorgeschlagenen Netzwerks besteht eine Einschränkung darin, dass ein CAD-Objektmodell erforderlich ist.
|
||||
|
||||
Der Ansatz rechnerisch sehr effizientest und erreicht eine Verfolgungsfrequenz von 90,9 Hz.
|
||||
|
||||
\begin{description*}
|
||||
\item[Modell]
|
||||
\item[Video-Input]
|
||||
\item[Datensatz]
|
||||
\item[Genauigkeit]
|
||||
\item[Modell] synthetische CAD Modelle
|
||||
\item[Video-Input] RGB-D
|
||||
\item[Datensatz] \Gls{ycb}, \Gls{YCBInEOAT}
|
||||
\item[Genauigkeit] Ergebnisse aus \Gls{AUC} Messung
|
||||
\begin{itemize*}
|
||||
\item
|
||||
\item ADD $92,66\%$
|
||||
\item ADD-S $95,33\%$
|
||||
\end{itemize*}
|
||||
\item[Ressourcen]
|
||||
\item[Laufzeit]
|
||||
\item[Ressourcen] Experimente auf Desktop mit Intel Xeon(R) E5-1660 v3@3.00GHz CPU. Training auf einer NVIDIA RTX 2080 Ti GPU bzw. NVIDIA Tesla K40c GPU
|
||||
\item[Laufzeit] $90,9$Hz
|
||||
\end{description*}
|
||||
|
||||
\subsection{dbotPF}
|
||||
@ -460,9 +467,9 @@ Vergleich der unterschiedlichen Methoden unterscheidbar nach \colorbox{Mahogany}
|
||||
\centering
|
||||
\begin{tabular}{p{1.5cm}|l|l|l|l}
|
||||
benötigen & ? & Farbbild & Tiefenbild & 3D Pointcloud \\\hline
|
||||
\multirow{3}{1.5cm}{3D Modell} & & Contour Matching & & Robust Gaussian Filter\cite{GaussianFilter} \\
|
||||
\multirow{3}{1.5cm}{3D Modell} & & Contour Matching & se-TrackNet\cite{se-TrackNet} & Robust Gaussian Filter\cite{GaussianFilter} \\
|
||||
& dbotPF\cite{dbotPF} & DeepIM\cite{Deepim} & & \\
|
||||
& se-TrackNet\cite{se-TrackNet} & & & \\\hline
|
||||
& & & & \\\hline
|
||||
\multirow{3}{1.5cm}{Kategorie Modell} & NOCS\cite{NormalizedObjectCoordiante} & Feature Matching & & \\
|
||||
& KeypointNet\cite{KeypointNet} & & 6-PACK\cite{6pack} & \\
|
||||
& & & & \\\hline
|
||||
|
Loading…
Reference in New Issue
Block a user